データ・マスキングについて - データ量

スマホで表を見る場合、画面を横向きにし、必要ならPCビューにしてください。

 『データ・マスキングについて - 著作権』でいろいろ指摘を受けているのですが、当初より、高校別大学合格者数データは著作権の保護対象でないのは知っていましたから、しつこく「著作権違反」という文言で騒ぎ立てるのは、いささか心外に思います。
 さて、もう一つの「無断転載禁止」ですが、そもそも転載とは、文章をそのまま大量に書き写したり、図表をそのまま複写することであって、著作権で保護されない表中の数字を別の形式の表にすることは転載に当たるのかという議論もあるわけです。
 先日、某週刊誌が他社の収集した東大合格者数データを無断で利用して記事を書いたことで批判を受けました。あの記事では、文章も図表も複写していません。論調も独自です。著作権違反にも無断転載にも当たりません。当事者は謝罪しましたが法律的に問われたという話は聞きません。(事後承諾で、情報収集費を割り増しで分担して、ことを収めたのだと思います。)どちらかというと、あの件は著作権や無断転載が争点ではなく営業妨害や損害賠償が争点になる案件なのです。
 だから、別の高校別大学合格分析を行うブログにあるように、「出版社はそんなことをやるほどひまじゃねえ」というコメントになるのでしょう。同業他社に対しては、明確に売り上げに影響するので、法令違反に関係なく厳しく対応するが、非営利の個人ブログに対して、何の法令で文句をつけるのかわかりませんし、文句をつけた結果、どうやって損害賠償の算出をするのかもわかりません。それで争っても弁護士相談費さえも回収できないでしょう。
 さて、前置きはここまでで、私自身は昨年『七帝大率』の連載を進めているときに、ふとこのまま生データを蓄積させていいのかなと思い始めていました。何らかのガイドラインを決めて、データにマスキングをしていかないと、個々の記事では引用の範囲内でも、全体の記事を第三者スクリプトで収集されると、かなりの生データがこのブログから取り出せてしまうなと感じ始めました。ただ、マスキング作業にはそれなりの労力は必要なので、作業開始の踏ん切りがつきませんでした。その点では、いつかはすべきデータのマスキングに対して作業に取り掛かるきっかけを与えてくれた読者のコメントは尊重し感謝をしています。
 では、どの程度の生データが存在していたのかまとめます。

連載名 対象校 対象項目 対象データ数
(1) 七帝大率1%以上 500校 卒数+9大学 5000件
(2) 七帝大率10%以上 60校 卒数+9大学 600件
(3) 東大早慶合格率5%以上 100校 卒数+3大学 400件
(4) 東大合格者数10名以上 70校 1大学 70件
(5) 都道府県別東大在籍者数 70校以下 1大学 70件以下

 さすがに『七帝大率から見る全国名門校2013』の生データ数5000件は自粛すべきだと思い、途中から合格数4名以下の数値はマスキングしましたが、それでも5名以上の生データはあるのですから、まだまだマスキングが不足していると思っていました。
 今回7月1日から7月13日までの作業で、(1)(2)(3) の連載については、数値は全て百分率に変更して生データをなくしましたので、このブログで一年間に使用する生データの目安は、東大合格者数10名以上の70件になりました。この程度の量であれば、慣例上どのブログでも使用している量なので、問題にならないでしょう。
 (誤解のないように、これは交通違反の開き直りとは違います。交通違反は違反の境界線が明確に決まっていますが、引用は違反の境界線が厳密に決まっていません。判例で個々に決めていくしかありません。引用とは違いますが著作権などは「夢は時間を裏切らない 時間も夢を決して裏切らない」の歌詞が盗作がどうかもいちいち裁判*1で決める世界なんです。判例がない間は、世間の慣例にしたがうのが常識的な判断です。)
 他に生データを公開している記事はありますが、それらは短期連載の記事で、同じフォーマットでデータが今後も蓄積していくことはありません。短期連載から長期連載に切り替えるときは、そのタイミングで、過去記事にさかのぼり、生データを百分率に変更する処置を取ります。また、2011年3月19日以前は、ブログを開始した時期で、早慶MARCHの合格数を生データで置いています。当時は手作業で集計を行っていましたので、差し替え用のプログラムもありません。単年度のことなので、そのまま塩漬けにしておきます。
 最後に、百分率から生データへの復元ですが、エクセルレベルでは復元できないことは確認しています。プログラムで統計処理を行えば、ある程度復元できますが、精度落ちは必ず発生します。しかも、どの数値が精度落ちしているかは、いちいち原典と比較する必要があります。その意味でも、このブログからデータを流用するぐらいなら、素直に原典(『サンデー毎日』『週刊朝日』『高校の実力』『私立中高受験年鑑』等)を購入するほうが賢明な選択になります。