七帝大、一工、早慶の相関係数 - 導入

スマホで表を見る場合、画面を横向きにし、必要ならPCビューにしてください。

※この記事は9月14日に書いています。

 先日の『一橋大、東工大と七帝大の研究 - 一工と早慶の相関 *1』で、大学間による高校別合格数の相関係数を扱いました。思ったより興味深い数値がでましたし、これは、一工と早慶だけでなく、今後、MARCHでも応用可能な手法です。また、新たな連載ネタになります。
 ただ、前回は合格数をそのまま整数で扱ったのですが、大学合格数の場合、その性格上、合格数が少ないほど該当校が増えてしまうので、回帰直線は原点を通るように収束してしまうんです。当初、それを防ぐために、比較大学の両方とも合格数0の高校を除外していたのですが、それでも、原点収束は見られたので、両方ともに合格数1以上の高校を扱いました。
 若干、改善は見られたのですが、原点収束を防ぐには、合格数を対数目盛りで扱ったほうがより実態に近い回帰直線(対数目盛り上の直線)と相関係数が得られそうです。この連載では、各大学間の相関を取ってみます。

  • 対数目盛りとは
    • 合格数、1、10、100をそれぞれ10^0、10^1、10^2と表現して、目盛り上は0、1、2として扱います。1、10、1000、10000のように10を掛け合わせた数の対数は整数値になりますが、それ以外の数は、少数の付いた値(厳密には無理数)になります。例えば、2は10^0.301となるので、目盛り上は0.301となります。
  • 回帰直線の表現形(対数の底は10)
    • log(y) = a * log(x) + b : (a は傾き、b は切片)
    • y = 10^(a * log(x) + b)