以前、国営放送のとある番組にて、「ひとり暮らしの40代が増えると日本は滅ぶ」という論理が話題となりました。この議論の行き着くところは「相関はあっても因果はない」に収束すると思われますが、要はこの「相関」に対する理解と利用がなかなか身に着きづらいところにあるのかな?ということで、今回は相関係数について説明します。
相関と因果の違いとは?
相関と因果の違いを簡単に述べると、
- Aが “増える時” 、Bが増える。またその逆の関係にあるのが、相関。
- Aが “増えたから” 、Bが増える。またその逆の関係にあるのが、因果。
です。でも統計学上で相関は出せても、因果関係を示すには様々な要因への立証が必要なため、かなり困難を要すると思われます。

AとBには、何らかの増減関係があるが、それぞれの因果関係を示すものではない、という理解が必要です。
相関係数とは?
因果はないにしろ相関はある、その度合を示すのが相関係数です。

前述で言うAとBの関係性の強さを-1から1の間で示します。1に近いほど「Aが増えるとBが増える」正の相関、

-1に近いほど「Aが増えるとBが減る傾向」負の相関となります。

0に近いほど相関関係にはないとの事ですが、じゃあいくつからあるって言っていいの?という話は、様々な解釈があると思います。
そんな中、かなり昔にWeb担当者フォーラムで、こんな記事がありました。
http://web-tan.forum.impressrd.jp/e/2010/06/29/8282
相関係数の算定式
こんなんです。

まぁ要は、xiに対するyiと、xとyそれぞれの平均値があれば出ます。
ちなみに相関係数Rを2乗した、「決定係数」で相関の強さを更に判別することもあります。エクセルで散布図を書いた時、近似曲線を表示させると出るRの2乗は、決定係数であり相関係数を2乗したものです。0から1の間を取ります。
エクセルで相関係数を出す
エクセルでは、PEARSON関数で出せます。
PEARSON(配列 1, 配列 2) Officeヘルプ
関数名は、ピアソンの積率相関係数に基いていることから来ています。ピアソンで覚えるのが早いかも。配列1にxの値、配列2に、対するyの値を行か列で指定します。
以前はCORREL関数というのもあったようですが、現在はPEARSON関数でよいという解釈です。