LogoMark.png

Statistics/Correlation のバックアップ(No.1)


相関

Correlation

相関とは、2つの変数の間の連動を意味する言葉で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」という関係があることを意味します。相関の程度は相関係数という値で測ることができて、相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。

ちなみに相関は、複数の物事(変数)をシンプルに整理したい(次元を落としたい)場合に重要な指標となります。この場合、独立性の低いもの=相関の高いもの同士をグループ化するとともに、グループ間の独立性が高くなるように整理すると、物事が理解しやすくなります。

散布図で言うと、分布楕円の長軸・短軸が、直交する座標軸と一致する(すなわち2つのグループ間が無相関になる)のが理想です。


共分散

相関係数の計算式を紹介する前に「共分散」について説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。

sxy=1ni=1n(xix¯)(yiy¯)

共分散の値から、2組のデータについて以下のような説明ができます。

相関係数

相関係数の計算は、共分散の計算の延長にあります。

r=1ni=1n(xix¯)(yiy¯)1ni=1n(xix¯)21ni=1n(yiy¯)2=sxysxsy

言葉で書く方がわかりやすいかも・・

r=(xy)(x)×(y)

で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。

参考:GoogleImage:相関係数