LogoMark.png

Statistics/Correlation の変更点


#author("2023-10-05T15:25:14+09:00","default:inoue.ko","inoue.ko")
#author("2023-10-05T16:06:55+09:00;2023-10-05T15:25:14+09:00","default:inoue.ko","inoue.ko")
*相関
Correlation
~

相関とは、2つの変数の間の連動を意味する言葉で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」という関係があることを意味します。相関の程度は相関係数という値で測ることができて、相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。また、変数間の独立性が高く共変動しない場合は「無相関」といいます。
#image(correlation.jpg,center, 75%)


~

***共分散
相関係数の計算式を紹介する前に「共分散」について説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。

#mathjax( s_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y} ) )

共分散の値から、2組のデータについて以下のような説明ができます。
-共分散の値が正:X が大きいときに Y も大きくなる傾向がある
-共分散の値が 0: X と Y には関係がない
-共分散の値が負:X が大きくなると Y が小さくなる傾向がある

~

***相関係数
相関係数の計算は、共分散の計算の延長にあります。

#mathjax( r = \frac{ \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \bar{x}) (y_{i} - \bar{y}) }{ \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \cdot \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(y_{i} - \bar{y})^{2}}} = \frac{ s_{xy} }{ s_{x} \cdot s_{y} } )

言葉で書く方がわかりやすいかも・・
#mathjax( r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } )

で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。

-&mathjax(r); は -1.0 から +1.0 までのいずれかの値をとる
-&mathjax(| r |); が 1.0 に近いほど相関が強く、0に近いほど相関が弱い
レポート等で相関の有無について語る場合、一般的な目安は以下です。
--| r | = 0.7~1.0  かなり強い相関がある
--| r | = 0.4~0.7  やや相関あり
--| r | = 0.2~0.4  弱い相関あり
--| r | = 0~0.2   ほとんど相関なし
-&mathjax(r); が正の場合は「正の相関」、負の場合は「負の相関(逆の相関)がある

-注意:相関係数が0でも「何らかの関係がある」場合があります。
たとえば、2次元の散布図で分布がV字型になる場合、相関は0に近くなりますが、これは、左のグループと右のグループに分けることで、それぞれのグループにおいて負の相関と、正の相関がある・・ということになります。相関をみる場合は、散布図で状態を目視して状況を見極めることが重要です。

-スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。
 =CORREL(範囲1, 範囲2)
 注)PEARSON(範囲1, 範囲2)でも同じ結果が得られます。


//参考:[[GoogleImage:相関係数]]
~

***付記
ちなみに相関は、複数の物事(変数)をシンプルに整理したい(次元を落としたい)場合に重要な指標となります。この場合、独立性の低いもの=相関の高いもの同士をグループ化するとともに、グループ間の独立性が高くなるように整理すると、物事が理解しやすくなります。
ちなみに相関は、複数の物事(変数)をシンプルに整理したい(次元を落としたい場合)に重要な指標となります。この場合、独立性の低いもの=相関の高いもの同士をまとめてしまうとともに、グループ間の独立性が高くなるように整理すると、物事が理解しやすくなります。

散布図で言うと、分布楕円の長軸・短軸が、直交する座標軸と一致する(すなわち2つのグループ間が無相関になる)のが理想です。例えば「空間的なもの」と「時間的なもの」のように独立性の高い2つの現象に整理すれば、話はクリアになります。
散布図で言うと、分布楕円の長軸・短軸が、直交座標軸と一致する(すなわちグループ間が無相関になる)のが理想です。例えば「空間的なもの」と「時間的なもの」のように独立性の高い2つの現象に整理すれば、話はクリアになります。

~
~