LogoMark.png

データサイエンス/03 のバックアップ(No.13)


第3回 統計解析2

データサイエンス/2023?受講生一覧汎用シート


CONTENTS




はじめに

前回の演習についての補足です。




補足演習|セルの相対指定と絶対指定

平均と標準偏差がわかると、各データの「偏差値」を知ることができます。計算式を書く際の「セルの相対指定と絶対指定」という概念と合わせて、その求め方を確認します(体験するだけでOKです。学科サイトへの掲載は任意)。


セルの相対指定:表記例 A2

複製時に参照セルの相対的な位置関係が保たれます

セルの絶対指定:表記例 $A$2, B$5, $C5

複製時に参照セルの位置が固定されます

相対指定・絶対指定の利用例|偏差値の計算

解説

この種の計算とオートフィル(あるいは複製)では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。

相関

統計分析では、個々のカテゴリ項目の代表値や散布度の把握と並んで、項目間の連動関係を見出す作業も重要です。例えば成績一覧表から「数学の点数が高い学生は物理の点数も高い」など、項目間に連動が見られる場合を「相関がある」と言います。

共分散

はじめに共分散から説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。

\[ s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y} ) \]

相関係数

2つの変数の間の関係を測る指標で、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。

\[ r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } \]




相関関係と因果関係について

私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係(共変動)と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。

データ解析が見出すのは「相関」

一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。

経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない

Edward Tufte

誤謬に注意

統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*1がないか注意深く検討することが必要です。

演習3|相関係数

サンプルデータの準備

相関係数の計算

項目間の相関係数を計算してみましょう。

付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。

演習サンプル

以下、実際に相関係数を計算したサンプルです。
相関係数の計算(SpreadSheet)

参考情報


学科サイトで学科サイトにリンク掲載