LogoMark.png

データサイエンス/03 のバックアップ(No.6)


第3回 統計解析2

データサイエンス/2023?


CONTENTS




クロス集計

集計には大きく単純集計クロス集計の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯が好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。
 

◯◯が好き文学部経済学部工学部芸術学部合計
はい20303525110
いいえ201051550
どちらとも言えない101510540
合計50555045200
クロス集計表

このような表をつくると、学部によって、好き嫌いの傾向に違いがあることがわかります。ちなみに、その違いが統計的に優位なものであるか否かを検定する方法として、カイ二乗検定(独立性の検定)があります。




相関

統計分析では、個々のカテゴリ項目の代表値や散布度の把握と並んで、項目間の連動関係を見出す作業も重要です。例えば成績一覧表から「数学の点数が高い学生は物理の点数も高い」など、項目間に連動が見られる場合を「相関がある」と言います。

共分散

はじめに共分散から説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。

\[ s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y} ) \]

相関係数

2つの変数の間の関係を測る指標で、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。

\[ r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } \]

レポート等で相関の有無について語る場合、一般的な目安は以下です。




演習3|相関係数

サンプルデータの準備

相関係数の計算

項目間の相関係数を計算してみましょう。

付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。

参考情報


学科サイトで学科サイトにリンク掲載