第3回 統計解析2
データサイエンス/2023?
CONTENTS
相関
2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
レポート等で相関の有無について語る場合、一般的な目安は以下です。
- | r | = 0.7~1.0 かなり強い相関がある
- | r | = 0.4~0.7 やや相関あり
- | r | = 0.2~0.4 弱い相関あり
- | r | = 0~0.2 ほとんど相関なし
演習3|相関係数
サンプルデータの準備
- GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
- アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
- メニュー > ファイル > 「Googleスプレッドシートとして保存」としてから利用することを推奨します。
相関係数の計算
項目間の相関係数を計算してみましょう。
- 元データは、全国の集計行と都道府県の47行あります。
- 一番上の「全国」の行を削除、あるいは色分けして、間違って計算対象に含めないように処理して下さい。
- あなたの興味関心にもとづいて、いくつかの項目のペアを選んで下さい。
- 列を移動して、ペアとなる列が横並びになるようにして下さい。
- ペアの右に空の列を挿入して、その一番上の行に、相関係数を求める式を記述して下さい。
- 列のペアを複数(数は任意)つくって、いろいろ試してみて下さい。
- 「◯◯の値が大きな県は、△△の値も大きい」といった知見が得られると、面白い・・となるでしょう。
付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。
参考情報
学科サイトで学科サイトにリンク掲載