LogoMark.png

データサイエンス/2021/1119

第10回 Pythonによるデータ解析2

データサイエンス/20212021.11.19

AGENDA


以下、LIVE動画をご覧下さい。記事に沿って解説します。
記録動画は後日、学科サイトの特設ページ(要ログイン)に移動します。



https://youtu.be/IwUKePd5A9o

CONTENTS




はじめに

事務連絡

進捗確認

データと尺度

統計的な処理では、一般にデータを以下のように分類します。

質的データ(定性的データ, カテゴリーデータ )

量的データ ( 定量的データ, 離散データ / 連続データ)

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、''物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。

独立変数について

さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、6角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で2次変数をコントロールする必要があります。

従属変数について

問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて5段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。

一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。



相関関係と因果関係について

私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係(共変動)と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。

データ解析が見出すのは「相関」

一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。

経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない

Edward Tufte

誤謬に注意

統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*2がないか注意深く検討することが必要です。




データ解析体験2|GoogleDrive上の Excelデータの活用

架空の大学の成績情報を一覧にした Excel データを使って、データ解析を体験します。1300名ほどの学生について、学部、性別、成績(GPA)、出席率、国語、英語、数学の得点が一覧になっています。

先の事例との違いは、データを GoogleDrive に置いて利用する・・ということです。この方法を知れば、みなさんが自分で入手したデータを使って統計処理を行うことができるようになります。

基本的には、前回と同様の解析演習となりますが、今回のデータには 欠損値 が存在します。データに欠損があると、統計解析上様々な問題が生じるため、それを除去するプロセスが含まれています。

ノートブックの新規作成

サンプルデータ

サンプルコード

プログラムの解説


学科サイトにリンク掲載(その4)

ノートを、学科サイトの個人ページからリンクして下さい。以下、手順です。




APPENDIX




PAGES

GUIDE

TOOL

DATA


*1 そもそも、こうした印象評価の段階的な数字は、等間隔である保証はできず、本来であれば順序尺度として扱うものですが、実際の研究では、これを間隔尺度として、統計ソフト等で分析にかけることが多いようです。
*2 論証の過程に論理的・形式的な瑕疵があって、その論証が妥当でないこと(簡単に言えば「間違っている」)を誤謬と言います。
Last-modified: 2021-11-19 (金) 10:06:24