LogoMark.png

データサイエンス/09 のバックアップ(No.12)


第9回 推測統計と仮説検定

データサイエンス/2024受講生一覧汎用シート

CONTENTS


記述統計と推測統計

統計には、大きく以下の2つのタイプがあります。

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。



推測統計

母集団の様子(平均や散らばり具合)を把握するために必要なアンケートの件数とはどれくらいなのでしょうか。母集団とランダムに抽出した標本(サンプル)とでは結果が等しくはならず、数%の誤差があるのが普通です。この誤差を許容誤差と言って、これをどのくらいに設定するかで、アンケート調査の信頼性が変わります。許容誤差5%、信頼度95%で、統計上は十分意味があると言われています。

で、アンケート調査は何件ぐらい必要かと言うと、母集団を10万人と想定して許容誤差を5%とした場合400件 がひとつの目安とされています。ちなみに、許容誤差を3%にしたい場合は約1000件、1%にしたいなら約10000件のサンプルが必要です。

参考:GoogleImage:アンケート サンプル数 早見表

しかし、現実的には 400件ものデータを取ることは困難なことが多く、もっと少ないデータ数で、母集団の平均値を推定できないか・・ということになります。ここで登場するのが統計的な推定です。

統計的な推定には、点推定と区間推定があります。

推測統計



仮説検定

仮説検定とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法の一つで、例えば「従来製品の電力消費量の平均値と、新製品の電力消費量の平均値には有意な差がある」といった仮説を検証する際に用いられます。

詳細について、以下のページで概説します。
仮説検定




演習9|t検定

今回の演習では、検定の定番とも言える t検定 の事例を紹介します。2つのグループ間の平均値に差があるか否かについて、「対応なし」と「対応あり」の2つのパターンを試します。

汎用性の高い事例となるように、CSVデータを読み込んでから、検定に使えるデータに加工するという手順を踏んでいます。

このサンプルを参考に、自分でも様々なデータを使って検定を行なってみてください。 異なる条件が与えられた2つのグループ間に「差がある」ということを統計的に言えるだけでも、学術論文が書けます。


サンプルデータの事前確認

この演習では、以下のデータをサンプルとして利用します。GitHubから直接読み込むので、ダウンロードの必要はありません。

ノートブックの新規作成

サンプルコード


学科サイトにリンク掲載

ノートを、学科サイトの個人ページからリンクして下さい。以下、手順です。

演習9+(任意)

こちらを「演習9」として学科サイトに掲載・・でもOKです。

以下、理系・文系(性別カテゴリあり)、約500名分の学生のGPAと出席率のダミーデータがあります。これを使って、理系と文系で平均値に差があるか、あるいは男女で差があるかについて検定してみて下さい。
データサイズが大きいので p値は小さくなるので、ほぼ「有意差あり」となりますが・・

サンプルデータ

サンプルコード




APPENDIX

関連リンク