LogoMark.png

データサイエンス/09 のバックアップ(No.9)


第9回 統計的推定・仮説検定

データサイエンス/2023?受講生一覧汎用シート

CONTENTS


統計的推定

母集団の様子(平均や散らばり具合)を把握するために必要なアンケートの件数とはどれくらいなのでしょうか。母集団とランダムに抽出した標本(サンプル)とでは結果が等しくはならず、数%の誤差があるのが普通です。この誤差を許容誤差と言って、これをどのくらいに設定するかで、アンケート調査の信頼性が変わります。許容誤差5%、信頼度95%で、統計上は十分意味があると言われています。

で、アンケート調査は何件ぐらい必要かと言うと、母集団を10万人と想定して許容誤差を5%とした場合400件 がひとつの目安とされています。ちなみに、許容誤差を3%にしたい場合は約1000件、1%にしたいなら約10000件のサンプルが必要です。

参考:GoogleImage:アンケート サンプル数 早見表

しかし、現実的には 400件ものデータを取ることは困難なことが多く、もっと少ないデータ数で、母集団の平均値を推定できないか・・ということになります。ここで登場するのが統計的な推定です。

統計的な推定には、点推定と区間推定があります。

推測統計



仮説検定とは

仮説検定とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法の一つで、例えば「従来製品の電力消費量の平均値と、新製品の電力消費量の平均値には有意な差がある」といった仮説を検証する際に用いられます。

詳細について、以下のページで概説します。
仮説検定




演習9|仮説検定

今回の演習では、検定の定番とも言える t検定 の事例を紹介します。2つのグループ間の平均値に差があるか否かについて、「対応なし」と「対応あり」の2つのパターンを試します。

汎用性の高い事例となるように、CSVデータを読み込んでから、検定に使えるデータに加工するという手順を踏んでいます。

このサンプルを参考に、自分でも様々なデータを使って検定を行なってみてください。 異なる条件が与えられた2つのグループ間に「差がある」ということを統計的に言えるだけでも、学術論文が書けます。


サンプルデータの事前確認

この演習では、以下のデータをサンプルとして利用します。GitHubから直接読み込むので、ダウンロードの必要はありません。

ノートブックの新規作成

サンプルコード


学科サイトにリンク掲載

ノートを、学科サイトの個人ページからリンクして下さい。以下、手順です。

応用演習(任意)

以下、理系・文系(性別カテゴリあり)、約250名ずつのGPAと出席率のダミーデータがあります。これを使って、理系と文系で平均値に差があるか、あるいは男女で差があるかについて、検定してみて下さい。

APPENDIX

関連リンク