LogoMark.png

Statistics のバックアップ(No.14)


Statistics

実験研究に関わる統計的手法について

このページでは、デザイン研究に必要となる「実験」や「調査」について、その統計的手法に関する記事をまとめています。

CONTENTS

はじめに

統計分析の目的

統計分析の目的は以下の3点に集約することができます。

統計モデル

現象には、身長・体重・成績など、ばらつきが大きくその実現に不確実性を伴うものと、弾道計算のように初期値が定まれば高い精度で実現結果が予測できるものとがあって、それぞれ現象をモデル化する際の発想が異なります。

統計手法は、前者の方法で現象をモデル化して説明するもので、確率や確率分布に関する知識が必要になります。

記述統計と推測統計

統計には、大きく以下の2つのタイプがあります。

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。



母集団と標本

関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。

母集団(Population)

関心の対象となる集団全体のことを「母集団」といい、さらに「有限母集団」と「無限母集団」の区別があります。例えば「日本に住む成人男性」は、その数が有限であることから有限母集団で、一方「さいころを投げて出る目のデータ」などは無限に試行を繰り返すことができることから無限母集団となります。

標本(Sample)

母集団の状態を推測するために「抽出」された一部の集団のことを「標本」といいます。関心の対象は母集団なので理想は全数調査ですが、多くの場合、母集団は非常に大きいだけでなく時間とともに変動する存在で、完全に把握することはできません。そこで母集団から抽出した標本に対して統計的解析を行なって母集団を予測するというのが、統計の標準的な手法=推測統計となります。

標本サイズと標本数

この2つの言葉は似て非なるものなので、注意が必要です。




変数と尺度

変数

統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績(点数)などは変数です。

量的変数 ( 定量的データ, 離散データ / 連続データ)

質的変数(定性的データ, カテゴリーデータ )

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。

独立変数について

さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、6角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で2次変数をコントロールする必要があります。

従属変数について

問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて5段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。
 一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。

類似の表現

独立変数と従属変数という用語は、統計ソフトやライブラリーによって、異なる用語が使われる場合があります。以下いずれも同様の用語セットです。

\(x\) \(y\)
独立変数(independent variable)従属変数(dependent variable)
説明変数(explanatory variable)目的変数(target variable)
特徴量(feature / attribute)ラベル(label)
データ(data)ターゲット(target)
予測変数(predictor variable)応答変数(response variable)
入力(input)出力(output)




記述統計

> ページを独立させました。Statistics/Descriptive



推測統計

> ページを独立させました。Statistics/Inferential



ベイズ統計

> ページを独立させました。Statistics/Bayesian



相関関係と因果関係

私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」など「ああであればこうである」という相関関係(共変動)にあるものと、「気温が上がると清涼飲料水の売上が上がる」など「ああすればこうなる」という因果関係にあるものとがあります。

データ解析が見出すのは「相関」

一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。

経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない

Edward Tufte

誤謬に注意

統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*3がないか注意深く検討することが必要です。




多変量解析

> ページを独立させました。Statistics/MultivariateAnalysis



統計ツール

Python言語

Pythonはさまざまな分野のアプリケーションで使われているインタープリタ型のプログラミング言語ですが、統計ツールとしてのパッケージが充実しており、統計学習における重要なツールのひとつに位置付けられます。

Orange

簡単なGUI操作でデータマイニングができるオープンソースのソフトウエア。Python の開発環境 Anacondaを導入して、そこに追加すると便利です。

GNU R(R言語)

オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。一見地味なのですが、すごく優秀なソフトで、統計関係の書籍もたくさん出ています。インストールする場合、まずR本体のインストールをして(これだけでも仕事はできます)、そのあと R-Studio のインストール、という手順になります。

エクセル統計

Excelのメニューに統計解析の手法を追加するアドインソフトです。
一般企業や官公庁むけの通常版と、学校法人等に属する学生、教職員むけのアカデミック版の2種類の価格があります。
https://bellcurve.jp/ex/

SAS University Edition

高等教育機関や社会人の学習者向けに提供される無償ソフトウェアです。
PC、Mac、Linuxで利用できます。
https://www.sas.com/ja_jp/software/university-edition.html

SPSS(IBM)

計画およびデータ収集から分析、レポート作成、実装までの分析プロセス全体に対応したソフトウェアの統合ファミリーです。
http://www-01.ibm.com/software/jp/marketplace/spss/



付記

教育効果は測れない?

例えば「投薬の効果」のようなものであれば、実験群(投薬)と対照群(偽薬)を、被験者に偏りがないよう、ランダムに振り分けてつくることができますが(RCT:ランダム化比較実験)、社会科学では、そもそも実験群と対照群を厳密に用意することができません。例えば「ある教育手法の効果」を計るのに、生徒100人をランダムに振り分けて比較するということは難しく、同レベルの学校を2つ選んで比較したとしても、実験群と対照群には教師の違い他、様々な違いが存在するので、結果が当該手法の効果であるとは言い切れないのです。

また、因果推論の根本問題として「同一人物の異なるケースの経過観察」は不可能です。時を戻すことができれば「実施した場合」と「実施しなかった場合」の厳密な比較ができますが、それは現実には不可能です。

ちなみに、人と社会を相手にして「因果効果を測る」という、この難しい課題に取り組む手法として、以下のようなマッチング手法*4があります。


予言の自己成就・予言の自己破綻

統計データの分析結果は、社会現象の予測については、必ずしも有効な手段ではありません。社会学や社会心理学でよく話題になる「予言の自己成就」と「予言の自己破綻」について知っておくことが必要です。それぞれ身近な事例で説明します。

実証主義と反証主義

なぜ「帰無仮説を棄却する」などいうまわりりくどい論理を使うのか。これは仮説検定だけではなく、科学的な方法論一般にみられるものです。

たとえば「青い鳥が存在する」という「特称命題」は、それを一匹見つければ証明できますが、「すべての鳥は青い」という「全称命題」を実証するためには、地球上のすべての鳥を観察して、全部青いことを示さなければなりません。これは不可能です。しかしこれを反証するためには、青くない鳥を一匹見つけるだけで済むのです。実証と反証では、圧倒的に反証の方がしやすいのです。



APPENDIX

関連ページ