実験研究に関わる統計的手法について
このページでは、デザイン研究に必要となる「実験」や「調査」について、その統計的手法に関する記事をまとめています。
統計的な処理では、一般にデータを以下のように分類します。
統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、''物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。
例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。
重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。
さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、6角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で2次変数をコントロールする必要があります。
問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて5段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。
一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。
独立変数と従属変数という用語は、統計ソフトやライブラリーによって、異なる用語が使われる場合があります。以下いずれも同様の用語セットです。
\(x\) | \(y\) |
独立変数(independent variable) | 従属変数(dependent variable) |
説明変数(explanatory variable) | 目的変数(target variable) |
特徴量(feature / attribute) | ラベル(label) |
データ(data) | ターゲット(target) |
予測変数(predictor variable) | 応答変数(response variable) |
入力(input) | 出力(output) |
私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」、「気温が上がると清涼飲料水の売上が上がる」など、「ああであればこうである」という相関関係(共変動)というタイプのものと、「ああすればこうなる」という因果関係のタイプのものとがあります。
一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。
経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない
Edward Tufte
統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*2がないか注意深く検討することが必要です。
「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関経済的に豊かであることが両者の共通要因
「小学生の身長」と「論理的思考力」に正の相関学年が上がることが両者の共通要因
交番の数が多い地域ほど、犯罪件数が多い犯罪件数が多い地域だから交番が多く設置された
猫が顔を洗うと雨が降る雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発
スマートフォンの普及が、地球温暖化を促進テクノロジーの進歩と経済活動の拡大という共通の要因、あるいは偶然
収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことで、2変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、後述する推計統計より古くからあるもので、標本と母集団を同一視して考えます。推計統計の登場後は、古典統計といわれるようにもなりました。
なお、以下の各事項に記載された関数式は Excel における表記です。
データの分布の特徴を表す値
=AVERAGE(範囲)
=MEDIAN(範囲) で求まります。
=MODE(範囲) で求まります。
データの散らばりぐあいを表す値
=VAR.P(範囲)
=STDEV.P(範囲)
=AVEDEV(範囲)
共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。
共分散の値から、2組のデータについて以下のような説明ができます。
2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。
=CORREL(範囲1, 範囲2) 注)PEARSON(範囲1, 範囲2)でも同じ結果が得られます。
言葉で書く方がわかりやすいかも・・
で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。
2つないし3つの情報に限定して、データの分析や集計を行なう方法。 縦軸と横軸に項目を割り振って、項目間の相互関係を視覚的に見やすくしたものです。アンケート調査の手法としては、ポピュラーなものの一つです。
参考:GoogleImage:クロス集計
無作為抽出されたデータから母集団の特徴・性質を推定する統計のことで、推計統計とも言います。記述統計と異なり、推測統計では、集められたデータは大きな母集団の中の小さな標本に過ぎないと考えます。
一般に母集団というものは観念的な存在で、現実に観測できるのは標本です。例えば「視聴率」の調査に関して言えば、「全世帯」が母集団で、「調査世帯」が標本です。
100人に聞きました。AとBどっちが好き・・ >「Aが好き」と答えた人が70人ということで、 Aが好きな人が多いことがわかりました。
という話は、それはそれでいいのですが、この結果をもって「日本人はAが好き」とか「人間というものはAが好き」とは断言できません。
一般に多くの実験研究が、標本調査をもって、それを一般論に拡大しています。実は、これはあくまでも「確率的にそうである可能性が高い」という話で、ひょっとしたら間違いかもしれません。ただ、実際には母集団をすべて調べるわけにはいかないので、標本から得られる統計量を根拠に、「ああであればこうである」といった記述がなされているのです。
推測統計というのは、文字通り「推測」。あくまでも確率的な問題として、物事の関係を科学的に語るための統計手法です。
推測統計では母集団の特性をあらわす数を母数(parameter)と言います。
推測される母数には、以下のようなものがあります。
推測統計では「標本を要約し、母集団の母数の推測に用いられるもの」を統計量(statistic)と言います。計算の方法は記述統計と同じです。
=AVERAGE(範囲)
=VAR.S(範囲)
=STDEV.S(範囲)
付記
言葉は似ていても意味が異なるので、母分散
\(σ^2\)
、標本分散
\(s^2\)
、不偏分散
\(u^2\)
など、区別のために異なる記号を用いるのが通例です。
例えば、新型の製品と従来型の製品を比較してデザインの良し悪しを評価する場合、「ユーザーの評価に違いがあるのか」ということを統計的に(科学的に)証明することが求められます。デザイナーは当然「新型の評価が高い」という結果が出て欲しいし、またそれを統計的に証明できればうれしいわけです。
すべてのユーザーに「どっちがいい?」と尋ねることができれば確実ですが、大量に生産されて市場に出回る商品では、そんな調査はできません。実際には何人かの被験者に協力してもらって「母集団の反応を推定する」ことになります。
ならば「新型の評価平均と従来型の評価平均を比較すればいいではないか」。話はとても簡単に思えるのですが、実はそれだけでは、科学的に両者に差がある・・とは言えないのです。ここが直感的には難しい。
サンプル(被験者)の平均値がどの程度母集団(例えば日本国民全員)の傾向を物語ることができるのか。本当に差があるのか、それとも誤差としてありえる範囲の値なのか、これを確率の問題として、統計的に処理する必要があるのです。
で、ここで一旦ややこしくなるのですが、仮説検定では「新型は旧型とに差はない」という逆の仮説(帰無仮説といいます)*4を立てて話を進めます。
次に、帰無仮説から想定される値と、実際の調査で得られた値が一致する確率を求めます。これを p値といいます。
この p値が予め決めた基準(有意水準といって 5% か 1% が一般的)よりも小さい値であれば、「帰無仮説のもとでは、めったに起こらないことが起きた」と考えて、仮説を棄却(否定)します。つまり「新型の評価は旧型と差がある」と結論するわけです。がんばったデザイナーには嬉しい結果です。かなりまわりくどいやりかたですが、これが仮説検定の考え方です。
一方、この確率が著しく小さいと言えない場合は、帰無仮説は棄却できず、結論を保留します。気をつけたいのは、この結果が「新型と旧型が同じ」ということを意味するものではないということです。「有意差がない」=「等しい」ではありません。あくまで「差があるとは言えない」という程度。同じであるということを証明するのは、実は非常に難しいのです(後述:実証と反証)。
以上、流れをまとめると・・
母集団、帰無仮説、有意水準など、難しい言葉が出てくるのですが、これらは重要なキーワードになるので、十分理解してから先に進んでください。
余談ですが
新商品の開発などでは、研究当事者は、有意な差が出で仮説が棄却されることを期待しています。「有意な差は見られませんでした」というのは失敗を意味します。ここに様々な不正が入り込むスキがあります。であるがゆえに、実験結果を何らかのPRに使用する場合や、論文を書く場合は、その実験・調査が、誰が見ても不正のないものであること、また誰が、同じ実験・調査を行っても(追試)同じ結果が出ることを確かめられるように、実験の前提条件や、実験の方法を詳細に記述する必要があります。
仮説検定の詳細については、後の節で説明します。
ベイズ統計とは18世紀にベイズによって発見された「ベイズの定理」を用いた統計手法で、20世紀半ばに発展した比較的新しい統計分野です。
今日の統計学は大きく分けると、記述統計学、推計統計学、ベイズ統計学の3つに分けられますが、立場や考え方の違いで「頻度主義(一般的に扱われる統計)」と「ベイズ主義(ベイズ統計)」とに分けられます。頻度主義は「母数は不変で、データは変わり得る」と考えて真の値を求めますが、ベイズ主義は「得られたデータは不変で、母数は変わり得る」として推測を行います。
頻度主義 | ベイズ主義 | |
母数(θ) | 定数 | 確率変数 |
データ(x, y) | 確立変数 | 定数 |
記述統計学・推計統計学:ロナルド・フィッシャーを中心に発展
ベイズ統計学:トーマス・ベイズによって理論が確立し、20世紀半ばに発展
ベイズ統計は、事前確率を元に、得られたデータから新たな確率を導出する統計手法で、従来の記述統計・推計統計(頻度主義の統計)とは大きく異なります。記述統計・推計統計では「母数は不変でデータが変わる」と考えるのに対し、ベイズ統計では「母数が変わりデータは不変である」と考えます(頻度主義の学者とベイズ主義の学者は対立しているようです)。
ベイズの定理を言葉で書くと
ベイズの定理は「原因 → 結果」ではなく、「結果 → 原因」という「逆確率」を求めるもので、かつては「主観確率を扱うのは科学的ではない」とされて注目されていませんでしたが、近年ではその実用性の高さがわかり、以下のようなサービスに利用されています。
参考サイト:
複数の結果変数からなる多変量データを統計的に扱う手法で、その目的には大きく「予測」と「要約」の2種類があります。一般に、多変量解析は計算量が膨大になるため、コンピュータの活用が必須となります。
独立変数と従属変数の関係を明確にし、一方の情報から他方を予測します。機械学習では教師あり学習にあたります。
要約の手法には、従属変数(目的変数)の概念はなく、データの種類によって手法が分かれます。機械学習では教師なし学習にあたります。
統計学的検定手法には、データが特定の確率分布に従うことを仮定するパラメトリックな手法と、それを前提としないノンパラメトリックな手法とがあります。
パラメトリック検定では、以下3つの条件を満たしている必要があります。
以下、論文等でよく用いられるパラメトリック検定手法について概説します。
検定統計量が帰無仮説の下でt分布に従うことを仮定して行う統計的検定(日本工業規格)。母集団が正規分布に従うことを仮定したパラメトリック検定の一種で、2組の標本の平均に有意差があるかどうかの検定などに用いられます。
検定統計量が,帰無仮説の下でF分布に従うことを仮定して行う統計的検定(日本工業規格)。統計量F とは、2つの群の標準偏差の比で、両群とも正規分布に従う場合には、それがF 分布に従います。これを用いてF値が片側有意水準内に入るかどうかを検定するのがF検定です。
比較したいグループ(水準といいます)が3つ以上の場合、変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定するのが分散分析です。観測データの変動を誤差変動と各要因と、それらの交互作用による変動に分解して、要因と交互作用の効果を判定することができます。
なお、分散分析では検定統計量がF分布に従うことを前提に検定を行ないます。
以下、A,B,Cの3社の製品の耐久性を比較する・・という話で、分散分析の概要について説明します。
以下の用語は統計ソフトを使用する際に必要になります。データだけ集めれば、あとは統計ソフトが勝手にやってくれる・・というものではなく、正しい検定を行うには、言葉の意味を理解したうえで、いくつものデータを正しく入力する必要があります。
これらを組み合わせて、「1要因被験者間計画」とか、「2要因被験者内計画」といった実験計画が行われます。以下も重要なキーワードです。
要因が1つの場合、以下の手順で検定します。
要因が2つ以上になった場合、検定の手順は煩雑になってきます。
Pythonはさまざまな分野のアプリケーションで使われているインタープリタ型のプログラミング言語ですが、統計ツールとしてのパッケージが充実しており、統計学習における重要なツールのひとつに位置付けられます。
オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。一見地味なのですが、すごく優秀なソフトで、統計関係の書籍もたくさん出ています。インストールする場合、まずR本体のインストールをして(これだけでも仕事はできます)、そのあと R-Studio のインストール、という手順になります。
簡単なGUI操作でデータマイニングができるオープンソースのソフトウエア
Python の開発環境 Anacondaを導入して、そこに追加すると便利です。
Excelのメニューに統計解析の手法を追加するアドインソフトです。
一般企業や官公庁むけの通常版と、学校法人等に属する学生、教職員むけのアカデミック版の2種類の価格があります。
https://bellcurve.jp/ex/
高等教育機関や社会人の学習者向けに提供される無償ソフトウェアです。
PC、Mac、Linuxで利用できます。
https://www.sas.com/ja_jp/software/university-edition.html
計画およびデータ収集から分析、レポート作成、実装までの分析プロセス全体に対応したソフトウェアの統合ファミリーです。
http://www-01.ibm.com/software/jp/marketplace/spss/
例えば「投薬の効果」のようなものであれば、被験者に偏りがないよう、ランダムに振り分けて、実験群と対照群をつくることができますが(RCT:ランダム化比較実験)、社会科学では、そもそも実験群と対照群を厳密に用意することができません。例えば「ある教育手法の効果」を計るのに、生徒100人をランダムに振り分けて比較するということは難しく、同レベルの学校を2つ選んで比較したとしても、実験群と対照群には教師の違い他、様々な違いが存在するので、結果が当該手法の効果であるとは言い切れないのです。
また、因果推論の根本問題として「同一人物の異なるケースの経過観察」は不可能です。時を戻すことができれば、実施した場合としなかった場合の厳密な比較ができますが、それは現実には不可能です。
ちなみに、人と社会を相手にして「因果効果を測る」という、この難しい課題に取り組む手法として、以下のようなマッチング手法*8があります。
統計データの分析結果は、社会現象の予測については、必ずしも有効な手段ではありません。社会学や社会心理学でよく話題になる「予言の自己成就」と「予言の自己破綻」について知っておくことが必要です。それぞれ身近な事例で説明します。
なぜ「帰無仮説を棄却する」などいうまわりりくどい論理を使うか。これは仮説検定だけではなく、科学的な方法論一般にみられるものです。
たとえば「青い鳥が存在する」という「特称命題」は、それを一匹見つければ証明できますが、「すべての鳥は青い」という「全称命題」を実証するためには、地球上のすべての鳥を観察して、全部青いことを示さなければなりません。これは不可能です。しかしこれを反証するためには、青くない鳥を一匹見つけるだけで済むのです。実証と反証では、圧倒的に反証の方がしやすいのです。