LogoMark.png

Statistics の変更点


#author("2020-02-21T19:30:31+09:00;2020-02-21T19:21:33+09:00","default:inoue.ko","inoue.ko")
*Statistics
実験研究に関わる統計的手法について
~

このページでは、デザイン研究に必要となる「実験」や「調査」について、その統計的手法に関する記事をまとめています(参考:https://to-kei.net/)。
~

***CONTENTS
#contents2_1

~
~
**実験研究について
実験研究とは、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、''物事の関係性について実験的に調べること''であると説明できます。この「何か」のことを一般に「変数」と呼びます。
-''独立変数'' 実験者が操作する変数(原因)。
-''従属変数'' 測定される変数(結果)。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。
~
***独立変数について
さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、6角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で2次変数をコントロールする必要があります。
-2次変数を除去する
可能であればこれがもっとも簡単です。いわゆる実験室というのは、可能な限りこの外的要因を除去したクリーンな場所といえます。
-2次変数を恒常に保つ
除去できないのであれば、次はそれをすべてに対して同一に、あるいはランダムに配分することで、独立変数の効果のみを捉えます。
-独立変数に格上げする
明らかにその要因が結果に影響するという場合、これも重要な変数だということになります。であれば、それを独立変数に格上げして、その効果も測るというのが賢明です。その場合、2つの独立変数の組み合わせ自体が結果に大きく影響する場合もあります(これを交互作用といいます)。
~

***従属変数について
問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて5段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。
 一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。
~

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。

では以下、実験結果のデータを扱うのに必要な、統計手法について概説します。
~
~


**記述統計
収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことです。2変数の相関を求めたり、クロス集計表を作成したりする作業もこれに含まれます。
//(要約統計量、記述統計量)といいます。
~

***代表値
データの分布の特徴を物語る値のことを代表値と言います。データの中心がどこに位置しているかを示す値で、「中心傾向の測度」ともいいます。

-''平均(mean)''
データの総和をデータ数で割った値。もっとも一般的な代表値。
 =AVERAGE(範囲)

-中央値(median)
データの大きさの順に並べたときにちょうど中央にくる値。
 =MEDIAN(範囲) で求まります。

-最頻値(mode)
度数分布において最も高い度数を示す値。
 =MODE(範囲) で求まります。
~

***散布度

-偏差平方和
偏差(平均からの差)の平方和。
 =DEVSQ(範囲)

-母分散 (population variance)
偏差平方和をデータ数で割った値。対象を母集団とする前提です。
 =VAR.P(範囲)

-標本分散(sample variance)
偏差平方和をデータ数で割った値。対象を標本とする前提です。
結果的に行う計算は、母分散と同じ方法なので使う関数は同じです。
 =VAR.P(範囲)
引数を母集団全体と見なし、母集団の分散 (標本分散) を返します

-不偏分散 (unbiased variance)
偏差平方和を"データ数-1"で割った値。標本に基づく分散の予測値で、推測統計(後述)ではこちらを用います。
 =VAR.S(範囲)
引数を正規母集団の標本と見なし、標本に基づいて母集団の分散の推定値 (不偏分散) を返します

-''標準偏差(standard deviation)''
標準偏差は、標本分散のルートをとった値。
 =STDEV.P(範囲)
引数を母集団全体であると見なして、母集団の標準偏差を返します

-''不偏標準偏差(Unbiased standard deviation)''
こちらも標準偏差ですが、不偏分散のルートをとった値。
 =STDEV.S(範囲)
引数を標本と見なし、標本に基づく母集団の標準偏差の推定値を返します。
&small(実は、このあたりの言葉の使い方、専門家の間でも収拾がつかないようで、かなり英語でどう表現するか、あるいは、どの英語をどれに訳したのかで、混乱があるようです。で、意味と内容が確実に一致するのはExcelの関数名で、「この値は、STDEV.S で求めたものです。」などというのが一番間違いがないようです。);
~

//''混乱しそうなので、''
//-&small(XXXX.Pはデータ数で割ったもので、データを母集団とみなして、そのまま計算した値);
//-&small(XXXX.Sはデータ数-1 で割ったもので、データをサンプルとみなして、母集団の値を推定したもの);

-平均偏差
偏差(平均からの差)の絶対値の平均
 =AVEDEV(範囲)
データ全体の平均値に対する個々のデータの絶対偏差の平均を返します
~


***相関係数
2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
参考:[[GoogleImage:相関係数]]

スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。
 =CORREL(範囲1, 範囲2)
&small(名称はちがいますが、PEARSON(範囲1, 範囲2)でも同じ結果が得られます。);

~

***クロス集計
2つないし3つの情報に限定して、データの分析や集計を行なう方法。 縦軸と横軸に項目を割り振って、項目間の相互関係を視覚的に見やすくしたものです。アンケート調査の手法としては、ポピュラーなものの一つです。
参考:[[GoogleImage:クロス集計]]

~
~

**推計統計(推測統計)
無作為抽出されたデータから母集団の特徴・性質を推定する統計のことです。
~

***母集団( population)と標本(sample)
-母集団:考察の対象となる特性をもつすべてのものの集団(日本工業規格)
-標 本:一つ以上の抽出単位からなる母集団の部分集合(日本工業規格)

一般に母集団というものは観念的な存在で、現実に観測できるのは標本です。例えば「視聴率」の調査に関して言えば、「全世帯」が母集団で、「調査世帯」が標本です。
 100人に聞きました。AとBどっちが好き・・
 >「Aが好き」と答えた人が70人ということで、
 Aが好きな人が多いことがわかりました。
という話は、それはそれでいいのですが、この結果をもって「日本人はAが好き」とか「人間というものはAが好き」とは断言できません。
 一般に多くの実験研究が、標本調査をもって、それを一般論に拡大しています。実は、これはあくまでも「確率的にそうである可能性が高い」という話で、ひょっとしたら間違いかもしれません。ただ、実際には母集団をすべて調べるわけにはいかないので、標本から得られる統計量を根拠に、「ああであればこうである」といった記述がなされているのです。
 推測統計というのは、文字通り「推測」。あくまでも確率的な問題として、物事の関係を科学的に語るための統計手法です。
~

***いくつかの方法
-点推定
母集団が正規分布であると想定して、推定平均と推定標準偏差を求めます。
-区間推定
点推定におけるパラメータのばらつきや信頼区間を示すことで、例えば「95%の確率で、◯◯の値は、a から b の間である」といった推定を行うものです。95%信頼区間、99%信頼区間などが用いられます。
-仮説検定
区間推定値から、母集団が特定の分布に従っているかどうかを検証すること。これはとても重要な話になるので、以下でさらに詳しく展開します。
~

***仮説検定の考え方
例えば、新型の製品と従来型の製品を比較してデザインの良し悪しを評価する場合、「ユーザーの評価に違いがあるのか」ということを統計的に(科学的に)証明することが求められます。デザイナーは当然「新型の評価が高い」という結果が出て欲しいし、またそれを統計的に証明できればうれしいわけです。

すべてのユーザーに「どっちがいい?」と尋ねることができれば確実ですが、大量に生産されて市場に出回る商品では、そんな調査はできません。実際には何人かの被験者に協力してもらって「母集団の反応を推定する」ことになります。

ならば「新型の評価平均と従来型の評価平均を比較すればいいではないか」。話はとても簡単に思えるのですが、実はそれだけでは、科学的に両者に差がある・・とは言えないのです。ここが直感的には難しい。

サンプル(被験者)の平均値がどの程度母集団(例えば日本国民全員)の傾向を物語ることができるのか。本当に差があるのか、それとも誤差としてありえる範囲の値なのか、これを確率の問題として、統計的に処理する必要があるのです。

で、ここで一旦ややこしくなるのですが、仮説検定では「新型は旧型とに差はない」という逆の仮説(帰無仮説といいます)((仮説検定では、はじめから否定(棄却)されるべきものとして「仮説」が設定されていることから、その名を「帰無仮説」と言います。))を立てて話を進めます。

次に、帰無仮説から想定される値と、実際の調査で得られた値が一致する確率を求めます。これを p値といいます。

この p値が予め決めた基準(有意水準といって 5% か 1% が一般的)よりも小さい値であれば、「帰無仮説のもとでは、めったに起こらないことが起きた」と考えて、仮説を棄却(否定)します。つまり「新型の評価は旧型と差がある」と結論するわけです。がんばったデザイナーには嬉しい結果です。かなりまわりくどいやりかたですが、これが仮説検定の考え方です。

一方、この確率が著しく小さいと言えない場合は、帰無仮説は棄却できず、結論を保留します。気をつけたいのは、この結果が「新型と旧型が同じ」ということを意味するものではないということです。「有意差がない」=「等しい」ではありません。あくまで「差があるとは言えない」という程度。同じであるということを証明するのは、実は非常に難しいのです(後述:実証と反証)。

以上、もういちどまとめると・・
-1) 帰無仮説をたてる
-2) 標本(データ)を無作為抽出する
-3) 帰無仮説を真としたときに、そのような標本が出現する確率を調べる
-4) その確率がきわめて小さいときには帰無仮説を棄却する
 確率が小さいとはいえないときは判定を保留する

母集団、帰無仮説、有意水準など、難しい言葉が出てくるのですが、これらは重要なキーワードになるので、十分理解してから先に進んでください。

''余談ですが''
新商品の開発などでは、研究当事者は、有意な差が出で仮説が棄却されることを期待しています(「結果は同じで差はありませんでした」というのは失敗を意味します)。ここには、様々な不正が入り込むスキがあります。であるがゆえに、実験結果を何らかのPRに使用する場合や、論文を書く場合は、その実験・調査が、誰が見ても不正のないものであること、また誰が、同じ実験・調査を行っても(追試)同じ結果が出ることを確かめられるように、実験の前提条件や、実験の方法を詳細に記述する必要があります。
~

***検定手法
統計学的検定手法には、データが特定の確率分布に従うことを仮定するパラメトリックな手法と、それを前提としないノンパラメトリックな手法とがあります。

-パラメトリックな検定手法
--t検定
--F 検定
--分散分析

-ノンパラメトリックな検定手法
--カイ二乗検定

パラメトリック検定では、以下3つの条件を満たしている必要があります。
-母集団が正規分布かそれに近い分布である
-各条件の母分散が等質である
-標本が母集団から無作為に抽出されている

以下、論文等でよく用いられるパラメトリック検定手法について概説します。

~


***t検定(Student's t-test)
検定統計量が帰無仮説の下でt分布に従うことを仮定して行う統計的検定(日本工業規格)。母集団が正規分布に従うことを仮定したパラメトリック検定法で、2組の標本について、平均に有意差があるかどうかの検定などに用いられます。
~
-一群のt検定
母集団の平均値 μ が、特定の値 μ0 と等しいか否かを検定する際に使用します。

-独立2群(対応のない2群)の平均値差の検定
一つ目の母集団の平均値μ1と、二つ目の母集団の平均値μ2とが等しいか否か、つまり、μ1-μ2=0 かどうかを検定する際に使用します。

-対応のある2群の平均値差の検定
同じ平均値差の検定ですが、例えば双子のペアを集めて、一方を第1群、他方を第2群に割り当てて比較、あるいは例えば、ダイエットの効果測定のために、ダイエット前を第1群、ダイエット後を第2群として、群間比較するなど、2つの群の間に対応関係がある場合の検定です。検定力はこちらが高くなります。

参考:[[Google:t検定 事例]]
~

***F 検定(F test)
検定統計量が,帰無仮説の下でF分布に従うことを仮定して行う統計的検定(日本工業規格)。統計量F とは、2つの群の標準偏差の比で、両群とも正規分布に従う場合には、それがF 分布に従います。これを用いてF値が片側有意水準内に入るかどうかを検定するのがF検定です。

-正規分布に従う2つの群の「標準偏差が等しい」という帰無仮説の検定に用いられます。t検定の前段階で「等分散性検定」として用いられます。

-正規分布に従う複数の群(標準偏差は等しいと仮定する)において、「平均が等しい」、すなわち「同じ母集団に由来する」という帰無仮説の検定です。この方法は分散分析に用いられます。
~


***分散分析(ANOVA:analysis of variance)

比較したいグループ(水準といいます)が3つ以上の場合、変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定するのが分散分析です。観測データの変動を誤差変動と各要因と、それらの交互作用による変動に分解して、要因と交互作用の効果を判定することができます。
なお、分散分析では検定統計量がF分布に従うことを前提に検定を行ないます。

以下、A,B,Cの3社の製品の耐久性を比較する・・という話で、分散分析の概要について説明します。
&color(red){以下の用語は統計ソフトを使用する際に必要になります。データだけ集めれば、あとは統計ソフトが勝手にやってくれる・・というものではなく、正しい検定を行うには、言葉の意味を理解したうえで、いくつものデータを正しく入力する必要があります。};

-要因
データの値を変化させる原因を「要因」といいます。この場合「会社」です。要因の数は複数設定されることもあります。例えば、A,B,Cの3社の製品を、それぞれ、温暖な地域で使用した場合と、寒冷な地域で使用した場合とで比較する場合、要因は2つ。ひとつは「会社」もうひとつは「気候」です。3x2 で6種類の評価実験が必要になります。
-水準
要因を構成する条件を「水準」といいます。この場合 A、B、Cの3つです。
-被験者間計画
ひとりの被験者をひとつの水準にのみ割り当てるケース。例えばA社の製品を10人、B社製品10人、C社製品10人、全体で30人が評価する実験計画。
-被験者内計画
同じ被験者をすべての水準に割り当てる場合。例えば30人全員が、A,B,C,すべての製品を評価する実験計画。当然検定力は上がります。

これらを組み合わせて、「1要因被験者間計画」とか、「2要因被験者内計画」といった実験計画が行われます。以下も重要なキーワードです。

-主効果 main effect
特定の要因単独で有意に差が認められるときは,主効果(または単純主効果)がある・・といいます。
-交互作用 interaction
要因を組み合わせた場合の複合的な効果がある場合は、交互作用がある・・といいます。

要因が1つの場合、以下の手順で検定します。
-主効果の有無を確認します。
-主効果が有意である場合には、次に多重比較を行います。多重比較というのは、各水準間で具体的に、どれとどれに差があるのかを見極める作業です。

要因が2つ以上になった場合、検定の手順は煩雑になってきます。
-2要因の分散分析では、まず2つの要因の交互作用を検証します。
-交互作用が認められなかった場合は主効果を検定を行います。主効果が有意である場合には必要に応じて多重比較を行います。
-交互作用が認められた場合は、単純主効果の検定を行います。たとえば要因Aと要因Bの交互作用が有意である場合、要因Bの特定水準における要因Aの主効果、また要因Aの特定水準における要因Bの主効果について分析を行います。単純主効果が有意である場合には、必要に応じて多重比較を行います。 

参考:[[Google:分散分析 事例]]
~
~

**多変量解析(multivariate analysis)
複数の結果変数からなる多変量データを統計的に扱う手法で、その目的には大きく「予測」と「要約」の2種類があります。一般に、多変量解析は計算量が膨大になるため、コンピュータの活用が必須となります。
~

***予測の手法
独立変数と従属変数の関係を明確にし、一方の情報から他方を予測します。[[機械学習>MachineLearning]]では教師あり学習にあたります。

-独立変数が数量的で、従属変数も数量的な場合
> 重回帰分析
-独立変数が数量的で、従属変数がカテゴリ変数の場合
> 判別分析、ロジスティック回帰
-独立変数がカテゴリ変数で、従属変数が数的な場合
>数量化I類((飲酒の有/無、喫煙の有/無などを1/0で表し、◯◯病になる「確率」やを予測する・・などが数量化I類にあたります。))
-独立変数がカテゴリ変数で、従属変数もカテゴリ変数の場合
>数量化II類((男/女、年代、喫煙の有/無などから、◯◯病を発症する / しない・・などの予測をするのが数量化II類です。))
~

***要約の手法
要約の手法には、従属変数(目的変数)の概念はなく、データの種類によって手法が分かれます。[[機械学習>MachineLearning]]では教師なし学習にあたります。

-変数が数量的な場合
> 主成分分析、因子分析、クラスター分析
-変数がカテゴリーの場合
>数量化III類・コレスポンデンス分析((主成分分析と同じ目的で使う手法で変数を要約します。変数が 1/0 のデータの場合は数量化Ⅲ類、クロス集計表などの量的データの場合はコレスポンデンス分析(対応分析)といわれます。))、MDS(多次元尺度構成法)
~
~

**統計ツール

***Python言語
[[Python]]はさまざまな分野のアプリケーションで使われているインタープリタ型のプログラミング言語ですが、統計ツールとしてのパッケージが充実しており、統計学習における重要なツールのひとつに位置付けられます。

-Python 公式サイト
https://www.python.org/
-開発環境 anaconda 公式サイト
https://www.anaconda.com/
-開発環境 Google Colaboratory 公式サイト
https://colab.research.google.com
-データ解析/分析に関わるライブラリ
--[[NumPy>http://www.numpy.org/]]:数値計算のための拡張モジュール(修正BSD)
--[[SciPy>https://www.scipy.org/]]:NumPyベースの数値解析ソフトウェア(New BSD)
--[[Pandas>https://pandas.pydata.org/]]:データ解析用ライブラリ(BSD)
--[[matplotlib>https://matplotlib.org/]]:NumPyのためのグラフ描画ライブラリ(BSD)
--[[seaborn>https://seaborn.pydata.org/]]:matplotlibベースのビジュアライゼーションライブラリ(BSD)
--[[graph-tool>https://graph-tool.skewed.de/]]:グラフの操作および統計解析(GPL)
--[[scikit-learn>http://scikit-learn.org/stable/]]:NumPy, Matplotlib 互換の機械学習ライブラリ(BSD)
--[[TensorFlow>https://www.tensorflow.org/]]:機械学習用ライブラリ(Apache License 2.0 by Google)
--[[Keras>https://keras.io/ja/]]:ニューラルネットワークライブラリ(MIT)
~

***GNU R(R言語)
オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。一見地味なのですが、すごく優秀なソフトで、統計関係の書籍もたくさん出ています。インストールする場合、まずR本体のインストールをして(これだけでも仕事はできます)、そのあと R-Studio のインストール、という手順になります。

-R本体
--https://cran.r-project.org/
--http://www.statistics.co.jp/reference/software_R/free_software-R.htm
-統合開発環境 R-Studio
--https://www.rstudio.com/


-Wikipedia R:https://ja.wikipedia.org/wiki/R%E8%A8%80%E8%AA%9E
-Rの使い方:https://sites.google.com/site/webtextofr/home
-R-tips:http://cse.naro.affrc.go.jp/takezawa/r-tips/r2.html

~

***Orange
簡単なGUI操作で[[データマイニング>Google:データマイニング]]ができるオープンソースのソフトウエア
[[Python]] の開発環境 [[Anaconda>https://www.anaconda.com/]]を導入して、そこに追加すると便利です。
-https://orange.biolab.si/
-https://orange.biolab.si/screenshots/

~

***エクセル統計
Excelのメニューに統計解析の手法を追加するアドインソフトです。
一般企業や官公庁むけの通常版と、学校法人等に属する学生、教職員むけのアカデミック版の2種類の価格があります。
https://bellcurve.jp/ex/
~


***SAS University Edition
高等教育機関や社会人の学習者向けに提供される無償ソフトウェアです。
PC、Mac、Linuxで利用できます。
https://www.sas.com/ja_jp/software/university-edition.html
~

***SPSS(IBM)
計画およびデータ収集から分析、レポート作成、実装までの分析プロセス全体に対応したソフトウェアの統合ファミリーです。
http://www-01.ibm.com/software/jp/marketplace/spss/


~
~
**参考

***教育効果は測れない?
例えば「投薬の効果」のようなものであれば、被験者に偏りがないよう、ランダムに振り分けて、実験群と対照群をつくることができますが(RCT:ランダム化比較実験)、''社会科学では、そもそも実験群と対照群を厳密に用意することができません''。例えば「ある教育手法の効果」を計るのに、生徒100人をランダムに振り分けて比較するということは難しく、同レベルの学校を2つ選んで比較したとしても、実験群と対照群には教師の違い他、様々な違いが存在するので、結果が当該手法の効果であるとは言い切れないのです。
 また、[[因果推論>Google:因果推論]]の根本問題として「同一人物の異なるケースの経過観察」は不可能です。''時を戻す''ことができれば、実施した場合としなかった場合の厳密な比較ができますが、それは現実には不可能です。
 ちなみに、人と社会を相手にして「因果効果を測る」という、この難しい課題に取り組む手法として、以下のようなマッチング手法((マッチング手法とは、''変数の統制が不可能な社会科学分野''において、疑似的に実験研究と同様の状態を作り出す手法で、因果効果を推定するための重要な手法だと言われます。))があります。
-[[傾向スコアマッチング(PSM:Propensity Score Matching)>Google:傾向スコア]]
~

***予言の自己成就・予言の自己破綻
統計データの分析結果は、社会現象の予測については、必ずしも有効な手段ではありません。社会学や社会心理学でよく話題になる「予言の自己成就」と「予言の自己破綻」について、知っておくことが必要です。それぞれ、身近な事例で説明します。
-''予言の自己成就''
「A高校とB高校では、A高校の方が教育の質が高い」という予言が流布したとすると、実際には教育の質に差がなかったとしても、A高校の方に高学力の志願者が集中し、結果「質が高い」という予測が成就する。これは教育の質に差がなくても、結果としてそう見える・・という現象です。
-''予言の自己破綻''
「A高校とB高校では、A高校の志願者が増える」という予言が流布したとすると、競争倍率の高さで不合格になることを回避するために、B高校の志願者が増える・・予言とは逆のことが起きる現象です。
~

***実証主義と反証主義
なぜ「帰無仮説を棄却する」などいうまわりりくどい論理を使うか。これは仮説検定だけではなく、科学的な方法論一般にみられるものです。
 たとえば「青い鳥が存在する」という「特称命題」は、それを一匹見つければ証明できますが、「すべての鳥は青い」という「全称命題」を実証するためには、地球上のすべての鳥を観察して、全部青いことを示さなければなりません。これは不可能です。しかしこれを反証するためには、青くない鳥を一匹見つけるだけで済むのです。実証と反証では、圧倒的に反証の方がしやすいのです。
~
~
**APPENDIX

***関連ページ
-[[DataScience]]
-[[Data]]
//-[[Statistics]]
-[[MachineLearning]]
-[[NeuralNetwork]]
-[[DataMining]]
-[[ArtificialIntelligence]]
-[[ArtificialIntelligence/Links]]
~
~

~