LogoMark.png

Statistics のバックアップの現在との差分(No.3)


#author("2023-01-20T17:01:34+09:00;2023-01-20T17:00:40+09:00","default:inoue.ko","inoue.ko")
#author("2023-10-10T14:24:59+09:00","default:inoue.ko","inoue.ko")
*Statistics
実験研究に関わる統計的手法について
~

このページでは、デザイン研究に必要となる「実験」や「調査」について、その統計的手法に関する記事をまとめています。
-参考:https://to-kei.net/
~


***CONTENTS
#contents2_1

~
~

**データと尺度
統計的な処理では、一般にデータを以下のように分類します。
**はじめに
***統計分析の目的
統計分析の目的は以下の3点に集約することができます。
-データを要約すること 
-データを生み出す対象(集団)の性質を説明すること
-未知のデータ(未来)を予測すること
~

***質的データ(定性的データ, カテゴリーデータ )
-''名義尺度''(nominal scale)同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
''例)''血液型(A型:1,B型:2,・・・,O型:4)
***統計モデル
現象には、身長・体重・成績など、ばらつきが大きくその実現に不確実性を伴うものと、弾道計算のように初期値が定まれば高い精度で実現結果が予測できるものとがあって、それぞれ現象をモデル化する際の発想が異なります。
-統計モデル:ばらつきのある現象を確率論的なモデルで現象を説明
-数理モデル:微分方程式等の決定論的なモデルで現象を説明

-''順序尺度''(ordinal scale)同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
''例)''ミネラルウォーターの売上BEST10(商品を順に1位、2位、3位・・と割り当てる場合など)、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、項目間の間隔が不均等とみなされる場合)
統計手法は、前者の方法で現象をモデル化して説明するもので、確率や確率分布に関する知識が必要になります。
~

***量的データ ( 定量的データ, 離散データ / 連続データ) 
-''間隔尺度''(interval scale)同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
''例)''知能指数、摂氏の温度、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値 4と3の差 と評定値3と3の差が等間隔とみななされる場合)((そもそも、こうした印象評価の段階的な数字は、等間隔である保証はできず、本来であれば順序尺度として扱うものですが、実際の研究では、これを間隔尺度として、統計ソフト等で分析にかけることが多いようです。))。
***記述統計と推測統計
統計には、大きく以下の2つのタイプがあります。
-記述統計:得られたデータのみに注目し、その性質を知る
例:3年A組と3年B組の成績を比較する > 全数調査
-推測統計:標本(サンプル)から、発生元となる母集団の性質を推測する
例:高血圧の人を対象に新薬の効果を検証する > 標本調査

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。
~
~

**母集団と標本
関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。
~

***母集団(Population)
関心の対象となる集団全体のことを「母集団」といい、さらに「有限母集団」と「無限母集団」の区別があります。例えば「日本に住む成人男性」は、その数が有限であることから有限母集団で、一方「さいころを投げて出る目のデータ」などは無限に試行を繰り返すことができることから無限母集団となります。
~

***標本(Sample)
母集団の状態を推測するために「抽出」された一部の集団のことを「標本」といいます。関心の対象は母集団なので理想は全数調査ですが、多くの場合、母集団は非常に大きいだけでなく時間とともに変動する存在で、完全に把握することはできません。そこで母集団から抽出した標本に対して統計的解析を行なって母集団を予測するというのが、統計の標準的な手法=推測統計となります。
~

***標本サイズと標本数
この2つの言葉は似て非なるものなので、注意が必要です。
-標本サイズ(サンプルサイズ)
標本(サンプル)に含まれる要素の数。例えば、100人に対して行ったアンケートであれば、標本サイズは 100。 n = 100 などと記載します。
-標本数(サンプル数)
標本(サンプル)自体の数。例えば、月〜金まで、毎日30人ずつにアンケートを行って、月曜の分(n = 30)標本A、火曜の分を標本Bなどとした場合、標本数は月〜金で 5 となります。

~
~

**変数と尺度
***変数
統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを''変数''と言います。例えば、身長、体重、成績(点数)などは変数です。
-データが身長だけの場合を「1変数のデータ」、身長と体重の2つを含むデータであれば「2変数のデータ」と言います。
-変数の数を ''次元'' と呼ぶこともあります。例えば、英語の得点と数学の得点、2つのデータがあれば、横軸を英語、縦軸を数学とした2次元の平面上に個々のデータをプロットすることができます。3次元(3変数)までであれば、変数間の相関を視覚的に把握することができます((変数が多い場合は、変数間の組み合わせをすべて調べるか、「次元落とし(例えば、国・数・英・理を、文系科目と理系科目にまとめる)」を行ってその関係を可視化するなどの方法を採ります。))。
-変数は、''量的変数''と''質的変数''の大きく2つに分類されます。
--量的変数:身長や成績のように変数が''数値''で表されるもの
--質的変数:性別、所属学科のように変数が''カテゴリ''として表されるもの
~


***量的変数 ( 定量的データ, 離散データ / 連続データ) 

-''比率尺度''(ratio scale)同一性・順序性・加法性・等比性
原点(0)が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
''例)''身長、体重、金額、絶対温度など

-''間隔尺度''(interval scale)同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
''例)''知能指数、摂氏の温度、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値 4と3の差 と評定値3と3の差が等間隔とみななされる場合)((そもそも、こうした印象評価の段階的な数字は、等間隔である保証はできず、本来であれば順序尺度として扱うものですが、実際の研究では、これを間隔尺度として、統計ソフト等で分析にかけることが多いようです。))。
~


***質的変数(定性的データ, カテゴリーデータ )

-''順序尺度''(ordinal scale)同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
''例)''ミネラルウォーターの売上BEST10(商品を順に1位、2位、3位・・と割り当てる場合など)、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、項目間の間隔が不均等とみなされる場合)

-''名義尺度''(nominal scale)同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
''例)''血液型(A型:1,B型:2,・・・,O型:4)
~
~

**独立変数と従属変数
統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、''物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。
統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

-''独立変数'' 実験者が操作する変数(原因)。
-''従属変数'' 測定される変数(結果)。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。
~

***独立変数について
さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、6角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で2次変数をコントロールする必要があります。
-2次変数を除去する
可能であればこれがもっとも簡単です。いわゆる実験室というのは、可能な限りこの外的要因を除去したクリーンな場所といえます。
-2次変数を恒常に保つ
除去できないのであれば、次はそれをすべてに対して同一に、あるいはランダムに配分することで、独立変数の効果のみを捉えます。
-独立変数に格上げする
明らかにその要因が結果に影響するという場合、これも重要な変数だということになります。であれば、それを独立変数に格上げして、その効果も測るというのが賢明です。その場合、2つの独立変数の組み合わせ自体が結果に大きく影響する場合もあります(これを交互作用といいます)。
~

***従属変数について
問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて5段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。
 一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。
~

***類似の表現
独立変数と従属変数という用語は、統計ソフトやライブラリーによって、異なる用語が使われる場合があります。以下いずれも同様の用語セットです。
|COLOR(WHITE):BGCOLOR(#333):&mathjax(x);|COLOR(WHITE):BGCOLOR(#333):&mathjax(y);|h
|独立変数(independent variable)|従属変数(dependent variable)|
|説明変数(explanatory variable)|目的変数(target variable)|
|特徴量(feature / attribute)| ラベル(label) |
|データ(data)|ターゲット(target)|
|予測変数(predictor variable)|応答変数(response variable)|
|入力(input)|出力(output)|
~
~


**記述統計
> ページを独立させました。__[[Statistics/Descriptive]]__
~
~


**推測統計
> ページを独立させました。__[[Statistics/Inferential]]__
~
~

**ベイズ統計
> ページを独立させました。__[[Statistics/Bayesian]]__
~
~

**相関関係と因果関係
私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」、「気温が上がると清涼飲料水の売上が上がる」など、「ああであればこうである」という相関関係(共変動)というタイプのものと、「ああすればこうなる」という因果関係のタイプのものとがあります。
私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」など「ああであればこうである」という相関関係(共変動)にあるものと、「気温が上がると清涼飲料水の売上が上がる」など「ああすればこうなる」という因果関係にあるものとがあります。
~

***データ解析が見出すのは「相関」
一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。
 経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない
&small(Edward Tufte);
~

***誤謬に注意
統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬((論証の過程に論理的・形式的な瑕疵があって、その論証が妥当でないこと(簡単に言えば「間違っている」)を誤謬と言います。))がないか注意深く検討することが必要です。

-擬似相関(第3の要因が共通原因となっている)
 「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関
経済的に豊かであることが両者の共通要因
 「小学生の身長」と「論理的思考力」に正の相関
学年が上がることが両者の共通要因

-因果関係の逆転
 交番の数が多い地域ほど、犯罪件数が多い
犯罪件数が多い地域だから交番が多く設置された
 猫が顔を洗うと雨が降る
雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発

-偶然
 スマートフォンの普及が、地球温暖化を促進
テクノロジーの進歩と経済活動の拡大という共通の要因、あるいは偶然

//-直接的な関係の存在
// 圧力の上昇が、温度を上昇させる
//両者はもともと直接的な比例関係にあって、独立していない 
~
~

**記述統計
収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことで、2変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、後述する推計統計より古くからあるもので、''標本と母集団を同一視''して考えます。推計統計の登場後は、古典統計といわれるようにもなりました。

なお、以下の各事項に記載された関数式は Excel における表記です。
**多変量解析
> ページを独立させました。__[[Statistics/MultivariateAnalysis]]__
~

***代表値(measure of central tendency)
データの分布の特徴を表す値
//データの分布の特徴を物語る値のことを代表値と言います。データの中心がどこに位置しているかを示す値で、「中心傾向の測度」ともいいます。

-''平均(mean)''
データの総和をデータ数で割った値。もっとも一般的な代表値。
 =AVERAGE(範囲)
#mathjax( \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i)

-中央値(median)
データの大きさの順に並べたときにちょうど中央にくる値。
 =MEDIAN(範囲) で求まります。

-最頻値(mode)
度数分布において最も高い度数を示す値。
 =MODE(範囲) で求まります。
~

***散布度 (dispersion)
データの散らばりぐあいを表す値

-''分散(population variance)''
偏差平方和をデータ数で割った値。対象を母集団とする前提です。
 =VAR.P(範囲)
#mathjax( s^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 )

//-''標本分散(sample variance)''
//偏差平方和をデータ数で割った値。対象を標本とする前提です。
//結果的に行う計算は、母分散と同じ方法なので使う関数は同じです。
// =VAR.P(範囲)
//引数を母集団全体と見なし、母集団の分散 (標本分散) を返します

-''標準偏差(standard deviation)''
標準偏差は、分散のルートをとった値。引数を母集団全体であると見なして、母集団の標準偏差を求めます。
 =STDEV.P(範囲)
#mathjax( s = \sqrt{ s^2 } )

//''Excel の関数について''
//-XXXX.Pは「データ数」で割ったもので、データを母集団とみなして、そのまま計算した値
//-XXXX.Sは「データ数 - 1」で割ったもので、データをサンプルとみなして、母集団の値を推定した値

-平均偏差
偏差(平均からの差)の絶対値の平均。データ全体の平均値に対する個々のデータの絶対偏差の平均を求めます。
 =AVEDEV(範囲)
#mathjax( md = \frac{1}{n}\sum_{i=1}^n |x_i -\bar{x}| )


-四分位点
四分位点とは、データを昇順に並べたときに、25%, 75% の位置にくる値です。ボックスプロット(箱髭図)では、箱の上辺・底辺がこれに該当します。

~

***共分散
共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。

#mathjax( s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y} ) )

共分散の値から、2組のデータについて以下のような説明ができます。
-共分散の値が正:X が大きいときに Y も大きくなる傾向がある
-共分散の値が 0: X と Y には関係がない
-共分散の値が負:X が大きくなると Y が小さくなる傾向がある
~

***相関係数
2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。

スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。
 =CORREL(範囲1, 範囲2)
 注)PEARSON(範囲1, 範囲2)でも同じ結果が得られます。

#mathjax( r = \frac{ \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \bar{x}) (y_{i} - \bar{y}) }{ \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \cdot \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(y_{i} - \bar{y})^{2}}} = \frac{ s_{xy} }{ s_{x} \cdot s_{y} } )

言葉で書く方がわかりやすいかも・・
#mathjax( r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } )

で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。

-&mathjax(r); は -1.0 から +1.0 までのいずれかの値をとる
-&mathjax(| r |); が 1.0 に近いほど相関が強く、0に近いほど相関が弱い
レポート等で相関の有無について語る場合、一般的な目安は以下です。
--| r | = 0.7~1.0  かなり強い相関がある
--| r | = 0.4~0.7  やや相関あり
--| r | = 0.2~0.4  弱い相関あり
--| r | = 0~0.2   ほとんど相関なし
-&mathjax(r); が正の場合は「正の相関」、負の場合は「負の相関(逆の相関)がある

-注意:相関係数が0でも「何らかの関係がある」場合があります。
たとえば、2次元の散布図で分布がV字型になる場合、相関は0に近くなりますが、これは、左のグループと右のグループに分けることで、それぞれのグループにおいて負の相関と、正の相関がある・・ということになります。相関をみる場合は、散布図で状態を目視して状況を見極めることが重要です。

参考:[[GoogleImage:相関係数]]

~

***クロス集計
2つないし3つの情報に限定して、データの分析や集計を行なう方法。 縦軸と横軸に項目を割り振って、項目間の相互関係を視覚的に見やすくしたものです。アンケート調査の手法としては、ポピュラーなものの一つです。
参考:[[GoogleImage:クロス集計]]

~
~

**推計統計(推測統計)
無作為抽出されたデータから母集団の特徴・性質を推定する統計のことで、推測統計とも言います。記述統計と異なり、推計統計では、集められたデータは大きな母集団の中の小さな標本に過ぎないと考えます。
~

***母集団( population)と標本(sample)
-母集団:考察の対象となる特性をもつすべてのものの集団(日本工業規格)
-標 本:一つ以上の抽出単位からなる母集団の部分集合(日本工業規格)

一般に母集団というものは観念的な存在で、現実に観測できるのは標本です。例えば「視聴率」の調査に関して言えば、「全世帯」が母集団で、「調査世帯」が標本です。
 100人に聞きました。AとBどっちが好き・・
 >「Aが好き」と答えた人が70人ということで、
 Aが好きな人が多いことがわかりました。
という話は、それはそれでいいのですが、この結果をもって「日本人はAが好き」とか「人間というものはAが好き」とは断言できません。

一般に多くの実験研究が、標本調査をもって、それを一般論に拡大しています。実は、これはあくまでも「確率的にそうである可能性が高い」という話で、ひょっとしたら間違いかもしれません。ただ、実際には母集団をすべて調べるわけにはいかないので、標本から得られる統計量を根拠に、「ああであればこうである」といった記述がなされているのです。

推計(推測)統計というのは、文字通り「推測」。あくまでも確率的な問題として、物事の関係を科学的に語るための統計手法です。
~

***母数
推計統計では母集団の特性をあらわす数を''母数(parameter )''と言います。

特定の母集団分布を仮定する場合には、母数は分布のパラメーターとなるもので、例えば、正規分布の場合の母数は、平均 および分散です。 
~

***推測統計における統計量
推測統計では、分散と標準偏差に関する統計量の計算が異なります。

-平均(=標本平均)
標本平均の値が母平均の推定量として利用されます。
 =AVERAGE(範囲)
#mathjax( \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i)

-不偏分散(unbiased variance)
偏差平方和を''データ数 - 1''で割った値。標本に基づく分散の予測値で、引数を正規母集団の標本と見なし、標本に基づいて母集団の分散の推定値 (不偏分散) を求めます。
 =VAR.S(範囲)
#mathjax( u^2 = \frac{1}{n - 1} \sum_{i = 1}^n (x_i - \bar{x})^2 )

-不偏標準偏差(Unbiased standard deviation)
不偏分散のルートをとった値。引数を標本と見なし、標本に基づく母集団の標準偏差の推定値を求めます((実は、このあたりの言葉の使い方、専門家の間でも収拾がつかないようで、かなり英語でどう表現するか、あるいは、どの英語をどれに訳したのかで、混乱があるようです。で、意味と内容が確実に一致するのはExcelの関数名で、「この値は、STDEV.S で求めたものです。」などというのが一番間違いがないようです。))。
 =STDEV.S(範囲)
#mathjax( u = \sqrt{ u^2 } )

~

***統計的推定
-点推定
母集団が正規分布であると想定して、推定平均と推定標準偏差を求めます。
-区間推定
点推定におけるパラメータのばらつきや信頼区間を示すことで、例えば「95%の確率で、◯◯の値は、a から b の間である」といった推定を行うものです。95%信頼区間、99%信頼区間などが用いられます。
-仮説検定
区間推定値から、母集団が特定の分布に従っているかどうかを検証すること。これはとても重要な話になるので、以下でさらに詳しく展開します。
~

***仮説検定の考え方
例えば、新型の製品と従来型の製品を比較してデザインの良し悪しを評価する場合、「ユーザーの評価に違いがあるのか」ということを統計的に(科学的に)証明することが求められます。デザイナーは当然「新型の評価が高い」という結果が出て欲しいし、またそれを統計的に証明できればうれしいわけです。

すべてのユーザーに「どっちがいい?」と尋ねることができれば確実ですが、大量に生産されて市場に出回る商品では、そんな調査はできません。実際には何人かの被験者に協力してもらって「母集団の反応を推定する」ことになります。

ならば「新型の評価平均と従来型の評価平均を比較すればいいではないか」。話はとても簡単に思えるのですが、実はそれだけでは、科学的に両者に差がある・・とは言えないのです。ここが直感的には難しい。

サンプル(被験者)の平均値がどの程度母集団(例えば日本国民全員)の傾向を物語ることができるのか。本当に差があるのか、それとも誤差としてありえる範囲の値なのか、これを確率の問題として、統計的に処理する必要があるのです。

で、ここで一旦ややこしくなるのですが、仮説検定では「新型は旧型とに差はない」という逆の仮説(帰無仮説といいます)((仮説検定では、はじめから否定(棄却)されるべきものとして「仮説」が設定されていることから、その名を「帰無仮説」と言います。))を立てて話を進めます。

次に、帰無仮説から想定される値と、実際の調査で得られた値が一致する確率を求めます。これを p値といいます。

この p値が予め決めた基準(有意水準といって 5% か 1% が一般的)よりも小さい値であれば、「帰無仮説のもとでは、めったに起こらないことが起きた」と考えて、仮説を棄却(否定)します。つまり「新型の評価は旧型と差がある」と結論するわけです。がんばったデザイナーには嬉しい結果です。かなりまわりくどいやりかたですが、これが仮説検定の考え方です。

一方、この確率が著しく小さいと言えない場合は、帰無仮説は棄却できず、結論を保留します。気をつけたいのは、この結果が「新型と旧型が同じ」ということを意味するものではないということです。「有意差がない」=「等しい」ではありません。あくまで「差があるとは言えない」という程度。同じであるということを証明するのは、実は非常に難しいのです(後述:実証と反証)。

以上、もういちどまとめると・・
-1) 帰無仮説をたてる
-2) 標本(データ)を無作為抽出する
-3) 帰無仮説を真としたときに、そのような標本が出現する確率を調べる
-4) その確率がきわめて小さいときには帰無仮説を棄却する
 確率が小さいとはいえないときは判定を保留する

母集団、帰無仮説、有意水準など、難しい言葉が出てくるのですが、これらは重要なキーワードになるので、十分理解してから先に進んでください。

''余談ですが''
新商品の開発などでは、研究当事者は、有意な差が出で仮説が棄却されることを期待しています(「結果は同じで差はありませんでした」というのは失敗を意味します)。ここには、様々な不正が入り込むスキがあります。であるがゆえに、実験結果を何らかのPRに使用する場合や、論文を書く場合は、その実験・調査が、誰が見ても不正のないものであること、また誰が、同じ実験・調査を行っても(追試)同じ結果が出ることを確かめられるように、実験の前提条件や、実験の方法を詳細に記述する必要があります。

仮説検定の詳細については、後の節で説明します。
~
~

**ベイズ統計
ベイズ統計とは18世紀にベイズによって発見された「ベイズの定理」を用いた統計手法で、20世紀半ばに発展した比較的新しい統計分野です(ここでは概説のみ)。
~

***今日の統計学
今日の統計学は大きく分けると、記述統計学、推計統計学、ベイズ統計学の3つに分けられますが、立場や考え方の違いで「頻度主義(一般的に扱われる統計)」と「ベイズ主義(ベイズ統計)」とに分けられます。頻度主義は「母数は不変で、データは変わり得る」と考えて真の値を求めますが、ベイズ主義は「得られたデータは不変で、母数は変わり得る」として推測を行います。

||頻度主義|ベイズ主義|
|母数(θ)|定数|確率変数|
|データ(x, y)|確立変数|定数|

&small(記述統計学・推計統計学:ロナルド・フィッシャーを中心に発展);
&small(ベイズ統計学:トーマス・ベイズによって理論が確立し、20世紀半ばに発展);
~

***ベイズ統計の特徴
ベイズ統計は、事前確率を元に、得られたデータから新たな確率を導出する統計手法で、従来の記述統計・推計統計(頻度主義の統計)とは大きく異なります。記述統計・推計統計では「母数は不変でデータが変わる」と考えるのに対し、ベイズ統計では「母数が変わりデータは不変である」と考えます(頻度主義の学者とベイズ主義の学者は対立しているようです)。

-記述統計:標本と母集団を同一視して、その特徴をわかりやすく表す
-推計統計:標本を分析して、母集団について推測する
-ベイズ統計:標本を必ずしも必要とせず、データ不十分でも何とか確率を導く
~

***ベイズの定理
#mathjax( P(\theta|X) = \frac{P(X|\theta)\cdot P(\theta)}{P(X)} = P(\theta) \times \frac{P(X|\theta)}{P(X)} )

-&mathjax(P(\theta|X));:事象 X が起こった状況下で事象 θ が起こる確率(事後確率)
-&mathjax(P(\theta));:事象 θ が起こる確率(事前確率 (直感的信頼))

-&mathjax(P(X|\theta));:事象 θ が起こった状況下で事象 X が起こる確率(尤度)
-&mathjax(P(X));:事象Xが起こる確率(エビデンス)
 

ベイズの定理を言葉で書くと
#mathjax(事後確率 = 事前確率 \times \frac{ある場合においての、そのデータが得られる確率}{そのデータが得られる確率})
~

***ベイズ統計の応用事例
ベイズの定理は「原因 → 結果」ではなく、「結果 → 原因」という「逆確率」を求めるもので、かつては「主観確率を扱うのは科学的ではない」とされて注目されていませんでしたが、近年ではその実用性の高さがわかり、以下のようなサービスに利用されています。
-迷惑メールの判別
-検索エンジン
-機械学習


''参考サイト:''
-https://ai-trend.jp/basic-study/bayes/bayes/
-[[Wikipedia:ベイズ統計学]]

~
~

**多変量解析(multivariate analysis)
複数の結果変数からなる多変量データを統計的に扱う手法で、その目的には大きく「予測」と「要約」の2種類があります。一般に、多変量解析は計算量が膨大になるため、コンピュータの活用が必須となります。
~

***予測の手法
独立変数と従属変数の関係を明確にし、一方の情報から他方を予測します。[[機械学習>MachineLearning]]では教師あり学習にあたります。

-独立変数が数量的で、従属変数も数量的な場合
> 重回帰分析
-独立変数が数量的で、従属変数がカテゴリ変数の場合
> 判別分析、ロジスティック回帰
-独立変数がカテゴリ変数で、従属変数が数的な場合
>数量化I類((飲酒の有/無、喫煙の有/無などを1/0で表し、◯◯病になる「確率」やを予測する・・などが数量化I類にあたります。))
-独立変数がカテゴリ変数で、従属変数もカテゴリ変数の場合
>数量化II類((男/女、年代、喫煙の有/無などから、◯◯病を発症する / しない・・などの予測をするのが数量化II類です。))
~

***要約の手法
要約の手法には、従属変数(目的変数)の概念はなく、データの種類によって手法が分かれます。[[機械学習>MachineLearning]]では教師なし学習にあたります。

-変数が数量的な場合
> 主成分分析、因子分析、クラスター分析
-変数がカテゴリーの場合
>数量化III類・コレスポンデンス分析((主成分分析と同じ目的で使う手法で変数を要約します。変数が 1/0 のデータの場合は数量化Ⅲ類、クロス集計表などの量的データの場合はコレスポンデンス分析(対応分析)といわれます。))、MDS(多次元尺度構成法)
~
~

**仮説検定

***検定手法
統計学的検定手法には、データが特定の確率分布に従うことを仮定するパラメトリックな手法と、それを前提としないノンパラメトリックな手法とがあります。

-パラメトリックな検定手法
--__[[t検定(t-test)>t-test]]__
--F 検定(F-test)
--__[[分散分析(ANOVA)>ANOVA]]__

-ノンパラメトリックな検定手法
--カイ二乗検定

パラメトリック検定では、以下3つの条件を満たしている必要があります。
-母集団が正規分布かそれに近い分布である
-各条件の母分散が等質である
-標本が母集団から無作為に抽出されている

以下、論文等でよく用いられるパラメトリック検定手法について概説します。

~

***t検定(__[[Student's t-test>t-test]]__)
検定統計量が帰無仮説の下でt分布に従うことを仮定して行う統計的検定(日本工業規格)。母集団が正規分布に従うことを仮定したパラメトリック検定の一種で、2組の標本の平均に有意差があるかどうかの検定などに用いられます。
~
-一群のt検定
母集団の平均値 μ が、特定の値 μ0 と等しいかを検定する際に使用します。

-独立2群(対応のない2群)の平均値差の検定
一つ目の母集団の平均値μ1と、二つ目の母集団の平均値μ2とが等しいか否か、つまり、μ1-μ2=0 かどうかを検定する際に使用します。

-対応のある2群の平均値差の検定
同じ平均値差の検定ですが、例えば双子のペアを集めて、一方を第1群、他方を第2群に割り当てて比較、あるいは例えば、ダイエットの効果測定のために、ダイエット前を第1群、ダイエット後を第2群として、群間比較するなど、2つの群の間に対応関係がある場合の検定です。検定力はこちらが高くなります。

参考:[[Google:t検定 事例]]
~

***F 検定(F test)
検定統計量が,帰無仮説の下でF分布に従うことを仮定して行う統計的検定(日本工業規格)。統計量F とは、2つの群の標準偏差の比で、両群とも正規分布に従う場合には、それがF 分布に従います。これを用いてF値が片側有意水準内に入るかどうかを検定するのがF検定です。

-正規分布に従う2つの群の「標準偏差が等しい」という帰無仮説の検定に用いられます。t検定の前段階で「等分散性検定」として用いられます。

-正規分布に従う複数の群(標準偏差は等しいと仮定する)において、「平均が等しい」、すなわち「同じ母集団に由来する」という帰無仮説の検定です。この方法は分散分析に用いられます。
~


***分散分析(__[[ANOVA:analysis of variance>ANOVA]]__)

比較したいグループ(水準といいます)が3つ以上の場合、変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定するのが分散分析です。観測データの変動を誤差変動と各要因と、それらの交互作用による変動に分解して、要因と交互作用の効果を判定することができます。
なお、分散分析では検定統計量がF分布に従うことを前提に検定を行ないます。

以下、A,B,Cの3社の製品の耐久性を比較する・・という話で、分散分析の概要について説明します。
&color(red){以下の用語は統計ソフトを使用する際に必要になります。データだけ集めれば、あとは統計ソフトが勝手にやってくれる・・というものではなく、正しい検定を行うには、言葉の意味を理解したうえで、いくつものデータを正しく入力する必要があります。};

-要因
データの値を変化させる原因を「要因」といいます。この場合「会社」です。要因の数は複数設定されることもあります。例えば、A,B,Cの3社の製品を、それぞれ、温暖な地域で使用した場合と、寒冷な地域で使用した場合とで比較する場合、要因は2つ。ひとつは「会社」もうひとつは「気候」です。3x2 で6種類の評価実験が必要になります。
-水準
要因を構成する条件を「水準」といいます。この場合 A、B、Cの3つです。
-被験者間計画
ひとりの被験者をひとつの水準にのみ割り当てるケース。例えばA社の製品を10人、B社製品10人、C社製品10人、全体で30人が評価する実験計画。
-被験者内計画
同じ被験者をすべての水準に割り当てる場合。例えば30人全員が、A,B,C,すべての製品を評価する実験計画。当然検定力は上がります。

これらを組み合わせて、「1要因被験者間計画」とか、「2要因被験者内計画」といった実験計画が行われます。以下も重要なキーワードです。

-主効果 main effect
特定の要因単独で有意に差が認められるときは,主効果(または単純主効果)がある・・といいます。
-交互作用 interaction
要因を組み合わせた場合の複合的な効果がある場合は、交互作用がある・・といいます。

要因が1つの場合、以下の手順で検定します。
-主効果の有無を確認します。
-主効果が有意である場合には、次に多重比較を行います。多重比較というのは、各水準間で具体的に、どれとどれに差があるのかを見極める作業です。

要因が2つ以上になった場合、検定の手順は煩雑になってきます。
-2要因の分散分析では、まず2つの要因の交互作用を検証します。
-交互作用が認められなかった場合は主効果を検定を行います。主効果が有意である場合には必要に応じて多重比較を行います。
-交互作用が認められた場合は、単純主効果の検定を行います。たとえば要因Aと要因Bの交互作用が有意である場合、要因Bの特定水準における要因Aの主効果、また要因Aの特定水準における要因Bの主効果について分析を行います。単純主効果が有意である場合には、必要に応じて多重比較を行います。 

参考:[[Google:分散分析 事例]]
~
~


**統計ツール

***Python言語
[[Python]]はさまざまな分野のアプリケーションで使われているインタープリタ型のプログラミング言語ですが、統計ツールとしてのパッケージが充実しており、統計学習における重要なツールのひとつに位置付けられます。

-__[[Python]]__
-Python 公式サイト
https://www.python.org/
-開発環境 anaconda 公式サイト
https://www.anaconda.com/
-開発環境 Google Colaboratory 公式サイト
https://colab.research.google.com
-データ解析/分析に関わるライブラリ
> [[Python#Library]]
~

***Orange
簡単なGUI操作で[[データマイニング>DataMining]]ができるオープンソースのソフトウエア。[[Python]] の開発環境 [[Anaconda>https://www.anaconda.com/]]を導入して、そこに追加すると便利です。
-__[[Orange]]__
-https://orange.biolab.si/
-https://orange.biolab.si/screenshots/
~

***GNU R(R言語)
オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。一見地味なのですが、すごく優秀なソフトで、統計関係の書籍もたくさん出ています。インストールする場合、まずR本体のインストールをして(これだけでも仕事はできます)、そのあと R-Studio のインストール、という手順になります。

-R本体
--https://cran.r-project.org/
--http://www.statistics.co.jp/reference/software_R/free_software-R.htm
-統合開発環境 R-Studio
--https://www.rstudio.com/


-Wikipedia R:https://ja.wikipedia.org/wiki/R%E8%A8%80%E8%AA%9E
-Rの使い方:https://sites.google.com/site/webtextofr/home
-R-tips:http://cse.naro.affrc.go.jp/takezawa/r-tips/r2.html

~

***Orange
簡単なGUI操作で[[データマイニング>Google:データマイニング]]ができるオープンソースのソフトウエア
[[Python]] の開発環境 [[Anaconda>https://www.anaconda.com/]]を導入して、そこに追加すると便利です。
-https://orange.biolab.si/
-https://orange.biolab.si/screenshots/

~

***エクセル統計
Excelのメニューに統計解析の手法を追加するアドインソフトです。
一般企業や官公庁むけの通常版と、学校法人等に属する学生、教職員むけのアカデミック版の2種類の価格があります。
https://bellcurve.jp/ex/
~


***SAS University Edition
高等教育機関や社会人の学習者向けに提供される無償ソフトウェアです。
PC、Mac、Linuxで利用できます。
https://www.sas.com/ja_jp/software/university-edition.html
~

***SPSS(IBM)
計画およびデータ収集から分析、レポート作成、実装までの分析プロセス全体に対応したソフトウェアの統合ファミリーです。
http://www-01.ibm.com/software/jp/marketplace/spss/


~
~
**参考

**付記

***教育効果は測れない?
例えば「投薬の効果」のようなものであれば、被験者に偏りがないよう、ランダムに振り分けて、実験群と対照群をつくることができますが(RCT:ランダム化比較実験)、''社会科学では、そもそも実験群と対照群を厳密に用意することができません''。例えば「ある教育手法の効果」を計るのに、生徒100人をランダムに振り分けて比較するということは難しく、同レベルの学校を2つ選んで比較したとしても、実験群と対照群には教師の違い他、様々な違いが存在するので、結果が当該手法の効果であるとは言い切れないのです。
例えば「投薬の効果」のようなものであれば、実験群(投薬)と対照群(偽薬)を、被験者に偏りがないよう、ランダムに振り分けてつくることができますが(RCT:ランダム化比較実験)、''社会科学では、そもそも実験群と対照群を厳密に用意することができません''。例えば「ある教育手法の効果」を計るのに、生徒100人をランダムに振り分けて比較するということは難しく、同レベルの学校を2つ選んで比較したとしても、実験群と対照群には教師の違い他、様々な違いが存在するので、結果が当該手法の効果であるとは言い切れないのです。

また、[[因果推論>Google:因果推論]]の根本問題として「同一人物の異なるケースの経過観察」は不可能です。''時を戻す''ことができれば、実施した場合としなかった場合の厳密な比較ができますが、それは現実には不可能です。
また、[[因果推論>Google:因果推論]]の根本問題として「同一人物の異なるケースの経過観察」は不可能です。''時を戻す''ことができれば「実施した場合」と「実施しなかった場合」の厳密な比較ができますが、それは現実には不可能です。

ちなみに、人と社会を相手にして「因果効果を測る」という、この難しい課題に取り組む手法として、以下のようなマッチング手法((マッチング手法とは、''変数の統制が不可能な社会科学分野''において、疑似的に実験研究と同様の状態を作り出す手法で、因果効果を推定するための重要な手法だと言われます。))があります。
-[[傾向スコアマッチング(PSM:Propensity Score Matching)>Google:傾向スコア]]

// 参考文献:日本の公教育
~

***予言の自己成就・予言の自己破綻
統計データの分析結果は、社会現象の予測については、必ずしも有効な手段ではありません。社会学や社会心理学でよく話題になる「予言の自己成就」と「予言の自己破綻」について知っておくことが必要です。それぞれ身近な事例で説明します。

-''予言の自己成就''
「A高校とB高校では、A高校の方が教育の質が高い」という予言が流布したとすると、実際には教育の質に差がなかったとしても、A高校の方に高学力の志願者が集中し、結果「質が高い」という予測が成就する。これは教育の質に差がなくても、結果としてそう見える・・という現象です。

-''予言の自己破綻''
「A高校とB高校では、A高校の志願者が増える」という予言が流布したとすると、競争倍率の高さで不合格になることを回避するために、B高校の志願者が増える・・予言とは逆のことが起きる現象です。
~

***実証主義と反証主義
なぜ「帰無仮説を棄却する」などいうまわりりくどい論理を使うか。これは仮説検定だけではなく、科学的な方法論一般にみられるものです。
なぜ「帰無仮説を棄却する」などいうまわりりくどい論理を使うのか。これは仮説検定だけではなく、科学的な方法論一般にみられるものです。

たとえば「青い鳥が存在する」という「特称命題」は、それを一匹見つければ証明できますが、「すべての鳥は青い」という「全称命題」を実証するためには、地球上のすべての鳥を観察して、全部青いことを示さなければなりません。これは不可能です。しかしこれを反証するためには、青くない鳥を一匹見つけるだけで済むのです。実証と反証では、圧倒的に反証の方がしやすいのです。
~
~

**APPENDIX

***関連ページ
-[[Statistics]]
--[[Statistics/Descriptive]]
--[[Statistics/Inferential]]
--[[Statistics/Probability]]
--[[Statistics/UniformDistribution]]
--[[Statistics/BinomialDistribution]]
--[[Statistics/PoissonDistribution]]
--[[Statistics/NormalDistribution]]
--[[Statistics/ExponentialDistribution]]
--[[Statistics/HypothesisTesting]]
--[[Statistics/Bayesian]]
--[[Statistics/MultivariateAnalysis]]

-[[DataScience]]
-[[ArtificialIntelligence]]
-[[ArtificialIntelligence/Links]]
-[[Data]]
-[[Statistics]]
-[[DataVisualization]]
-[[MachineLearning]]
--[[DecisionTree]]
--[[k-means]]
--[[LinearRegression]]
--[[LogisticRegression]]
--[[MultipleCorrespondenceAnalysis>Statistics/MCA]]
--[[NeuralNetwork]]
--[[PrincipalComponentAnalysis]]
--[[PrincipalComponentAnalysis>Statistics/PCA]]
--[[RandomForest]]
--[[SupportVectorMachine]]
-[[DataMining]]
-[[Python]]
--[[Pandas]]
--[[scikit-learn]]
-[[GoogleColaboratory]]
-[[Orange]]
-[[OpenData]]
~

***参考になるサイト
-統計Web:https://bellcurve.jp/statistics/course/
-統計学習補助教材:https://www.stat.go.jp/teacher/comp-learn-04.html
~
~
~