Statistics のバックアップ(No.5)

Statistics

実験研究に関わる統計的手法について

このページでは、デザイン研究に必要となる「実験」や「調査」について、その統計的手法に関する記事をまとめています。

参考：https://to-kei.net/

↑

はじめに
母集団と標本
変数と尺度
独立変数と従属変数
記述統計
推測統計
ベイズ統計
相関関係と因果関係
- データ解析が見出すのは「相関」
- 誤謬に注意
多変量解析
統計ツール
付記
APPENDIX
- 関連ページ
- 参考になるサイト

↑

データと尺度

統計的な処理では、一般にデータを以下のように分類します。

↑

質的データ（定性的データ, カテゴリーデータ )

名義尺度（nominal scale）同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
例）血液型（Ａ型：1，Ｂ型：2，･･･，O型：4）

順序尺度（ordinal scale）同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
例）ミネラルウォーターの売上BEST10（商品を順に１位、２位、３位・・と割り当てる場合など）、満足度（非常によい：4，よい：3，悪い：2，非常に悪い：1　などで、項目間の間隔が不均等とみなされる場合）

↑

量的データ ( 定量的データ, 離散データ / 連続データ)

間隔尺度（interval scale）同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
例）知能指数、摂氏の温度、満足度（非常によい：4，よい：3，悪い：2，非常に悪い：1　などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値４と３の差と評定値３と３の差が等間隔とみななされる場合）*1。

比率尺度（ratio scale）同一性・順序性・加法性・等比性
原点（０）が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
例）身長、体重、金額、絶対温度など

↑

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか（因果関係）、あるいは、「何か」と「別の何か」が連動するか（相関関係）・・など、''物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

独立変数　実験者が操作する変数（原因）。
従属変数　測定される変数（結果）。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という２者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。

↑

独立変数について

さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、６角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で２次変数をコントロールする必要があります。

２次変数を除去する
可能であればこれがもっとも簡単です。いわゆる実験室というのは、可能な限りこの外的要因を除去したクリーンな場所といえます。
２次変数を恒常に保つ
除去できないのであれば、次はそれをすべてに対して同一に、あるいはランダムに配分することで、独立変数の効果のみを捉えます。
独立変数に格上げする
明らかにその要因が結果に影響するという場合、これも重要な変数だということになります。であれば、それを独立変数に格上げして、その効果も測るというのが賢明です。その場合、２つの独立変数の組み合わせ自体が結果に大きく影響する場合もあります（これを交互作用といいます）。

↑

従属変数について

問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて５段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。
　一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。

↑

類似の表現

独立変数と従属変数という用語は、統計ソフトやライブラリーによって、異なる用語が使われる場合があります。以下いずれも同様の用語セットです。

$x$	$y$
独立変数（independent variable）	従属変数（dependent variable）
説明変数（explanatory variable）	目的変数（target variable）
特徴量（feature / attribute）	ラベル（label）
データ（data）	ターゲット（target）
予測変数（predictor variable）	応答変数（response variable）
入力（input）	出力（output）

↑

相関関係と因果関係

私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」、「気温が上がると清涼飲料水の売上が上がる」など、「ああであればこうである」という相関関係（共変動）というタイプのものと、「ああすればこうなる」という因果関係のタイプのものとがあります。

↑

データ解析が見出すのは「相関」

一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係（共変動）というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。

経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない

Edward Tufte

↑

誤謬に注意

統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*2がないか注意深く検討することが必要です。

擬似相関（第３の要因が共通原因となっている）
```
「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関
```
経済的に豊かであることが両者の共通要因
```
「小学生の身長」と「論理的思考力」に正の相関
```
学年が上がることが両者の共通要因

因果関係の逆転
```
交番の数が多い地域ほど、犯罪件数が多い
```
犯罪件数が多い地域だから交番が多く設置された
```
猫が顔を洗うと雨が降る
```
雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発

偶然
```
スマートフォンの普及が、地球温暖化を促進
```
テクノロジーの進歩と経済活動の拡大という共通の要因、あるいは偶然

↑

記述統計

収集したデータを要約（平均、分散などを計算）して対象の特徴・性質を語る統計のことで、２変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、後述する推計統計より古くからあるもので、標本と母集団を同一視して考えます。推計統計の登場後は、古典統計といわれるようにもなりました。

なお、以下の各事項に記載された関数式は Excel における表記です。

↑

代表値（measure of central tendency）

データの分布の特徴を表す値

平均（mean）
データの総和をデータ数で割った値。もっとも一般的な代表値。
```
=AVERAGE(範囲)
```
$\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$

中央値（median）
データの大きさの順に並べたときにちょうど中央にくる値。
```
=MEDIAN(範囲)　で求まります。
```

最頻値（mode）
度数分布において最も高い度数を示す値。
```
=MODE(範囲)　で求まります。
```

↑

散布度 (dispersion)

データの散らばりぐあいを表す値

分散（population variance）
偏差平方和をデータ数で割った値。対象を母集団とする前提です。
```
=VAR.P(範囲)
```
$s^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}$

標準偏差（standard deviation）
標準偏差は、分散のルートをとった値。引数を母集団全体であると見なして、母集団の標準偏差を求めます。
```
=STDEV.P(範囲)
```
$s = \sqrt{s^{2}}$

平均偏差
偏差（平均からの差）の絶対値の平均。データ全体の平均値に対する個々のデータの絶対偏差の平均を求めます。
```
=AVEDEV(範囲)
```
$m d = \frac{1}{n} \sum_{i = 1}^{n} | x_{i} - \bar{x} |$

四分位点
四分位点とは、データを昇順に並べたときに、25%, 75% の位置にくる値です。ボックスプロット（箱髭図）では、箱の上辺・底辺がこれに該当します。

↑

共分散

共分散とは「国語の点数 X」と「数学の点数 Y」のような２組の対応するデータについて「X の偏差 × Y の偏差」の平均を取った値です。

s_{x y} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})

共分散の値から、２組のデータについて以下のような説明ができます。

共分散の値が正：X が大きいときに Y も大きくなる傾向がある
共分散の値が 0： X と Y には関係がない
共分散の値が負：X が大きくなると Y が小さくなる傾向がある

↑

相関係数

2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。

スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。

=CORREL（範囲1, 範囲2）
注）PEARSON（範囲1, 範囲2）でも同じ結果が得られます。

r = \frac{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sqrt{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} \cdot \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}}} = \frac{s_{x y}}{s_{x} \cdot s_{y}}

言葉で書く方がわかりやすいかも・・

r = \frac{(x と y の 共 分 散)}{(x の 標 準 偏 差) \times (y の 標 準 偏 差)}

で、数値からわかる２つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。

$r$ は -1.0 から +1.0 までのいずれかの値をとる
$| r |$ が 1.0 に近いほど相関が強く、0に近いほど相関が弱い
レポート等で相関の有無について語る場合、一般的な目安は以下です。
- | r | =　0.7～1.0　　かなり強い相関がある
- | r | =　0.4～0.7　　やや相関あり
- | r | =　0.2～0.4　　弱い相関あり
- | r | =　0～0.2　　　ほとんど相関なし
$r$ が正の場合は「正の相関」、負の場合は「負の相関（逆の相関）がある

注意：相関係数が０でも「何らかの関係がある」場合があります。
たとえば、２次元の散布図で分布がV字型になる場合、相関は０に近くなりますが、これは、左のグループと右のグループに分けることで、それぞれのグループにおいて負の相関と、正の相関がある・・ということになります。相関をみる場合は、散布図で状態を目視して状況を見極めることが重要です。

参考：GoogleImage:相関係数

↑

クロス集計

２つないし３つの情報に限定して、データの分析や集計を行なう方法。縦軸と横軸に項目を割り振って、項目間の相互関係を視覚的に見やすくしたものです。アンケート調査の手法としては、ポピュラーなものの一つです。
参考：GoogleImage:クロス集計

↑

推測統計

無作為抽出されたデータから母集団の特徴・性質を推定する統計のことで、推計統計とも言います。記述統計と異なり、推測統計では、集められたデータは大きな母集団の中の小さな標本に過ぎないと考えます。

↑

母集団（population）と標本（sample）

母集団：考察の対象となる特性をもつすべてのものの集団（日本工業規格）
標　本：一つ以上の抽出単位からなる母集団の部分集合（日本工業規格）

一般に母集団というものは観念的な存在で、現実に観測できるのは標本です。例えば「視聴率」の調査に関して言えば、「全世帯」が母集団で、「調査世帯」が標本です。

100人に聞きました。AとBどっちが好き・・
＞「Aが好き」と答えた人が70人ということで、
Aが好きな人が多いことがわかりました。

という話は、それはそれでいいのですが、この結果をもって「日本人はAが好き」とか「人間というものはAが好き」とは断言できません。

一般に多くの実験研究が、標本調査をもって、それを一般論に拡大しています。実は、これはあくまでも「確率的にそうである可能性が高い」という話で、ひょっとしたら間違いかもしれません。ただ、実際には母集団をすべて調べるわけにはいかないので、標本から得られる統計量を根拠に、「ああであればこうである」といった記述がなされているのです。

推測統計というのは、文字通り「推測」。あくまでも確率的な問題として、物事の関係を科学的に語るための統計手法です。

↑

母数

推測統計では母集団の特性をあらわす数を母数（parameter）と言います。
推測される母数には、以下のようなものがあります。

母平均： $μ$
母分散： $σ^{2}$
母標準偏差： $σ$

↑

推測統計における統計量

推測統計では「標本を要約し、母集団の母数の推測に用いられるもの」を統計量(statistic)と言います。標本として得られたデータに対しで記述統計と同じ計算方法で算出されるものです。

標本平均： $\bar{x}$
標本分散： $s^{2}$
標本標準偏差： $s$

↑

推測統計における母数の推定量

平均（＝標本平均）
一般に、標本平均の値をそのまま母平均の推定量とします。
```
=AVERAGE(範囲)
```
$μ = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$

不偏分散（unbiased variance）
不偏分散*3は、標本の偏りを除いて母集団の分散を推定した値（母分散の推定量）です。一般に標本分散（の期待値）は母分散に比べて小さくなるので、それをそのまま推定に使うのではなく「偏差平方和をn - 1で割った値」をもって推定します*4。
```
=VAR.S(範囲)
```
$u^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}$

不偏標準偏差（Unbiased standard deviation）
不偏分散のルートをとった値。引数を標本と見なし、標本に基づく母集団の標準偏差の推定値を求めます。
```
=STDEV.S(範囲)
```
$u = \sqrt{u^{2}}$

付記
言葉は似ていても意味が異なるので、母分散 $σ^{2}$ 、標本分散 $s^{2}$ 、不偏分散 $u^{2}$ など、区別のために異なる記号を用いるのが通例です。

↑

統計的推定

点推定
母集団が正規分布であると想定して、推定平均と推定標準偏差を求めます。
区間推定
点推定におけるパラメータのばらつきや信頼区間を示すことで、例えば「95%の確率で、◯◯の値は、a から b の間である」といった推定を行うものです。95%信頼区間、99%信頼区間などが用いられます。
仮説検定
区間推定値から、母集団が特定の分布に従っているかどうかを検証すること。これはとても重要な話になるので、以下でさらに詳しく展開します。

↑

仮説検定の考え方

例えば、新型の製品と従来型の製品を比較してデザインの良し悪しを評価する場合、「ユーザーの評価に違いがあるのか」ということを統計的に（科学的に）証明することが求められます。デザイナーは当然「新型の評価が高い」という結果が出て欲しいし、またそれを統計的に証明できればうれしいわけです。

すべてのユーザーに「どっちがいい？」と尋ねることができれば確実ですが、大量に生産されて市場に出回る商品では、そんな調査はできません。実際には何人かの被験者に協力してもらって「母集団の反応を推定する」ことになります。

ならば「新型の評価平均と従来型の評価平均を比較すればいいではないか」。話はとても簡単に思えるのですが、実はそれだけでは、科学的に両者に差がある・・とは言えないのです。ここが直感的には難しい。

サンプル（被験者）の平均値がどの程度母集団（例えば日本国民全員）の傾向を物語ることができるのか。本当に差があるのか、それとも誤差としてありえる範囲の値なのか、これを確率の問題として、統計的に処理する必要があるのです。

で、ここで一旦ややこしくなるのですが、仮説検定では「新型は旧型とに差はない」という逆の仮説（帰無仮説といいます）*5を立てて話を進めます。

次に、帰無仮説から想定される値と、実際の調査で得られた値が一致する確率を求めます。これを p値といいます。

この p値が予め決めた基準（有意水準といって 5％か 1％が一般的）よりも小さい値であれば、「帰無仮説のもとでは、めったに起こらないことが起きた」と考えて、仮説を棄却（否定）します。つまり「新型の評価は旧型と差がある」と結論するわけです。がんばったデザイナーには嬉しい結果です。かなりまわりくどいやりかたですが、これが仮説検定の考え方です。

一方、この確率が著しく小さいと言えない場合は、帰無仮説は棄却できず、結論を保留します。気をつけたいのは、この結果が「新型と旧型が同じ」ということを意味するものではないということです。「有意差がない」＝「等しい」ではありません。あくまで「差があるとは言えない」という程度。同じであるということを証明するのは、実は非常に難しいのです（後述：実証と反証）。

以上、流れをまとめると・・

1) 帰無仮説をたてる
2) 標本（データ）を無作為抽出する
3) 帰無仮説を真としたときに、そのような標本が出現する確率を調べる
4) その確率がきわめて小さいときには帰無仮説を棄却する
　確率が小さいとはいえないときは判定を保留する

母集団、帰無仮説、有意水準など、難しい言葉が出てくるのですが、これらは重要なキーワードになるので、十分理解してから先に進んでください。

余談ですが
新商品の開発などでは、研究当事者は、有意な差が出で仮説が棄却されることを期待しています。「有意な差は見られませんでした」というのは失敗を意味します。ここに様々な不正が入り込むスキがあります。であるがゆえに、実験結果を何らかのPRに使用する場合や、論文を書く場合は、その実験・調査が、誰が見ても不正のないものであること、また誰が、同じ実験・調査を行っても（追試）同じ結果が出ることを確かめられるように、実験の前提条件や、実験の方法を詳細に記述する必要があります。

仮説検定の詳細については、後の節で説明します。

↑

ベイズ統計について

ベイズ統計とは18世紀にベイズによって発見された「ベイズの定理」を用いた統計手法で、20世紀半ばに発展した比較的新しい統計分野です。

↑

今日の統計学

今日の統計学は大きく分けると、記述統計学、推計統計学、ベイズ統計学の３つに分けられますが、立場や考え方の違いで「頻度主義（一般的に扱われる統計）」と「ベイズ主義（ベイズ統計）」とに分けられます。頻度主義は「母数は不変で、データは変わり得る」と考えて真の値を求めますが、ベイズ主義は「得られたデータは不変で、母数は変わり得る」として推測を行います。

	頻度主義	ベイズ主義
母数（θ）	定数	確率変数
データ（x, y）	確立変数	定数

記述統計学・推計統計学：ロナルド・フィッシャーを中心に発展
ベイズ統計学：トーマス・ベイズによって理論が確立し、20世紀半ばに発展

↑

ベイズ統計の特徴

ベイズ統計は、事前確率を元に、得られたデータから新たな確率を導出する統計手法で、従来の記述統計・推計統計（頻度主義の統計）とは大きく異なります。記述統計・推計統計では「母数は不変でデータが変わる」と考えるのに対し、ベイズ統計では「母数が変わりデータは不変である」と考えます（頻度主義の学者とベイズ主義の学者は対立しているようです）。

記述統計：標本と母集団を同一視して、その特徴をわかりやすく表す
推計統計：標本を分析して、母集団について推測する
ベイズ統計：標本を必ずしも必要とせず、データ不十分でも何とか確率を導く

↑

ベイズの定理

P (θ | X) = \frac{P (X | θ) \cdot P (θ)}{P (X)} = P (θ) \times \frac{P (X | θ)}{P (X)}

$P (θ | X)$ ：事象 X が起こった状況下で事象 θ が起こる確率（事後確率）
$P (θ)$ ：事象 θ が起こる確率（事前確率（直感的信頼））

$P (X | θ)$ ：事象 θ が起こった状況下で事象 X が起こる確率（尤度）
$P (X)$ ：事象Xが起こる確率（エビデンス）

ベイズの定理を言葉で書くと

事 後 確 率 = 事 前 確 率 \times \frac{あ る 場 合 に お い て の 、 そ の デ ー タ が 得 ら れ る 確 率}{そ の デ ー タ が 得 ら れ る 確 率}

↑

ベイズ統計の応用事例

ベイズの定理は「原因 → 結果」ではなく、「結果 → 原因」という「逆確率」を求めるもので、かつては「主観確率を扱うのは科学的ではない」とされて注目されていませんでしたが、近年ではその実用性の高さがわかり、以下のようなサービスに利用されています。

迷惑メールの判別
検索エンジン
機械学習

参考サイト：

↑

多変量解析（multivariate analysis）

複数の結果変数からなる多変量データを統計的に扱う手法で、その目的には大きく「予測」と「要約」の２種類があります。一般に、多変量解析は計算量が膨大になるため、コンピュータの活用が必須となります。

↑

予測の手法

独立変数と従属変数の関係を明確にし、一方の情報から他方を予測します。機械学習では教師あり学習にあたります。

独立変数が数量的で、従属変数も数量的な場合
＞重回帰分析
独立変数が数量的で、従属変数がカテゴリ変数の場合
＞判別分析、ロジスティック回帰
独立変数がカテゴリ変数で、従属変数が数的な場合
＞数量化I類*6
独立変数がカテゴリ変数で、従属変数もカテゴリ変数の場合
＞数量化II類*7

↑

要約の手法

要約の手法には、従属変数（目的変数）の概念はなく、データの種類によって手法が分かれます。機械学習では教師なし学習にあたります。

変数が数量的な場合
＞主成分分析、因子分析、クラスター分析
変数がカテゴリーの場合
＞数量化III類・コレスポンデンス分析*8、MDS（多次元尺度構成法）

↑

仮説検定

↑

検定手法

統計学的検定手法には、データが特定の確率分布に従うことを仮定するパラメトリックな手法と、それを前提としないノンパラメトリックな手法とがあります。

パラメトリックな検定手法
- ｔ検定（t-test）?
- F 検定（F-test）
- 分散分析（ANOVA）?

ノンパラメトリックな検定手法
- カイ二乗検定

パラメトリック検定では、以下３つの条件を満たしている必要があります。

母集団が正規分布かそれに近い分布である
各条件の母分散が等質である
標本が母集団から無作為に抽出されている

以下、論文等でよく用いられるパラメトリック検定手法について概説します。

↑

ｔ検定（ Student's t-test>t-test ）

検定統計量が帰無仮説の下でｔ分布に従うことを仮定して行う統計的検定（日本工業規格）。母集団が正規分布に従うことを仮定したパラメトリック検定の一種で、２つの群の平均に有意差があるかどうかの検定に用いられます。

ページを独立させました。＞ t-test?

↑

F 検定（F test）

検定統計量が，帰無仮説の下でF分布に従うことを仮定して行う統計的検定(日本工業規格)。統計量F とは、2つの群の標準偏差の比で、両群とも正規分布に従う場合には、それがF 分布に従います。これを用いてF値が片側有意水準内に入るかどうかを検定するのがF検定です。

正規分布に従う2つの群の「標準偏差が等しい」という帰無仮説の検定に用いられます。ｔ検定の前段階で「等分散性検定」として用いられます。

正規分布に従う複数の群（標準偏差は等しいと仮定する）において、「平均が等しい」、すなわち「同じ母集団に由来する」という帰無仮説の検定です。この方法は分散分析に用いられます。

↑

分散分析（ ANOVA：analysis of variance ）

比較したいグループ（水準）が３つ以上の場合、変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定するのが分散分析です。

ページを独立させました。＞ ANOVA?

↑

統計ツール

↑

Python言語

Pythonはさまざまな分野のアプリケーションで使われているインタープリタ型のプログラミング言語ですが、統計ツールとしてのパッケージが充実しており、統計学習における重要なツールのひとつに位置付けられます。

Python 公式サイト
https://www.python.org/
開発環境 anaconda 公式サイト
https://www.anaconda.com/
開発環境 Google Colaboratory 公式サイト
https://colab.research.google.com
データ解析／分析に関わるライブラリ
＞ Python#Library

↑

GNU R（R言語）

オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。一見地味なのですが、すごく優秀なソフトで、統計関係の書籍もたくさん出ています。インストールする場合、まずR本体のインストールをして（これだけでも仕事はできます）、そのあと R-Studio のインストール、という手順になります。

R本体
- https://cran.r-project.org/
- http://www.statistics.co.jp/reference/software_R/free_software-R.htm
統合開発環境 R-Studio
- https://www.rstudio.com/

Wikipedia R：https://ja.wikipedia.org/wiki/R%E8%A8%80%E8%AA%9E
Rの使い方：https://sites.google.com/site/webtextofr/home
R-tips：http://cse.naro.affrc.go.jp/takezawa/r-tips/r2.html

↑

Orange

簡単なGUI操作でデータマイニングができるオープンソースのソフトウエア
Python の開発環境 Anacondaを導入して、そこに追加すると便利です。

↑

エクセル統計

Excelのメニューに統計解析の手法を追加するアドインソフトです。
一般企業や官公庁むけの通常版と、学校法人等に属する学生、教職員むけのアカデミック版の2種類の価格があります。
https://bellcurve.jp/ex/

↑

SAS University Edition

高等教育機関や社会人の学習者向けに提供される無償ソフトウェアです。
PC、Mac、Linuxで利用できます。
https://www.sas.com/ja_jp/software/university-edition.html

↑

SPSS(IBM)

計画およびデータ収集から分析、レポート作成、実装までの分析プロセス全体に対応したソフトウェアの統合ファミリーです。
http://www-01.ibm.com/software/jp/marketplace/spss/

↑

参考

↑

教育効果は測れない?

例えば「投薬の効果」のようなものであれば、被験者に偏りがないよう、ランダムに振り分けて、実験群と対照群をつくることができますが（RCT：ランダム化比較実験）、社会科学では、そもそも実験群と対照群を厳密に用意することができません。例えば「ある教育手法の効果」を計るのに、生徒100人をランダムに振り分けて比較するということは難しく、同レベルの学校を２つ選んで比較したとしても、実験群と対照群には教師の違い他、様々な違いが存在するので、結果が当該手法の効果であるとは言い切れないのです。

また、因果推論の根本問題として「同一人物の異なるケースの経過観察」は不可能です。時を戻すことができれば、実施した場合としなかった場合の厳密な比較ができますが、それは現実には不可能です。

ちなみに、人と社会を相手にして「因果効果を測る」という、この難しい課題に取り組む手法として、以下のようなマッチング手法*9があります。

傾向スコアマッチング（PSM:Propensity Score Matching）

↑

予言の自己成就・予言の自己破綻

統計データの分析結果は、社会現象の予測については、必ずしも有効な手段ではありません。社会学や社会心理学でよく話題になる「予言の自己成就」と「予言の自己破綻」について知っておくことが必要です。それぞれ身近な事例で説明します。

予言の自己成就
「A高校とB高校では、A高校の方が教育の質が高い」という予言が流布したとすると、実際には教育の質に差がなかったとしても、A高校の方に高学力の志願者が集中し、結果「質が高い」という予測が成就する。これは教育の質に差がなくても、結果としてそう見える・・という現象です。

予言の自己破綻
「A高校とB高校では、A高校の志願者が増える」という予言が流布したとすると、競争倍率の高さで不合格になることを回避するために、B高校の志願者が増える・・予言とは逆のことが起きる現象です。

↑

実証主義と反証主義

なぜ「帰無仮説を棄却する」などいうまわりりくどい論理を使うか。これは仮説検定だけではなく、科学的な方法論一般にみられるものです。

たとえば「青い鳥が存在する」という「特称命題」は、それを一匹見つければ証明できますが、「すべての鳥は青い」という「全称命題」を実証するためには、地球上のすべての鳥を観察して、全部青いことを示さなければなりません。これは不可能です。しかしこれを反証するためには、青くない鳥を一匹見つけるだけで済むのです。実証と反証では、圧倒的に反証の方がしやすいのです。

↑

APPENDIX

↑