Statistics

母集団の状態を推測するために「抽出」された一部の集団のことを「標本」といいます。関心の対象は母集団なので理想は全数調査ですが、多くの場合、母集団は非常に大きいだけでなく時間とともに変動する存在で、完全に把握することはできません。そこで母集団から抽出した標本に対して統計的解析を行なって母集団を予測するというのが、統計の標準的な手法＝推測統計となります。

↑

標本サイズと標本数

この２つの言葉は似て非なるものなので、注意が必要です。

標本サイズ（サンプルサイズ）
標本（サンプル）に含まれる要素の数。例えば、100人に対して行ったアンケートであれば、標本サイズは 100。 n = 100 などと記載します。
標本数（サンプル数）
標本（サンプル）自体の数。例えば、月〜金まで、毎日30人ずつにアンケートを行って、月曜の分（n = 30）標本A、火曜の分を標本Bなどとした場合、標本数は月〜金で５となります。

↑

変数と尺度

↑

変数

統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績（点数）などは変数です。

データが身長だけの場合を「１変数のデータ」、身長と体重の２つを含むデータであれば「２変数のデータ」と言います。
変数の数を次元と呼ぶこともあります。例えば、英語の得点と数学の得点、２つのデータがあれば、横軸を英語、縦軸を数学とした２次元の平面上に個々のデータをプロットすることができます。３次元（３変数）までであれば、変数間の相関を視覚的に把握することができます*1。
変数は、量的変数と質的変数の大きく２つに分類されます。
- 量的変数：身長や成績のように変数が数値で表されるもの
- 質的変数：性別、所属学科のように変数がカテゴリとして表されるもの

↑

量的変数 ( 定量的データ, 離散データ / 連続データ)

比率尺度（ratio scale）同一性・順序性・加法性・等比性
原点（０）が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
例）身長、体重、金額、絶対温度など

間隔尺度（interval scale）同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
例）知能指数、摂氏の温度、満足度（非常によい：4，よい：3，悪い：2，非常に悪い：1　などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値４と３の差と評定値３と３の差が等間隔とみななされる場合）*2。

↑

質的変数（定性的データ, カテゴリーデータ )

順序尺度（ordinal scale）同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
例）ミネラルウォーターの売上BEST10（商品を順に１位、２位、３位・・と割り当てる場合など）、満足度（非常によい：4，よい：3，悪い：2，非常に悪い：1　などで、項目間の間隔が不均等とみなされる場合）

名義尺度（nominal scale）同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
例）血液型（Ａ型：1，Ｂ型：2，･･･，O型：4）

↑

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか（因果関係）、あるいは、「何か」と「別の何か」が連動するか（相関関係）・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

独立変数　実験者が操作する変数（原因）。
従属変数　測定される変数（結果）。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という２者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。

↑

独立変数について

さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、６角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で２次変数をコントロールする必要があります。

２次変数を除去する
可能であればこれがもっとも簡単です。いわゆる実験室というのは、可能な限りこの外的要因を除去したクリーンな場所といえます。
２次変数を恒常に保つ
除去できないのであれば、次はそれをすべてに対して同一に、あるいはランダムに配分することで、独立変数の効果のみを捉えます。
独立変数に格上げする
明らかにその要因が結果に影響するという場合、これも重要な変数だということになります。であれば、それを独立変数に格上げして、その効果も測るというのが賢明です。その場合、２つの独立変数の組み合わせ自体が結果に大きく影響する場合もあります（これを交互作用といいます）。

↑

従属変数について

問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて５段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。
　一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。

↑

類似の表現

独立変数と従属変数という用語は、統計ソフトやライブラリーによって、異なる用語が使われる場合があります。以下いずれも同様の用語セットです。

\(x\)	\(y\)
独立変数（independent variable）	従属変数（dependent variable）
説明変数（explanatory variable）	目的変数（target variable）
特徴量（feature / attribute）	ラベル（label）
データ（data）	ターゲット（target）
予測変数（predictor variable）	応答変数（response variable）
入力（input）	出力（output）

↑

記述統計

＞ページを独立させました。Statistics/Descriptive

↑

推測統計

＞ページを独立させました。Statistics/Inferential

↑

ベイズ統計

＞ページを独立させました。Statistics/Bayesian

↑

相関関係と因果関係

私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」など「ああであればこうである」という相関関係（共変動）にあるものと、「気温が上がると清涼飲料水の売上が上がる」など「ああすればこうなる」という因果関係にあるものとがあります。

↑

データ解析が見出すのは「相関」

一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係（共変動）というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。

経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない

Edward Tufte

↑

誤謬に注意

統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*3がないか注意深く検討することが必要です。

擬似相関（第３の要因が共通原因となっている）
```
「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関
```
経済的に豊かであることが両者の共通要因
```
「小学生の身長」と「論理的思考力」に正の相関
```
学年が上がることが両者の共通要因

因果関係の逆転
```
交番の数が多い地域ほど、犯罪件数が多い
```
犯罪件数が多い地域だから交番が多く設置された
```
猫が顔を洗うと雨が降る
```
雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発

偶然
```
スマートフォンの普及が、地球温暖化を促進
```
テクノロジーの進歩と経済活動の拡大という共通の要因、あるいは偶然

↑

多変量解析

＞ページを独立させました。Statistics/MultivariateAnalysis

↑

統計ツール

↑

Python言語

Pythonはさまざまな分野のアプリケーションで使われているインタープリタ型のプログラミング言語ですが、統計ツールとしてのパッケージが充実しており、統計学習における重要なツールのひとつに位置付けられます。

Python
Python 公式サイト
https://www.python.org/
開発環境 anaconda 公式サイト
https://www.anaconda.com/
開発環境 Google Colaboratory 公式サイト
https://colab.research.google.com
データ解析／分析に関わるライブラリ
＞ Python#Library

↑

Orange

簡単なGUI操作でデータマイニングができるオープンソースのソフトウエア。Python の開発環境 Anacondaを導入して、そこに追加すると便利です。

↑

GNU R（R言語）

オープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。一見地味なのですが、すごく優秀なソフトで、統計関係の書籍もたくさん出ています。インストールする場合、まずR本体のインストールをして（これだけでも仕事はできます）、そのあと R-Studio のインストール、という手順になります。

R本体
- https://cran.r-project.org/
- http://www.statistics.co.jp/reference/software_R/free_software-R.htm
統合開発環境 R-Studio
- https://www.rstudio.com/

Wikipedia R：https://ja.wikipedia.org/wiki/R%E8%A8%80%E8%AA%9E
Rの使い方：https://sites.google.com/site/webtextofr/home
R-tips：http://cse.naro.affrc.go.jp/takezawa/r-tips/r2.html

↑

エクセル統計

Excelのメニューに統計解析の手法を追加するアドインソフトです。
一般企業や官公庁むけの通常版と、学校法人等に属する学生、教職員むけのアカデミック版の2種類の価格があります。
https://bellcurve.jp/ex/

↑

SAS University Edition

高等教育機関や社会人の学習者向けに提供される無償ソフトウェアです。
PC、Mac、Linuxで利用できます。
https://www.sas.com/ja_jp/software/university-edition.html

↑

SPSS(IBM)

計画およびデータ収集から分析、レポート作成、実装までの分析プロセス全体に対応したソフトウェアの統合ファミリーです。
http://www-01.ibm.com/software/jp/marketplace/spss/

↑

付記

↑

教育効果は測れない?

例えば「投薬の効果」のようなものであれば、実験群（投薬）と対照群（偽薬）を、被験者に偏りがないよう、ランダムに振り分けてつくることができますが（RCT：ランダム化比較実験）、社会科学では、そもそも実験群と対照群を厳密に用意することができません。例えば「ある教育手法の効果」を計るのに、生徒100人をランダムに振り分けて比較するということは難しく、同レベルの学校を２つ選んで比較したとしても、実験群と対照群には教師の違い他、様々な違いが存在するので、結果が当該手法の効果であるとは言い切れないのです。

また、因果推論の根本問題として「同一人物の異なるケースの経過観察」は不可能です。時を戻すことができれば「実施した場合」と「実施しなかった場合」の厳密な比較ができますが、それは現実には不可能です。

ちなみに、人と社会を相手にして「因果効果を測る」という、この難しい課題に取り組む手法として、以下のようなマッチング手法*4があります。

傾向スコアマッチング（PSM:Propensity Score Matching）

↑

予言の自己成就・予言の自己破綻

統計データの分析結果は、社会現象の予測については、必ずしも有効な手段ではありません。社会学や社会心理学でよく話題になる「予言の自己成就」と「予言の自己破綻」について知っておくことが必要です。それぞれ身近な事例で説明します。

予言の自己成就
「A高校とB高校では、A高校の方が教育の質が高い」という予言が流布したとすると、実際には教育の質に差がなかったとしても、A高校の方に高学力の志願者が集中し、結果「質が高い」という予測が成就する。これは教育の質に差がなくても、結果としてそう見える・・という現象です。

予言の自己破綻
「A高校とB高校では、A高校の志願者が増える」という予言が流布したとすると、競争倍率の高さで不合格になることを回避するために、B高校の志願者が増える・・予言とは逆のことが起きる現象です。

↑

実証主義と反証主義

なぜ「帰無仮説を棄却する」などいうまわりりくどい論理を使うのか。これは仮説検定だけではなく、科学的な方法論一般にみられるものです。

たとえば「青い鳥が存在する」という「特称命題」は、それを一匹見つければ証明できますが、「すべての鳥は青い」という「全称命題」を実証するためには、地球上のすべての鳥を観察して、全部青いことを示さなければなりません。これは不可能です。しかしこれを反証するためには、青くない鳥を一匹見つけるだけで済むのです。実証と反証では、圧倒的に反証の方がしやすいのです。

↑

APPENDIX

↑

参考になるサイト

統計Web：https://bellcurve.jp/statistics/course/
統計学習補助教材：https://www.stat.go.jp/teacher/comp-learn-04.html

Statistics

Statistics

CONTENTS

はじめに

統計分析の目的

統計モデル

記述統計と推測統計

母集団と標本

母集団（Population）

標本（Sample）

標本サイズと標本数

変数と尺度

変数

量的変数 ( 定量的データ, 離散データ / 連続データ)

質的変数（定性的データ, カテゴリーデータ )

独立変数と従属変数

独立変数について

従属変数について

類似の表現

記述統計

推測統計

ベイズ統計

相関関係と因果関係

データ解析が見出すのは「相関」

誤謬に注意

多変量解析

統計ツール

Python言語

Orange

GNU R（R言語）

エクセル統計

SAS University Edition

SPSS(IBM)

付記

教育効果は測れない?

予言の自己成就・予言の自己破綻

実証主義と反証主義

APPENDIX

関連ページ

参考になるサイト

PAGES

GUIDE

DATA