Descriptive Statistics
記述統計とは、収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことで、2変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、推測統計より古くからあるもので、標本と母集団を同一視して考えます。推測統計の登場後は、古典統計といわれるようにもなりました。
なお、以下の各事項に記載された関数式は Excel における表記です。
データの分布の特徴を表す値
=AVERAGE(範囲)
=MEDIAN(範囲) で求まります。例えば、平均年収という数字は、実感とは合いません。理由は「一部の大富豪が平均値を押し上げる」ためで、年収のような数字を代表するには、中央値の方が実感に近いものになります。近年の日本全体の平均年収は445万、中央値は396万で、大きな開きがあります。
=MODE(範囲) で求まります。
データの散らばりぐあいを表す値
=VAR.P(範囲)
=STDEV.P(範囲)
=AVEDEV(範囲)
共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。
共分散の値から、2組のデータについて以下のような説明ができます。
2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。
=CORREL(範囲1, 範囲2) 注)PEARSON(範囲1, 範囲2)でも同じ結果が得られます。
言葉で書く方がわかりやすいかも・・
で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。
2つないし3つの情報に限定して、データの分析や集計を行なう方法。 縦軸と横軸に項目を割り振って、項目間の相互関係を視覚的に見やすくしたものです。アンケート調査の手法としては、ポピュラーなものの一つです。
参考:GoogleImage:クロス集計