#author("2023-10-02T12:39:44+09:00;2023-10-02T12:33:16+09:00","default:inoue.ko","inoue.ko") #author("2023-10-05T14:07:12+09:00;2023-10-02T12:33:16+09:00","default:inoue.ko","inoue.ko") *記述統計 Descriptive Statistics ~ 記述統計とは、収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことで、2変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、__[[推測統計>Statistics/Inferential]]__より古くからあるもので、''標本と母集団を同一視''して考えます。推測統計の登場後は、古典統計といわれるようにもなりました。 ~ ~ **統計量 ***記述統計における統計量 得られたデータに何らかの計算を行って得られる値を''統計量''と言います。例えば、''平均''や''分散''は代表的な統計量で、具体的な計算について以下の節で順次紹介します。 //一般に「データ分析」というのは、様々な統計量からデータ発生元となる対象を理解すること・・と考えるとよいでしょう。 ~ ***代表値(measure of central tendency) データの分布の特徴を表す値 //データの分布の特徴を物語る値のことを代表値と言います。データの中心がどこに位置しているかを示す値で、「中心傾向の測度」ともいいます。 -''平均(mean)'' データの総和をデータ数で割った値。もっとも一般的な代表値。 #mathjax( \bar{x} = \frac{1}{n}( x_1 + x_2 +・・+ x_n) = \frac{1}{n}\sum_{i=1}^{n} x_i) -''中央値(median)'' データの大きさの順に並べたときにちょうど中央にくる値((例えば、平均年収という数字は、実感とは合いません。理由は「一部の大富豪が平均値を押し上げる」ためで、年収のような数字を代表するには、中央値の方が実感に近いものになります。近年の日本全体の平均年収は445万、中央値は396万で、大きな開きがあります。))。 -''最頻値(mode)'' 度数分布において最も高い度数を示す値。 ~ ***散布度 (dispersion) データの散らばりぐあいを表す値 -''分散(population variance)'' 偏差平方和をデータ数で割った値。対象を母集団とする前提です。 #mathjax( s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2 ) //-''標本分散(sample variance)'' //偏差平方和をデータ数で割った値。対象を標本とする前提です。 //結果的に行う計算は、母分散と同じ方法なので使う関数は同じです。 // =VAR.P(範囲) //引数を母集団全体と見なし、母集団の分散 (標本分散) を返します -''標準偏差(standard deviation)'' 標準偏差は、分散のルートをとった値。引数を母集団全体であると見なして、母集団の標準偏差を求めます。 #mathjax( s = \sqrt{ s^2 } ) -''平均偏差'' 偏差(平均からの差)の絶対値の平均。データ全体の平均値に対する個々のデータの絶対偏差の平均を求めます。 #mathjax( md = \frac{1}{n}\sum_{i=1}^{n} |x_i -\bar{x}| ) -''四分位点'' 四分位点とはデータを昇順に並べたときに 25%, 75% の位置の値です。ボックスプロット(箱髭図)では、箱の上辺・底辺がこれに該当します。 ~ ***参考:Excelでの関数表記 -平均(mean) =AVERAGE(範囲) -中央値(median) =MEDIAN(範囲) -最頻値(mode) =MODE(範囲) -分散(population variance) =VAR.P(範囲) -標準偏差(standard deviation) =STDEV.P(範囲) -平均偏差 =AVEDEV(範囲) -付記:Excel の関数名について --XXXX.P(Population) データを母集団とみなしてそのまま計算した値 --XXXX.S(Sample) データをサンプルとみなして母集団の値を推定した値 ~ ~ **共分散 共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。 #mathjax( s_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y} ) ) 共分散の値から、2組のデータについて以下のような説明ができます。 -共分散の値が正:X が大きいときに Y も大きくなる傾向がある -共分散の値が 0: X と Y には関係がない -共分散の値が負:X が大きくなると Y が小さくなる傾向がある ~ ~ **相関係数 2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。 スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。 =CORREL(範囲1, 範囲2) 注)PEARSON(範囲1, 範囲2)でも同じ結果が得られます。 #mathjax( r = \frac{ \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \bar{x}) (y_{i} - \bar{y}) }{ \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \cdot \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(y_{i} - \bar{y})^{2}}} = \frac{ s_{xy} }{ s_{x} \cdot s_{y} } ) 言葉で書く方がわかりやすいかも・・ #mathjax( r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } ) で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。 -&mathjax(r); は -1.0 から +1.0 までのいずれかの値をとる -&mathjax(| r |); が 1.0 に近いほど相関が強く、0に近いほど相関が弱い レポート等で相関の有無について語る場合、一般的な目安は以下です。 --| r | = 0.7~1.0 かなり強い相関がある --| r | = 0.4~0.7 やや相関あり --| r | = 0.2~0.4 弱い相関あり --| r | = 0~0.2 ほとんど相関なし -&mathjax(r); が正の場合は「正の相関」、負の場合は「負の相関(逆の相関)がある -注意:相関係数が0でも「何らかの関係がある」場合があります。 たとえば、2次元の散布図で分布がV字型になる場合、相関は0に近くなりますが、これは、左のグループと右のグループに分けることで、それぞれのグループにおいて負の相関と、正の相関がある・・ということになります。相関をみる場合は、散布図で状態を目視して状況を見極めることが重要です。 参考:[[GoogleImage:相関係数]] ~ ~ **クロス集計 集計には大きく''単純集計''と''クロス集計''の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯が好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。 ~ ***観測事例 以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を''観測度数''、縦横の合計欄に記載された各カテゴリの合計を''周辺度数''と言います。 |◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h |はい|''20''|''30''|''35''|''25''|110| |いいえ|''20''|''10''|''5''|''15''|50| |どちらとも言えない|''10''|''15''|''10''|''5''|40| |合計|50|55|50|45|200| RIGHT:&small(クロス集計表(観測値)); ~ ***期待度数 期待度数(以下の表の太字部分)とは、縦横の周辺度数の積➗総度数で求められる値です(例えば、文学部の「はい」の期待度数は 50x110/200 = 27.5 となります)。これは「学部によって回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値をもとに予想される観測値を逆算した値となります。 |◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h |はい|''27.5''|''30.25''|''27.5''|''24.75''|110| |いいえ|''12.5''|''13.75''|''12.5''|''11.25''|50| |どちらとも言えない|''10''|''11''|''10''|''9''|40| |合計|50|55|50|45|200| RIGHT:&small(クロス集計表(期待度数)); このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、__[[カイ二乗検定>Statistics/χ-Squared-test]]__(独立性の検定)があります。 ~ ***スプレッドシートでクロス集計を行う事例 #image(crosstab.jpg,right,30%) スプレッドシートでは、''ピボットテーブルの挿入'' で簡単に実現できます(右図参照)。 -はじめに、元になるデータを用意してください。 -列見出しを含むデータの範囲を選択します。 -挿入>ピボットテーブル --新規のシート あるいは、既存のシート を選択 --サンプルのように同じシート上に表を追加する場合は、以下のように・・ シート名 ! 表の左上のセル座標 例)シート1!D2 > 表の枠組みができます。 -サイドパネルの [行] の横にある [追加] をクリックして行項目を選択 -サイドパネルの [列] の横にある [追加] をクリックして列項目を選択 -サイドパネルの [値] の横にある [追加] をクリックして列項目を選択 -以上で、各セルに集計結果が表示されます。 ~ ~