LogoMark.png

Statistics/Descriptive のバックアップ差分(No.2)


#author("2023-01-31T14:44:04+09:00","default:inoue.ko","inoue.ko")
*Descriptive Statistics
記述統計
#author("2023-01-31T15:15:13+09:00","default:inoue.ko","inoue.ko")
*記述統計
Descriptive Statistics

~

記述統計とは、収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことで、2変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、__[[推測統計>Statistics/Inferential]]__より古くからあるもので、''標本と母集団を同一視''して考えます。推測統計の登場後は、古典統計といわれるようにもなりました。

なお、以下の各事項に記載された関数式は Excel における表記です。
~

***代表値(measure of central tendency)
データの分布の特徴を表す値
//データの分布の特徴を物語る値のことを代表値と言います。データの中心がどこに位置しているかを示す値で、「中心傾向の測度」ともいいます。

-''平均(mean)''
データの総和をデータ数で割った値。もっとも一般的な代表値。
 =AVERAGE(範囲)
#mathjax( \bar{x} = \frac{1}{n}( x_1 + x_2 +・・+ x_n) = \frac{1}{n}\sum_{i=1}^n x_i)

-中央値(median)
データの大きさの順に並べたときにちょうど中央にくる値。
 =MEDIAN(範囲) で求まります。
&small(例えば、平均年収という数字は、実感とは合いません。理由は「一部の大富豪が平均値を押し上げる」ためで、年収のような数字を代表するには、中央値の方が実感に近いものになります。近年の日本全体の平均年収は445万、中央値は396万で、大きな開きがあります。);

-最頻値(mode)
度数分布において最も高い度数を示す値。
 =MODE(範囲) で求まります。
~

***散布度 (dispersion)
データの散らばりぐあいを表す値

-''分散(population variance)''
偏差平方和をデータ数で割った値。対象を母集団とする前提です。
 =VAR.P(範囲)
#mathjax( s^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 )

//-''標本分散(sample variance)''
//偏差平方和をデータ数で割った値。対象を標本とする前提です。
//結果的に行う計算は、母分散と同じ方法なので使う関数は同じです。
// =VAR.P(範囲)
//引数を母集団全体と見なし、母集団の分散 (標本分散) を返します

-''標準偏差(standard deviation)''
標準偏差は、分散のルートをとった値。引数を母集団全体であると見なして、母集団の標準偏差を求めます。
 =STDEV.P(範囲)
#mathjax( s = \sqrt{ s^2 } )

//''Excel の関数について''
//-XXXX.Pは「データ数」で割ったもので、データを母集団とみなして、そのまま計算した値
//-XXXX.Sは「データ数 - 1」で割ったもので、データをサンプルとみなして、母集団の値を推定した値

-平均偏差
偏差(平均からの差)の絶対値の平均。データ全体の平均値に対する個々のデータの絶対偏差の平均を求めます。
 =AVEDEV(範囲)
#mathjax( md = \frac{1}{n}\sum_{i=1}^n |x_i -\bar{x}| )


-四分位点
四分位点とは、データを昇順に並べたときに、25%, 75% の位置にくる値です。ボックスプロット(箱髭図)では、箱の上辺・底辺がこれに該当します。

~

***共分散
共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。

#mathjax( s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y} ) )

共分散の値から、2組のデータについて以下のような説明ができます。
-共分散の値が正:X が大きいときに Y も大きくなる傾向がある
-共分散の値が 0: X と Y には関係がない
-共分散の値が負:X が大きくなると Y が小さくなる傾向がある
~

***相関係数
2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。

スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。
 =CORREL(範囲1, 範囲2)
 注)PEARSON(範囲1, 範囲2)でも同じ結果が得られます。

#mathjax( r = \frac{ \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \bar{x}) (y_{i} - \bar{y}) }{ \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \cdot \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(y_{i} - \bar{y})^{2}}} = \frac{ s_{xy} }{ s_{x} \cdot s_{y} } )

言葉で書く方がわかりやすいかも・・
#mathjax( r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } )

で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。

-&mathjax(r); は -1.0 から +1.0 までのいずれかの値をとる
-&mathjax(| r |); が 1.0 に近いほど相関が強く、0に近いほど相関が弱い
レポート等で相関の有無について語る場合、一般的な目安は以下です。
--| r | = 0.7~1.0  かなり強い相関がある
--| r | = 0.4~0.7  やや相関あり
--| r | = 0.2~0.4  弱い相関あり
--| r | = 0~0.2   ほとんど相関なし
-&mathjax(r); が正の場合は「正の相関」、負の場合は「負の相関(逆の相関)がある

-注意:相関係数が0でも「何らかの関係がある」場合があります。
たとえば、2次元の散布図で分布がV字型になる場合、相関は0に近くなりますが、これは、左のグループと右のグループに分けることで、それぞれのグループにおいて負の相関と、正の相関がある・・ということになります。相関をみる場合は、散布図で状態を目視して状況を見極めることが重要です。

参考:[[GoogleImage:相関係数]]

~

***クロス集計
2つないし3つの情報に限定して、データの分析や集計を行なう方法。 縦軸と横軸に項目を割り振って、項目間の相互関係を視覚的に見やすくしたものです。アンケート調査の手法としては、ポピュラーなものの一つです。
参考:[[GoogleImage:クロス集計]]

~
~

**APPENDIX

***関連ページ
-[[Statistics]]
--[[Statistics/Descriptive]]
--[[Statistics/Inferential]]
--[[Statistics/Probability]]
--[[Statistics/HypothesisTesting]]
--[[Statistics/Bayesian]]
--[[Statistics/MultivariateAnalysis]]

-[[DataScience]]
-[[ArtificialIntelligence]]
-[[ArtificialIntelligence/Links]]
-[[Data]]
-[[Statistics]]
-[[DataVisualization]]
-[[MachineLearning]]
--[[DecisionTree]]
--[[k-means]]
--[[LinearRegression]]
--[[LogisticRegression]]
--[[NeuralNetwork]]
--[[PrincipalComponentAnalysis]]
--[[RandomForest]]
--[[SupportVectorMachine]]
-[[DataMining]]
-[[Python]]
--[[Pandas]]
--[[scikit-learn]]
-[[GoogleColaboratory]]
-[[Orange]]
-[[OpenData]]
~
~
~