LogoMark.png

データサイエンス/02 の変更点


#author("2023-09-25T16:47:33+09:00;2023-09-25T13:29:37+09:00","default:inoue.ko","inoue.ko")
#author("2023-09-25T16:48:30+09:00;2023-09-25T13:29:37+09:00","default:inoue.ko","inoue.ko")
*第2回 統計分析1
[[データサイエンス/2023]]|[[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]]|[[汎用シート>https://docs.google.com/spreadsheets/d/1g-6TyzeQg3md55l9SGnqN-USBsoCNYOwSDDUOKVBJu8/edit?usp=sharing]]
~

***CONTENTS
#contents2_1
~
~


**基礎的用語の確認

***記述統計と推測統計
統計には、大きく以下の2つのタイプがあります。
-記述統計:得られたデータのみに注目し、その性質を知る
例:3年A組と3年B組の成績を比較する > 全数調査
-推測統計:標本(サンプル)から、発生元となる母集団の性質を推測する
例:高血圧の人を対象に新薬の効果を検証する > 標本調査

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。
~

***母集団と標本
関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。

-母集団(Population)
関心の対象となる集団全体のことを「母集団」といい、さらに「有限母集団」と「無限母集団」の区別があります。例えば「日本に住む成人男性」は、その数が有限であることから有限母集団で、一方「さいころを投げて出る目のデータ」などは無限に試行を繰り返すことができることから無限母集団となります。

-標本(Sample)
母集団の状態を推測するために「抽出」された一部の集団のことを「標本」といいます。関心の対象は母集団なので理想は全数調査ですが、多くの場合、母集団は非常に大きいだけでなく時間とともに変動する存在で、完全に把握することはできません。そこで母集団から抽出した標本に対して統計的解析を行なって母集団を予測するというのが、統計の標準的な手法=推測統計となります。
~

***変数
統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを''変数''と言います。例えば、身長、体重、成績(点数)などは変数です。

-データが身長だけの場合を「1変数のデータ」、身長と体重の2つを含むデータであれば「2変数のデータ」と言います。

-変数の数を ''次元'' と呼ぶこともあります。例えば、英語の得点と数学の得点、2つのデータがあれば、横軸を英語、縦軸を数学とした2次元の平面上に個々のデータをプロットすることができます。3次元(3変数)までであれば、変数間の相関を視覚的に把握することができます((変数が多い場合は、変数間の組み合わせをすべて調べるか、「次元落とし(例えば、国・数・英・理を、文系科目と理系科目にまとめる)」を行ってその関係を可視化するなどの方法を採ります。))。

変数は、''量的変数''と''質的変数''の大きく2つに分類されます。
~

***量的変数 ( 定量的データ, 離散データ / 連続データ) 

-''比率尺度''(ratio scale)同一性・順序性・加法性・等比性
原点(0)が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
''例)''身長、体重、金額、絶対温度など

-''間隔尺度''(interval scale)同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
''例)''知能指数、摂氏の温度、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値 4と3の差 と評定値3と3の差が等間隔とみななされる場合)((そもそも、こうした印象評価の段階的な数字は、等間隔である保証はできず、本来であれば順序尺度として扱うものですが、実際の研究では、これを間隔尺度として、統計ソフト等で分析にかけることが多いようです。))。
~


***質的変数(定性的データ, カテゴリーデータ )

-''順序尺度''(ordinal scale)同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
''例)''ミネラルウォーターの売上BEST10(商品を順に1位、2位、3位・・と割り当てる場合など)、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、項目間の間隔が不均等とみなされる場合)

-''名義尺度''(nominal scale)同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
''例)''血液型(A型:1,B型:2,・・・,O型:4)
~

***独立変数と従属変数
統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

-''独立変数'' 実験者が操作する変数(原因)。
-''従属変数'' 測定される変数(結果)。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。
~
~

**要約統計量(記述統計量)
標本の性質を要約するための統計量を「要約統計量」といいます。
~

***代表値(measure of central tendency)
データの分布の特徴を表す値

-''平均''(mean):データの総和をデータ数で割った値。最も一般的。
#mathjax( \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i)

-中央値(median):データを大きさの順に並べたときに中央にくる値。

-最頻値(mode):度数分布において最も高い度数を示す値。
~

***散布度 (dispersion)
データの散らばりぐあいを表す値

-分散(population variance):偏差平方和をデータ数で割った値。
#mathjax( s^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 )

-''標準偏差''(standard deviation):分散のルートをとった値。

-四分位点:データを昇順に並べたときに、25%, 75% の位置にくる値。
~

***参考
-__[[Statistics/Descriptive]]__
~
~

**データの分布について
***分布と代表値の選び方について
成績・身長・体重・血圧など、統計で用いる分布モデルといえば、正規分布が一般的ですが、世の中には「べき分布」のように、これとは異なる歪んだ分布も多く存在します。そのようなケースでは、代表値には「平均」ではなく「中央値」や「最頻値」を使う方がベターです。例えば「年収」などは、べき分布の形をとるので「平均年収」を計算すると、我々の感覚に合わない高い値が出ます。この場合は、[[「中央値」の方が実感に近い値となります>Google:年収 平均値 中央値]]。

-参考:__[[Distribution]]__
-参考:__[[Google:べき分布 事例]]__
~

***偏差値について
平均 μ、標準偏差を σ とすると、データ &mathjax(x);の 偏差値は以下で求まります。
#mathjax(\frac{( x - μ ) }{σ} \times 10 + 50)
-平均 μ の位置が偏差値 50 です。
-平均 μ より σ だけ右の位置が偏差値 60になります。

~
~


**演習2|平均・分散・標準偏差
***サンプルデータの準備
-[[教育用標準データセット|SSDSE>https://www.nstac.go.jp/SSDSE/]]にある「SSDSE-基本素材(SSDSE-E)」を利用します。以下からダウンロードして下さい。
--https://www.nstac.go.jp/sys/files/SSDSE-E-2023.xlsx
--データの解説:https://www.nstac.go.jp/sys/files/kaisetsu-E-2023.pdf

-GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
-アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
-''メニュー > ファイル > 「Googleスプレッドシートとして保存」''としてから利用することを推奨します。
~

***要約統計量(記述統計量)の計算
平均や分散等の基本統計量を計算してみましょう。
-元データは、全国の集計行と都道府県の47行あります。
-一番上の「全国」の行を削除、あるいは色分けして、間違って計算対象に含めないように処理して下さい。
-列が多い(横に長い)ので、作業しづらい場合は適当に削除して構いません。
-列が多く(横に長く)作業しづらい場合は、適当に削除して構いません。
-計算式は、表の下の方(沖縄の行の下)に追加して下さい。
~

***演習サンプル
以下、実際に要約統計量を計算したサンプルです。
__[[要約統計量の計算(SpreadSheet)>https://docs.google.com/spreadsheets/d/1pcypb7C6IRPpGPXYFqdLIEV0fFENxFH4gndkTQj41uk/edit?usp=sharing]]__
~

***スプレッドシートにおける統計関数
-平均|Average
 =AVERAGE( 範囲 )
-中央値|Median
 =MEDIAN( 範囲 )
-分散|Variance
 =VARP( 範囲 )
-標準偏差|Standard Deviation
 =STDEVP( 範囲 )

-参考:分散を計算する関数には、''VARP'' と ''VARS'' の区別があります。ここでは47都道府県のデータがすべてなので、VARP(population:母集団)を使いましたが、得られたデータをサンプルとして母集団の分散を推定する場合は「不偏分散」という別の計算を行います。その場合には VARS(Sample:標本)の方を使います。STDEVP と STDEVS の違いも同様です。
~




***学科サイトで学科サイトにリンク掲載
-1. Spreadsheet を開いた状態で、右上の「共有」をクリック
-2. 共有設定を変更して、以下のように表示される状態にします。
 このリンクを知っているインターネット上の全員が閲覧できます。
-3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
 -[[要約統計量の計算事例>https://docs.google.com/spreadsheets/・・=sharing]]
-4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience
~
~
~
~