第2回 統計解析1
データサイエンス/2023?
CONTENTS
要約統計量(記述統計量)
標本の性質を要約するための統計量を「要約統計量」といいます。
- 代表値(measure of central tendency):データの分布の特徴を表す値
- 平均(mean):データの総和をデータ数で割った値。最も一般的。
- 中央値(median):データを大きさの順に並べたときに中央にくる値。
- 最頻値(mode):度数分布において最も高い度数を示す値。
- 散布度 (dispersion):データの散らばりぐあいを表す値
- 分散(population variance):偏差平方和をデータ数で割った値。
- 標準偏差(standard deviation):分散のルートをとった値。
- 四分位点:データを昇順に並べたときに、25%, 75% の位置にくる値。
演習2|平均・分散・標準偏差
サンプルデータの準備
- GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
- アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
- メニュー > ファイル > 「Googleスプレッドシートとして保存」としてから利用することを推奨します。
要約統計量(記述統計量)の計算
平均や分散等の基本統計量を計算してみましょう。
- 元データは、全国の集計行と都道府県の47行あります。
- 一番上の「全国」の行を削除、あるいは色分けして、間違って計算対象に含めないように処理して下さい。
- 列が多くて(横に長くて)作業しづらい場合は、適当に削除して構いません。
- 計算式は、表の下に追加して下さい。
学科サイトで学科サイトにリンク掲載