= A5 + B5 ・・当該セルに、A5 の値と B5 の値の和A5、B5のセルの内容が変わると、自動的に計算結果も変わります。
=関数名(引数1, 引数2, ・・)この場合の引数1は、一般に計算対象となる「セル群」が入ります。
=ROUND( 数値または関数 , 小数点以下の桁数)
表示形式を揃えたいセル範囲を選択し、 1) [ホーム]タブ>[小数点以下の表示桁数を増やす] / [減らす]ボタン 2) [セルの書式設定]ダイアログボックス>[表示形式]タブ> [数値] >「小数点以下の桁数」を設定
内部データ:3.33・・+3.33・・+3.33 = 9.99・・ 表示データ:3 + 3 + 3 = 10印刷書類で見ると「1円がどこかへ消えた?」となってしまいます。
数式・関数を他のセルに複製した場合は、引数となるセルの位置は、自動的に相対的な位置関係を保って複製されます。
=sum(B2:B11) を右隣のセルに複製すると、 =sum(C2:C11) となります。
逆に、どこに複製しても参照セルが動かないようにするには、 [ $ ] 記号を使って、 参照セルを「絶対指定」の形で表記します。
= B2 / $A$100 は、下のセルに複製すると = B3 / $A$100 となります。
分子は相対的に移動しますが、分母となるデータは固定的な場所を参照します。
この種の計算とオートフィル(あるいは複製)では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。
=( 得点のセル - $平均値のセル)/ $標準偏差のセル * 10 + 50
=(B6-$B$3)/$C$3 * 10 + 50
=(B6-B$3)/C$3 * 10 + 50
統計分析では、個々のカテゴリ項目の代表値や散布度の把握と並んで、項目間の連動関係を見出す作業も重要です。例えば成績一覧表から「数学の点数が高い学生は物理の点数も高い」など、項目間に連動が見られる場合を「相関がある」と言います。
はじめに「共分散」の概念から説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。
2つの変数の間の関係を測る指標で、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係(共変動)と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。
一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。
経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない
Edward Tufte
統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*1がないか注意深く検討することが必要です。
「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関経済的に豊かであることが両者の共通要因
「小学生の身長」と「論理的思考力」に正の相関学年が上がることが両者の共通要因
交番の数が多い地域ほど、犯罪件数が多い犯罪件数が多い地域だから交番が多く設置された
猫が顔を洗うと雨が降る雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発
項目間の相関係数を計算してみましょう。
=CORREL(範囲1, 範囲2) 例 =CORREL(C4:C50,D4:D50)
付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。
以下、実際に相関係数を計算したサンプルです。
相関係数の計算(SpreadSheet)
このリンクを知っているインターネット上の全員が閲覧できます。
-[[相関係数の計算事例>https://docs.google.com/spreadsheets/・・=sharing]]
相関のある現象では、直感的に散布図の中心を通る直線を想定することができますが、その直線上の点は、2つの変数がとる「平均的な組み合わせ」と見ることができます。例えば、横軸:身長、縦軸:体重としてデータをプロットした散布図では、ある個人のデータが、想定される直線に乗っていれば標準的、直線よりも下にある場合、その人は「痩せている」・・というぐあいに、データの特徴を語ることができます。ちなみに、この直線のことを「回帰直線」と言います。
散布図上で、極端な「外れ値」がある場合は、データの前処理段階でコピーミス等がないか確認して下さい。元データの一番上の行は「全国の合計」です。コピーミスでこれを先頭の北海道に位置付けてしまうと、すべてのデータが1行ずつズレます。過去の演習ではこのミスが散見されます。北海道だけ外れ値になっている方は、再確認をお願いします。
スプレッドシートは非常に便利なツールですが、コピーの際に行がズレるというミスは、実際の業務では大事故につながります。データの扱いには十分注意する癖をつけましょう。