#author("2023-08-17T13:43:29+09:00;2023-08-17T11:35:16+09:00","default:inoue.ko","inoue.ko") *第1回 ガイダンス [[データサイエンス/2023]] ~ ***CONTENTS #contents2_1 ~ ~ **はじめに ***現代社会におけるデータサイエンスの位置付け データサイエンス(Data Science)とは、データそのものの性質やデータを取り扱う手法を研究する科学全般を指す言葉で、[[統計学>Statistics]]、[[機械学習>MachineLearning]]、[[データマイニング>DataMining]]、可視化・・など、様々な分野を包括する概念です。 数値や文字(カテゴリ)として得られるデータを統計的手法や機械学習(近年の [[AI>ArtificialIntelligence]] の技術ベース)などを用いて分析・処理することによって、世界に潜む様々な物事の関係(モデル)を見出す科学であるとも言えます。 ~ 関連する諸分野との関係を図で表すと以下のようになります。 [[GoogleImage:Data Science Machine Learning AI]] これが正しい・・という図を書くことはできません。作図する人の立場や説明の手順によって、それぞれの包含関係は変わるので、ざっくり位置関係を把握すれば十分ではないかと思います。 ~ ***コンピュータが可能にしたこと 今日の AI技術 もデータサイエンスも「大量のデータから最適解を見出す」という点では共通しています。これまで、数理的な問題解決には、解析的な方法で数式を解いて答えを出す・・という学び方をしてきたと思いますが、コンピュータが使える今日では「力ずくで最適解に近づく」ということが可能になりました。 数学の問題は、計算によって綺麗な整数解が得られるように作られていますが、現実の問題はそうではありません。で、実際のモノ作りの現場では、実用上「ミリの単位までの数字で十分」ということがあります。 今日の数理の世界では、コンピュータの登場によって従来とは異なる発想が可能になっている・・という事実を確認しておきましょう。 ~ ***データサイエンスにできること -判別:情報の判断・仕分け・検索、音声・画像の認識、異常検知など -予測:数値予測、ニーズ・意図予測、マッチングなど -実行:作業の自動化、表現生成、行動の最適化など ~ ***データサイエンスの限界 データからわかるのは過去から現在までことです。データの活用は、未来の予測や目標達成のための「最適化」には効果的かもしれませんが、生物の社会のような複雑な系の未来を予測することや「創発」的なデザインには限界があります。 人は未知のものにニーズを抱くことはありません。デザインを志すみなさんには、データサイエンスの威力を感じつつも、若干引きで眺める視点が必要です。 ~ ***関連事項 一般にデータサイエンスの教科書では、データを扱う人の心構えとして、以下のような事項が記載されていますが、みなさんは、すでにソーシャルデザイン演習・応用演習、また学科サイトの日常的な運用において、このあたりは学習済みなので、この演習では省略します。 -情報倫理 -情報セキュリティー -[[著作権>Copyright]] と [[CreativeCommons]]・[[Copyleft]] について ~ ***本演習への取り組み姿勢について 本演習では、サンプルや受講生の成果をWeb上に公開することから、単にソースをコピペするだけでも「やったふり」ができてしまいますが、物事を「オープン・ファースト」で考えるという前提のもとで、「パクる」と「真似る」の違いを踏まえて、ポジティブに取り組む(自分自身でコードを書き換えていろいろ試してみる)ことを期待します。 -パクる:単にオリジナルを移動・複製して所有すること(盗むと同義) 「パクる」だけでは何の学びにもなりません。 -真似る:しくみを理解した上で、自分の力で同様のものを作り出すこと 「真似る」は「学ぶ」の語源とも言われる行為。子供は大人のやることを真似することで生きる術を身につけます。同様に、多くの学びは、憧れや理想を契機として、誰かの行為や創造物を真似ることからはじまります。 インターネットの普及によって、自由な情報共有を前提としたオープンな仕組みが世界を変えようとしています。誰かの情報があなたの学びに役立つと同時に、あなたが公開する情報が誰かの役に立っています。 ~ ~ **データの取り扱い ***データとは データ(Data)とは、一般に情報伝達、解釈、処理を目的として符号化された情報(与件・所与)のことです。 -日本工業規格:X0001 情報処理用語-基本用語 情報の表現であって、伝達、解釈または処理に適するように形式化され、 再度情報として解釈できるもの ~ ***データファイルの基本構造 #image(Data/TableElements.png,right,25%) データファイルは一般に2次元の表形式で与えられます。以下の用語を理解しておくことが必要です。 -''テーブル / Table''(表):通常1つのファイル -''レコード / Row''(行):1件分のデータセット -''フィールド / Column''(列):特定項目に関するデータセット #clear ''表の先頭行にはフィールド名(項目見出し)が並ぶ''のが一般的です。 &scale(75){出典:https://commons.wikimedia.org/wiki/File:Table_Elements.svg}; ~ ***様々なデータファイル形式 -''CSV''(.csv) CSV(Comma-Separated Values)は、表形式のデータ等でフィールド項目をカンマ [ , ] で区切ったテキストデータです。データ交換用の標準形式として、多くのスプレッドシートやデータベースソフトで活用されています。ちなみに、タブで区切られたものをTSV(Tab-Separated Values)、半角スペースで区切られたものを Space-Separated Values といいます。 -''EXCEL''(.xlsx) みなさんお馴染み、スプレッドシートの代表的なデータ形式です。データとして読ませること前提とした Excelシートの場合、''表の先頭行がフィールド項目名になるよう''にしましょう(視覚的な配慮のための余白や、大見出し等は省略してシンプルな表にします)。 -JSON(.json) Webアプリケーションの世界でよく利用される形式です。興味のある方は、以下のページをご参照ください。 JavaScript Object Notation >__[[JSON]]__ ~ ***オープンデータについて オープンデータとは、著作権、特許などの制限なしで、全ての人が自由に利用・再掲載できるデータ(またその考え方)です。興味のある方は、以下のページをご参照ください。 >__[[OpenData]]__ ~ ~ **データと尺度 統計的な処理では、一般にデータを以下のように分類します。 ~ ***質的データ(定性的データ, カテゴリーデータ ) -''名義尺度''(nominal scale)同一性 対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。 ''例)''血液型(A型:1,B型:2,・・・,O型:4) -''順序尺度''(ordinal scale)同一性・順序性 順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。 ''例)''ミネラルウォーターの売上BEST10(商品を順に1位、2位、3位・・と割り当てる場合など)、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、項目間の間隔が不均等とみなされる場合) ~ ***量的データ ( 定量的データ, 離散データ / 連続データ) -''間隔尺度''(interval scale)同一性・順序性・加法性 測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。 ''例)''知能指数、摂氏の温度、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値 4と3の差 と評定値3と3の差が等間隔とみななされる場合)((そもそも、こうした印象評価の段階的な数字は、等間隔である保証はできず、本来であれば順序尺度として扱うものですが、実際の研究では、これを間隔尺度として、統計ソフト等で分析にかけることが多いようです。))。 -''比率尺度''(ratio scale)同一性・順序性・加法性・等比性 原点(0)が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。 ''例)''身長、体重、金額、絶対温度など ~ ~ **独立変数と従属変数 統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、''物事の関係性''を分析します。この「何か」のことを一般に「変数」と呼びます。 -''独立変数'' 実験者が操作する変数(原因)。 -''従属変数'' 測定される変数(結果)。 例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。 重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。 ~ ***独立変数について さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、6角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で2次変数をコントロールする必要があります。 -2次変数を除去する 可能であればこれがもっとも簡単です。いわゆる実験室というのは、可能な限りこの外的要因を除去したクリーンな場所といえます。 -2次変数を恒常に保つ 除去できないのであれば、次はそれをすべてに対して同一に、あるいはランダムに配分することで、独立変数の効果のみを捉えます。 -独立変数に格上げする 明らかにその要因が結果に影響するという場合、これも重要な変数だということになります。であれば、それを独立変数に格上げして、その効果も測るというのが賢明です。その場合、2つの独立変数の組み合わせ自体が結果に大きく影響する場合もあります(これを交互作用といいます)。 ~ ***従属変数について 問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて5段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。 一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。 ~ ~ **相関関係と因果関係について 私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係(共変動)と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。 ~ ***データ解析が見出すのは「相関」 一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。 経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない &small(Edward Tufte); ~ ***誤謬に注意 統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬((論証の過程に論理的・形式的な瑕疵があって、その論証が妥当でないこと(簡単に言えば「間違っている」)を誤謬と言います。))がないか注意深く検討することが必要です。 -擬似相関(第3の要因が共通原因となっている) 「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関 経済的に豊かであることが両者の共通要因 「小学生の身長」と「論理的思考力」に正の相関 学年が上がることが両者の共通要因 -因果関係の逆転 交番の数が多い地域ほど、犯罪件数が多い 犯罪件数が多い地域だから交番が多く設置された 猫が顔を洗うと雨が降る 雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発 -偶然 スマートフォンの普及が、地球温暖化を促進 テクノロジーの進歩と経済活動の拡大という共通の要因、あるいは偶然 //-直接的な関係の存在 // 圧力の上昇が、温度を上昇させる //両者はもともと直接的な比例関係にあって、独立していない ~ ~ **SpreadSheet の活用 ~ (書きかけです) ~ ~ **APPENDIX 皆さんは、数学の世界を分類する__[[代数 幾何 解析>GoogleImage:代数 幾何 解析]]__という用語を覚えていますか。学問領域を完全に線引きして区別することはできないのですが、それでも分類用語を知っておくことは「今、自分は何を学んでいるのか」を理解する一助となります。データサイエンスの世界も同様、様々な [[関連用語>DataScience]] をざっくりと把握するだけでも、全体像が把握しやすくなります。 ~ 以下の区分も、知っていると世界がさらに見えやすくなります。 ~ ***[[決定論と確率論>Google:決定論 確率論]] 数理の世界には、決定論的なアプローチと、確率論的なアプローチの2つがあります。たばこの煙に例えると、たばこの先から一直線に上昇している部分の粒子の位置は、時刻 t を変数とした数式で決定論的に記述されますが、天井に拡散した粒子のふるまいは、確率論的にしか記述できません。ちなみに、その中間にある煙の「乱れそめ」の部分は「カオス理論」の対象となりあす。 -「落下する物体の位置」のように数式で記述できる事象は決定論の対象 -「臨床試験の結果」のように統計的に扱う事象は確率論の対象 ~ ***[[線形と非線形>Google:線形 非線形]] -比例関係にあるものが「線形」 '''線形な漸化式の例:'''&mathjax(X_{n+1} = a \cdot X_n + b); -比例関係にないもの、例えば、一旦下がってまた上がるようなふるまい、あるいは、予測のつかないふるまいをするものが「非線形」 '''非線形な漸化式の例:''' &mathjax( X_{n+1} = a \cdot X_n(1 - X_n) ); --0 < a < 1 のとき:一定値 X = 0 に収束 --1 < a < 3 のとき:一定値 1 - 1 / a に収束 --3 < a < 3.57… のとき:振動 --3.57… < a のとき:予測不能な複雑な動き(カオス的領域) --実際の計算とグラフ化:[[JupyterNotebook>https://nbviewer.jupyter.org/github/koichi-inoue/JupyterNotebook/blob/master/NonLinearGraph.ipynb]] -ちなみに、生き物の成長は非線形的で最後は飽和状態 ~ ~ ~