LogoMark.png

データサイエンス/01 のバックアップ(No.5)


第1回 ガイダンス

データサイエンス/2023?

CONTENTS




はじめに

現代社会におけるデータサイエンスの位置付け

データサイエンス(Data Science)とは、データそのものの性質やデータを取り扱う手法を研究する科学全般を指す言葉で、統計学機械学習データマイニング、可視化・・など、様々な分野を包括する概念です。

数値や文字(カテゴリ)として得られるデータを統計的手法や機械学習(近年の AI の技術ベース)などを用いて分析・処理することによって、世界に潜む様々な物事の関係(モデル)を見出す科学であるとも言えます。

関連する諸分野との関係を図で表すと以下のようになります。
GoogleImage:Data Science Machine Learning AI

これが正しい・・という図を書くことはできません。作図する人の立場や説明の手順によって、それぞれの包含関係は変わるので、ざっくり位置関係を把握すれば十分ではないかと思います。

コンピュータが可能にしたこと

今日の AI技術 もデータサイエンスも「大量のデータから最適解を見出す」という点では共通しています。これまで、数理的な問題解決には、解析的な方法で数式を解いて答えを出す・・という学び方をしてきたと思いますが、コンピュータが使える今日では「力ずくで最適解に近づく」ということが可能になりました。

数学の問題は、計算によって綺麗な整数解が得られるように作られていますが、現実の問題はそうではありません。で、実際のモノ作りの現場では、実用上「ミリの単位までの数字で十分」ということがあります。

今日の数理の世界では、コンピュータの登場によって従来とは異なる発想が可能になっている・・という事実を確認しておきましょう。

データサイエンスにできること

データサイエンスの限界

データからわかるのは過去から現在までことです。データの活用は、未来の予測や目標達成のための「最適化」には効果的かもしれませんが、生物の社会のような複雑な系の未来を予測することや「創発」的なデザインには限界があります。

人は未知のものにニーズを抱くことはありません。つまり過去のデータからニーズだけ探っていてもダメ・・ということです。デザインを志すみなさんには、データサイエンスの威力を感じつつも、若干引きで眺める姿勢が必要です。

関連事項

一般にデータサイエンスの教科書では、データを扱う人の心構えとして、以下のような事項が記載されていますが、みなさんは、すでにソーシャルデザイン演習・応用演習、また学科サイトの日常的な運用において、このあたりは学習済みなので、この演習では省略します。

本演習への取り組み姿勢について

本演習では、サンプルや受講生の成果をWeb上に公開することから、単にソースをコピペするだけでも「やったふり」ができてしまいますが、物事を「オープン・ファースト」で考えるという前提のもとで、「パクる」と「真似る」の違いを踏まえて、ポジティブに取り組む(自分自身でコードを書き換えていろいろ試してみる)ことを期待します。

インターネットの普及によって、自由な情報共有を前提としたオープンな仕組みが世界を変えようとしています。誰かの情報があなたの学びに役立つと同時に、あなたが公開する情報が誰かの役に立っています。



データの取り扱い

データとは

データ(Data)とは、一般に情報伝達、解釈、処理を目的として符号化された情報(与件・所与)のことです。

データファイルの基本構造

TableElements.png

データファイルは一般に2次元の表形式で与えられます。以下の用語を理解しておくことが必要です。

表の先頭行にはフィールド名(項目見出し)が並ぶのが一般的です。
出典:https://commons.wikimedia.org/wiki/File:Table_Elements.svg

様々なデータファイル形式

オープンデータについて

オープンデータとは、著作権、特許などの制限なしで、全ての人が自由に利用・再掲載できるデータ(またその考え方)です。興味のある方は、以下のページをご参照ください。

データと尺度

統計的な処理では、一般にデータを以下のように分類します。

質的データ(定性的データ, カテゴリーデータ )

量的データ ( 定量的データ, 離散データ / 連続データ)

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。

独立変数について

さて、ここでいくつかの問題が生じます。まずは独立変数の方です。太さの違う鉛筆を実験材料に選んだとしても、鉛筆には、丸い軸や、6角のものがあり、また表面の塗装、さらに木材の密度も重さに影響するので無視できません。このように実験結果に影響をあたえてしまうような外的要因を「2次変数」といいます。本当に「太さの違い」が原因なのかを調べるためには、以下のような方法で2次変数をコントロールする必要があります。

従属変数について

問題は従属変数の方にもあります。「書きやすさ」というのは何を基準にすればよいのでしょうか。もちろん、被験者に対してストレートに「書きやすいか」という質問をぶつけて5段階で評価してもらう・・というのもひとつです。「書きやすい」という言葉があるくらいですから、人間が文字を書くときに感じる総合的な感覚としての「書きやすさ」については、言葉どおりに「書きやすいか」という質問も重要です。

一方で、これを別のものさしで測ることも可能です。「書きやすいのであれば、当然同じ文字数を書くのに、スピードが上がるはずだ」という推論ができるのであれば、「この文章をできるだけ早く書いてください」という作業を課し、「太さの違いが作業スピードの差に影響を与えるか」というふうに実験を置き換えることも可能です。



相関関係と因果関係について

私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係(共変動)と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。

データ解析が見出すのは「相関」

一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。

経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない

Edward Tufte

誤謬に注意

統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*2がないか注意深く検討することが必要です。




演習1|Spreadsheet の基礎


はじめに

XXXXXXXXX

学科サイトで学科サイトにリンク掲載

APPENDIX

皆さんは、数学の世界を分類する代数 幾何 解析という用語を覚えていますか。学問領域を完全に線引きして区別することはできないのですが、それでも分類用語を知っておくことは「今、自分は何を学んでいるのか」を理解する一助となります。データサイエンスの世界も同様、様々な 関連用語 をざっくりと把握するだけでも、全体像が把握しやすくなります。

以下の区分も、知っていると世界がさらに見えやすくなります。

決定論と確率論

数理の世界には、決定論的なアプローチと、確率論的なアプローチの2つがあります。たばこの煙に例えると、たばこの先から一直線に上昇している部分の粒子の位置は、時刻 t を変数とした数式で決定論的に記述されますが、天井に拡散した粒子のふるまいは、確率論的にしか記述できません。ちなみに、その中間にある煙の「乱れそめ」の部分は「カオス理論」の対象となりあす。

線形と非線形