DATA
データ(Data)とは、一般に情報伝達、解釈、処理を目的として符号化された情報(与件・所与)のことです。
直面している問題の解決や、意思決定に役立つか否かという観点から、データと情報を区別する場合もあります。その場合、データとは「情報を生みだすための素材」のことで、データに含まれる問題解決に役立つ部分のみを情報と呼んで区別します。受信者によって、また受信者の状況によって「データか情報か」は異なってきます。
A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing.
情報の表現であって、伝達、解釈または処理に適するように形式化され、 再度情報として解釈できるもの
人類は情報(データ)を交換・共有・蓄積することにより、独自の進化を遂げた生物です。その歴史には以下のような大きな転換点がありました*1。
数万年前 | 言葉の発生 | 情報の交換・リアルタイムコミュニケーション |
BC4千年紀 | 文字の発明 | 情報の蓄積・非同期コミュニケーション |
105年 | 紙の発明 | 情報のモバイル化 |
1440年頃 | 活版印刷 | 情報の拡散 |
1945年 | コンピュータ | 情報処理の自動化 |
1989年 | WWW | 情報共有のグローバル化 |
コンピュータで扱うデータの形式として、代表的な以下の3つを紹介します。
データファイルは一般に2次元の表形式で与えられます。以下の用語を理解しておくことが必要です。
表の先頭行にはフィールド名(項目見出し)が並ぶのが一般的です。
出典:https://commons.wikimedia.org/wiki/File:Table_Elements.svg
なお、一般的な統計表やクロス集計表では、表の左と上にカテゴリー見出しが記載されることになります。このとき、表の左側にある項目(行の見出し部分)を「表側(ひょうそく)」、表の上部にある項目(列の見出し部分)を「表頭(ひょうとう)」と言います。
CSV(Comma-Separated Values)とは、表形式のデータ等でフィールド項目をカンマ [ , ] で区切ったテキストデータです。拡張子は .csv。
データ交換用の標準として、多くのスプレッドシート(表計算ソフト)やデータベースソフトで活用されています。
ちなみに、タブで区切られたものをTSV(Tab-Separated Values)、半角スペースで区切られたものを Space-Separated Values といいます。
JSONは、データを key とvalue の組み合わせで記述する連想配列のひとつで、その活用事例のひとつとして、地理情報を記述するフォーマット GeoJSON があります。
YAML(YAML Ain’t Markup Language) とは、構造化されたデータを表現するためのフォーマットです。 目的は XML と似ていますが、XML と比べて「読みやすい」「書きやすい」「わかりやすい」という利点があります。
YAML は次のような用途に向いています。
YAML には以下のような利点があります。
YAML はあくまで「仕様」なので、それを処理するライブラリの「実装」が必要です。以下、様々な言語に対応しています 。
C/C++ Java JavaScript Perl Python PHP Ruby ・・
XML(Extensible Markup Language)とは、基本的な構文規則を共通化して、任意の用途向けの言語に拡張することを容易にしたマークアップ言語の総称です。個別の目的に応じたマークアップ言語群をつくるのに汎用的に使えます。
画像データを例にとると、画素のRGB値が実際のデータですが、その画像が、いつ、誰によって、どのように生成されたかといった、データが得られた状況を説明したデータを「メタデータ」といいます。データをアーカイブする際は、このようなメタデータをデータに付随させることも重要です。
統計的な処理では、一般にデータを以下のように分類します。
データサイエンス(Data Science)とは、データに関する研究を行う学問分野を包括的に指す用語で、ビッグデータ、データマイニングといった言葉とともに身近なものになりました。近年、さまざまな意思決定の場面で、データにもとづく合理的な判断が求めらるようになり、これを職務とする人のことを「データサイエンティスト」と呼ぶようにもなりました。
前提となるのはデータベースの存在、そしてそれを扱う、統計学、情報科学の知識と、パターン認識、機械学習、可視化などの技術です。
付記:データ × デザイン を考えたとき、最も重要なのは、ビジョン(あるべき姿)が明確であるかということ。市場がこう動いているから、そこへ寄せていって大量に売りまくる・・というのではなく、まず、どんな未来が欲しいのかを考えるべきでしょう。AI は基本的に過去のデータしか見ていません。もちろん、それが未知の相関を発見してイノベーションを起こすことは十分にありますが、未来をどうしたいのか、その思いは人間の中にしか存在しません。データを参考にしても仕方がない問題というものもたくさんあります。デザイナーであれば、将来のビジョンを明確にして、そこからバック・キャストする、そのためにデータを活用する・・という姿勢が必要であると思います。
ビッグデータ(big data)とは、人間の能力で把握するのが困難なほど巨大で複雑なデータのことで、例えば企業活動においては、これを分析して売上の向上や、在庫の最適化などに役立てています。
データマイニング(Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法をビッグデータに適用して、発見的(heuristic)に知識を得るための技術です。
歴史的には、1980年代にリレーショナル型データベース(昨今の代表格はMySQL)と操作用言語SQLが登場して以降、KDD(Knowledge Discovery in Databases)という語とともに、その有用性が注目されるようになりました。
1990年代以降、データ量の爆発的増大に伴って、ビッグデータを処理する手法として「データサイエンス」、「データマイニング」のという言葉が現れ、統計解析、人工知能の分野での応用がなされています。
テキストを対象としたテキストマイニングや、ウェブサイトを対象にしたものをウェブマイニングなどがあります。
「やや速い身体の動き(定量的には2Hz〜3Hz)が継続し、また一貫して生じていることが最適経験(=フロー状態)の頻度と相関していた」
「身体を継続的にやや速く動かせる状況をつくることにより、仕事や生活に楽しさや充実感を得ることが期待される。しかもこの動きは1/T方程式が教えるように、人のもっとも自然な状態なのだ。」
矢野和男|2014
温度計という計測機器がこの世に登場したとき、科学者たちはそれが何を計測しているのかわからなかった・・といいます。なぜかというと、人間が感じる様々な「あつさ」と温度計の尺度が一致するものではなかったからです(人間の感覚は複雑で、20度の水と20度の大気に対する感覚は同じものではありません)。しかしその計測機器の示す値は、大気の暖かさや、お湯の熱さなど、異なる刺激がもたらす心理的な感覚と高い「相関」を示していました(つまり計測値の上下変動と感覚上の上下変動が連動していました)。そこから「温度」という統一的な概念を得ることができたのです。現代人が一般的なものとして理解している温度という概念。これは、計測機器が示す様々な物理値と人間の感覚との相関をとることで見出された統一的尺度ということができます。
同様に、ウエアラブルセンサーから得られたビッグデータの統計値が示すものも、人間のなんらかの感覚と相関するかもしれない・・。そこに着眼した研究によって、「やや速い身体の動きが継続し、また一貫して生じていること」が、楽しさや幸福感といった感情と極めて高い相関を持つことがわかったのです。
かつての賢者は「手を動かしなさい」とよく言っていました。それは長年の経験から得られた知見だったのでしょう。2Hz〜3Hz。歩くリズム。絵を描くときの手の動き。楽器を演奏するときの腕の動き。人がフロー状態を得るためのヒントがここにあると思います。