LogoMark.png

Data のバックアップの現在との差分(No.1)


#author("2021-12-01T12:49:22+09:00;2021-12-01T12:48:54+09:00","default:inoue.ko","inoue.ko")
#author("2023-11-16T18:37:46+09:00","default:inoue.ko","inoue.ko")
*データ
DATA
~


データ(Data)とは、一般に情報伝達、解釈、処理を目的として符号化された情報(与件・所与)のことです。
 直面している問題の解決や、意思決定に役立つか否かという観点から、データと情報を区別する場合もあります。その場合、データとは「情報を生みだすための素材」のことで、データに含まれる問題解決に役立つ部分のみを情報と呼んで区別します。受信者によって、また受信者の状況によって「データか情報か」は異なってきます。

-ISO/IEC 2382-1
 A reinterpretable representation of information 
 in a formalized manner suitable for communication, 
 interpretation, or processing.
-日本工業規格:X0001 情報処理用語-基本用語
 情報の表現であって、伝達、解釈または処理に適するように形式化され、
 再度情報として解釈できるもの
~

***CONTENTS
#contents2_1
~

**人類とデータ
人類は情報(データ)を交換・共有・蓄積することにより、独自の進化を遂げた生物です。その歴史には以下のような大きな転換点がありました((ちなみに、表の中で最も大きな革命は、「文字の発明」ではないかと考えます。インターネットを用いてWeb会議ができるようになった現在、最も進化したコミュニケーションスタイルは「遠隔・リアルタイム(同期)」コミュニケーションのように思われがちですが、IT基盤を支えるオープンソースの開発現場を見れば明らかなように、そこで用いられている手段は「場所も時間も拘束しない ''遠隔・非同期'' の 文字によるコミュニケーション」です。))。
|数万年前|言葉の発生|情報の交換・リアルタイムコミュニケーション|
|BC4千年紀|文字の発明|情報の蓄積・非同期コミュニケーション|
|105年|紙の発明|情報のモバイル化|
|1440年頃|活版印刷|情報の拡散|
|1945年|コンピュータ|情報処理の自動化|
|1989年|WWW|情報共有のグローバル化|

~
~

**データファイルの形式
コンピュータで扱うデータの形式として、代表的な以下の3つを紹介します。
~

***データファイルの基本構造
#image(Data/TableElements.png,right,30%)
データファイルは一般に2次元の表形式で与えられます。以下の用語を理解しておくことが必要です。
-''テーブル / Table''(表):通常1つのファイル 
-''レコード / Row''(行):1件分のデータセット
-''フィールド / Column''(列):特定項目に関するデータセット
#clear

''表の先頭行にはフィールド名(項目見出し)が並ぶ''のが一般的です。
&scale(75){出典:https://commons.wikimedia.org/wiki/File:Table_Elements.svg};

なお、一般的な統計表やクロス集計表では、表の左と上にカテゴリー見出しが記載されることになります。このとき、表の左側にある項目(行の見出し部分)を「表側(ひょうそく)」、表の上部にある項目(列の見出し部分)を「表頭(ひょうとう)」と言います。
~


***CSV
CSV(Comma-Separated Values)とは、表形式のデータ等でフィールド項目をカンマ [ , ] で区切ったテキストデータです。拡張子は .csv。

データ交換用の標準として、多くのスプレッドシート(表計算ソフト)やデータベースソフトで活用されています。

ちなみに、タブで区切られたものをTSV(Tab-Separated Values)、半角スペースで区切られたものを Space-Separated Values といいます。
~

***JSON
JSONは、データを key とvalue の組み合わせで記述する連想配列のひとつで、その活用事例のひとつとして、地理情報を記述するフォーマット [[GeoJSON>JSON#GeoJSON]] があります。
-ページを独立させました > __[[JSON]]__
~


***YAML
YAML(YAML Ain’t Markup Language) とは、構造化されたデータを表現するためのフォーマットです。 目的は XML と似ていますが、XML と比べて「読みやすい」「書きやすい」「わかりやすい」という利点があります。

YAML は次のような用途に向いています。
-各種設定ファイル
-データ保存用 (シリアライゼーション)
-データ交換用フォーマット
-ログファイル

YAML には以下のような利点があります。
-読みやすい:インデントを使ってデータの階層構造を表します。
-書きやすい:XML のような終了タグが必要なく書きやすい。
-わかりやすい:データを「配列」「ハッシュ」「スカラー (数値や文字列や真偽値)」だけで表すため、人間にとって非常に理解しやすく、またプログラミングも容易です。

YAML はあくまで「仕様」なので、それを処理するライブラリの「実装」が必要です。以下、様々な言語に対応しています 。
 C/C++ Java JavaScript Perl Python PHP Ruby ・・

~

***XML
XML(Extensible Markup Language)とは、基本的な構文規則を共通化して、任意の用途向けの言語に拡張することを容易にしたマークアップ言語の総称です。個別の目的に応じたマークアップ言語群をつくるのに汎用的に使えます。
~

***付記:データとメタデータ
画像データを例にとると、画素のRGB値が実際のデータですが、その画像が、いつ、誰によって、どのように生成されたかといった、データが得られた状況を説明したデータを「メタデータ」といいます。データをアーカイブする際は、このようなメタデータをデータに付随させることも重要です。

~
~

**データと尺度
[[統計的な処理>Statistics]]では、一般にデータを以下のように分類します。
~

***質的データ(定性的データ, カテゴリーデータ )
-''名義尺度''(nominal scale)同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
''例)''血液型(A型:1,B型:2,・・・,O型:4)

-''順序尺度''(ordinal scale)同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
''例)''ミネラルウォーターの売上BEST10(商品を順に1位、2位、3位・・と割り当てる場合など)、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、項目間の間隔が不均等とみなされる場合)
~

***量的データ ( 定量的データ, 離散データ / 連続データ) 
-''間隔尺度''(interval scale)同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
''例)''知能指数、摂氏の温度、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値 4と3の差 と評定値3と3の差が等間隔とみななされる場合)((そもそも、こうした印象評価の段階的な数字は、等間隔である保証はできず、本来であれば順序尺度として扱うものですが、実際の研究では、これを間隔尺度として、統計ソフト等で分析にかけることが多いようです。))。

-''比率尺度''(ratio scale)同一性・順序性・加法性・等比性
原点(0)が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
''例)''身長、体重、金額、絶対温度など
~
~

**データサイエンス
[[データサイエンス(Data Science)>DataScience]]とは、データに関する研究を行う学問分野を包括的に指す用語で、ビッグデータ、データマイニングといった言葉とともに身近なものになりました。近年、さまざまな意思決定の場面で、データにもとづく合理的な判断が求めらるようになり、これを職務とする人のことを「データサイエンティスト」と呼ぶようにもなりました。

前提となるのはデータベースの存在、そしてそれを扱う、統計学、情報科学の知識と、パターン認識、機械学習、可視化などの技術です。

-詳細:[[DataScience]]
~

***データサイエンスの領域に必要な技術・ツール
-大量のデータの収集、フォーマット変換
-統計処理
-ビジュアライゼーション(グラフの作成等、データの視覚化)
-機械学習(ディープ・ラーニングを含む)
-パターン認識、データマイニング(パターン、データに潜む秩序の発見)
-R、Python等、プログラミング言語を用いた分析
-ビジネスの課題解決

付記:データ × デザイン を考えたとき、最も重要なのは、ビジョン(あるべき姿)が明確であるかということ。市場がこう動いているから、そこへ寄せていって大量に売りまくる・・というのではなく、まず、どんな未来が欲しいのかを考えるべきでしょう。AI は基本的に過去のデータしか見ていません。もちろん、それが未知の相関を発見してイノベーションを起こすことは十分にありますが、未来をどうしたいのか、その思いは人間の中にしか存在しません。データを参考にしても仕方がない問題というものもたくさんあります。デザイナーであれば、将来のビジョンを明確にして、そこからバック・キャストする、そのためにデータを活用する・・という姿勢が必要であると思います。

~
~




**ビッグデータ
ビッグデータ(big data)とは、人間の能力で把握するのが困難なほど巨大で複雑なデータのことで、例えば企業活動においては、これを分析して売上の向上や、在庫の最適化などに役立てています。

-ビッグデータの活用で効率化が期待できること
--業務フローの最適化によるコストの削減
--資源の最適化による売り上げの最大化
--現状が抱える問題の特定
--新たな可能性の発見

-ビッグデータが注目されるようになった理由
--コンピュータの処理能力、蓄積能力・規模の向上
--ネットワークの充実
--インターネット検索履歴から個人情報の大規模収集が可能になったこと
--スマートフォンアプリから個人情報の大規模収集が可能になったこと

-[[Google:ビッグデータ 活用事例]]

~
~

**データマイニング(DM)
[[データマイニング(Data mining)>DataMining]]とは、統計学、パターン認識、人工知能等のデータ解析の技法をビッグデータに適用して、発見的(heuristic)に知識を得るための技術です。
 歴史的には、1980年代にリレーショナル型データベース(昨今の代表格はMySQL)と操作用言語SQLが登場して以降、KDD(Knowledge Discovery in Databases)という語とともに、その有用性が注目されるようになりました。
 1990年代以降、データ量の爆発的増大に伴って、ビッグデータを処理する手法として「データサイエンス」、「データマイニング」のという言葉が現れ、統計解析、人工知能の分野での応用がなされています。
 テキストを対象としたテキストマイニングや、ウェブサイトを対象にしたものをウェブマイニングなどがあります。
~

***データマイニングの分類
-目的志向型のデータマイニング(仮説の検証)
--分類、抽出(質的変数)
--推定、把握(量的変数)
--将来予測
-探索志向型のデータマイニング(知識の発見)
--クラスタリング
--アソシエーションルールの策定
-上記ともに関係するデータマイニング
--プロファイリング( 特徴の推測)

~
~



**[[データの見えざる手>Google:データの見えざる手]]
>「やや速い身体の動き(定量的には2Hz〜3Hz)が継続し、また一貫して生じていることが最適経験(=[[フロー状態>Google:フロー 心理学]])の頻度と相関していた」
>「身体を継続的にやや速く動かせる状況をつくることにより、仕事や生活に楽しさや充実感を得ることが期待される。しかもこの動きは[[1/T方程式>Google:1/T方程式 ウエアラブルセンサー]]が教えるように、人のもっとも自然な状態なのだ。」
>矢野和男|2014

温度計という計測機器がこの世に登場したとき、科学者たちはそれが何を計測しているのかわからなかった・・といいます。なぜかというと、人間が感じる様々な「あつさ」と温度計の尺度が一致するものではなかったからです(人間の感覚は複雑で、20度の水と20度の大気に対する感覚は同じものではありません)。しかしその計測機器の示す値は、大気の暖かさや、お湯の熱さなど、異なる刺激がもたらす心理的な感覚と高い「相関」を示していました(つまり計測値の上下変動と感覚上の上下変動が連動していました)。そこから「温度」という統一的な概念を得ることができたのです。現代人が一般的なものとして理解している温度という概念。これは、計測機器が示す様々な物理値と人間の感覚との相関をとることで見出された統一的尺度ということができます。

同様に、ウエアラブルセンサーから得られたビッグデータの統計値が示すものも、人間のなんらかの感覚と相関するかもしれない・・。そこに着眼した研究によって、「やや速い身体の動きが継続し、また一貫して生じていること」が、楽しさや幸福感といった感情と極めて高い相関を持つことがわかったのです。

かつての賢者は「手を動かしなさい」とよく言っていました。それは長年の経験から得られた知見だったのでしょう。2Hz〜3Hz。歩くリズム。絵を描くときの手の動き。楽器を演奏するときの腕の動き。人がフロー状態を得るためのヒントがここにあると思います。
// 逆に、うつ病患者が増えている原因についても、ひょっとすると、現代の環境(特にIT環境)が人間を動かなくていい状態にしていること、2Hz〜3Hzの動きを減らしていること、そんな環境の変化に問題があるのではないか・・?とも思えてきます。
~
~
**APPENDIX
***関連ページ
-[[DataScience]]
-[[ArtificialIntelligence]]
-[[ArtificialIntelligence/Links]]
-[[Data]]
-[[Statistics]]
-[[DataVisualization]]
-[[MachineLearning]]
--[[DecisionTree]]
--[[k-means]]
--[[LinearRegression]]
--[[LogisticRegression]]
--[[NeuralNetwork]]
--[[PrincipalComponentAnalysis]]
--[[PrincipalComponentAnalysis>Statistics/PCA]]
--[[MultipleCorrespondenceAnalysis>Statistics/MCA]]
--[[RandomForest]]
--[[SupportVectorMachine]]
-[[DataMining]]
-[[Python]]
--[[Pandas]]
--[[scikit-learn]]
-[[GoogleColaboratory]]
-[[Orange]]
-[[OpenData]]
~
~
~