LogoMark.png

Data の変更点


#author("2019-11-28T15:51:37+09:00;2019-08-03T16:26:15+09:00","default:inoue.ko","inoue.ko")
#author("2020-07-01T19:41:29+09:00;2019-11-28T15:51:37+09:00","default:inoue.ko","inoue.ko")
*データ
DATA
~

データ(Data)とは、一般に情報伝達、解釈、処理を目的として符号化された情報(与件・所与)のことです。
 直面している問題の解決や、意思決定に役立つか否かという観点から、データと情報を区別する場合もあります。その場合、データとは「情報を生みだすための素材」のことで、データに含まれる問題解決に役立つ部分のみを情報と呼んで区別します。受信者によって、また受信者の状況によって「データか情報か」は異なってきます。

-ISO/IEC 2382-1
 A reinterpretable representation of information 
 in a formalized manner suitable for communication, 
 interpretation, or processing.
-日本工業規格:X0001 情報処理用語-基本用語
 情報の表現であって、伝達、解釈または処理に適するように形式化され、
 再度情報として解釈できるもの
~

***CONTENTS
#contents2_1
~

**データの形式
コンピュータで扱うデータの形式として、代表的な以下の3つを紹介します。
~

***CSV
CSV(Comma-Separated Values)とは、表形式のデータ等でフィールド項目をカンマ [ , ] で区切ったテキストデータです。拡張子は .csv。
 データ交換用の標準として、多くのスプレッドシート(表計算ソフト)やデータベースソフトで活用されています。
 ちなみに、タブで区切られたものをTSV(Tab-Separated Values)、半角スペースで区切られたものを Space-Separated Values といいます。
~

***JSON
ページを独立させました>[[JSON]]
~

***XML
XML(Extensible Markup Language)とは、基本的な構文規則を共通化して、任意の用途向けの言語に拡張することを容易にしたマークアップ言語の総称です。個別の目的に応じたマークアップ言語群をつくるのに汎用的に使えます。
~
~

**データと尺度
[[統計的な処理>Statistics]]では、一般にデータを以下のように分類します。
~

***質的データ(定性的データ, カテゴリーデータ )
-''名義尺度''(nominal scale)同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
''例)''血液型(A型:1,B型:2,・・・,O型:4)

-''順序尺度''(ordinal scale)同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
''例)''ミネラルウォーターの売上BEST10(商品を順に1位、2位、3位・・と割り当てる場合など)、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、項目間の間隔が不均等とみなされる場合)
~

***量的データ ( 定量的データ, 離散データ / 連続データ) 
-''間隔尺度''(interval scale)同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
''例)''知能指数、摂氏の温度、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値 4と3の差 と評定値3と3の差が等間隔とみななされる場合)((そもそも、こうした印象評価の段階的な数字は、等間隔である保証はできず、本来であれば順序尺度として扱うものですが、実際の研究では、これを間隔尺度として、統計ソフト等で分析にかけることが多いようです。))。

-''比率尺度''(ratio scale)同一性・順序性・加法性・等比性
原点(0)が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
''例)''身長、体重、金額、絶対温度など
~
~

**データサイエンス
[[データサイエンス(Data Science)>DataScience]]とは、データに関する研究を行う学問分野を包括的に指す用語で、ビッグデータ、データマイニングといった言葉とともに身近なものになりました。近年、さまざまな意思決定の場面で、データにもとづく合理的な判断が求めらるようになり、これを職務とする人のことを「データサイエンティスト」と呼ぶようにもなりました。
 前提となるのはデータベースの存在、そしてそれを扱う、統計学、情報科学の知識と、パターン認識、機械学習、可視化などの技術です。
~

***データサイエンスの領域に必要な技術・ツール
-大量のデータの収集、フォーマット変換
-統計処理
-ビジュアライゼーション(グラフの作成等、データの視覚化)
-機械学習(ディープ・ラーニングを含む)
-パターン認識、データマイニング(パターン、データに潜む秩序の発見)
-R、Python等、プログラミング言語を用いた分析
-ビジネスの課題解決

付記:データ × デザイン を考えたとき、最も重要なのは、ビジョン(あるべき姿)が明確であるかということ。市場がこう動いているから、そこへ寄せていって大量に売りまくる・・というのではなく、まず、どんな未来が欲しいのかを考えるべきでしょう。AI は基本的に過去のデータしか見ていません。もちろん、それが未知の相関を発見してイノベーションを起こすことは十分にありますが、未来をどうしたいのか、その思いは人間の中にしか存在しません。データを参考にしても仕方がない問題というものもたくさんあります。デザイナーであれば、将来のビジョンを明確にして、そこからバック・キャストする、そのためにデータを活用する・・という姿勢が必要であると思います。

~
~




**ビッグデータ
ビッグデータ(big data)とは、人間の能力で把握するのが困難なほど巨大で複雑なデータのことで、例えば企業活動においては、これを分析して売上の向上や、在庫の最適化などに役立てています。

-ビッグデータの活用で効率化が期待できること
--業務フローの最適化によるコストの削減
--資源の最適化による売り上げの最大化
--現状が抱える問題の特定
--新たな可能性の発見

-ビッグデータが注目されるようになった理由
--コンピュータの処理能力、蓄積能力・規模の向上
--ネットワークの充実
--インターネット検索利用者の増加による個人情報(年齢、性別、趣向など)の大規模収集が可能になったこと
--スマートフォンの普及による個人情報(年齢、性別、趣向、位置情報など)の大規模収集が可能になったこと

-[[Google:ビッグデータ 活用事例]]

~
~

**データマイニング(DM)
[[データマイニング(Data mining)>DataMining]]とは、統計学、パターン認識、人工知能等のデータ解析の技法をビッグデータに適用して、発見的(heuristic)に知識を得るための技術です。
 歴史的には、1980年代にリレーショナル型データベース(昨今の代表格はMySQL)と操作用言語SQLが登場して以降、KDD(Knowledge Discovery in Databases)という語とともに、その有用性が注目されるようになりました。
 1990年代以降、データ量の爆発的増大に伴って、ビッグデータを処理する手法として「データサイエンス」、「データマイニング」のという言葉が現れ、統計解析、人工知能の分野での応用がなされています。
 テキストを対象としたテキストマイニングや、ウェブサイトを対象にしたものをウェブマイニングなどがあります。
~

***データマイニングの分類
-目的志向型のデータマイニング(仮説の検証)
--分類、抽出(質的変数)
--推定、把握(量的変数)
--将来予測
-探索志向型のデータマイニング(知識の発見)
--クラスタリング
--アソシエーションルールの策定
-上記ともに関係するデータマイニング
--プロファイリング( 特徴の推測)

~
~



**[[データの見えざる手>Google:データの見えざる手]]
>「やや速い身体の動き(定量的には2Hz〜3Hz)が継続し、また一貫して生じていることが最適経験(=[[フロー状態>Google:フロー 心理学]])の頻度と相関していた」
>「身体を継続的にやや速く動かせる状況をつくることにより、仕事や生活に楽しさや充実感を得ることが期待される。しかもこの動きは[[1/T方程式>Google:1/T方程式 ウエアラブルセンサー]]が教えるように、人のもっとも自然な状態なのだ。」
>矢野和男|2014

温度計という計測機器がこの世に登場したとき、科学者たちはそれが何を計測しているのかわからなかった・・といいます。なぜかというと、人間が感じる様々な「あつさ」と温度計の尺度が一致するものではなかったからです(人間の感覚は複雑で、20度の水と20度の大気に対する感覚は同じものではありません)。しかしその計測機器の示す値は、大気の暖かさや、お湯の熱さなど、異なる刺激がもたらす心理的な感覚と高い「相関」を示していました(つまり計測値の上下変動と感覚上の上下変動が連動していました)。そこから「温度」という統一的な概念を得ることができたのです。現代人が一般的なものとして理解している温度という概念。これは、計測機器が示す様々な物理値と人間の感覚との相関をとることで見出された統一的尺度ということができます。

同様に、ウエアラブルセンサーから得られたビッグデータの統計値が示すものも、人間のなんらかの感覚と相関するかもしれない・・。そこに着眼した研究によって、「やや速い身体の動きが継続し、また一貫して生じていること」が、楽しさや幸福感といった感情と極めて高い相関を持つことがわかったのです。

かつての賢者は「手を動かしなさい」とよく言っていました。それは長年の経験から得られた知見だったのでしょう。2Hz〜3Hz。歩くリズム。絵を描くときの手の動き。楽器を演奏するときの腕の動き。人がフロー状態を得るためのヒントがここにあると思います。
// 逆に、うつ病患者が増えている原因についても、ひょっとすると、現代の環境(特にIT環境)が人間を動かなくていい状態にしていること、2Hz〜3Hzの動きを減らしていること、そんな環境の変化に問題があるのではないか・・?とも思えてきます。
~
~
***APPENDIX
***関連ページ
-[[DataScience]]
//-[[Data]]
-[[Statistics]]
-[[MachineLearning]]
-[[NeuralNetwork]]
-[[DataMining]]
-[[ArtificialIntelligence]]
-[[ArtificialIntelligence/Links]]

-[[OpenData]]

~
~


~