DataVisualization のバックアップ差分(No.3) - OpenSquareJP

バックアップ一覧
現在との差分を表示
ソースを表示
バックアップを表示
DataVisualization へ行く。
- 1 (2021-12-06 (月) 13:09:23)
- 2 (2023-02-08 (水) 08:35:57)
- 3 (2023-02-08 (水) 08:35:57)
追加された行はこの色です。
削除された行はこの色です。
#author("2023-02-08T08:35:57+09:00","default:inoue.ko","inoue.ko")
#author("2023-10-11T18:42:27+09:00;2023-02-08T08:35:57+09:00","default:inoue.ko","inoue.ko")
#settableborder(line)

*可視化
Data Visualization
~


**概要
可視化とは、物事の関係性を視覚的に捉えられるように、データを画像・グラフ・図表などに変換することを言います。その目的は以下のように、データから価値や知恵を生み出すことにあります。

''Data'' → ''Information''（構造化） → ''Knowledge''（知見）→ ''Wisdom''（知恵）
~

***様々なグラフ
-[[ヒストグラム>GoogleImage:ヒストグラム]]：縦軸に度数、横軸に項目を対応させ、事項間の度数を比較するもの。度数分布図、柱状グラフともいいます。 
-[[ボックスプロット（箱ひげ図）>GoogleImage:箱ひげ図]]：データのばらつきを、箱（box）と、その両側に出たひげ（whisker）で表現する図。特に品質管理でよく用いられます。
-[[散布図>GoogleImage:散布図]]：縦軸、横軸に変数を対応させて、データを点でプロットしたもの。項目間の相関が見て取れます。
-[[折れ線グラフ>GoogleImage:折れ線グラフ]]：時系列の推移を表すもの
-[[棒グラフ>GoogleImage:棒グラフ]]：項目間の値を比較するもの
-[[円グラフ>GoogleImage:円グラフ]]：円図形を扇形に分割し、事項の構成比率を表すもの。

-[[ヒートマップ>GoogleImage:ヒートマップ]]：2次元データの個々の値を色や濃淡として表現したもの

~

***Topics
#image(https://upload.wikimedia.org/wikipedia/commons/thumb/1/17/Nightingale-mortality.jpg/1024px-Nightingale-mortality.jpg,right,30%)
-__[[ナイチンゲールの鶏頭図>GoogleImage:ナイチンゲール 鶏頭図]]__（1858）
クリミア戦争における月別の死因を可視化したもの。赤色が負傷、青が病気、黒がその他を意味していて、グラフからは負傷による死亡よりも病気による死亡が圧倒的に多いことがわかります。
&scale(75){出典：https://commons.wikimedia.org/wiki/File:Nightingale-mortality.jpg};
~

-__[[データインク比>GoogleImage:Data-ink ratio]]__
エドワード・タフテによる「良いグラフィック」の指標で、「グラフィック全体の印刷にかかったインク量のうち、データを伝えるために用いられたインク量の比率が 1.0 に近いほど良い・・と考えられます。
 Data-ink ratio　=　Data-ink　/　total ink used to print the graphic
&scale(75){Edward Tufte, 1992, The Visual Display of Quantitative Information };
~
~


**Python ライブラリ
以下、ビジュアライゼーションに関連する Python ライブラリを紹介します。詳細は個々のページをご覧ください。
~

***基本データ処理用のライブラリ
-__[[NumPy]]__｜数値計算
https://numpy.org/

-__[[Pandas]]__｜データフレームの活用
https://pandas.pydata.org/

-janome｜日本語の形態素解析器
https://mocobeta.github.io/janome/
~


***ビジュアライゼーション用のライブラリ
-__[[Matplotlib]]__｜グラフ描画
https://matplotlib.org/

-__[[Seaborn]]__｜matplotlib をベースにした美麗な可視化
https://seaborn.pydata.org/

-__[[Plotly]]__｜動的グラフ作成
https://plotly.com/python/

-__[[Folium]]__｜地図・位置情報の可視化
https://python-visualization.github.io/folium/

-__[[WordCloud]]__｜ワードクラウドの描画
https://amueller.github.io/word_cloud/

-__[[Pillow]]__｜画像処理
https://pillow.readthedocs.io/
&small(開発が停止しているPIL(Python Image Library)からフォークされたライブラリ);
~
~

**サンプルコード
-基本的な統計グラフ Matplotlib
https://github.com/koichi-inoue/DataScience/blob/main/StatisticalGraph.ipynb

-応用的な統計グラフ Seaborn
https://github.com/koichi-inoue/DataScience/blob/main/StatisticalGraphPlus.ipynb

-地図情報の可視化 Plotly, Folium
https://github.com/koichi-inoue/DataScience/blob/main/GeographicVisualization.ipynb

-ワードクラウド
https://github.com/koichi-inoue/DataScience/blob/main/WordCloud.ipynb

~
~
~