LogoMark.png

DataVisualization のバックアップ(No.6)


可視化

Data Visualization

可視化とは、物事の関係性を視覚的に捉えられるように、データを画像・グラフ・図表などに変換することを言います。その目的は以下のように、データから価値や知恵を生み出すことにあります。

DataInformation(構造化) → Knowledge(知見)→ Wisdom(知恵)



はじめに

様々なグラフ


Topics

1024px-Nightingale-mortality.jpg

Python ビジュアライゼーション


基本データ処理用のライブラリの読み込み

ビジュアライゼーション用のライブラリの読み込み

データの準備

はじめに対象となるデータをデータフレームとして読み込む必要があります。データの読み込み方法については、Pandas のページをご覧下さい。

df = pd.read_csv( '/path/to/xxxxxx.csv' )


ヒストグラム

#image(): File not found: "hist.png" at page "DataVisualization"

データフレーム(以下 df )からヒストグラムの生成は非常に簡単です。

df.hist( ) 全項目一挙表示
df[ 'XXX' ] .hist(  ) 特定カラムの表示


ボックスプロット

#image(): File not found: "box.png" at page "DataVisualization"

対象カラム(XXX)を、グループ別(AAA)に分けて表示します。

df.boxplot( column='XXX' , by='AAA' )


散布図

#image(): File not found: "scatter.png" at page "DataVisualization"

x軸とy軸にカラム項目を指定して表示します。

df.plot.scatter( x='XXX', y='YYY' )


折れ線グラフ・棒グラフ・円グラフ

これらのグラフは項目間の推移や比較を見るために使います。数万件もある全レコードを表示しても視覚的に読み取ることはできないので、グラフにしたい内容によって、事前に「データの平均値を出す」、「クロス集計する」といった処理を行った後、それを新たなデータフレームとしてグラフの表示に利用するのが一般的です(以下、棒グラフの事例です)。

# 性別ごとに国語・英語・数学の平均値を算出
df_mean = df.groupby( 'Gender' , as_index=False ).mean( ) 
df_mean
GenderJapaneseEnglishMathematics
0F62.35000058.47500039.800000
1M56.42045541.14204539.539773

#image(): File not found: "bar.png" at page "DataVisualization"

生成された df_mean を使うと、簡単に積み重ね棒グラフができます。

df_mean.plot.bar( stacked=True )

stacked=True は、積み重ねを有効にする・・という意味です。