LogoMark.png

DataVisualization のバックアップ(No.5)


可視化

Data Visualization

概要

可視化とは、物事の関係性を視覚的に捉えられるように、データを画像・グラフ・図表などに変換することを言います。その目的は以下のように、データから価値や知恵を生み出すことにあります。

DataInformation(構造化) → Knowledge(知見)→ Wisdom(知恵)


様々なグラフ




Python ビジュアライゼーション


基本データ処理用のライブラリの読み込み

ビジュアライゼーション用のライブラリの読み込み

データの準備

はじめに対象となるデータをデータフレームとして読み込む必要があります。データの読み込み方法については、Pandas のページをご覧下さい。

df = pd.read_csv( '/path/to/xxxxxx.csv' )


ヒストグラム

#image(): File not found: "hist.png" at page "DataVisualization"

データフレーム(以下 df )からヒストグラムの生成は非常に簡単です。

df.hist() 全項目一挙表示
df[ 'GPA' ] .hist( ) # 特定カラム
df.hist( 'GPA' ) # 上と同じ
df.hist( 'GPA' , figsize = ( 9, 6 ) )  # サイズ 指定


棒グラフ

グラフにしたい内容によっては、事前に「データの平均値を出す」、「クロス集計する」といった処理を行って、新しいデータフレーム(表)を作成します。

# 性別ごとに国語・英語・数学の平均値を算出
df_mean = df.groupby("Gender", as_index=False).mean() 
df_mean
GenderJapaneseEnglishMathematics
0F62.35000058.47500039.800000
1M56.42045541.14204539.539773

#image(): File not found: "bar.png" at page "DataVisualization"

生成された df_mean を使うと、簡単に積み重ね棒グラフができます。

df_mean.plot.bar(stacked=True)


散布図

#image(): File not found: "scatter.png" at page "DataVisualization"

x軸とy軸にカラム項目を指定して表示します。

df.plot.scatter( x='GPA', y='Attendance' )


ボックスプロット

#image(): File not found: "box.png" at page "DataVisualization"

対象カラム(GPA:成績)を、グループ別(Prefecture:出身県)に分けて表示します。

df.boxplot( column="GPA", by="Prefecture")