LogoMark.png

データサイエンス/2021/1203

第12回 データビジュアライゼーション2

データサイエンス/20212021.12.03

AGENDA


以下、LIVE動画をご覧下さい。記事に沿って解説します。
記録動画は、学科サイトの特設ページ(要ログイン)に移動しました。



CONTENTS




はじめに

進捗確認

https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience



Pythonによる統計グラフ2

今回は seaborn というライブラリを使った応用的なグラフ描画を体験します。

seabornについて

seabornは Python の可視化ライブラリで、matplotlib が内部で動いています。


ヒストグラム

ボックスプロット

sns.boxplot( )


散布図

質的変数の違いを色・形で区別、また量的変数をドットのサイズで表現可能

sns.scatterplot(  )


散布図行列

相関行列同様に、量的項目間の相関を一括表示

sns.pairplot( )


ヒートマップ

2次元の表の値を色の差( 青:小 ←→ 赤:大 など)で表現

sns.heatmap( )


棒グラフ・円グラフ等

seaborn ライブラリーによる棒グラフの表示は煩雑、また seaborn には円グラフを描く機能が実装されていないため、ここでは省略します。



Pythonによるビジュアライゼーション体験2

seaborn を用いたグラフィック

ノートブックの新規作成

サンプルデータ

いずれも https アクセスでプログラム内で直接読み込むので、ダウンロードする必要はありません。

サンプルコード

JupyterNotebook形式(.ipynb)でプログラムを提供します。
https://github.com/koichi-inoue/DataScience/blob/main/StatisticalGraph2.ipynb




プログラムの解説

ライブラリーの読み込み

冒頭で、グラフ描画用のライブラリ matplotlib、seaborn とデータ解析用のライブラリ pandasを読み込んでいます。

# matplotlib パッケージ から pyplot モジュールを plt として import
import matplotlib.pyplot as plt
 
# seaborn ライブラリを sns として読み込み
import seaborn as sns
# seabornの機能を有効化
sns.set()

# pandasライブラリの読み込み
import pandas as pd


ヒストグラム

ボックスプロット

sns.boxplot( )

散布図

散布図行列

相関行列同様に、量的項目間の相関を一括表示

sns.pairplot( )

ヒートマップ

このサンプルでは、covid-19 の陽性者数を「横軸:年月、縦軸:都道府県」というかたちで2次元の表にしたデータ(df2)を利用しています。

sns.heatmap( )

ファイルの保存について

GoogleColab のファイル操作のためのライブラリを読み込むことで、描画されたグラフを画像ファイルとしてダウンロード保存することができます。




学科サイトにリンク掲載(その6)

ノートを、学科サイトの個人ページからリンクして下さい。以下、手順です。

APPENDIX|WordCloud

ワードクラウドとは

ワードクラウドは、文章の中に含まれる単語をカウントして、どのような単語が多く含まれるかを視覚的に表現します。

英語の場合は、単語間にスペースがあるので、解析が簡単ですが、日本語の場合はオリジナルの文章から単語間がスペースで区切られた「分かち書き」の状態に変換する作業が必要になります。

ライブラリ

サンプルデータ

以下のような一般のテキストデータが利用できます。

サンプルコード

JupyterNotebook形式(.ipynb)でプログラムを提供します。
https://github.com/koichi-inoue/DataScience/blob/main/WordCloud.ipynb






PAGES

GUIDE

TOOL

DATA

Last-modified: 2021-12-03 (金) 08:46:43