LogoMark.png

データサイエンス/10 のバックアップ(No.11)


第10回 データビジュアライゼーション

データサイエンス/2024受講生一覧汎用シート


はじめに

アンケート

授業アンケートを兼ねて、以下のアンケートへの回答をお願いします。重複回答防止のため、学籍番号を尋ねていますが、いただいた回答から学籍番号を除外したデータを、データ分析の練習用の素材として活用することを想定しています。
https://forms.gle/ArJixPMzMcTTNRQG9

今後の展開

データビジュアライゼーション

データビジュアライゼーション(Data Visualization)とは、物事の関係性を視覚的に捉えられるように、データを画像・グラフ・図表などに変換することを言います。その目的はデータから価値や知恵を生み出すことにあります。

DataInformation(構造化)→ Knowledge(知見)→ Wisdom(知恵)

Topics

1024px-Nightingale-mortality.jpg

ビジュアライゼーションに関わるライブラリ

Pythonを用いたデータビジュアライゼーションには、様々な関連ライブラリーのインポート、データの読み込み、各種メソッドの活用が前提となります。以下、各種ライブラリの紹介です。




地理情報の可視化

統計データを、国や地域、道路など地図上に可視化する需要が高まっています。今回は、地図情報の活用と、地図上にデータをプロットする方法を体験します。

地理情報の可視化ライブラリ Folium

オープンソースのJavaScriptライブラリLeafletを用いて Pythonでインタラクティブな地図を生成するライブラリです。

緯度・経度の値を使ったマーカー表示や、ヒートマップの表示、また GeoJSON形式の地理情報と統計情報を合わせた各種の可視化が可能になります。

Foliumはデフォルトで OpenStreetMap を使用しています。


コロプレス図とは

コロプレス図とは、統計数値を地図上に表現したもので、区域単位(国別など)の情報を、統計値に応じた色彩や明暗によって表します。人口やGDP、生産高など、土地の上に分布するものを表現するのに適しています。

GeoJSONデータとは

緯度・経度情報を取得するには

ワードクラウド

ワードクラウドとは

wordcloud.jpg

ワードクラウドは、文章の中に含まれる単語をカウントして、どのような単語が多く含まれるかを視覚的に表現します。

英語の場合は、単語間にスペースがあるので、解析が簡単ですが、日本語の場合はオリジナルの文章から単語間がスペースで区切られた「分かち書き」の状態に変換する作業が必要になります。

ライブラリ

参考

テキストマイニングは、以下のようなサイト(サービス)を利用することでも、簡単に実現可能です。





以下、演習です。
10-A または、10-B いずれか、興味のある方を選択して下さい。

 
ChatGPTの利用については、ChatGPTに記事があります。
 




演習10-A|地理情報の可視化

ノートブックの新規作成

サンプルデータ


サンプルコード

学科サイトにリンク掲載

ノートを、学科サイトの個人ページからリンクして下さい。以下、手順です。

演習10-B|ワードクラウド

ノートブックの新規作成

サンプルデータ

以下のような一般のテキストデータが利用できます。

サンプルコード

JupyterNotebook形式(.ipynb)でプログラムを提供します。
https://github.com/koichi-inoue/DataScience/blob/main/WordCloud.ipynb

学科サイトにリンク掲載

ノートを、学科サイトの個人ページからリンクして下さい。以下、手順です。