授業アンケートを兼ねて、以下のアンケートへの回答をお願いします。重複回答防止のため、学籍番号を尋ねていますが、いただいた回答から学籍番号を除外したデータを、データ分析の練習用の素材として活用することを想定しています。
https://forms.gle/ArJixPMzMcTTNRQG9
データビジュアライゼーション(Data Visualization)とは、物事の関係性を視覚的に捉えられるように、データを画像・グラフ・図表などに変換することを言います。その目的はデータから価値や知恵を生み出すことにあります。
Data → Information(構造化)→ Knowledge(知見)→ Wisdom(知恵)
Data-ink ratio = Data-ink / total ink used to print the graphicEdward Tufte, 1992, The Visual Display of Quantitative Information
Pythonを用いたデータビジュアライゼーションには、様々な関連ライブラリーのインポート、データの読み込み、各種メソッドの活用が前提となります。以下、各種ライブラリの紹介です。
import matplotlib.pyplot as plt
import seaborn as sns
import folium from folium.plugins import HeatMap
import plotly.graph_objects as go import plotly.express as px
統計データを、国や地域、道路など地図上に可視化する需要が高まっています。今回は、地図情報の活用と、地図上にデータをプロットする方法を体験します。
オープンソースのJavaScriptライブラリLeafletを用いて Pythonでインタラクティブな地図を生成するライブラリです。
緯度・経度の値を使ったマーカー表示や、ヒートマップの表示、また GeoJSON形式の地理情報と統計情報を合わせた各種の可視化が可能になります。
Foliumはデフォルトで OpenStreetMap を使用しています。
コロプレス図とは、統計数値を地図上に表現したもので、区域単位(国別など)の情報を、統計値に応じた色彩や明暗によって表します。人口やGDP、生産高など、土地の上に分布するものを表現するのに適しています。
ワードクラウドは、文章の中に含まれる単語をカウントして、どのような単語が多く含まれるかを視覚的に表現します。
英語の場合は、単語間にスペースがあるので、解析が簡単ですが、日本語の場合はオリジナルの文章から単語間がスペースで区切られた「分かち書き」の状態に変換する作業が必要になります。
import wordcloud
テキストマイニングは、以下のようなサイト(サービス)を利用することでも、簡単に実現可能です。
ノートを、学科サイトの個人ページからリンクして下さい。以下、手順です。
このリンクを知っているインターネット上の全員が閲覧できます。
-[[地理情報の可視化>https://colab.research.go・・=sharing]]
以下のような一般のテキストデータが利用できます。
JupyterNotebook形式(.ipynb)でプログラムを提供します。
https://github.com/koichi-inoue/DataScience/blob/main/WordCloud.ipynb
ノートを、学科サイトの個人ページからリンクして下さい。以下、手順です。
このリンクを知っているインターネット上の全員が閲覧できます。
-[[ワードクラウド>https://colab.research.go・・=sharing]]