WordCloud
https://amueller.github.io/word_cloud/
Word Cloudは、テキストデータにおけるワードの出現頻度を可視化するための Python ライブラリーです。
英語の場合は、単語間にスペースがあるので、解析が簡単ですが、日本語の場合はオリジナルの文章から単語間がスペースで区切られた「分かち書き」の状態に変換する作業が必要になります。
参考
テキストマイニングは、以下のようなサービスでも簡単に実現可能です。
はじめに
WordCloud のインストールとインポート
Python 言語のライブラリとしてのインストールになるので、一般の Python3 の環境であれば、Terminalから以下のコマンドでインストールできます。
$ pip3 install wordcloud
import する際は、以下のように記述するのが一般的です。
from wordcloud import WordCloud
Google Colaboratory では Jupyter Notebook で利用できるライブラリーが「すべてインストール済み」という前提なので、ローカル環境での作業のように、必要なライブラリのインストールを行う必要はなく、コードセルに import 文を書くだけで使うことができます。
ワードクラウドの生成に用いるメソッド
WordCloud()メソッドで描画ベースを作成し、generate()メソッドにテキストデータを渡すだけで簡単に生成できます。
txt = """ 文章 """ wc= wordcloud.WordCloud( width = 1280, height = 760, colormap='viridis') wc.generate( txt ) plt.imshow( wc ) plt.show()
サンプル
サンプルコード
- JupyterNotebook形式(.ipynb)でプログラムを提供します。
https://github.com/koichi-inoue/JupyterNotebook/blob/master/WordCloud.ipynb
- カラーマップには以下のものが利用できます。
https://matplotlib.org/stable/tutorials/colors/colormaps.html
例:'viridis', 'plasma', 'inferno', 'magma', 'cividis'
サンプルデータ
以下のような一般のテキストデータが利用できます。