LogoMark.png

Pandas

Pandas

https://pandas.pydata.org/

Pandas は、データの読込、集計、並べ替え、欠損値の補完などを行うことができるライブラリで、データ分析の前処理段階で多く利用されます。.csv、.xlsx 他、多様な形式のデータを読み込みに対応しています。

PCのメモリ容量が許す限り、大量のデータを DataFrame に読み込んむことができ、表計算ソフトよりも高速で処理を行うことができます。

一般にこれを使う際は、まず Pandasでデータを整形した後、NumPyで数値計算を行う・・といった流れになります。

Pandas の特徴は DataFrame にあります。DataFrame にはデータの平均値や行数などの情報把握、並替え、列名変更といったデータ整形機能があります。




準備

インストール

Python 言語のライブラリとしてのインストールになるので、一般の Python3 の環境であれば、Terminalから以下のコマンドでインストールできます。

$ pip3 install pandas
$ pip3 list  ← 念のため一覧表示


pandasを使った処理の冒頭部分の事例

# 必要なライブラリのインポート
import numpy as np
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt


pandas による DataFrame の定義(構造の理解)

DataFrame は valueindexcolumn の3つの要素から構成されます。

以下、0から11までの数値を 3行・4列にあてはめて定義する事例

df = pd.DataFrame( np.arange(12).reshape(3, 4),
       columns=['col_0', 'col_1', 'col_2', 'col_3'],
       index=['row_0', 'row_1', 'row_2'] )

print(df)
#           col_0  col_1  col_2  col_3
# row_0      0       1        2         3
# row_1      4       5        6         7
# row_2      8       9       10        11

df は DataFrame の略として一般によく用いられる名称です。



メソッド一覧

データの読込

データの情報把握

printメソッドによる統計量の表示

print("平均値:", df.mean() )
print("中央値:", df.median() )
print("分散:", df.var() )


データのスライス・フィルタリング

DataFrame.iloc[ ]、DataFrame.loc[ ]、DataFrame[ ]、DataFrame.query()


欠損値に関する処理

データの並べ替え

集計その他

可視化

以下、Matplotlib の import が必要です。

import matplotlib.pyplot as plt



活用サンプル

以下に、Pandas によるデータ読み込みのサンプルを掲載しています。
ipynb(JupyterNotebook)形式で、GitHubに置いていますが、レンダリングがタイムアウトする場合は、下の nbviewer 経由でご覧下さい。

参考:ライブラリのサンプルデータを読む事例

# サンプルデータセットを取得
from sklearn import datasets
boston = datasets.load_boston()
# 読み込んだデータを Pandas の DataFrame型に変換
df = DataFrame(boston.data, columns = boston.feature_names)
# 目的変数をDataFrameへ追加
df['MEDV'] = np.array(boston.target)




PAGES

GUIDE

DATA

Last-modified: 2021-02-09 (火) 18:05:17