LogoMark.png

Pandas

Pandas

https://pandas.pydata.org/

Pandas は、データの読込、集計、並べ替え、欠損値の補完などを行うことができるライブラリで、データ分析の前処理段階で多く利用されます。.csv、.xlsx 他、多様な形式のデータを読み込みに対応しています。

PCのメモリ容量が許す限り、大量のデータを DataFrame に読み込んむことができ、表計算ソフトよりも高速で処理を行うことができます。

一般にこれを使う際は、まず Pandasでデータを整形した後、NumPyで数値計算を行う・・といった流れになります。

Pandas の特徴は DataFrame にあります。DataFrame にはデータの平均値や行数などの情報把握、並替え、列名変更といったデータ整形機能があります。




利用方法

インストール

Python 言語のライブラリとしてのインストールになるので、一般の Python3 の環境であれば、Terminalから以下のコマンドでインストールできます。

$ pip3 install pandas
$ pip3 list  ← 念のため一覧表示


pandasを使った処理の冒頭部分の事例

# Pandas、及び必要なライブラリのインポート
import pandas as pd
from pandas import DataFrame
import numpy as np
# サンプルデータセットを取得
from sklearn import datasets
boston = datasets.load_boston()
# 読み込んだデータを Pandas の DataFrame型に変換
df = DataFrame(boston.data, columns = boston.feature_names)
# 目的変数をDataFrameへ追加
df['MEDV'] = np.array(boston.target)

一般に df は DataFrame の略です。

pandasでよく使うメソッド

活用サンプル

以下に、Pandas によるデータ読み込みのサンプルを掲載しています。
ipynb(JupyterNotebook)形式で、GitHubに置いていますが、レンダリングがタイムアウトする場合は、下の nbviewer 経由でご覧下さい。

メソッド一覧

データの読込

以下、DataFrame は、データフレームオブジェクトの名称です。

データの情報把握

欠損値に関するもの

データのスライス・フィルタリング

データの並べ替え

集計

可視化

注)Matplotlib の importが必要です。

その他

PAGES

GUIDE

DATA

Last-modified: 2020-07-11 (土) 21:30:26