Pythonには表形式のデータを扱う時に便利な『Pandas』があります。
この記事では、『Pandas』を利用して、表形式データを読込み、データの抽出など
基本的な方法について解説します。
Pandasのインストール
『Pandas』を利用するにはインストールが必要です。
次のコマンドでインストールを行います。
pip install pandas
DataFrameを作成する
DataFrameの作成方法はいくつかありますが、
ここでは『CSVファイル』、『Excelファイル』から作成をしたいと思います。
CSVファイルの読込み
Excelファイルを読込むには『read_csv』を使用します。
import pandas as pd
# DataFrameを生成
df = pd.read_csv('sales.csv')
Excelファイルの読込み
Excelファイルを読込むには『read_excel』を使用します。
import pandas as pd
# DataFrameを生成
df = pd.read_excel('sales.xlsx')
DataFrameからデータを抽出する
データの抽出は『query(条件式)』でDataFrameを操作することで特定のデータを
取得することできます。次のサンプルからデータの抽出をします。
条件指定(一致)
df.query(' 月 == 1 ')
条件指定(不一致)
df.query('not 月 == 1 ')
または
df.query('月 != 1 ')
複数条件(OR条件)
df.query('品種 == "米" | 品種 == "食パン"')
複数条件(AND条件)
df.query('月 == 1 & 売上 > 1000')
DataFrameからデータを集計する
DataFrameを操作して各列の「最大値」、「最小値」、「平均値」、「合計値」を
取得することができます。
最大値
『df[項目名].max()』で最大値を取得できます。
df['売上'].max()
最小値
『df[項目名].min()』で最小値を取得できます。
df['売上'].min()
平均値
『df[項目名].mean()』で平均値を取得できます。
df['売上'].mean()
合計値
『df[項目名].sum()』で合計値を取得できます。
df['売上'].sum()