PythonのライブラリであるPandasは、テーブルデータを分析する際に不可欠です。今回の記事では、PandasのDataFrame()を使って簡単なデータフレームを作る手法を説明したいと思います。
DataFtame()の構造
DataFrame()メソッドには、いくつかの引数があります。
①data
dataには、データフレームに変形したいデータを入れます。numpyで作成したndarrayや、Dictionary、リストを入れることができます。
②columns
データフレームに入れるカラム(Column)を指定します。カラムはリスト形式にします。
④index
データフレームのインデックスを指定します。指定の方法はcolumnsと同じです。
⑤dtype
データフレームのデータ型を定義したい時に使います。デフォルトでは”None”となります。
実際にデータフレームを作ってみる
それでは、実際にDataFrame()を用いてデータフレームを作ってみたいと思います。ここでは、適当に作成した架空の地域の人口を示すデータを使います。
import pandas as pd
population = [1200,600,800,500,1450,950,150]
popu_data = pd.DataFrame(data=population,index=["Area A","Area B","Area C","Area D","Area E","Area F","Area G"],
columns = ["Population"])
print(popu_data)
これを実行すると、簡単にデータフレームを出力することができます。
Kaggleのnotebookや、Google Colaboratory、Jupyter notebook等を使うと、より綺麗に見やすく表示されます。なお、notebookやColabで出力する場合は、print()を使う必要はなく、そのまま”popu_data”とすれば良いです。
今回の記事では、Pandasでデータフレームを作成する簡単な方法を紹介しました。Pandasには、この他にもさまざまなメソッドが用意されています。今後の記事では、有用なメソッドをたくさん紹介していきたいと思います。