Pandas: describe()でデータを概観する

Pandasでは、describe()というメソッドを使うことで、データの基本的な情報を確認することができます。今回は、describe()の使い方について学びます。

まず、簡単なデータを作っておきます。

data = pd.DataFrame([[1,4,5,6],[2,1,3,5],[2,4,5,10],[4,1,5,0],[11,7,3,6]],
                   columns=['a','b','c','d'])

このデータについて、describe()を適用してみたいと思います。

data.describe()

上記のコードを実行すると、別のデータが出力されます。

このデータには、いくつかのindexが含まれています。indexには、”mean”や”std”などと名前が付いています。

各要素が示す意味は以下の通りです。

文字列を含むデータの場合、ユニークな値の数を示すuniqueや、最も出現回数が多い要素を示すtopといった情報を確認することができます。

平均値や標準偏差といった重要な統計量を瞬時に取得することができるので、とても便利です。

describe()の引数

describe()には、いくつか引数があります。

デフォルトでは第一四分位数（25%)、第二四分位数（50%）、第三四分位数（75%）を含むデータを返すよう設定されていますが、このパーセンテージを変更することができます。

例えば、第一四分位数を20%、第二四分位数を45%、第三四分位数を70%としたい場合は、percentiles=[0.2,0.45,0.7]と指定します。

統計量を計算するデータ型を指定します。include=’all’とすると、全てのデータ型が指定されます。

除外するデータ型を指定します。例えば、文字列と整数を含むデータについて、文字列が入っているカラムだけを除外したい時に使います。

月日や時間を含むデータ(datatime)を数値として扱うかどうかを指定します。数値として扱う場合はTrue、そうでない場合はFalseとします。