今回は、初心者向けコンペである「タイタニックコンペ」で使うデータを見ていきたいと思います。
train(学習)データ(train.csv)
学習データ(train.csv)の内容を見てみましょう。
学習データは、機械学習モデルの学習に使われるデータです。
学習データには、タイタニック号に乗船した乗客に関する色々な情報が含まれています。カラム(列)は全部で12個あり、乗客889人のデータが入っています。12個あるカラムの特徴を1つずつ説明します。
①PassengerId
各乗客を示すIDです。整数で記述されています
②Survived
乗客が生き残ったのか、否かを示すカラムです。「1」と書かれた乗客は生き残りましたが、「0」と書かれた乗客は生き残ることができませんでした。
③Pclass
客船における各乗客の序列を示しています。飛行機における「エコノミークラス」「ビジネスクラス」「ファーストクラス」のようなものだと考えていただければ良いと思います。普通に考えればファーストクラスを利用する乗客はエコノミークラスを利用する乗客よりも裕福であると考えることができるので、何か予測に使える要素があるかもしれません。
④Name
各乗客の名前を示しています。予測には使いづらいようにも見えますが、名前には”Mr”,”Miss”などと敬称も一緒に書かれており、女性の乗客が結婚しているかどうかを読み取ることができます。
⑤Sex
各乗客の性別を示しています。”male”と”female”の2種類があります。タイタニック号から乗客が脱出する際、女性が男性よりも優先して救出された可能性があります。性別も予測に役立つ重要な要素になりそうです。
⑥Age
各乗客の年齢を示しています。年齢が若いほど素早く船から脱出できる、子どもが優先的に救出されると考えることができるので、予測に使えそうです。
⑦SibSp
兄弟や配偶者と一緒にタイタニック号に乗っていたか、乗っていた場合は何人の兄弟/配偶者と乗船したかを示しています。
⑧Parch
親や子どもと一緒にタイタニック号に乗っていたか、乗っていた場合は何人の親/子どもと乗船したかを示しています。⑥SibSpと似たカラムであり、予測に有用かどうかは未知数と言えます。
⑨Ticket
各乗客のチケットナンバーを示しています。
⑩Fare
各乗客がタイタニック号に乗船するために支払った運賃を示しています。
⑪Cabin
各乗客が船内で滞在していたと思われる部屋番号を示しています。部屋の位置によって脱出に有利不利が生じたことも十分考えられるので、予測に有用である可能性があります。
⑫Embarked
乗客がタイタニック号に乗船した港を示しています。データを見ると分かりますが、乗客はシェルブール(Cherbourg)、クイーンズタウン(Queenstown)、サウサンプトン(Southampton)という3つの港から乗船したようです。
テストデータ(test.csv)
テストデータは、予測をする際に使います。内容は学習データとほぼ同じですが、”Survived”というカラムだけが欠けている点が異なります。
提出用ファイル(gender_submission.csv)
このファイルは、予測結果を提出をしたい時に必要になります。
ファイルの”Survived”カラムの内容を自分が予測したものに置き換える必要があります。具体的な方法については今後投稿する記事で説明する予定です。
まとめ(Summarize)
- 学習データ→モデルの学習に使う
- 学習データには、乗客の性別、年齢、名前など、さまざまなデータが含まれている
- テストデータ→予測に使う、内容は学習データとほぼ同じだが、乗客が生き残ったかどうか(”Survived”)についてのデータは含まれていない
- 提出用ファイル→予測をした後、結果を提出する時に使う