Kaggleの初心者向けコンペとして知られる、タイタニックコンペとはどんなコンペなのかについて解説します。
タイタニックコンペとは?
かつて、「タイタニック号」という有名な客船がありました。映画にもなっているので、名前を聞いたことがある人も多いと思います。タイタニック号は、1912年に沈没事故に遭い、多くの乗客が犠牲となってしまいました。タイタニックコンペ、そのタイタニック号の沈没事故を題材にしたコンペです。
データ数が少なく、比較的容易に予測をすることができるため、Kaggleで機械学習を始めようとする人向けのコンペとして知られています。2020年12月現在で22000以上ものチームが参加しており、人気の高さが伺えます。
「タイタニックコンペ」では何を予測する?
タイタニックコンペでは、タイタニック号で生還した人は誰かを予測します。
生還したかどうかは、データ上では整数で表されます。生還した場合は「1」、生還できなかった場合は「0」となります。
コンペを解くために必要なデータが与えられるので、そのデータと自分で作成したモデルを使って、予測を行います。
与えられるデータ
このコンペでは、全部で3つのCSVファイルが与えられます。
①train.csv
trainとは、「学習」を意味します。つまり、このデータはモデルの学習に必要なデータだということが分かります。乗客が生還したかどうかを示すデータの他、年齢や名前、運賃など、色々なデータが入っています。
②test.csv
このデータには、実際に予測をしなければならない乗客のデータが入っています。train.csvとは異なり、生還したかどうかに関するデータは入っていません。(それを予測するのがこのコンペの目的だからです。)
③gender_submission.csv
実際にコンペに提出するファイルの例を示すファイルです。このファイルと同じ形式で提出ファイルを作る必要があります。
初心者はまず何から始めれば良い?
タイタニックコンペでは、データを調べた後、モデルを作って学習させ、最終的に予測を行います。このようなプロセスを学ぶために、まず初心者の方は色々な記事やノートブックを読むと良いでしょう。
Kaggleには多くの日本人ユーザーがいるので、タイタニックコンペの取り組み方や解法を解説した記事やノートブックが多数あります。Googleなどで「Kaggle タイタニック」などと検索してみてください。
自分に合わない記事もあるかもしれませんが、諦めずに色々な記事に目を通すことで、Kaggleや機械学習コンペに慣れていくのが良い学習法だと思います。