当サイトについて知りたい方はこちら

Kaggle:新コンペ”Tabular Playground Series”がスタート!

今年2021年から、Kaggleでは新しいタイプのコンペがスタートします。その名は”Tabular Playground Series”です。

コンペの狙い

このコンペはメダルや賞金を獲得することはできませんが、Kaggle初心者の方にとって学びの多い内容となっています。

今まで、Kaggleにおける初心者向けのコンペといえば「タイタニックコンペ」が主流でした。データが少なく、かつ扱いやすく、簡単なモデルを作ることで容易に予測をすることができるためです。

しかし、タイタニックコンペを終えたユーザーの多くは、次どのコンペに挑戦すれば良いのかと悩むことが多いです。いきなり難易度が高いコンペに挑戦してしまうと全く歯が立たず、モチベーションが一気に低下してしまうこともありえます。

そこでKaggleでは、2021年からタイタニックコンペを終えた初心者Kagglerに向けた”Tabular Playground Series”コンペが始まりました。

コンペの内容

タイトルからも分かる通り、このコンペでは「テーブルデータ」を扱います。つまり、画像処理や音声処理、強化学習などの知識や技術は必要ありません。そのため、機械学習の勉強を始めたばかりの方でも気軽に挑戦することができます。

扱うデータについては「タイタニックコンペ」と比べるとやや複雑になっています。例として、Tabular Playground Series – Jan 2021のデータを見てみると、trainデータのカラムにはcont1,cont2,cont3…と何を示しているかが全く分からない名前が振られています。乗客の性別や年齢など、分かりやすいデータが与えられていたタイタニックコンペとは大きく異なります。

また、データの大きさにも違いがあります。タイタニックコンペで扱うデータはとても小さく、trainデータの大きさは約60KBほどでしたが、このコンペでは約80MBもあります。

Kaggle初心者がよりKaggleの世界に入り込むために有効

“These competitions will be great for people looking for something in between the Titanic Getting Started competition and a Featured competition.”(これらのコンペはタイタニックコンペからFeaturedコンペへの良い橋渡し役となるだろう)

コンペの説明にこう書かれている通り、賞金やメダル獲得の対象となるコンペに挑戦するためのトレーニングとして活用することができるでしょう。既に賞金やメダルが発生するコンペに何度も挑戦するユーザーにとっては少し物足りない面があるかもしれません。タイタニックコンペを終えて、さらに高みを目指したい方におすすめと言えます。

コンペの取り組み方

新しくコンペに取り組む際には、自分で闇雲にデータを観察したり、有効なモデルを考えるよりももっと効率的な方法があります。

それは、「人気のあるノートブックを読み、コンペの全容を理解しようとする」ことです。Upvoteをたくさん集めているノートブックから順に読んでいき、このコンペは一体何を予測するのか、データはどのような構造をしているのか、などを理解します。気に入ったノートブックには、Upvoteも忘れずにしておきましょう。

コンペについての理解が深まったら、今度は自分で予測に挑戦してみましょう。他の人のノートブックをコピーして、とりあえず提出してみるだけでも良いです。

さらにコンペについて調べたい場合は、ディスカッションを覗いてみるのも手です。さまざまな事柄について議論が行われているので、思わぬ発見があるかもしれません。

タイタニックコンペと比べると少し難しい内容にはなっていますが、Kaggleでの成績アップを目指している方はぜひ挑戦してみてはいかがでしょうか。

タイトルとURLをコピーしました