今回は、Kaggleにおける日本人ユーザーたちについて考えてみたいと思います。
日本人ユーザーの特徴を考える
Kaggleには世界各地に住むユーザーがおり、もちろん日本人も多くいます。
具体的な数字は不明ですが、体感的には全体の数%~10%ほどはいるような印象です。アメリカや中国、インドといった人口の多い国々と比べれば数は少ないですが、日本も人口が1億人ちょっとの割には健闘していると思います。
ユーザーの職業は、もちろん時間リソースを多く割くことができる学生が多いですが、社会人として働きながらKaggleをやっている日本人も少なくありません。
住んでいる地域は、やはり人口の多い都市部(首都圏、関西圏など)が目立ちますが、「地方」に住んでいるユーザーもそこそこおり、必ずしも「IT系=都市部」という式が成立するわけではないことが分かります。
日本人ユーザーのランク
ランク(Expert、Master、Grandmasterなど)という視点から見ると、日本人ユーザーの強さが分かります。まずGrandmasterについては、10人以上もの数の日本人Grandmasterがいます。
これはアメリカ、ロシア、中国などに次ぐ多さです。
Competitions Grandmasterだけでなく、Notebooks Grandmasterを獲得している日本人もいます。
Masterについては、これもやはりCompetitions Masterが多いです。Datasets/Notebooks/Discussion Masterの称号を獲得している日本人もいますが、Competitions Masterと比べると圧倒的に数が少ないという印象です。
Expertについては、こちらも同様にCompetitions Expertの数が他を圧倒しています。
ただ、Datasets/Notebooks/Discussion Expertの日本人もかなり多くいます。
タイプ別に分けて日本人ユーザーを考える
ここからは、タイプ(Competitions/Datasets/Notebooks/Discussion)別に分けて日本人ユーザーの動向を考えてみたいと思います。
Competitions
コンペはKaggleの目玉と言われる分野で、日本人ユーザーのほとんどがこれに取り組んでいます。
個人で参加している人ももちろん多いですが、チームで協力してメダルを獲得しているパターンがよく見られます。
成績が良いユーザーも多く、Leaderboardを見てみるとどのコンペでも上位5%以内に入っている日本人ユーザーの姿を見ることができます。
コンペによっては特に多くの日本人が上位を独占しているものもあります。(フランスのGrandmasterであるCPMPさんが約2年前に立てた、“Japan rules this competition.”というスレッドからは、上位に占めるユーザーの多くが日本人であるコンペの存在をうかがい知ることができます。)
Datasets
Datasetsはデータを投稿して共有したり、他の人が投稿したデータを探したりできる面白い機能ですが、日本人で積極的に取り組んでいる人はそれほど多くはないという印象です。
コンペに関連するデータをDatasetsに投稿して共有する、という使い方が人気のようです。
Notebooks
Notebooksについても、やはりコンペ関連のNotebookが目立ちます。
コンペに熱心に取り組む日本人ユーザーの数は非常に多いため、コンペに関連するNotebookを投稿する人はそこそこいます。
おそらく日本人のNotebooks Master/Expertの多くがCompetitions Master/Expertを兼ねているのは、これが理由でしょう。
その一方で、コンペに関係のないDatasetsに関するNotebookを書く人はそれほど多くはありません。
あくまでもコンペにおける重要事項を共有するための一手段としてNotebooks機能が使われているという印象です。
Discussion
Discussionについては、日本の母国語が英語ではないからなのか、やはり英語圏や英語と似た特徴を持つ言語(フランス語、ドイツ語など)を母語とする国のユーザーと比べると日本人ユーザーはそれほどアクティブではないように思います。
ただ、コンペのDiscussionでは積極的に議論をしている日本人ユーザーも多く(特にコンペで上位に入っているユーザー)、やはり日本人ユーザーはCompetitionsに関連さえしていればどんな分野でも高いパフォーマンスを発揮しやすいことが伺えます。
Kaggleにおける日本人向けコンテンツ
Kaggleには日本人ユーザーが一定数いるため、日本人向けのNotebooksやスレッドを投稿する人もいます。
日本語を使ってコンペで使われるデータなどを解説する内容のものが多く、英語がそれほど得意ではない方にとっては非常に有用だと言えます。
そのようなNotebookはタイトルに「日本語」や「Japanese」と付けられていることが多いので、気になった方は検索してみると良いでしょう。
日本人コミュニティ
Kaggle内で日本人同士が関わることももちろんありますが、KaggleよりもTwitterやSlackといった外部サイトが用いられることが多いようです。
特にSlackの「Kaggler-ja」というコミュニティは数千人もの数の日本人ユーザーが参加しています。
まとめ
- 日本人でKaggleを利用している人の数は世界的に見ても多い
- 特にCompetitionsで優れた成績を残しているユーザーが目立つ
- コンペが行われるたびに日本人向けの日本語Notebookが投稿される
- 日本人ユーザー同士の交流手段としてSlackコミュニティが人気
以上となります。最後までお読みいただき、ありがとうございました。