KaggleのWikipediaコンペが面白そう

2021年9月14日からKaggleで、「Wikipedia – Image/Caption Matching」というコンペティションがスタートしました。

エントリー（参加）期限は12月2日で、コンペは12月9日に終了する予定です。（いずれもロンドン時間基準）

このコンペはメダル獲得の対象ではなく、成績上位者に与えられる賞金もありませんが、純粋に面白そうです。

コンペの内容を簡単に

皆さんは、「Wikipedia」というサイトをご存知でしょうか？

おそらく、ほとんどすべての方がその存在を知っているのではないかと思います。Wikipediaは世界最大の百科事典サイトであり、日本語版も用意されています。

さまざまなジャンルの記事を閲覧することができ、何かを調べたい時だけでなく、読み物として活用することもできるサイトです。

そんなWikipediaには、記事中に画像が掲載されていることがあります。例として、Wikipediaで「東京駅」という記事を見てみます。

記事を見てみると、まず最初に「丸の内口（2018年4月）」とキャプション（画像の説明文）が付いた写真が掲載されていることが分かると思います。

そして記事をスクロールしていくと、「駅全景（2021年3月）」、「八重洲口（2019年9月）」、「日本橋口（2014年5月）」とキャプションが書かれた写真が載っています。

キャプションが付けられていることで、その画像がいったい何を示しているのか、記事とどう関係があるのかがすぐに分かります。

このように、Wikipediaにおいて「画像」と画像を説明する「キャプション」は重要な役割を果たしています。

さて、今回のコンペでは、与えられた画像から、適切なキャプションを予測するモデルを作ります。

普段からよく使うWikipediaに関するコンペなので、予備知識がなくても気軽に挑戦できそうです。

なお、このコンペはCode Competitionではなく、予測モデルによって作られるCSVファイルを提出することでスコアが算出されます。

スコアを計算する際には、”Normalized Discounted Cumulative Gain”という評価尺度を用いるようです。

賞金はありませんが、成績上位3チームには”Wikipedia-branded merchandise”が贈られるとのことです。

以上、簡単にWikipediaコンペについて説明していきました。

コンペに参加してハイスコアを目指すことももちろん楽しいですが、コンペで使うデータを題材に、Notebookを書いてみるのも一興です。

データの概要や使い方などを説明するNotebookであれば、閲覧数やUpvoteを稼ぐことも比較的容易なので、Notebooksでメダルを取りたいと思っている方は、ぜひ美しく分かりやすいNotebook作成にも取り組んでみてはいかがでしょうか。