Slide 1

Slide 1 text

トラブルがあったコンペ に学ぶデータ分析 @tereka (Hiroki Yamamoto)

Slide 2

Slide 2 text

自己紹介 2024年主な戦績 1. SenNet + HOA - Hacking the Human Vasculature in 3D 9位(金) 2. LEAP - Atmospheric Physics using AI (ClimSim) 10位(金) 3. Amazon KDDCup 2024 総合7位 ※出身は兵庫です。

Slide 3

Slide 3 text

目次 1. 本発表の概要・目的 2. トラブルがあったコンペとはなにか? 3. トラブルがあったコンペ紹介 4. トラブルがあったコンペから得られる教訓

Slide 4

Slide 4 text

1. 本発表の概要・目的

Slide 5

Slide 5 text

1. 本発表の概要・目的 参加者がとても嫌な思いのするコンペ(通称:トラブルがあったコンペ) とは何か、そしてその代表例紹介します。 そのうえで、トラブルがあったコンペからデータ分析の役に立つことを 学べないかを検討します。(あるのでしょうか・・・)

Slide 6

Slide 6 text

2. トラブルがあったコンペとはなにか?

Slide 7

Slide 7 text

2. トラブルがあったコンペで思い浮かべるもの CV/LBが相関なさそう・・ 参加したくない。 得るものがない。 勝てない。 運ゲー 何も学べなかった。

Slide 8

Slide 8 text

2. トラブルがあったコンペとはなにか? コンペに参加した結果 納得できないコンペ (コンペ参加者目線)

Slide 9

Slide 9 text

ここからは (参加の有無にかかわらず) 印象に残ったトラブルがあったコンペを 紹介していきます。

Slide 10

Slide 10 text

3. トラブルがあったコンペ紹介

Slide 11

Slide 11 text

3. Deepfake Detection Challenge ビデオがあり、Real OR Fakeを自動的に見分けるコンペティション Face SwapかVoice Swapが行われている。 賞金総額$1,000,000となる非常に高額なコンペティションで終わるまでは (おそらく)良コンペだった。

Slide 12

Slide 12 text

3. Deepfake Detection Challenge(トラブル要素) ライセンス問題でLBの1位と2位が失格になった。 CC-BYのYoutube Video Images/The flickerface datasetの2つがある。 ルール上、ライセンスに問題は見えないが、データセットに登場している 個別の人物からの許可が必要とホストから要望があったようで、勝利チームが 対応ができなかった。 1位の2つの提出のうち、問題のないソリューションであるスコア7位ものは承認されていたが、 2位は失格となった。 →ここからライセンス確認のスレッドが 増えたと思っている。

Slide 13

Slide 13 text

3. Foursquare Location Matching 同一施設を示すPoint of Interest(POI)が提供されるので、 与えられた様々なユーザ入力データから同じ建物(POI)であることをグルーピングする。 (施設名、緯度経度、住所、電話番号など) 住所や緯度経度タイトルを含め、工夫しがいもあり非常に面白いコンペで、良い コンペではないか?と非常に評判が高かった。 実際、コンペ自体は楽しかった。

Slide 14

Slide 14 text

3. Foursquare Location Matching(トラブル要素) リークがあった。 実は学習データとNotebookの評価データが重複してリークしているようだった。 あと学習データが何も宣言なく勝手にReplaceされるという謎な事象も発生。 コンペティション終了後に開示されたため、再開することもなく、そのまま終了することに なった。 後でリークなしの結果のランキングが3位まで開示され、賞金も配布されたが、 リークなしの結果の残りは不明。どうしてこうなった プラットフォームのバグで学習とテストが混じっているものが公開されたらしい。

Slide 15

Slide 15 text

3. SenNet + HOA - Hacking the Human Vasculature in 3D 3Dの腎臓データに対して、HiP-CT(高解像度でスキャンできる技術)の スキャンデータを撮影したものの血管をSegmentationするコンペティション。 コンペに参加した身として3D Segmentationの問題として 面白くはあったのだが、以下の2点が最初から最後までShakeが懸念だった。 1. 取得した腎臓はスキャンの解像度が異なる。 2. データ数が少ない。(学習5、Public 1、Private 1 3DVolume)

Slide 16

Slide 16 text

3. SenNet + HOA - Hacking the Human Vasculature in 3D (トラブル要 素) 蓋を空けたら非常に大きなShakeをしていたが、1位は 全くShakeがなかった。(DiscussionによればBest Privateは選べていない) 自分自身のPublic/Privateスコアを見ていたが、全く相関がしておらず、 正直何が効果あったかはわからなかった。 ちなみにBest Private LBを選べたチームは殆どない。

Slide 17

Slide 17 text

3. Predict Student Performance from Game Play オンラインゲームのプレイ記録から、内部で実施されるクイズが正解するかどうかを 予測するといった問題。 テーブルデータとして非常に良さそうではあった。 しかし、コンペ期間延長が2回実施された。 1. 意図しないリークが存在し、一部のテストデータが漏洩した。(1ヶ月) 2. APIのバージョン変更に伴い(2週間) 計1.5ヶ月延長となった。なお、KDDCup2023に参加していたので非常に辛かった。

Slide 18

Slide 18 text

3. LEAP - Atmospheric Physics using AI (ClimSim) 気象物理シュミレーションの入力が与えられるので、出力を実施するもの ただし、途中でホストが使わせたくなかった匿名化されているはずの 地理情報を復元できるといったことが発見された。(近傍情報を使うと精度が上がる) そして、2週間の延長へ・・ 本問題により再度データを配布されたが、更に復元できる方式が公開され、 3Dを使えるのかでDiscussionが盛り上がった。 →3D手法は厳禁、上位解法は確認するといった方針でホストが対応することになった。 ただ、これも上位解法(賞金)のみ確認をするといった方針で少し荒れた。 延長するとスケジュールが狂う点でよろしくない、勘弁してほしい。

Slide 19

Slide 19 text

3. Airbus Ship Detection Challenge(早期解決) 海に浮かんでいる船を検出(物体検出)するコンペティション ほぼ同じ位置で切り抜いたといったリークがあり、リスタートする結果となった。 →リスタートして、位置が別になったものが再配布されたが、即発見で特に影響はなかった。

Slide 20

Slide 20 text

4. トラブルがあったコンペから得ら れる教訓

Slide 21

Slide 21 text

4. なぜ、トラブルがあったコンペが生まれてしまう のか(予想) 1 2 データ分析者のドメイン習熟度が低く、予想外の 方式でリークが発見される。 コンペとして適切な検証にするのがそもそも難しいデータを 扱っている。 (ホストとしては難しいことがわかれば成功かもしれない) 3 Kaggleが介入できてない? (契約とか、サポート条件とか)

Slide 22

Slide 22 text

4. トラブルがあったコンペで得られる教訓 1 データリークするとトラブルがあったコンペになりがち 土地による相関、匿名化対策不足、処理誤り 2 3 ライセンス問題があるとトラブルがあったコンペに・・ →研究用途で問題ないのか、などホストの性質により 利用可否の判断が変わる 業務でも問題になるGPL系統(YOLOが注意)の場合は注意 データが少ない場合にトラブルがあったコンペになりがち。 (CV/Public/Privateが相関しない)

Slide 23

Slide 23 text

4. トラブルがあったコンペを回避するには 1 ディスカッションにホストがどの程度関与しているか。 ホストの回答が早く早期に対処してくれるものは、 トラブルがあるコンペになりにくい。 2 CV/LBが相関しなさすぎて運ゲーになるものは注意 →相関しない説明ができないものは要注意、参加しなくても LBの雰囲気でリスク高そうかは判断できる。

Slide 24

Slide 24 text

トラブルがありそうなコンペに 参加しろとは言いませんが、 適切なコンペライフを お送りください。