Upgrade to Pro — share decks privately, control downloads, hide ads and more …

トラブルがあったコンペに学ぶデータ分析

tereka114
November 09, 2024

 トラブルがあったコンペに学ぶデータ分析

関西Kaggler会 交流会 in Osaka 2024#3 2024/11/07(金)に発表した資料です。
※当日発表から一部省くのと、改修が加えられています。

https://kansaikaggler.connpass.com/event/326615/

tereka114

November 09, 2024
Tweet

More Decks by tereka114

Other Decks in Science

Transcript

  1. 自己紹介 2024年主な戦績 1. SenNet + HOA - Hacking the Human

    Vasculature in 3D 9位(金) 2. LEAP - Atmospheric Physics using AI (ClimSim) 10位(金) 3. Amazon KDDCup 2024 総合7位 ※出身は兵庫です。
  2. 3. Deepfake Detection Challenge ビデオがあり、Real OR Fakeを自動的に見分けるコンペティション Face SwapかVoice Swapが行われている。

    賞金総額$1,000,000となる非常に高額なコンペティションで終わるまでは (おそらく)良コンペだった。
  3. 3. Deepfake Detection Challenge(トラブル要素) ライセンス問題でLBの1位と2位が失格になった。 CC-BYのYoutube Video Images/The flickerface datasetの2つがある。

    ルール上、ライセンスに問題は見えないが、データセットに登場している 個別の人物からの許可が必要とホストから要望があったようで、勝利チームが 対応ができなかった。 1位の2つの提出のうち、問題のないソリューションであるスコア7位ものは承認されていたが、 2位は失格となった。 →ここからライセンス確認のスレッドが 増えたと思っている。
  4. 3. SenNet + HOA - Hacking the Human Vasculature in

    3D 3Dの腎臓データに対して、HiP-CT(高解像度でスキャンできる技術)の スキャンデータを撮影したものの血管をSegmentationするコンペティション。 コンペに参加した身として3D Segmentationの問題として 面白くはあったのだが、以下の2点が最初から最後までShakeが懸念だった。 1. 取得した腎臓はスキャンの解像度が異なる。 2. データ数が少ない。(学習5、Public 1、Private 1 3DVolume)
  5. 3. SenNet + HOA - Hacking the Human Vasculature in

    3D (トラブル要 素) 蓋を空けたら非常に大きなShakeをしていたが、1位は 全くShakeがなかった。(DiscussionによればBest Privateは選べていない) 自分自身のPublic/Privateスコアを見ていたが、全く相関がしておらず、 正直何が効果あったかはわからなかった。 ちなみにBest Private LBを選べたチームは殆どない。
  6. 3. Predict Student Performance from Game Play オンラインゲームのプレイ記録から、内部で実施されるクイズが正解するかどうかを 予測するといった問題。 テーブルデータとして非常に良さそうではあった。

    しかし、コンペ期間延長が2回実施された。 1. 意図しないリークが存在し、一部のテストデータが漏洩した。(1ヶ月) 2. APIのバージョン変更に伴い(2週間) 計1.5ヶ月延長となった。なお、KDDCup2023に参加していたので非常に辛かった。
  7. 3. LEAP - Atmospheric Physics using AI (ClimSim) 気象物理シュミレーションの入力が与えられるので、出力を実施するもの ただし、途中でホストが使わせたくなかった匿名化されているはずの

    地理情報を復元できるといったことが発見された。(近傍情報を使うと精度が上がる) そして、2週間の延長へ・・ 本問題により再度データを配布されたが、更に復元できる方式が公開され、 3Dを使えるのかでDiscussionが盛り上がった。 →3D手法は厳禁、上位解法は確認するといった方針でホストが対応することになった。 ただ、これも上位解法(賞金)のみ確認をするといった方針で少し荒れた。 延長するとスケジュールが狂う点でよろしくない、勘弁してほしい。