Data-centric視点で過去コンペを振り返る

Data-centric視点で過去コンペを振り返る 2023/11/08 いのいち

自己紹介 ❖ Inoue Yuichi ❖ Turing Inc.　Brain Research Team ❖
京都大学博士（薬学） ❖ Kaggle Competitions Grandmaster

今日紹介するコンペ - TReNDS - Graphem - Lyft Motion Prediction 上位解法をお話するというよりは、Data-centric視点で面白そうだなと思った部
分をピックアップして紹介しています！

TReNDS • 2020年に開催されたコンペ　リンク • Targetは5個の連続値 ◦ Age ◦ domain1_1 ◦
domain1_2 ◦ domain2_1 ◦ domain2_2 • データは脳のMRIから抽出した特徴量 ◦ fMRI: 53次元の3D画像データ ◦ fnc: static FNC correlation features ◦ loading: sMRI SBM loadings • Metrics：重み付きで正規化された MAE

Table data • 当時、RAPIDS（Open GPU Data Science | RAPIDS）がKaggleで使われるようになった時期で、 KGMoN
の人たちがいろいろNotebookを出していた。 • SVRが効くタイプのコンペでRAPIDSを使うことでとても高速に処理できた。 • RAPIDSのお披露目会みたいになってた。

３D data • SeuTaoさんがDiscussionで上げてくれているくらいだった。 • コードもGithubにかなり丁寧に上げてくれていたし、monaiという便利ライブラリも紹介してくれていたので、やる気があれば誰でも取り組めた...はず。
• 単体では全くのメダル圏外

Table data &３D data • 全然ドメインの違うデータを混ぜることで大きく CV/LB/PBが向上した。 • ほとんどの人は最初3D dataは使っていなかっ
た。

たくさん３Dのモデルを作成他チームとの差分になりそうだったのでたくさんモデルを作った。当時、2080Tiを1枚だったのでfp16で学習したりしてた（なんかうまくいってた）。 • いろんな構造のモデルを使用 • 3D-ResNets-PyTorch • 実験を早く回すためにﬂoat16で学習
• 高解像度化

もっと多様なモデルを作ってたOnoderaさんに完敗解法のリンク • 3D dataのモデルも右脳モデルや左脳モデル、特定の軸で切ったり、ランダムクロップしたりと、見慣れない 3D dataに対しても頭脳的な方法でデータをうまく拡張していた。

Bengali.AI Handwritten Grapheme Classiﬁcation - 2020年に開催されたコンペ　リンク - ベンガル語の部首分類 - Inputは手書きGrapheme(単語)の画像
- 3つの部首タイプでそれぞれ分類 - Graphem root : 168 classes - Vowel diacritics : 11 classes - Consonant diacritics : 7 classes - 評価指標はRecall (2 : 1 : 1)

Baseline model architecture ・工夫点はAugmentationの組み合わせだと思っていた！

めっちゃシェイクダウン😇 Public : 18位 Private : 213位 (- 195位)

何がいけなかった...？ Public / Privateには未知のGraphemeが含まれていた。訓練データには1295種類のGraphemeしかないが、実際にはもっとある。可能性的には168 x 11 x 7
= 12936種類のGraphemeが存在する。 Graphem root Vowel diacritic Consonant diacritic 実際訓練

起こりうる部首の組み合わせを学習していた • 学習が進むに連れて訓練に含まれる Grapheme（実線、Seen）については精度が上がっていくが、訓練に存在しないGraphem（破線、Unseen）については学習を進めるとどんどん下がっていってる。 Accuracy Loss 0.6 0.9 訓練に存在しないGraphem

特にユニークだった1位の解法 1. CycleGANを使ってInput画像をフォント調に変換し、 Unseen Class Modelで予測 2. 「Seen」の場合、Seen Class Modelで最終スコアを予測
3. 「Unseen」の場合、Out of Distribution Detection Modelで Seen Graphemeかどうかを再計算 4. 「Seen」の場合、Seen Class Modelで最終スコアを予測 5. 「Unseen」の場合、Out of Distribution Detection Modelの予測値を最終スコアとする

CycleGANで手書き文字を生成すべてのGraphemeのFont画像を作成し、学習させる Local CV Seen: 0.9377 Unseen: 0.8804 訓練にないGraphemに対してかなりの
高い精度に達している。

CycleGANで手書き文字を生成 Font画像の生成各部首の要素の情報が入ったDataFrameが与えられていた。 “component”は足し算することでGraphemeを生成することができた。画像化する。 168x11x7=12936個のGrapheme ができる。
Kernel: Bengali Graphemes: Starter EDA+ Multi Output CNN Font 1 Font 2

Lyft Motion Prediction for Autonomous Vehicles 2020年に開催されたコンペ　リンク Motion prediction用の大きいデータセットを作ったのでそれでコンペしようぜ！
https://arxiv.org/abs/2006.14480

データセット l5kitという専用のLibraryを使用してデータをGenerateする。かなりたくさんのデータを生成することができる。 Satellite Semantic

データセット Ego: 自動運転車 Agent: 自動運転車が認識した周囲の移動物体予測したいのはこのAgentの5秒後(50 frames)の軌跡 TestのSceneの10秒目の画像が評価対象だった。

Our approach　(14th place) • 予測軌跡の移動距離が小さいほど大きく削るように調節 ◦ 6m以下を50%削る ◦ 3m以下を更に50%削る ◦
1.5m以下を更に50%削る ◦ 0.75m以下を更に50%削る • データ数は削る前の約53% • 全体として6m以下・以上の割合が1:2になるこれでおおよそデータ数が5,760,000くらいになる。　　1エポック 12時間くらい！

Our approach　(14th place)

11th place solution • ResNet18 • Rastesr size (150, 150)
• Batch size: 512 • 408000 iterations Learning rateを下げながら学習を回し続けるとスコアが良くなり続けた。データをたくさん生成できる課題だったので、そういう場合はデータ拡張よりも愚直に学習させるとしっかり精度が良くなる。（自動運転はこの性質が強いかも。）僕らのチーム

まとめ ★ Kaggleは様々なコンペがあるので、データも面白いものが多い。 ★ 「Data-centric」という視点で見ても、昔から興味深いコンペは多い ★ Kaggleのコンペ出たい。

Data-centric視点で過去コンペを振り返る

Data-centric視点で過去コンペを振り返る

Inoichan

More Decks by Inoichan

Other Decks in Programming

Featured

Transcript