Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data-centric視点で過去コンペを振り返る

Inoichan
November 08, 2023

 Data-centric視点で過去コンペを振り返る

第4回 Data-Centric AI勉強会 -コンペLT大会-の発表資料です。
少し古いですが、2020年に開かれたコンペ
イベントページ: https://dcai-jp.connpass.com/event/298953/

Inoichan

November 08, 2023
Tweet

More Decks by Inoichan

Other Decks in Programming

Transcript

  1. 自己紹介 ❖ Inoue Yuichi ❖ Turing Inc. Brain Research Team ❖

    京都大学 博士(薬学) ❖ Kaggle Competitions Grandmaster
  2. TReNDS • 2020年に開催されたコンペ リンク • Targetは5個の連続値 ◦ Age ◦ domain1_1 ◦

    domain1_2 ◦ domain2_1 ◦ domain2_2 • データは脳のMRIから抽出した特徴量 ◦ fMRI: 53次元の3D画像データ ◦ fnc: static FNC correlation features ◦ loading: sMRI SBM loadings • Metrics:重み付きで正規化された MAE
  3. Table data • 当時、RAPIDS(Open GPU Data Science | RAPIDS)がKaggleで使われるようになった時期で、 KGMoN

    の人たちがいろいろNotebookを出していた。 • SVRが効くタイプのコンペでRAPIDSを使うことでとても高速に処理できた。 • RAPIDSのお披露目会みたいになってた。
  4. Bengali.AI Handwritten Grapheme Classification - 2020年に開催されたコンペ リンク - ベンガル語の部首分類 - Inputは手書きGrapheme(単語)の画像

    - 3つの部首タイプでそれぞれ分類 - Graphem root : 168 classes - Vowel diacritics : 11 classes - Consonant diacritics : 7 classes - 評価指標はRecall (2 : 1 : 1)
  5. 特にユニークだった1位の解法 1. CycleGANを使ってInput画像をフォント調に変換し、 Unseen Class Modelで予測 2. 「Seen」の場合、Seen Class Modelで最終スコアを予測

    3. 「Unseen」の場合、Out of Distribution Detection Modelで Seen Graphemeかどうかを再計算 4. 「Seen」の場合、Seen Class Modelで最終スコアを予測 5. 「Unseen」の場合、Out of Distribution Detection Modelの 予測値を最終スコアとする
  6. Our approach (14th place) • 予測軌跡の移動距離が小さいほど大きく削るように調節 ◦ 6m以下を50%削る ◦ 3m以下を更に50%削る ◦

    1.5m以下を更に50%削る ◦ 0.75m以下を更に50%削る • データ数は削る前の約53% • 全体として6m以下・以上の割合が1:2になる これでおおよそデータ数が5,760,000くらいになる。   1エポック 12時間くらい!
  7. 11th place solution • ResNet18 • Rastesr size (150, 150)

    • Batch size: 512 • 408000 iterations Learning rateを下げながら学習を回し続けるとスコ アが良くなり続けた。 データをたくさん生成できる課題だったので、そういう 場合はデータ拡張よりも愚直に学習させるとしっかり 精度が良くなる。 (自動運転はこの性質が強いかも。) 僕らのチーム