Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggle Notebookの計算資源だけ使って画像コンペでソロ金を取る秘訣

Yusuke-Takagi-Q
November 25, 2023
3.2k

Kaggle Notebookの計算資源だけ使って画像コンペでソロ金を取る秘訣

Kaggle Tokyo Meetup 2023 LT発表資料です

Yusuke-Takagi-Q

November 25, 2023
Tweet

Transcript

  1. CONFIDENTIAL Copyright © LPIXEL Inc. 2 自己紹介 • 名前:髙木 優介

    ◦ Xアカウント名:たっかー(@takka__Q) ◦ Kaggle :Q_takka(https://www.kaggle.com/qtakka) • 所属:エルピクセル株式会社 研究開発本部 シニアエンジニア ◦ AI画像診断支援技術のアルゴリズム開発などを行っています ▪ Kaggleはめちゃくちゃ役に立ってます😄 ◦ Software Design誌にて「画像解析AIの作り方」連載中 • Kaggle Competitions Master ◦ 主に画像コンペにソロで参加 ◦ 無課金Master ▪ 直近2回は public金 → private銀 をやらかしているので反省中
  2. CONFIDENTIAL Copyright © LPIXEL Inc. 3 Kaggleと計算資源 Kaggleでメダルを取るには • 大きいモデルが必要・・・

    • たくさんの実験をしないといけない・・・ • 画像コンペだとデータ量も多いし・・・ → たくさんの計算資源が必須!!  と考えていませんか?
  3. CONFIDENTIAL Copyright © LPIXEL Inc. 4 Kaggle Notebookでメダル それ自体は否定できない・・・が Kaggle

    Notebookの計算資源だけで銀メダルを取ることは 普通に可能です! さらに上手くいけばソロ金だって取ることができる!! (この事実はある意味、希望でもあり絶望でもあるかもしれない)
  4. CONFIDENTIAL Copyright © LPIXEL Inc. 5 実際に・・・ 約1年前のコンペ「HuBMAP + HPA

    - Hacking the Human Body」にお いて、Kaggle Notebookの計算資源だけで7位! • 病理画像内の組織をセマンティックセグメンテーションするコンペ • 前回のHuBMAPでも残り2週間までKaggle Notebookのみで頑張って金圏にし がみついていました 次スライド以降で秘訣を説明します! ⇦ Solutionの最後に書いたこと :)
  5. CONFIDENTIAL Copyright © LPIXEL Inc. 6 秘訣 1. コンペ選び 2.

    計算資源と時間の活用方法 3. アンサンブル戦略
  6. CONFIDENTIAL Copyright © LPIXEL Inc. 9 秘訣2:計算資源と時間の活用方法 Kaggle NotebookのGPUは基本的に週30時間しか使えない・・・ なので、時間の使い方が肝に

    1. データセットの作られ方を分析し、どのようにLBを活用すべきか検討 ◦ 使用できる時間の関係上どうしてもLBの結果に頼る必要があるため ◦ 正しいvalidationの作り方の方針も定まる 2. 1実験 4~5時間程度で終わるアーキテクチャを探してその周辺を探索 ◦ 基本的に1日1モデル学習する(4時間/日 x 7日 = 28時間) ◦ コンペに参加しているときは、1日も休まない気持ちで ◦ 8時間くらい学習しないと精度が出ない時は諦めて強いサーバに頼る😭
  7. CONFIDENTIAL Copyright © LPIXEL Inc. 10 秘訣2:計算資源と時間の活用方法 Kaggle NotebookのGPUは基本的に週30時間しか使えない・・・ なので、時間の使い方が肝に

    3. 1日の内、1subは作成したモデルを投げ、残り4subは細かな条件(閾値 など)を探索するのに使用 ◦ とりあえず何かきっかけを掴むためにも毎日5subする ◦ アンサンブルする段階に入ったら、4subはアンサンブル方法探索にも使う
  8. CONFIDENTIAL Copyright © LPIXEL Inc. 11 秘訣2:計算資源と時間の活用方法 コンペ参加時の平日の過ごし方 1. 朝起きて、実験を回す

    2. 仕事 3. 昼頃に実験が終わるのでsubmitする 4. 仕事 5. 仕事終了後に色々なsubmitをしつつ、明日の実験内容を考える 6. 2ヶ月繰り返す
  9. CONFIDENTIAL Copyright © LPIXEL Inc. 12 秘訣3:アンサンブル戦略 前述の通り、Kaggle Notebookにはモデル作成時間も計算資源もない そのような中で高スコアのsubmitを作る必要ある

    → コンペでは高性能な単体モデルが求められている訳ではない • コンペ中盤あたりから早々にアンサンブルに取り掛かるのが吉 • 作成するモデルもアンサンブルに有効なものを作ることに注力
  10. CONFIDENTIAL Copyright © LPIXEL Inc. 13 まとめ • モデル作成の王道からは少し離れたことも紹介しましたが、 Kaggle

    Notebookの計算資源でもソロ金を取ることは可能! • 今回紹介した秘訣を参考に、Kaggle Notebookの計算資源だけ で金メダルにチャレンジしてみてはいかがでしょうか? ◦ やることなくてモチベーション低下中のGMの方いかがですか? (Appendixに無課金Masterになった経緯なども載せています)
  11. CONFIDENTIAL Copyright © LPIXEL Inc. 15 Appendix:無課金でMasterに • 最初のメダルは、学生時代に参加したTwo Sigmaコンペ(株価予測)

    ◦ 運よく銀メダルを取れた ◦ Kaggle Notebookのみ(学習自体Kaggle Notebookでやらないといけな いルール) • 以降もいくつかコンペに参加したがメダルは取れず ◦ 研究室に配属になってからは Kaggle < 研究
  12. CONFIDENTIAL Copyright © LPIXEL Inc. 16 Appendix:無課金でMasterに • 就職してから再びKaggleに参加 •

    次のメダルは現職の自己研鑽制度で会社の計算資源を借りて出た UW-Madison GI Tract Image Segmentation コンペ ◦ 銅メダル ◦ これでもわかる通り、過去全てのコンペでKaggle Notebookだけの資源 で挑戦したわけではない • 次はHuBMAP ◦ 紹介済み
  13. CONFIDENTIAL Copyright © LPIXEL Inc. 17 Appendix:無課金でMasterに • その次は、RSNA コンペで銀メダル

    ◦ 自己研鑽制度で会社の計算資源を借りた ◦ ここでMasterに • 最後に前回のHuBMAPで銀メダル ◦ 残り2週間までKaggle Notebookで頑張って金圏にいました ◦ 最終盤でより大きいモデルの方が精度が出ることが分かったので、自己研 鑽制度で会社の計算資源を借りた
  14. CONFIDENTIAL Copyright © LPIXEL Inc. 18 Appendix:無課金でMasterに • これまでの流れもでわかるようにkaggleは基本的に計算資源がある方 がチャレンジしやすい

    • 無課金でMasterになるなら制度で計算資源を借りることができる会社 に入るのが最も手っ取り早い
  15. CONFIDENTIAL Copyright © LPIXEL Inc. 19 Appendix:弊社紹介 エルピクセルの機械学習エンジニアの仕事は大きく分けて • 自社のAI画像診断支援技術製品の開発

    • 製薬企業などとの協業 があり、どちらもKaggleとの親和性が高い業務となっています! ご興味がありましたら、こちらからご応募ください! (カジュアル面談も随時受け付けています)
  16. CONFIDENTIAL Copyright © LPIXEL Inc. 20 Appendix:弊社紹介 ホームページ:https://lpixel.net/ note :

    https://note.com/lpixel/ 採用情報: • https://herp.careers/v1/lpixel • https://www.wantedly.com/companies/lpixel お問い合わせ:https://lpixel.net/lpixel_contact_form/