Slide 1

Slide 1 text

Kaggle Notebookの計算資源だけ使って 画像コンペでソロ金を取る秘訣 2023年11月26日 髙木 優介

Slide 2

Slide 2 text

CONFIDENTIAL Copyright © LPIXEL Inc. 2 自己紹介 ● 名前:髙木 優介 ○ Xアカウント名:たっかー(@takka__Q) ○ Kaggle :Q_takka(https://www.kaggle.com/qtakka) ● 所属:エルピクセル株式会社 研究開発本部 シニアエンジニア ○ AI画像診断支援技術のアルゴリズム開発などを行っています ■ Kaggleはめちゃくちゃ役に立ってます😄 ○ Software Design誌にて「画像解析AIの作り方」連載中 ● Kaggle Competitions Master ○ 主に画像コンペにソロで参加 ○ 無課金Master ■ 直近2回は public金 → private銀 をやらかしているので反省中

Slide 3

Slide 3 text

CONFIDENTIAL Copyright © LPIXEL Inc. 3 Kaggleと計算資源 Kaggleでメダルを取るには ● 大きいモデルが必要・・・ ● たくさんの実験をしないといけない・・・ ● 画像コンペだとデータ量も多いし・・・ → たくさんの計算資源が必須!!  と考えていませんか?

Slide 4

Slide 4 text

CONFIDENTIAL Copyright © LPIXEL Inc. 4 Kaggle Notebookでメダル それ自体は否定できない・・・が Kaggle Notebookの計算資源だけで銀メダルを取ることは 普通に可能です! さらに上手くいけばソロ金だって取ることができる!! (この事実はある意味、希望でもあり絶望でもあるかもしれない)

Slide 5

Slide 5 text

CONFIDENTIAL Copyright © LPIXEL Inc. 5 実際に・・・ 約1年前のコンペ「HuBMAP + HPA - Hacking the Human Body」にお いて、Kaggle Notebookの計算資源だけで7位! ● 病理画像内の組織をセマンティックセグメンテーションするコンペ ● 前回のHuBMAPでも残り2週間までKaggle Notebookのみで頑張って金圏にし がみついていました 次スライド以降で秘訣を説明します! ⇦ Solutionの最後に書いたこと :)

Slide 6

Slide 6 text

CONFIDENTIAL Copyright © LPIXEL Inc. 6 秘訣 1. コンペ選び 2. 計算資源と時間の活用方法 3. アンサンブル戦略

Slide 7

Slide 7 text

CONFIDENTIAL Copyright © LPIXEL Inc. 7 秘訣1:コンペ選び Kaggle Notebookの計算資源はやはり十分ではない・・・ なので、データセットのサイズが小さいコンペを選ぶのが鉄則 経験上データセットサイズが10GB以下であればなんとかなる ここ最近ではHuBMAP一択!

Slide 8

Slide 8 text

CONFIDENTIAL Copyright © LPIXEL Inc. 8 秘訣1:コンペ選び 前々回HuBMAP:9.39GB 前回HuBMAP:4.37GB とても小さくて参戦しやすい! ただし、毎回コンペの癖が強いでの注意 事故っても責任取れません

Slide 9

Slide 9 text

CONFIDENTIAL Copyright © LPIXEL Inc. 9 秘訣2:計算資源と時間の活用方法 Kaggle NotebookのGPUは基本的に週30時間しか使えない・・・ なので、時間の使い方が肝に 1. データセットの作られ方を分析し、どのようにLBを活用すべきか検討 ○ 使用できる時間の関係上どうしてもLBの結果に頼る必要があるため ○ 正しいvalidationの作り方の方針も定まる 2. 1実験 4~5時間程度で終わるアーキテクチャを探してその周辺を探索 ○ 基本的に1日1モデル学習する(4時間/日 x 7日 = 28時間) ○ コンペに参加しているときは、1日も休まない気持ちで ○ 8時間くらい学習しないと精度が出ない時は諦めて強いサーバに頼る😭

Slide 10

Slide 10 text

CONFIDENTIAL Copyright © LPIXEL Inc. 10 秘訣2:計算資源と時間の活用方法 Kaggle NotebookのGPUは基本的に週30時間しか使えない・・・ なので、時間の使い方が肝に 3. 1日の内、1subは作成したモデルを投げ、残り4subは細かな条件(閾値 など)を探索するのに使用 ○ とりあえず何かきっかけを掴むためにも毎日5subする ○ アンサンブルする段階に入ったら、4subはアンサンブル方法探索にも使う

Slide 11

Slide 11 text

CONFIDENTIAL Copyright © LPIXEL Inc. 11 秘訣2:計算資源と時間の活用方法 コンペ参加時の平日の過ごし方 1. 朝起きて、実験を回す 2. 仕事 3. 昼頃に実験が終わるのでsubmitする 4. 仕事 5. 仕事終了後に色々なsubmitをしつつ、明日の実験内容を考える 6. 2ヶ月繰り返す

Slide 12

Slide 12 text

CONFIDENTIAL Copyright © LPIXEL Inc. 12 秘訣3:アンサンブル戦略 前述の通り、Kaggle Notebookにはモデル作成時間も計算資源もない そのような中で高スコアのsubmitを作る必要ある → コンペでは高性能な単体モデルが求められている訳ではない ● コンペ中盤あたりから早々にアンサンブルに取り掛かるのが吉 ● 作成するモデルもアンサンブルに有効なものを作ることに注力

Slide 13

Slide 13 text

CONFIDENTIAL Copyright © LPIXEL Inc. 13 まとめ ● モデル作成の王道からは少し離れたことも紹介しましたが、 Kaggle Notebookの計算資源でもソロ金を取ることは可能! ● 今回紹介した秘訣を参考に、Kaggle Notebookの計算資源だけ で金メダルにチャレンジしてみてはいかがでしょうか? ○ やることなくてモチベーション低下中のGMの方いかがですか? (Appendixに無課金Masterになった経緯なども載せています)

Slide 14

Slide 14 text

CONFIDENTIAL Copyright © LPIXEL Inc. 14 Appendix ● 無課金でMasterになった経緯 ● 簡単な弊社紹介

Slide 15

Slide 15 text

CONFIDENTIAL Copyright © LPIXEL Inc. 15 Appendix:無課金でMasterに ● 最初のメダルは、学生時代に参加したTwo Sigmaコンペ(株価予測) ○ 運よく銀メダルを取れた ○ Kaggle Notebookのみ(学習自体Kaggle Notebookでやらないといけな いルール) ● 以降もいくつかコンペに参加したがメダルは取れず ○ 研究室に配属になってからは Kaggle < 研究

Slide 16

Slide 16 text

CONFIDENTIAL Copyright © LPIXEL Inc. 16 Appendix:無課金でMasterに ● 就職してから再びKaggleに参加 ● 次のメダルは現職の自己研鑽制度で会社の計算資源を借りて出た UW-Madison GI Tract Image Segmentation コンペ ○ 銅メダル ○ これでもわかる通り、過去全てのコンペでKaggle Notebookだけの資源 で挑戦したわけではない ● 次はHuBMAP ○ 紹介済み

Slide 17

Slide 17 text

CONFIDENTIAL Copyright © LPIXEL Inc. 17 Appendix:無課金でMasterに ● その次は、RSNA コンペで銀メダル ○ 自己研鑽制度で会社の計算資源を借りた ○ ここでMasterに ● 最後に前回のHuBMAPで銀メダル ○ 残り2週間までKaggle Notebookで頑張って金圏にいました ○ 最終盤でより大きいモデルの方が精度が出ることが分かったので、自己研 鑽制度で会社の計算資源を借りた

Slide 18

Slide 18 text

CONFIDENTIAL Copyright © LPIXEL Inc. 18 Appendix:無課金でMasterに ● これまでの流れもでわかるようにkaggleは基本的に計算資源がある方 がチャレンジしやすい ● 無課金でMasterになるなら制度で計算資源を借りることができる会社 に入るのが最も手っ取り早い

Slide 19

Slide 19 text

CONFIDENTIAL Copyright © LPIXEL Inc. 19 Appendix:弊社紹介 エルピクセルの機械学習エンジニアの仕事は大きく分けて ● 自社のAI画像診断支援技術製品の開発 ● 製薬企業などとの協業 があり、どちらもKaggleとの親和性が高い業務となっています! ご興味がありましたら、こちらからご応募ください! (カジュアル面談も随時受け付けています)

Slide 20

Slide 20 text

CONFIDENTIAL Copyright © LPIXEL Inc. 20 Appendix:弊社紹介 ホームページ:https://lpixel.net/ note : https://note.com/lpixel/ 採用情報: ● https://herp.careers/v1/lpixel ● https://www.wantedly.com/companies/lpixel お問い合わせ:https://lpixel.net/lpixel_contact_form/