Slide 1

Slide 1 text

2025/11/14 (金) 関西Kaggler会 交流会 in Osaka 2025#3 未完 takaito

Slide 2

Slide 2 text

1 自己紹介 名前: 高野 海斗(たかいと) 略歴: ~2021年3月: 博士後期課程 修了 (理工学博士) 2021年4月~: 資産運用会社 入社 (クオンツ) 2025年4~9月: 私立大 (非常勤講師) 2025年6月~: 大阪公立大 (客員研究員) 専門分野: 自然言語処理 (NLP) × 金融 (Finance) KaggleやatmaCupを中心にコンペに参加する毎日を過ごしています

Slide 3

Slide 3 text

2025/11/14 (金) 関西Kaggler会 交流会 in Osaka 2025#3 Why can’t takaito win on Kaggle?

Slide 4

Slide 4 text

3 2025年8月の状況 KaggleとatmaCupの結果に大きな乖離あり この乖離からKaggleでの 勝利に必要な要素を考察

Slide 5

Slide 5 text

4 atmaCupについて ✔ atma社が不定期に開催しているデータ分析コンペ ✔ 国内にいくつか存在するコンペプラットフォームの一つ ✔ 主催のgoto (山口)さんによるコンペ設計がしっかりしており,日本Kagglerに大人気 ✔ ハズレコンペがこれまでないこともあり,短期間での開催にも関わらず,強い方の参加も多く,discussionも活発 ✔ discussionが豊富で,gotoさんによるtutorialもあるため,初心者にオススメ

Slide 6

Slide 6 text

5 ① 開催期間の違い ✔ Kaggle: 少なくとも1カ月以上でたいていが2~3カ月 ✔ atmaCup: たいてい1週間から10日間程度 ⇒ 短期間コンペが得意? ⇒ 長期間コンペにおいて圧倒的に投入時間が足りていない... 「とある事業会社にとっての Kaggler の魅力」から引用 https://speakerdeck.com/hakubishin3/toarushi- ye-hui-she-nitotuteno-kaggler-nomei-li?slide=34

Slide 7

Slide 7 text

6 ② 言語の違い ✔ Kaggle: English... ✔ atmaCup: 日本語! ⇒ discussionの内容を理解するのに時間がかかる&細かいニュアンスを汲み取ることができない ⇒ 参加者や開催期間が長いことにより,それらの情報を追うのも大変 (汗)

Slide 8

Slide 8 text

7 ③ 提出方式の違い ✔ Kaggle: 基本的にはnotebookを提出 ✔ atmaCup: csv形式で提出 ⇒ 手元で学習したモデルをkaggle上で動かすのにかなり苦労している ・ ライブラリの依存関係 ・ 推論時間の制約 ・ GPUメモリの制約

Slide 9

Slide 9 text

2025/11/14 (金) 関西Kaggler会 交流会 in Osaka 2025#3 Why was takaito able to win gold medals on Kaggle?

Slide 10

Slide 10 text

9 Q: なぜ直近のコンペで金メダルを獲れたのか ✔ 直近,3コンペで金メダルを獲得 A. チームを組んだから!!

Slide 11

Slide 11 text

10 ① コンペ投入時間 ✔ チームを組むことで,コンペ投入時間の合算が金圏に必要な量を上回ることができた ✔ 各自の得意な部分に集中して取り組むことができた MAP: 実力者かつアクティブな5人が集まったことで,様々な試行錯誤ができた (自身の取り組みはほとんど不発...) ADC: ドメインを考慮した特徴量作りをsakuさんがやってくれたので,自身はモデルの開発に注力することができた Jigsaw: MAP同様,様々な試行錯誤ができた

Slide 12

Slide 12 text

11 ② 言語の壁 ✔ チームメンバーがチームチャットで共有してくれることが多く,キャッチアップがしやすくなった ✔ コンペ序盤から参加することで,discussionの流れを理解することができた ⇒ (discussionのランキングが廃止されたことで無意味な投稿が減ったのも大きい気がしている) ADC: sakuさんが英語,中国語もできるスーパースターだったので,大変助かりました!!

Slide 13

Slide 13 text

12 ③ Notebook 提出 ✔ チームメンバーがライブラリの依存関係や高速化を可能にしてくれたことで,他の取り組みに集中できた MAP: しんちろさんが,ライブラリによるエラーの出ないensembleサブを作成してくれた Jigsaw: MiyakiさんがLLMsのTest Time Trainingにかかる時間を大幅に削減してくれた

Slide 14

Slide 14 text

13 チームを組むことでコンペはさらに楽しくなる! ✔ 得意なところに集中できる! ✔ 各々が得意なことや取り組みの多様性により,良い結果につながりやすい! ✔ 実装や取り組みに対する思考過程などがとても参考になる! 「第1回関東kaggler会のLT資料」から引用 https://speakerdeck.com/takaito/di-1hui-guan- dong-kagglerhui-lt4-detafen-xi-konpetonoxiang- kihe-ifang

Slide 15

Slide 15 text

14 Q: チームを組めば金メダルが獲れるのか? A. 個々のメンバーの実力も必要!!

Slide 16

Slide 16 text

15 各コンペでのスコアアップにつながった取り組み ✔ 過去コンペの経験からたくさんの試行錯誤を行い,その中で効果のあったものを一部抜粋 MAP: ラベルのノイズ (一部間違ったラベル付けがあること) への対応 ADC: 前回コンペとのデータの多様性などの差分を踏まえて深層学習モデルにfull bet!! Jigsaw: Test TimeにおけるBERTの高速な学習と推論,疑似ラベル付けしたテストデータによるモデルの学習

Slide 17

Slide 17 text

16 Q: 実力をつける方法は? A. 継続と丁寧な復習

Slide 18

Slide 18 text

17 丁寧な復習 ✔ 過去コンペの解法から学ぶことができることは非常に多いです! ✔ 復習の大切さや仕方は,ゆめねこさんのスライドがとても参考になるので参考にしてください! https://speakerdeck.com/yumeneko/di-2hui-guan-dong-kagglerhui-lt-konpezhen-rifan-rinosusume ✔ 一定時間以上はコンペに参加していた方が復習も捗ります

Slide 19

Slide 19 text

18 なかなか難しいのが継続... ✔ いろいろと忙しくて... ✔ 全然スコアを伸ばせなくて才能の壁を感じる... ✔ 最近のコンペは計算リソースが...

Slide 20

Slide 20 text

19 来年の自分は今の自分より忙しいことが大半 ✔ 余裕ができてからやろうと思っていても,仕事での役割や責任などは基本増加傾向 ✔ 仕事以外にもやることは,各個人でたくさんあるのが現状 (自身の場合) 客員研究員としての研究活動,非常勤講師,コンペの委員,査読対応,書籍執筆... ✔ ほんの少しでもいいので,取り組む時間を確保して継続することが大切 ✔ 大前提,健康と家族との時間が最優先であり,自己研鑽は語学や資格取得など自身の関心の高いものでOK!

Slide 21

Slide 21 text

20 才能の壁は突破できるのか? ✔ 元から能力のある人が,しっかり努力もしている魔境 ✔ 彼らの実力を上回ることができるかはわからないが,継続していくことでコンペで戦える実力を身に着けることは可能 自身もコンペに関しても,かなり長い間,悔しい思いをし続けてきました 「第1回関東kaggler会のLT資料」から引用 https://speakerdeck.com/takaito/di-1hui-guan- dong-kagglerhui-lt4-detafen-xi-konpetonoxiang- kihe-ifang

Slide 22

Slide 22 text

21 計算資源問題 ✔ 一昔前に比べて計算資源が必要なコンペが増えているのは事実 ✔ しかし,必ずしもすべてのコンペで計算資源が必要とは限らない ✔ 直近のADCやJigsawは,kaggleのGPUリソースだけでも十分戦うことができた ⇒ このあたりも継続して取り組んでいると何となく見込みがつくようになる

Slide 23

Slide 23 text

22 まずは3分やってみる ✔ いろいろな書籍で書いてることですが,一番最初の手をつけるという部分に大きなエネルギーが必要です ✔ 最初から1時間やるぞ!は大変なので,いったん3分くらいで取り組むとなんだかんだ10分くらいは取り組めます ✔ 自身も論文執筆や査読,語学の学習において採用しています

Slide 24

Slide 24 text

2025/11/14 (金) 関西Kaggler会 交流会 in Osaka 2025#3 今後に関して

Slide 25

Slide 25 text

24 今後の取り組み (継続) ✔ まだ再現性のあるソロ金獲得や優勝ができる実力に到達していないので,引き続き走り続ける予定です ✔ 努力の最高到達地点として,これまで同様に取り組みの姿勢で,モチベーションを与えることができたらいいなと 思っています ✔ 現在の自身のスキル育んでくれたコミュニティへの還元に関しても,2年前くらいから考えるようになり,引き続き notebookやdiscussionを投稿することができたらと思っています Competitionsだけじゃない! Kaggle Notebooks Grandmasterのすすめ https://speakerdeck.com/corochann/competitionstakesiyanai-kaggle- notebooks-grandmasternosusume

Slide 26

Slide 26 text

25 今後の取り組み (追加や変更予定) ✔ コンペの場はたくさんの方が参加していることに大きな意味があるため,その裾を広げる活動により注力したいです ⇒ 勉強会の企画・運営 (人工知能学会のコンペ委員も始めました!) ⇒ 書籍執筆 (より広く情報を届けるために執筆.当時の自身が欲しい内容をまとめています.) ✔ 一方で,サービス開発をはじめとしたクリエイティブな活動にも今後取り組んでいきたいなと思っています ✔ (持続可能で心配をかけない生活へのシフト)

Slide 27

Slide 27 text

26 まとめ ✔ kaggleに苦戦していた要因の整理 ✔ チームを組むことによる効果の再確認 ✔ 実力をつけるために必要な継続の重要性と取り組み方法 ✔ 技術的な話題はよりパブリックな場で共有することができたらと思い,この場ではモチベーションの共有をさせて いただきました! ✔ 本日の内容が少しでも皆さんの参考になれば幸いです!

Slide 28

Slide 28 text

2025/11/14 (金) 関西Kaggler会 交流会 in Osaka 2025#3 ご清聴ありがとうございました!!