Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習コンペの近年の潮流 2022 年 4 月版 / ml competition tren...
Search
Shotaro Ishihara
April 04, 2022
Technology
2
2.3k
機械学習コンペの近年の潮流 2022 年 4 月版 / ml competition trend 2022.04
ML Study #3「機械学習コンペ」
https://forkwell.connpass.com/event/240639/
での発表資料です
Shotaro Ishihara
April 04, 2022
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
200
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
250
Quantifying Memorization in Continual Pre-training with Japanese General or Industry-Specific Corpora
upura
1
49
JOAI2025講評 / joai2025-review
upura
0
460
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
160
JSAI2025 企画セッション「人工知能とコンペティション」/ jsai2025-competition
upura
0
53
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
280
Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
upura
0
77
日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用 / t5-news-summarization
upura
0
92
Other Decks in Technology
See All in Technology
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
3
20k
難しいセキュリティ用語をわかりやすくしてみた
yuta3110
0
140
Data Hubグループ 紹介資料
sansan33
PRO
0
2.2k
Node.js 2025: What's new and what's next
ruyadorno
0
350
20251010_HCCJP_AdaptiveCloudUpdates
sdosamut
0
130
Findy Team+ QAチーム これからのチャレンジ!
findy_eventslides
0
300
そのWAFのブロック、どう活かす? サービスを守るための実践的多層防御と思考法 / WAF blocks defense decision
kaminashi
0
200
「れきちず」のこれまでとこれから - 誰にでもわかりやすい歴史地図を目指して / FOSS4G 2025 Japan
hjmkth
1
310
WEBサービスを成り立たせるAWSサービス
takano0131
1
170
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.8k
物体検出モデルでシイタケの収穫時期を自動判定してみた。 #devio2025
lamaglama39
0
160
セキュアな認可付きリモートMCPサーバーをAWSマネージドサービスでつくろう! / Let's build an OAuth protected remote MCP server based on AWS managed services
kaminashi
3
330
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Mobile First: as difficult as doing things right
swwweet
224
10k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
33
2.3k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3k
Automating Front-end Workflow
addyosmani
1371
200k
How GitHub (no longer) Works
holman
315
140k
Statistics for Hackers
jakevdp
799
220k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Transcript
機械学習コンペの近年の潮流 2022 年 4 月版 日本経済新聞社 石原祥太郎 ML Study #3
「機械学習コンペ」 2022 年 4 月 4 日
本発表の概要 2 • 機械学習コンペを取り巻く近年の潮流を紹介 ◦ 世界最大のコンペサイト「Kaggle」での出題傾向の変化 ◦ よりよい競争環境のための創意工夫 ◦ 日本国内での動向
• 広く機械学習に関わっている方に向けて、機械学習コンペや Kaggle の 2022 年 4 月時点での実情が垣間見える発表になれ ばと考えています
自己紹介@ニュースメディア 3 • 2017 年より日本経済新聞社でデータ分析・サービス開発。 現在は研究開発部署で主任研究員を務める ◦ https://hack.nikkei.com/publications/ ◦ https://hack.nikkei.com/jobs/AI_and_datascience/
• 2013 〜 2017 年は公益財団法人東京大学新聞社で、記者・編集長・デー タ分析・文化事業・広告担当などを歴任 • ニュースメディアにおけるデータ利活用(最近は機械学習・自然言語処理の 応用)に関心がある ◦ 国際ニュースメディア協会の若手表彰で、アジア太平洋部門の最優秀賞(2022) https://www.nikkei.co.jp/nikkeiinfo/news/information/699.html
自己紹介@Kaggle 4 • Kaggle では 2019 年にチーム参加した「PetFinder.my Adoption Prediction」で優勝。 •
同年の「Kaggle Days Tokyo」では、日本経済新聞社として コンペを開催 • Kaggle 関連書籍を出版(スタートブック& 4GM 本& ??? ) • 個人活動として、ニュースレター「Weekly Kaggle News」を 2 年以上にわたり週次で発行し、購読者は 2000 人超。
目次 5 • Kaggle での出題傾向の変化 • よりよい競争環境のための創意工夫 • 日本国内での動向
機械学習コンペティションとは 6 1. 主催者がデータセットと課 題を提供 2. 参加者は評価用データ セットの正解ラベルを予測 3. 開催期間中に順位を競い
合う 4. 終了時の最終結果で順位 が確定
機械学習コンペティション × 国際会議 7 • 1997年にはデータマイニングの国際会議「KDD」にて、第1回の 「KDD Cup」が開催 ◦ 現在に至るまで毎年開催を継続
• 「NeurIPS」「RecSys」など、機械学習に関連するさまざまな国際 会議でコンペが併設されている ※ 筆者が機械学習コンペに参戦したのは 2018 年で、記述に当たっては [1][2] を参考にした [1] 馬場雪乃. 2016. “機械学習コンペティションの進展と今後の展開 .” 人工知能 31 (2): 248–53. https://www.jstage.jst.go.jp/article/jjsai/31/2/31_248/_article/-char/ja/ [2] Kohei Ozaki (smly). 2017. “データ分析コンテストの技術と最近の進展 .” https://speakerdeck.com/smly/detafen-xi-kontesutofalseji-shu-tozui-jin-falsejin-zhan
大規模画像認識コンペティション「ILSVRC」 8 • 大規模画像データセット「ImageNet」を用いた画像認識のコンペ • 2010 年に開始し、2012 年に畳み込み層を用いた深層学習のモ デルが従来手法を圧倒的に凌駕する性能を叩き出した •
この事例は、昨今の深層学習研究の急速な発展に向けた転換点 とも言われている
機械学習コンペティションの貢献 (分類は [1] を参照) 9 • 特定の問題に適した予測モデリング手法の研究促進 ◦ ILSVRC や、映画推薦の「Netflix
Prize」 ◦ 最近の例だと、日本語質疑応答の「AI 王」[3] など ◦ 機械学習の利用に対する参入障壁の低減 • 予測モデリング手法の汎用性を報知する場の提供 ◦ 参加者が同一のデータセットで学習し、未知のデータセットで評価 • 実用上の知見の蓄積 ◦ 実装に当たっての勘所、論文で報告された手法の再検証 [3] https://sites.google.com/view/project-aio/home
Kaggle とは 10 • 2010 年設立の機械学習コンペのプラットフォーム。 2017 年に Google に買収された
• コンペ開催に必要なユーザ管理・順位表・スコア計算などの機能 を提供 ◦ 主催者は比較的手軽にコンペを開催可能に ◦ 参加者もより気軽に数多くのコンペに挑戦できるように • ユーザ数は 2020 年に 500 万人に達し、世界最大。日本からの 参加者も年々増えている
Kaggle のイメージ => Titanic ? 11 • Kaggle の入門として、タイタニック号を題材にしたコンペ [4]
が有名 • 扱うのは、右図に示すテーブル 形式のデータセット • サイズは総計で 93.08 kB [4] https://www.kaggle.com/c/titanic
データセットの種類別の推移 12 Kaggle 公開のデータセット「 Meta Kaggle」から作成したデータセットの種類別のコンペ数の推移( 2021 年 12 月時点で終了したコンペまでを対象に集計)
データセットのサイズ 13 • 画像を題材にしたコンペ ◦ Happywhale - Whale and Dolphin
Identification [5] : 62.06 GB • テーブル形式のデータセットでも増加傾向に ◦ H&M Personalized Fashion Recommendations [6] : 34.56 GB ※ 共に Kaggle で現在開催中 [5] https://www.kaggle.com/c/happy-whale-and-dolphin [6] https://www.kaggle.com/c/h-and-m-personalized-fashion-recommendations
GPU が必須になりつつある 14 • 処理を高速化するための GPU の利用は必須になりつつある • データセットの加工に GPU
を用いるライブラリも ◦ rapidsai / cudf [7] ◦ pfnet-research / xfeat [8] • TPU が利用される例もチラホラ [7] https://github.com/rapidsai/cudf [8] https://github.com/pfnet-research/xfeat
解き方が非自明な課題の増加 15 • データセットが最初からモデリング(model.fit)できる状態では提 供されないコンペも • 課題としては最終的な出力と評価指標が示され、どのように解く かは参加者が試行錯誤する余地がある • たとえば「NFL
Health & Safety - Helmet Assignment」[9] ◦ 詳細は優勝者の Qiita 記事参照 [10] [9] https://www.kaggle.com/c/nfl-health-and-safety-helmet-assignment/ [10] https://qiita.com/Kmat67916008/items/8ccf0171219036621540
シミュレーション・コンペティション 16 • 2020 年から、設定された環境下で戦うモデルを提出するシミュレー ション形式のコンペが登場 • 強化学習や、行動制御のために大量の条件文の記述、教師あり学習 の考え方で取り組む「模倣学習」といったアプローチが存在 •
サッカー・じゃんけん・街づくりなど、定期的にコンペが開催されている
Data-Centric AI 17 • モデリングではなくデータ加工に焦点を当てた「Data-Centric AI Competition」[11] (※ Kaggle 外での開催)
• 機械学習モデルの学習部分は固定で、データの前処理などを通じた 性能向上に取り組む [11] https://https-deeplearning-ai.github.io/data-centric-comp/
• まとめ ◦ データセットの形式がテーブル => 画像中心に ◦ データセットのサイズも増加し、GPU の必須になりつつある ◦
解き方が非自明な課題の増加 • 所感 ◦ データサイエンスの普及に伴い、ある程度解き方が明瞭な課題は企業が自 社内で処理できるようになってきた? 出題傾向の変化のまとめと所感 18
目次 19 • Kaggle での出題傾向の変化 • よりよい競争環境のための創意工夫 • 日本国内での動向
機械学習コンペティションのよくある課題 • 大量のモデルのアンサンブル ◦ 映画推薦のコンペ「Netflix Prize」では、最終的に賞金 100 万ドルを獲得し たモデルは 100
以上のモデルのアンサンブル ◦ Netflix によると、優勝したモデルはオフライン検証を通じた性能向上が実装 や運用の工数に見合わないという理由で、本番環境への導入が見送られた [12] • 評価用データセットの事前参照 ◦ 事前にデータセットの分布を確認できるという「特殊な」問題設定 20 [12] https://xamat.medium.com/on-the-usefulness-of-the-netflix-prize-403d360aaf2
Kaggle での創意工夫の例 21 • (前節で触れた)出題傾向の変化 • チーム人数の制限 • コード提出形式のコンペティション •
time-series API • Code の公開制限
チーム人数の制限 22 • Kaggle では 2018 年ごろから、チーム内の人数の上限が設定さ れるように ◦ 現在は
5 人の場合が多い ◦ 過度なアンサンブルへの警鐘、チームへの貢献がない参加者の抑制といっ た目的などがあると考えられている
コード提出形式のコンペティション 23 • Kaggle では計算資源の公平性や透過性のためにコードを提出して 実行する形式のコンペが一般的に • 処理時間の制限も設定 ◦ 推論時間のみの制限が多いが、過去には前処理を含めた場合も
• 最終的な評価に、未来のデータセットを使う場合も ◦ 実用面を勘案した解法になるような制度設計
time-series API 24 • Kaggle では独自の API を用いて、学習時に評価用データセット を参照できない仕組みを実現している事例も •
通常は推論がバッチ処理だが、ストリーム処理が必要に • 未知のデータセットへの対応力や省メモリ化・高速化など、実装力 を問われる場面も増えてきた [13] [13] https://docs.google.com/presentation/d/1tQPw_JwRTgRHNbvs3YJOab4PywsprREwR6fo58NfMGQ/
Code の公開制限 • Kaggle では時折、締め切り直前の高スコアの Code 公開が議論に なる ◦ 過去には終了数時間前に公開された
Code をそのままコピーして提出すればメ ダルが取れてしまった事例も [14] • 現在は対応策として、自制を促す警告が表示されている • コンペ終了 7 日前から Notebook の公開を禁止する規制を検討して いると明らかに [15] 25 [14] https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56182 [15] https://www.kaggle.com/general/291540
目次 26 • Kaggle での出題傾向の変化 • よりよい競争環境のための創意工夫 • 日本国内での動向
[16] https://sinchir0.hatenablog.com/entry/2021/12/18/090325 日本勢の躍進 27 • コンペ上位に日本から の参加者がいるのは、 珍しくない状況に • Kaggle
ranking top 100 で最も多い国は日本 (2021 年 12 月時点) [16] NFL Health & Safety - Helmet Assignment の最終順位表 https://www.kaggle.com/c/nfl-health-and-safety-helmet-assignment/leaderboard
Kaggle Days Championship 28 • 2021 年から Kaggle が新たに始めたイベント [17]
• 12 カ所で 4 時間の短期間コンペを開催し、上位 3 チームが 2022 年秋にスペイン・バルセロナでの本戦に進出 • ここでも日本勢の活躍が目立つ [17] https://kaggledays.com/championship/
29 https://kaggledays.com/championship/leaderboard/
日本発のコンペティションサイト 30 • SIGNATE: 日本最大のコンペプラットフォーム • Nishika: 特許庁初となるコンペを開催 • ProbSpace:
優勝解法のピアレビュー制度が独特 • Solafune: 衛星データが専門 • atmaCup: Kaggle Master が運営 など
Kaggleを冠した書籍 (Amazon で検索) 31 • Kaggleで勝つデータ分析の技術 • Kaggleのチュートリアル第6版 • Kaggleで学んでハイスコアをたたき出す
! Python機械学習&データ分析 • 実践Data Scienceシリーズ PythonではじめるKaggleスタートブック • Pythonで動かして学ぶ! Kaggleデータ分析入門 • Kaggleコンペティション チャレンジブック • Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ • データサイエンスの森 Kaggleの歩き方 • kaggleで上位に入るための探索的データ解析入門
石原が関わった書籍(2020, 2021) 32 https://book.mynavi.jp/ec/ products/detail/id=123641 https://www.kspub.co.jp/b ook/detail/5190067.html
2022 年秋、講談社より刊行予定 33 • テーマ:深層学習を用いた画像分類・画像検索・文章分類 • 著者 4 名での共著 ◦
Kaggle 全般・近年の潮流・頻出手法 など <= 石原 https://www.kaggle.com/sishihara ◦ 実践:画像分類 <= iwiwi さん https://www.kaggle.com/takiba ◦ 実践:画像検索 <= Kohei さん https://www.kaggle.com/confirm ◦ 実践:文章分類 <= flowlight さん https://www.kaggle.com/flowlight • 詳細が固まり次第告知 https://twitter.com/kspub_kodansha
まとめ 34 • Kaggleでの出題傾向の変化 • よりよい競争環境のための創意工夫 • 日本国内での動向