Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習コンペの近年の潮流 2022 年 4 月版 / ml competition trend 2022.04

機械学習コンペの近年の潮流 2022 年 4 月版 / ml competition trend 2022.04

ML Study #3「機械学習コンペ」 https://forkwell.connpass.com/event/240639/ での発表資料です

Shotaro Ishihara

April 04, 2022
Tweet

More Decks by Shotaro Ishihara

Other Decks in Technology

Transcript

  1. 機械学習コンペの近年の潮流
    2022 年 4 月版
    日本経済新聞社 石原祥太郎
    ML Study #3 「機械学習コンペ」
    2022 年 4 月 4 日

    View Slide

  2. 本発表の概要
    2
    ● 機械学習コンペを取り巻く近年の潮流を紹介
    ○ 世界最大のコンペサイト「Kaggle」での出題傾向の変化
    ○ よりよい競争環境のための創意工夫
    ○ 日本国内での動向
    ● 広く機械学習に関わっている方に向けて、機械学習コンペや
    Kaggle の 2022 年 4 月時点での実情が垣間見える発表になれ
    ばと考えています

    View Slide

  3. 自己紹介@ニュースメディア
    3
    ● 2017 年より日本経済新聞社でデータ分析・サービス開発。
    現在は研究開発部署で主任研究員を務める
    ○ https://hack.nikkei.com/publications/
    ○ https://hack.nikkei.com/jobs/AI_and_datascience/
    ● 2013 〜 2017 年は公益財団法人東京大学新聞社で、記者・編集長・デー
    タ分析・文化事業・広告担当などを歴任
    ● ニュースメディアにおけるデータ利活用(最近は機械学習・自然言語処理の
    応用)に関心がある
    ○ 国際ニュースメディア協会の若手表彰で、アジア太平洋部門の最優秀賞(2022)
    https://www.nikkei.co.jp/nikkeiinfo/news/information/699.html

    View Slide

  4. 自己紹介@Kaggle
    4
    ● Kaggle では 2019 年にチーム参加した「PetFinder.my Adoption
    Prediction」で優勝。
    ● 同年の「Kaggle Days Tokyo」では、日本経済新聞社として
    コンペを開催
    ● Kaggle 関連書籍を出版(スタートブック& 4GM 本& ??? )
    ● 個人活動として、ニュースレター「Weekly Kaggle News」を
    2 年以上にわたり週次で発行し、購読者は 2000 人超。

    View Slide

  5. 目次
    5
    ● Kaggle での出題傾向の変化
    ● よりよい競争環境のための創意工夫
    ● 日本国内での動向

    View Slide

  6. 機械学習コンペティションとは
    6
    1. 主催者がデータセットと課
    題を提供
    2. 参加者は評価用データ
    セットの正解ラベルを予測
    3. 開催期間中に順位を競い
    合う
    4. 終了時の最終結果で順位
    が確定

    View Slide

  7. 機械学習コンペティション × 国際会議
    7
    ● 1997年にはデータマイニングの国際会議「KDD」にて、第1回の
    「KDD Cup」が開催
    ○ 現在に至るまで毎年開催を継続
    ● 「NeurIPS」「RecSys」など、機械学習に関連するさまざまな国際
    会議でコンペが併設されている
    ※ 筆者が機械学習コンペに参戦したのは 2018 年で、記述に当たっては [1][2] を参考にした
    [1] 馬場雪乃. 2016. “機械学習コンペティションの進展と今後の展開 .” 人工知能 31 (2): 248–53.
    https://www.jstage.jst.go.jp/article/jjsai/31/2/31_248/_article/-char/ja/
    [2] Kohei Ozaki (smly). 2017. “データ分析コンテストの技術と最近の進展 .”
    https://speakerdeck.com/smly/detafen-xi-kontesutofalseji-shu-tozui-jin-falsejin-zhan

    View Slide

  8. 大規模画像認識コンペティション「ILSVRC」
    8
    ● 大規模画像データセット「ImageNet」を用いた画像認識のコンペ
    ● 2010 年に開始し、2012 年に畳み込み層を用いた深層学習のモ
    デルが従来手法を圧倒的に凌駕する性能を叩き出した
    ● この事例は、昨今の深層学習研究の急速な発展に向けた転換点
    とも言われている

    View Slide

  9. 機械学習コンペティションの貢献 (分類は [1] を参照)
    9
    ● 特定の問題に適した予測モデリング手法の研究促進
    ○ ILSVRC や、映画推薦の「Netflix Prize」
    ○ 最近の例だと、日本語質疑応答の「AI 王」[3] など
    ○ 機械学習の利用に対する参入障壁の低減
    ● 予測モデリング手法の汎用性を報知する場の提供
    ○ 参加者が同一のデータセットで学習し、未知のデータセットで評価
    ● 実用上の知見の蓄積
    ○ 実装に当たっての勘所、論文で報告された手法の再検証
    [3] https://sites.google.com/view/project-aio/home

    View Slide

  10. Kaggle とは
    10
    ● 2010 年設立の機械学習コンペのプラットフォーム。 2017 年に
    Google に買収された
    ● コンペ開催に必要なユーザ管理・順位表・スコア計算などの機能
    を提供
    ○ 主催者は比較的手軽にコンペを開催可能に
    ○ 参加者もより気軽に数多くのコンペに挑戦できるように
    ● ユーザ数は 2020 年に 500 万人に達し、世界最大。日本からの
    参加者も年々増えている

    View Slide

  11. Kaggle のイメージ => Titanic ?
    11
    ● Kaggle の入門として、タイタニック号を題材にしたコンペ [4] が有名
    ● 扱うのは、右図に示すテーブル
    形式のデータセット
    ● サイズは総計で 93.08 kB
    [4] https://www.kaggle.com/c/titanic

    View Slide

  12. データセットの種類別の推移
    12
    Kaggle 公開のデータセット「 Meta Kaggle」から作成したデータセットの種類別のコンペ数の推移( 2021 年 12
    月時点で終了したコンペまでを対象に集計)

    View Slide

  13. データセットのサイズ
    13
    ● 画像を題材にしたコンペ
    ○ Happywhale - Whale and Dolphin Identification [5] : 62.06 GB
    ● テーブル形式のデータセットでも増加傾向に
    ○ H&M Personalized Fashion Recommendations [6] : 34.56 GB
    ※ 共に Kaggle で現在開催中
    [5] https://www.kaggle.com/c/happy-whale-and-dolphin
    [6] https://www.kaggle.com/c/h-and-m-personalized-fashion-recommendations

    View Slide

  14. GPU が必須になりつつある
    14
    ● 処理を高速化するための GPU の利用は必須になりつつある
    ● データセットの加工に GPU を用いるライブラリも
    ○ rapidsai / cudf [7]
    ○ pfnet-research / xfeat [8]
    ● TPU が利用される例もチラホラ
    [7] https://github.com/rapidsai/cudf
    [8] https://github.com/pfnet-research/xfeat

    View Slide

  15. 解き方が非自明な課題の増加
    15
    ● データセットが最初からモデリング(model.fit)できる状態では提
    供されないコンペも
    ● 課題としては最終的な出力と評価指標が示され、どのように解く
    かは参加者が試行錯誤する余地がある
    ● たとえば「NFL Health & Safety - Helmet Assignment」[9]
    ○ 詳細は優勝者の Qiita 記事参照 [10]
    [9] https://www.kaggle.com/c/nfl-health-and-safety-helmet-assignment/
    [10] https://qiita.com/Kmat67916008/items/8ccf0171219036621540

    View Slide

  16. シミュレーション・コンペティション
    16
    ● 2020 年から、設定された環境下で戦うモデルを提出するシミュレー
    ション形式のコンペが登場
    ● 強化学習や、行動制御のために大量の条件文の記述、教師あり学習
    の考え方で取り組む「模倣学習」といったアプローチが存在
    ● サッカー・じゃんけん・街づくりなど、定期的にコンペが開催されている

    View Slide

  17. Data-Centric AI
    17
    ● モデリングではなくデータ加工に焦点を当てた「Data-Centric AI
    Competition」[11] (※ Kaggle 外での開催)
    ● 機械学習モデルの学習部分は固定で、データの前処理などを通じた
    性能向上に取り組む
    [11] https://https-deeplearning-ai.github.io/data-centric-comp/

    View Slide

  18. ● まとめ
    ○ データセットの形式がテーブル => 画像中心に
    ○ データセットのサイズも増加し、GPU の必須になりつつある
    ○ 解き方が非自明な課題の増加
    ● 所感
    ○ データサイエンスの普及に伴い、ある程度解き方が明瞭な課題は企業が自
    社内で処理できるようになってきた?
    出題傾向の変化のまとめと所感
    18

    View Slide

  19. 目次
    19
    ● Kaggle での出題傾向の変化
    ● よりよい競争環境のための創意工夫
    ● 日本国内での動向

    View Slide

  20. 機械学習コンペティションのよくある課題
    ● 大量のモデルのアンサンブル
    ○ 映画推薦のコンペ「Netflix Prize」では、最終的に賞金 100 万ドルを獲得し
    たモデルは 100 以上のモデルのアンサンブル
    ○ Netflix によると、優勝したモデルはオフライン検証を通じた性能向上が実装
    や運用の工数に見合わないという理由で、本番環境への導入が見送られた
    [12]
    ● 評価用データセットの事前参照
    ○ 事前にデータセットの分布を確認できるという「特殊な」問題設定
    20
    [12] https://xamat.medium.com/on-the-usefulness-of-the-netflix-prize-403d360aaf2

    View Slide

  21. Kaggle での創意工夫の例
    21
    ● (前節で触れた)出題傾向の変化
    ● チーム人数の制限
    ● コード提出形式のコンペティション
    ● time-series API
    ● Code の公開制限

    View Slide

  22. チーム人数の制限
    22
    ● Kaggle では 2018 年ごろから、チーム内の人数の上限が設定さ
    れるように
    ○ 現在は 5 人の場合が多い
    ○ 過度なアンサンブルへの警鐘、チームへの貢献がない参加者の抑制といっ
    た目的などがあると考えられている

    View Slide

  23. コード提出形式のコンペティション
    23
    ● Kaggle では計算資源の公平性や透過性のためにコードを提出して
    実行する形式のコンペが一般的に
    ● 処理時間の制限も設定
    ○ 推論時間のみの制限が多いが、過去には前処理を含めた場合も
    ● 最終的な評価に、未来のデータセットを使う場合も
    ○ 実用面を勘案した解法になるような制度設計

    View Slide

  24. time-series API
    24
    ● Kaggle では独自の API を用いて、学習時に評価用データセット
    を参照できない仕組みを実現している事例も
    ● 通常は推論がバッチ処理だが、ストリーム処理が必要に
    ● 未知のデータセットへの対応力や省メモリ化・高速化など、実装力
    を問われる場面も増えてきた [13]
    [13] https://docs.google.com/presentation/d/1tQPw_JwRTgRHNbvs3YJOab4PywsprREwR6fo58NfMGQ/

    View Slide

  25. Code の公開制限
    ● Kaggle では時折、締め切り直前の高スコアの Code 公開が議論に
    なる
    ○ 過去には終了数時間前に公開された Code をそのままコピーして提出すればメ
    ダルが取れてしまった事例も [14]
    ● 現在は対応策として、自制を促す警告が表示されている
    ● コンペ終了 7 日前から Notebook の公開を禁止する規制を検討して
    いると明らかに [15]
    25
    [14] https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56182
    [15] https://www.kaggle.com/general/291540

    View Slide

  26. 目次
    26
    ● Kaggle での出題傾向の変化
    ● よりよい競争環境のための創意工夫
    ● 日本国内での動向

    View Slide

  27. [16] https://sinchir0.hatenablog.com/entry/2021/12/18/090325
    日本勢の躍進
    27
    ● コンペ上位に日本から
    の参加者がいるのは、
    珍しくない状況に
    ● Kaggle ranking top 100
    で最も多い国は日本
    (2021 年 12 月時点) [16]
    NFL Health & Safety - Helmet Assignment の最終順位表
    https://www.kaggle.com/c/nfl-health-and-safety-helmet-assignment/leaderboard

    View Slide

  28. Kaggle Days Championship
    28
    ● 2021 年から Kaggle が新たに始めたイベント [17]
    ● 12 カ所で 4 時間の短期間コンペを開催し、上位 3 チームが 2022
    年秋にスペイン・バルセロナでの本戦に進出
    ● ここでも日本勢の活躍が目立つ
    [17] https://kaggledays.com/championship/

    View Slide

  29. 29
    https://kaggledays.com/championship/leaderboard/

    View Slide

  30. 日本発のコンペティションサイト
    30
    ● SIGNATE: 日本最大のコンペプラットフォーム
    ● Nishika: 特許庁初となるコンペを開催
    ● ProbSpace: 優勝解法のピアレビュー制度が独特
    ● Solafune: 衛星データが専門
    ● atmaCup: Kaggle Master が運営
    など

    View Slide

  31. Kaggleを冠した書籍 (Amazon で検索)
    31
    ● Kaggleで勝つデータ分析の技術
    ● Kaggleのチュートリアル第6版
    ● Kaggleで学んでハイスコアをたたき出す
    ! Python機械学習&データ分析
    ● 実践Data Scienceシリーズ PythonではじめるKaggleスタートブック
    ● Pythonで動かして学ぶ! Kaggleデータ分析入門
    ● Kaggleコンペティション チャレンジブック
    ● Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ
    ● データサイエンスの森 Kaggleの歩き方
    ● kaggleで上位に入るための探索的データ解析入門

    View Slide

  32. 石原が関わった書籍(2020, 2021)
    32
    https://book.mynavi.jp/ec/
    products/detail/id=123641
    https://www.kspub.co.jp/b
    ook/detail/5190067.html

    View Slide

  33. 2022 年秋、講談社より刊行予定
    33
    ● テーマ:深層学習を用いた画像分類・画像検索・文章分類
    ● 著者 4 名での共著
    ○ Kaggle 全般・近年の潮流・頻出手法 など <= 石原 https://www.kaggle.com/sishihara
    ○ 実践:画像分類 <= iwiwi さん https://www.kaggle.com/takiba
    ○ 実践:画像検索 <= Kohei さん https://www.kaggle.com/confirm
    ○ 実践:文章分類 <= flowlight さん https://www.kaggle.com/flowlight
    ● 詳細が固まり次第告知 https://twitter.com/kspub_kodansha

    View Slide

  34. まとめ
    34
    ● Kaggleでの出題傾向の変化
    ● よりよい競争環境のための創意工夫
    ● 日本国内での動向

    View Slide