Upgrade to Pro — share decks privately, control downloads, hide ads and more …

著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』

 著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』

「みんなのPython勉強会#90 新刊本から知る機械学習の今」での発表資料。
https://startpython.connpass.com/event/270312/

『Kaggleに挑む深層学習プログラミングの極意』(講談社)
https://www.amazon.co.jp/dp/4065305136/
https://www.kspub.co.jp/book/detail/5305133.html

サンプルコード・正誤表・参考文献
https://github.com/smly/kaggle-book-gokui

Shotaro Ishihara

February 16, 2023
Tweet

More Decks by Shotaro Ishihara

Other Decks in Technology

Transcript

  1. 石原祥太郎
    日本経済新聞社 日経イノベーション・ラボ 主任研究員
    みんなのPython勉強会#90
    2023 年 2 月 16 日
    著者による書籍紹介
    『Kaggleに挑む深層学習
    プログラミングの極意』

    View Slide

  2. 2
    著: 小嵜耕平, 秋葉拓哉, 林孝紀,
    石原 祥太郎
    ● Kaggle 関連書籍 3 冊出版
    ● Kaggle は 2019 年に優勝
    ● 同年にコンテストも開催
    ● Weekly Kaggle News 刊行
    ● 業務は言語処理・機械学習
    の研究開発

    View Slide

  3. ● 1 月 31 日に紙版の発売を
    開始し、3 刷が決定
    ● 電子版も販売予定
    https://twitter.com/kspub_kodansha/
    status/1623863793624453120
    (2 月 10 日のツイート)
    3
    お礼申し上げます

    View Slide

  4. 4
    ● 機械学習コンテストの概要・役割
    ● 『Kaggleに挑む深層学習プログラミングの極意』
    ○ 出版に至った背景
    ○ 書籍の概要や特徴
    ○ 書籍を補完する資料
    本発表の概要

    View Slide

  5. 5
    新刊本から知る
    機械学習の今
    今回の stapy のテーマ

    View Slide

  6. 6
    機械学習の今といえば・・・
    生成 AI の凄さ
    が話題に Stable Diffusion,
    ChatGPT など

    View Slide

  7. 7
    「凄さ」をどう評価する?
    定性&定量
    例: Stable Diffusion
    や ChatGPT などを利
    用者に提供し検証
    例: 評価用データセット
    を構築し、特定の評価指
    標での優位性を検証

    View Slide

  8. 8
    特定の条件で提案手法が
    優れた結果を示すと報告
    Long Ouyang, Jeff Wu, Xu Jiang, et al.
    2022. Training language models to
    follow instructions with human
    feedback.
    https://arxiv.org/abs/2203.02155
    ChatGPT に関係する InstructGPT

    View Slide

  9. 9
    ImageNet での性能の変遷
    https://paperswithcode.com/sota/image-classification-on-imagenet

    View Slide

  10. 10
    ● 大規模画像データセット「ImageNet」を用いた画
    像認識のコンテスト
    ● 2010 年に開始し、2012 年に畳み込み層を用いた
    深層学習のモデル「AlexNet」が従来手法を圧倒的
    に凌駕する性能を叩き出した
    ● この事例は、昨今の深層学習研究の急速な発展に
    向けた転換点とも言われている
    大規模画像認識コンテスト「ILSVRC」

    View Slide

  11. ● 主催者がデータセッ
    トと課題を提供
    ● 評価用データセット
    の正解ラベルを予測
    ● 開催中に順位を競う
    ● 終了時の最終結果で
    順位が確定
    11
    機械学習コンテストとは?

    View Slide

  12. 12
    ● 1997 年にはデータマイニングの国際会議「KDD」
    にて、第 1 回の「KDD Cup」が開催
    ● 「NeurIPS」「RecSys」など、機械学習に関連する
    さまざまな国際会議でコンテストが併設
    機械学習コンテスト × 国際会議

    View Slide

  13. 13
    1. 特定の問題に適した予測手法の研究促進
    2. 予測手法の汎用性を報知する場の提供
    3. 実用上の知見の蓄積
    機械学習コンテストの貢献
    馬場雪乃 (2016). 機械学習コンペティションの進展と今後の展開. 人工知能
    31 (2): 248–253.

    View Slide

  14. 14
    ● ILSVRC や、映画推薦の「Netflix Prize」など
    ● 機械学習の利用に対する参入障壁の低減
    特定の問題に適した予測手法の研究促進

    View Slide

  15. 15
    ● 多くの人が同じ枠組みで性能を検証
    ● 評価用データセットが最後まで公開されないので
    汎用性を確認できる
    予測手法の汎用性を報知する場の提供

    View Slide

  16. 16
    ● 実装に当たっての勘所や論文の再検証
    ● プラットフォームごとに議論やソースコード共有
    の場が用意されていることも
    実用上の知見の蓄積

    View Slide

  17. 17
    ● 2010 年設立の機械学習コンテストのプラット
    フォーム(2017 年に Google が買収)
    ● コンテスト開催に必要なユーザ管理・順位表・ス
    コア計算などの機能を提供
    ● ユーザ数は 2022 年に 1000 万人に達し世界最大
    (日本からの参加者も年々増えている)
    Kaggle とは

    View Slide

  18. 18
    ● SIGNATE: 日本最大のコンテストプラットフォーム
    ● Nishika: 特許庁初となるコンテストを開催
    ● ProbSpace: 優勝解法のピアレビュー制度が独特
    ● Solafune: 衛星データが専門
    ● atmaCup: Kaggle Master が運営
    日本発のコンテストサイトの例

    View Slide

  19. 19
    ● 日本経済新聞社のユーザの属性予測
    ● JR 西日本の着雪量予測
    ● マレーシアのペットの引き取り予測
    ● ワクチン開発に向けた RNA の塩基の安定性予測
    ● 動画のディープフェイク判定
    機械学習コンテストを通じた事例

    View Slide

  20. 20
    ● 機械学習コンテストの概要・役割
    ● 『Kaggleに挑む深層学習プログラミングの極意』
    ○ 出版に至った背景
    ○ 書籍の概要や特徴
    ○ 書籍を補完する資料
    本発表の概要

    View Slide

  21. 21
    ● Kaggle の入門としてタイタニック号を題材にした
    コンテストが有名
    ● 扱うのは、テーブル形式
    のデータセット(右図)
    ● サイズは総計で 93.08 kB
    https://www.kaggle.com/c/titanic
    Kaggle のイメージ => Titanic ?

    View Slide

  22. 22
    ※ Amazon で、レビュー数が上位の 2 冊
    ● 『Kaggle で勝つデータ分析の技術』
    (技術評論社、2019 年)
    ● 『Python ではじめる Kaggle スタートブック』
    (講談社、2020 年)
    これまでの「Kaggle 本」はテーブル形式
    のデータセットを扱う例が有名

    View Slide

  23. 23
    データセットの種類別の推移
    Kaggle 公開のデータセット
    「Meta Kaggle」から作成
    したデータセットの種類別
    のコンテスト数の推移
    (2023 年 1 月時点で終了
    したコンテストまでを対象
    に集計)

    View Slide

  24. 24
    ● 画像やテキストを題材にしたコンテストが増加
    ● アルゴリズムも、勾配ブースティング決定木から
    ニューラルネットワーク(深層学習)に
    ● データセットのサイズも巨大化
    ○ Happywhale - Whale and Dolphin Identification: 62.06 GB
    ○ American Express - Default Prediction: 50.31 GB
    ○ H&M Personalized Fashion Recommendations: 34.56 GB
    深層学習の利用が一般的に

    View Slide

  25. 25
    ● 機械学習コンテストの概要・役割
    ● 『Kaggleに挑む深層学習プログラミングの極意』
    ○ 出版に至った背景
    ○ 書籍の概要や特徴
    ○ 書籍を補完する資料
    本発表の概要

    View Slide

  26. 26
    ● 画像・自然言語処理の機械学習コンテストを題材
    に深層学習ライブラリ「PyTorch」の実装を交え、
    著者らの経験に基づく知見をまとめた書籍
    ● 第 1, 2 章で基礎知識を学び、第 3-5 章で具体的な
    機械学習コンテストに挑戦していく構成
    『Kaggle に挑む深層学習プログラミング
    の極意』(講談社)

    View Slide

  27. 27
    目次 https://www.kspub.co.jp/book/detail/5305133.html
    ● 第 1 章: 機械学習コンテストの基礎知識
    ● 第 2 章: 探索的データ分析とモデルの作成・検証・
    性能向上
    ● 第 3 章: 画像分類入門
    ● 第 4 章: 画像検索入門
    ● 第 5 章: テキスト分類入門

    View Slide

  28. 28
    ● 小嵜(第 4 章): Kaggle Grandmaster https://www.kaggle.com/confirm
    ● 秋葉(第 3 章): Kaggle Grandmaster https://www.kaggle.com/takiba
    ● 林(第 5 章): Kaggle Master https://www.kaggle.com/flowlight
    ● 石原(第 1, 2 章): Kaggle Master https://www.kaggle.com/sishihara
    ● 書籍は有識者 5 名にレビューしていただいた(まえがき参照)
    著者紹介

    View Slide

  29. 29
    ● 著者の紹介記事(秋葉さん・石原)
    ● 書評(からあげさん・TJO さん・Maxwellさん
    ・nikkie さん)
    ● Twitter 評判「Kaggle 極意」「Kaggle 本」
    紹介記事や評判

    View Slide

  30. 30
    Twitter で「Kaggle 極意」「Kaggle 本」で検索した結果を可視化(2023 年 2 月 8 日時点)

    View Slide

  31. 31
    ● 主要な対象読者は、画像や自然言語処理を題材と
    した機械学習コンテストに参加する方
    ● 著者らの経験を基に、一般的な書籍にはあまり書
    かれていない暗黙知や技法も含めてまとめている
    ● より広く「Kaggle でない実世界の課題を深層学習
    で解決するといった場面でも役立つ」
    https://karaage.hatenadiary.jp/entry/2023/02/06/073000
    特徴①予測性能を高める実践的な知見

    View Slide

  32. 32
    ● 第 2 章: 手戻りが少なくなるような実験方法
    ● 第 3 章: 学習終盤に強いデータ拡張をやめる
    ● 第 4 章: ArcFace のハイパーパラメータの勘所
    ● 第 5 章: 長さが近いテキストをまとめたミニバッチ
    実践的な知見の例(抜粋)

    View Slide

  33. 33
    ● 本体は 224 ページと比較的コンパクト
    ● サンプルコードは必要最低限の関数のみを掲載し
    て読みやすくし、全体は GitHub へ
    ● 参考文献(ウェブサイト・論文など)は 287 件
    ● カラー本で図表も多め
    特徴②凝縮した内容 + 付録・参考文献

    View Slide

  34. 34
    データサイズも大きく、泥臭い処理も含めて掲載
    ● 第 3 章: 犬猫の画像分類
    ○ 多くの画像認識タスクに拡張可能
    ● 第 4 章: 著名な Google Landmark Retrieval
    ● 第 5 章: 質問文の類似判定
    ○ 多くの自然言語処理タスクに拡張可能
    特徴③実際のコンテストを題材に

    View Slide

  35. 35
    ● 機械学習コンテストの概要・役割
    ● 『Kaggleに挑む深層学習プログラミングの極意』
    ○ 出版に至った背景
    ○ 書籍の概要や特徴
    ○ 書籍を補完する資料
    本発表の概要

    View Slide

  36. 36
    ● 『Python ではじめる Kaggle スタートブック』
    (講談社、2020 年)
    ● 『Kaggle で勝つデータ分析の技術』
    (技術評論社、2019 年)
    ● 『統計的学習の基礎』(共立出版)
    補完① Kaggle 全般やテーブル形式の
    データセットを扱う方法

    View Slide

  37. 37
    ● 『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』
    (マイナビ出版)
    ● 『深層学習 改訂第2版』(講談社)
    ● 『画像認識』(講談社)
    ● 『Vision Transformer入門』(技術評論社)
    ● 『深層学習による自然言語処理』(講談社)
    ● 『IT Text 自然言語処理の基礎』(オーム社)
    補完②深層学習や画像認識・自然言語処理

    View Slide

  38. 38
    ● 開発ツールの説明は必要最小限にとどめている
    ● 公式ドキュメントやチュートリアルなどを必要に
    応じて参照
    ○ https://docs.docker.com/
    ○ https://yutaroogawa.github.io/pytorch_tuto
    rials_jp/
    補完③ Docker や PyTorch

    View Slide

  39. 39
    補完④評価指標や Python・機械学習全般
    https://startpython.connpass.com/event/270312/

    View Slide

  40. 40
    ● コンテスト:RMSE: Root Mean Square Error
    ● 社内検証では、RMSE だけでなく年代別の正答率
    も利用
    ● 正答率は直感的に分かりやすいが、モデルの性能
    を測る上では、1 歳の誤差か 50 歳の誤差かは区別
    して議論したい
    日経の Kaggle コンテストでの評価指標

    View Slide

  41. 41
    ● 機械学習コンテストの概要・役割
    ● 『Kaggleに挑む深層学習プログラミングの極意』
    ○ 出版に至った背景
    ○ 書籍の概要や魅力
    ○ 書籍を補完する資料
    まとめ

    View Slide

  42. 42
    ● 書籍ページ(講談社・Amazon)
    ● 付録コード・正誤表・脚注(GitHub)
    ● 著者の紹介記事(秋葉さん・石原)
    ● 書評(からあげさん・TJO さん・Maxwellさん
    ・nikkie さん)
    ● Twitter 評判「Kaggle 極意」「Kaggle 本」
    リンク集

    View Slide

  43. 43
    ● 日本経済新聞社デジタル人材採用
    https://hack.nikkei.com/
    ● 2024 年入社 第 1 回定期採用試験
    https://www.nikkei.co.jp/saiyo/recruit/require
    ments.html
    ● お気軽にご連絡ください&ご関心あれば懇親会で
    Hack the Nikkei

    View Slide