Upgrade to Pro — share decks privately, control downloads, hide ads and more …

著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』

 著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』

「みんなのPython勉強会#90 新刊本から知る機械学習の今」での発表資料。
https://startpython.connpass.com/event/270312/

『Kaggleに挑む深層学習プログラミングの極意』(講談社)
https://www.amazon.co.jp/dp/4065305136/
https://www.kspub.co.jp/book/detail/5305133.html

サンプルコード・正誤表・参考文献
https://github.com/smly/kaggle-book-gokui

Shotaro Ishihara

February 16, 2023
Tweet

More Decks by Shotaro Ishihara

Other Decks in Technology

Transcript

  1. 石原祥太郎 日本経済新聞社 日経イノベーション・ラボ 主任研究員 みんなのPython勉強会#90 2023 年 2 月 16

    日 著者による書籍紹介 『Kaggleに挑む深層学習 プログラミングの極意』
  2. 2 著: 小嵜耕平, 秋葉拓哉, 林孝紀, 石原 祥太郎 • Kaggle 関連書籍

    3 冊出版 • Kaggle は 2019 年に優勝 • 同年にコンテストも開催 • Weekly Kaggle News 刊行 • 業務は言語処理・機械学習 の研究開発
  3. • 1 月 31 日に紙版の発売を 開始し、3 刷が決定 • 電子版も販売予定 https://twitter.com/kspub_kodansha/

    status/1623863793624453120 (2 月 10 日のツイート) 3 お礼申し上げます
  4. 7 「凄さ」をどう評価する? 定性&定量 例: Stable Diffusion や ChatGPT などを利 用者に提供し検証

    例: 評価用データセット を構築し、特定の評価指 標での優位性を検証
  5. 8 特定の条件で提案手法が 優れた結果を示すと報告 Long Ouyang, Jeff Wu, Xu Jiang, et

    al. 2022. Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155 ChatGPT に関係する InstructGPT
  6. 17 • 2010 年設立の機械学習コンテストのプラット フォーム(2017 年に Google が買収) • コンテスト開催に必要なユーザ管理・順位表・ス

    コア計算などの機能を提供 • ユーザ数は 2022 年に 1000 万人に達し世界最大 (日本からの参加者も年々増えている) Kaggle とは
  7. 19 • 日本経済新聞社のユーザの属性予測 • JR 西日本の着雪量予測 • マレーシアのペットの引き取り予測 • ワクチン開発に向けた

    RNA の塩基の安定性予測 • 動画のディープフェイク判定 機械学習コンテストを通じた事例
  8. 22 ※ Amazon で、レビュー数が上位の 2 冊 • 『Kaggle で勝つデータ分析の技術』 (技術評論社、2019

    年) • 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) これまでの「Kaggle 本」はテーブル形式 のデータセットを扱う例が有名
  9. 24 • 画像やテキストを題材にしたコンテストが増加 • アルゴリズムも、勾配ブースティング決定木から ニューラルネットワーク(深層学習)に • データセットのサイズも巨大化 ◦ Happywhale

    - Whale and Dolphin Identification: 62.06 GB ◦ American Express - Default Prediction: 50.31 GB ◦ H&M Personalized Fashion Recommendations: 34.56 GB 深層学習の利用が一般的に
  10. 27 目次 https://www.kspub.co.jp/book/detail/5305133.html • 第 1 章: 機械学習コンテストの基礎知識 • 第

    2 章: 探索的データ分析とモデルの作成・検証・ 性能向上 • 第 3 章: 画像分類入門 • 第 4 章: 画像検索入門 • 第 5 章: テキスト分類入門
  11. 28 • 小嵜(第 4 章): Kaggle Grandmaster https://www.kaggle.com/confirm • 秋葉(第

    3 章): Kaggle Grandmaster https://www.kaggle.com/takiba • 林(第 5 章): Kaggle Master https://www.kaggle.com/flowlight • 石原(第 1, 2 章): Kaggle Master https://www.kaggle.com/sishihara • 書籍は有識者 5 名にレビューしていただいた(まえがき参照) 著者紹介
  12. 32 • 第 2 章: 手戻りが少なくなるような実験方法 • 第 3 章:

    学習終盤に強いデータ拡張をやめる • 第 4 章: ArcFace のハイパーパラメータの勘所 • 第 5 章: 長さが近いテキストをまとめたミニバッチ 実践的な知見の例(抜粋)
  13. 33 • 本体は 224 ページと比較的コンパクト • サンプルコードは必要最低限の関数のみを掲載し て読みやすくし、全体は GitHub へ

    • 参考文献(ウェブサイト・論文など)は 287 件 • カラー本で図表も多め 特徴②凝縮した内容 + 付録・参考文献
  14. 34 データサイズも大きく、泥臭い処理も含めて掲載 • 第 3 章: 犬猫の画像分類 ◦ 多くの画像認識タスクに拡張可能 •

    第 4 章: 著名な Google Landmark Retrieval • 第 5 章: 質問文の類似判定 ◦ 多くの自然言語処理タスクに拡張可能 特徴③実際のコンテストを題材に
  15. 36 • 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) • 『Kaggle

    で勝つデータ分析の技術』 (技術評論社、2019 年) • 『統計的学習の基礎』(共立出版) 補完① Kaggle 全般やテーブル形式の データセットを扱う方法
  16. 37 • 『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』 (マイナビ出版) • 『深層学習 改訂第2版』(講談社)

    • 『画像認識』(講談社) • 『Vision Transformer入門』(技術評論社) • 『深層学習による自然言語処理』(講談社) • 『IT Text 自然言語処理の基礎』(オーム社) 補完②深層学習や画像認識・自然言語処理
  17. 40 • コンテスト:RMSE: Root Mean Square Error • 社内検証では、RMSE だけでなく年代別の正答率

    も利用 • 正答率は直感的に分かりやすいが、モデルの性能 を測る上では、1 歳の誤差か 50 歳の誤差かは区別 して議論したい 日経の Kaggle コンテストでの評価指標