$30 off During Our Annual Pro Sale. View Details »

AMA (Ask me anything) 『Kaggleに挑む深層学習プログラミングの極意』 / Ask me anything

AMA (Ask me anything) 『Kaggleに挑む深層学習プログラミングの極意』 / Ask me anything

3 月 22 日「W&B 東京ミートアップ #2」での発表資料です
https://wandb.connpass.com/event/275849/

Shotaro Ishihara

March 22, 2023
Tweet

More Decks by Shotaro Ishihara

Other Decks in Technology

Transcript

  1. W&B 東京ミートアップ #2
    2023 年 3 月 22 日
    小嵜 耕平、秋葉 拓哉、林 孝紀、◯石原 祥太郎
    AMA (Ask me anything)
    『Kaggleに挑む深層学習
    プログラミングの極意』

    View Slide

  2. 2
    ● 1 月 31 日に紙版の発売開始
    ● 現時点で 4 刷が決定
    ● 電子版も販売予定

    View Slide

  3. 3
    ● 書籍ページ(講談社・Amazon)
    ● 付録コード・正誤表・脚注(GitHub)
    ● 著者の紹介記事(秋葉さん・石原)
    ● 書評(からあげさん・TJO さん・Maxwellさん
    ・nikkie さん)
    ● Twitter 評判「Kaggle 極意」「Kaggle 本」
    リンク集

    View Slide

  4. 4
    ● なぜ Kaggle x 深層学習(極意本)?
    ● 本書の目次と担当
    ● 本書の特徴と補完資料
    本日の目次

    View Slide

  5. 5
    ● Kaggle の入門としてタイタニック号を題材にした
    コンテストが有名
    ● 扱うのは、テーブル形式
    のデータセット(右図)
    ● サイズは総計で 93.08 kB
    https://www.kaggle.com/c/titanic
    Kaggle のイメージ => Titanic ?

    View Slide

  6. 6
    ※ Amazon で、レビュー数が上位の 2 冊
    ● 『Kaggle で勝つデータ分析の技術』
    (技術評論社、2019 年)
    ● 『Python ではじめる Kaggle スタートブック』
    (講談社、2020 年)
    これまでの「Kaggle 本」はテーブル形式
    のデータセットを扱う例が有名

    View Slide

  7. 7
    データセットの種類別の推移
    Kaggle 公開のデータセット
    「Meta Kaggle」から作成
    したデータセットの種類別
    のコンテスト数の推移
    (2023 年 1 月時点で終了
    したコンテストまでを対象
    に集計)

    View Slide

  8. 8
    ● 画像やテキストを題材にしたコンテストが増加
    ● アルゴリズムも、勾配ブースティング決定木から
    ニューラルネットワーク(深層学習)に
    ● データセットのサイズも巨大化
    ○ Happywhale - Whale and Dolphin Identification: 62.06 GB
    ○ American Express - Default Prediction: 50.31 GB
    ○ H&M Personalized Fashion Recommendations: 34.56 GB
    深層学習の利用が一般的に

    View Slide

  9. 9
    ● 画像・自然言語処理の機械学習コンテストを題材
    に深層学習ライブラリ「PyTorch」の実装を交え、
    著者らの経験に基づく知見をまとめた書籍
    ● 第 1-2 章で基礎知識を学び、第 3-5 章で具体的な
    機械学習コンテストに挑戦していく構成
    『Kaggle に挑む深層学習プログラミング
    の極意』(講談社)

    View Slide

  10. 10
    目次 https://www.kspub.co.jp/book/detail/5305133.html
    ● 第 1 章: 機械学習コンテストの基礎知識
    ● 第 2 章: 探索的データ分析とモデルの作成・検証・
    性能向上
    ● 第 3 章: 画像分類入門
    ● 第 4 章: 画像検索入門
    ● 第 5 章: テキスト分類入門

    View Slide

  11. 11
    ● 石原(第 1-2 章): Kaggle Master
    ● 秋葉(第 3 章): Kaggle Grandmaster
    ● 小嵜(第 4 章): Kaggle Grandmaster
    ● 林(第 5 章): Kaggle Master
    ● 書籍は有識者 5 名にレビューしていただいた
    (まえがき参照)
    著者紹介

    View Slide

  12. 12
    ● 主要な対象読者は、画像や自然言語処理を題材と
    した機械学習コンテストに参加する方
    ● 著者らの経験を基に、一般的な書籍にはあまり書
    かれていない暗黙知や技法も含めてまとめている
    ● より広く「Kaggle でない実世界の課題を深層学習
    で解決するといった場面でも役立つ」
    https://karaage.hatenadiary.jp/entry/2023/02/06/073000
    特徴①予測性能を高める実践的な知見

    View Slide

  13. 13
    ● 第 2 章: 手戻りが少なくなるような実験方法
    ● 第 3 章: 学習終盤に強いデータ拡張をやめる
    ● 第 4 章: ArcFace のハイパーパラメータの勘所
    ● 第 5 章: 長さが近いテキストをまとめたミニバッチ
    実践的な知見の例(抜粋)

    View Slide

  14. 14
    ● 本体は 224 ページと比較的コンパクト
    ● サンプルコードは必要最低限の関数のみを掲載し
    て読みやすくし、全体は GitHub へ
    ● 参考文献(ウェブサイト・論文など)は 287 件
    ● カラー本で図表も多め
    特徴②凝縮した内容 + 付録・参考文献

    View Slide

  15. 15
    データサイズも大きく、泥臭い処理も含めて掲載
    ● 第 3 章: 犬猫の画像分類
    ○ 多くの画像認識タスクに拡張可能
    ● 第 4 章: 著名な Google Landmark Retrieval
    ● 第 5 章: 質問文の類似判定
    ○ 多くの自然言語処理タスクに拡張可能
    特徴③実際のコンテストを題材に

    View Slide

  16. 16
    ● 『Python ではじめる Kaggle スタートブック』
    (講談社、2020 年)
    ● 『Kaggle で勝つデータ分析の技術』
    (技術評論社、2019 年)
    ● 『統計的学習の基礎』(共立出版)
    補完① Kaggle 全般やテーブル形式の
    データセットを扱う方法

    View Slide

  17. 17
    ● 『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』
    (マイナビ出版)
    ● 『深層学習 改訂第2版』(講談社)
    ● 『画像認識』(講談社)
    ● 『Vision Transformer入門』(技術評論社)
    ● 『深層学習による自然言語処理』(講談社)
    ● 『IT Text 自然言語処理の基礎』(オーム社)
    補完②深層学習や画像認識・自然言語処理

    View Slide

  18. 18
    ● 開発ツールの説明は必要最小限にとどめている
    ● 公式ドキュメントやチュートリアルなどを必要に
    応じて参照
    ○ https://docs.docker.com/
    ○ https://yutaroogawa.github.io/pytorch_tuto
    rials_jp/
    補完③ Docker や PyTorch

    View Slide

  19. お気軽にご質問ください
    AMA (Ask me anything)
    『Kaggleに挑む深層学習
    プログラミングの極意』

    View Slide