3 月 22 日「W&B 東京ミートアップ #2」での発表資料です https://wandb.connpass.com/event/275849/
W&B 東京ミートアップ #22023 年 3 月 22 日小嵜 耕平、秋葉 拓哉、林 孝紀、◯石原 祥太郎AMA (Ask me anything)『Kaggleに挑む深層学習プログラミングの極意』
View Slide
2● 1 月 31 日に紙版の発売開始● 現時点で 4 刷が決定● 電子版も販売予定
3● 書籍ページ(講談社・Amazon)● 付録コード・正誤表・脚注(GitHub)● 著者の紹介記事(秋葉さん・石原)● 書評(からあげさん・TJO さん・Maxwellさん・nikkie さん)● Twitter 評判「Kaggle 極意」「Kaggle 本」リンク集
4● なぜ Kaggle x 深層学習(極意本)?● 本書の目次と担当● 本書の特徴と補完資料本日の目次
5● Kaggle の入門としてタイタニック号を題材にしたコンテストが有名● 扱うのは、テーブル形式のデータセット(右図)● サイズは総計で 93.08 kBhttps://www.kaggle.com/c/titanicKaggle のイメージ => Titanic ?
6※ Amazon で、レビュー数が上位の 2 冊● 『Kaggle で勝つデータ分析の技術』(技術評論社、2019 年)● 『Python ではじめる Kaggle スタートブック』(講談社、2020 年)これまでの「Kaggle 本」はテーブル形式のデータセットを扱う例が有名
7データセットの種類別の推移Kaggle 公開のデータセット「Meta Kaggle」から作成したデータセットの種類別のコンテスト数の推移(2023 年 1 月時点で終了したコンテストまでを対象に集計)
8● 画像やテキストを題材にしたコンテストが増加● アルゴリズムも、勾配ブースティング決定木からニューラルネットワーク(深層学習)に● データセットのサイズも巨大化○ Happywhale - Whale and Dolphin Identification: 62.06 GB○ American Express - Default Prediction: 50.31 GB○ H&M Personalized Fashion Recommendations: 34.56 GB深層学習の利用が一般的に
9● 画像・自然言語処理の機械学習コンテストを題材に深層学習ライブラリ「PyTorch」の実装を交え、著者らの経験に基づく知見をまとめた書籍● 第 1-2 章で基礎知識を学び、第 3-5 章で具体的な機械学習コンテストに挑戦していく構成『Kaggle に挑む深層学習プログラミングの極意』(講談社)
10目次 https://www.kspub.co.jp/book/detail/5305133.html● 第 1 章: 機械学習コンテストの基礎知識● 第 2 章: 探索的データ分析とモデルの作成・検証・性能向上● 第 3 章: 画像分類入門● 第 4 章: 画像検索入門● 第 5 章: テキスト分類入門
11● 石原(第 1-2 章): Kaggle Master● 秋葉(第 3 章): Kaggle Grandmaster● 小嵜(第 4 章): Kaggle Grandmaster● 林(第 5 章): Kaggle Master● 書籍は有識者 5 名にレビューしていただいた(まえがき参照)著者紹介
12● 主要な対象読者は、画像や自然言語処理を題材とした機械学習コンテストに参加する方● 著者らの経験を基に、一般的な書籍にはあまり書かれていない暗黙知や技法も含めてまとめている● より広く「Kaggle でない実世界の課題を深層学習で解決するといった場面でも役立つ」https://karaage.hatenadiary.jp/entry/2023/02/06/073000特徴①予測性能を高める実践的な知見
13● 第 2 章: 手戻りが少なくなるような実験方法● 第 3 章: 学習終盤に強いデータ拡張をやめる● 第 4 章: ArcFace のハイパーパラメータの勘所● 第 5 章: 長さが近いテキストをまとめたミニバッチ実践的な知見の例(抜粋)
14● 本体は 224 ページと比較的コンパクト● サンプルコードは必要最低限の関数のみを掲載して読みやすくし、全体は GitHub へ● 参考文献(ウェブサイト・論文など)は 287 件● カラー本で図表も多め特徴②凝縮した内容 + 付録・参考文献
15データサイズも大きく、泥臭い処理も含めて掲載● 第 3 章: 犬猫の画像分類○ 多くの画像認識タスクに拡張可能● 第 4 章: 著名な Google Landmark Retrieval● 第 5 章: 質問文の類似判定○ 多くの自然言語処理タスクに拡張可能特徴③実際のコンテストを題材に
16● 『Python ではじめる Kaggle スタートブック』(講談社、2020 年)● 『Kaggle で勝つデータ分析の技術』(技術評論社、2019 年)● 『統計的学習の基礎』(共立出版)補完① Kaggle 全般やテーブル形式のデータセットを扱う方法
17● 『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』(マイナビ出版)● 『深層学習 改訂第2版』(講談社)● 『画像認識』(講談社)● 『Vision Transformer入門』(技術評論社)● 『深層学習による自然言語処理』(講談社)● 『IT Text 自然言語処理の基礎』(オーム社)補完②深層学習や画像認識・自然言語処理
18● 開発ツールの説明は必要最小限にとどめている● 公式ドキュメントやチュートリアルなどを必要に応じて参照○ https://docs.docker.com/○ https://yutaroogawa.github.io/pytorch_tutorials_jp/補完③ Docker や PyTorch
お気軽にご質問くださいAMA (Ask me anything)『Kaggleに挑む深層学習プログラミングの極意』