Slide 1

Slide 1 text

W&B 東京ミートアップ #2 2023 年 3 月 22 日 小嵜 耕平、秋葉 拓哉、林 孝紀、◯石原 祥太郎 AMA (Ask me anything) 『Kaggleに挑む深層学習 プログラミングの極意』

Slide 2

Slide 2 text

2 ● 1 月 31 日に紙版の発売開始 ● 現時点で 4 刷が決定 ● 電子版も販売予定

Slide 3

Slide 3 text

3 ● 書籍ページ(講談社・Amazon) ● 付録コード・正誤表・脚注(GitHub) ● 著者の紹介記事(秋葉さん・石原) ● 書評(からあげさん・TJO さん・Maxwellさん ・nikkie さん) ● Twitter 評判「Kaggle 極意」「Kaggle 本」 リンク集

Slide 4

Slide 4 text

4 ● なぜ Kaggle x 深層学習(極意本)? ● 本書の目次と担当 ● 本書の特徴と補完資料 本日の目次

Slide 5

Slide 5 text

5 ● Kaggle の入門としてタイタニック号を題材にした コンテストが有名 ● 扱うのは、テーブル形式 のデータセット(右図) ● サイズは総計で 93.08 kB https://www.kaggle.com/c/titanic Kaggle のイメージ => Titanic ?

Slide 6

Slide 6 text

6 ※ Amazon で、レビュー数が上位の 2 冊 ● 『Kaggle で勝つデータ分析の技術』 (技術評論社、2019 年) ● 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) これまでの「Kaggle 本」はテーブル形式 のデータセットを扱う例が有名

Slide 7

Slide 7 text

7 データセットの種類別の推移 Kaggle 公開のデータセット 「Meta Kaggle」から作成 したデータセットの種類別 のコンテスト数の推移 (2023 年 1 月時点で終了 したコンテストまでを対象 に集計)

Slide 8

Slide 8 text

8 ● 画像やテキストを題材にしたコンテストが増加 ● アルゴリズムも、勾配ブースティング決定木から ニューラルネットワーク(深層学習)に ● データセットのサイズも巨大化 ○ Happywhale - Whale and Dolphin Identification: 62.06 GB ○ American Express - Default Prediction: 50.31 GB ○ H&M Personalized Fashion Recommendations: 34.56 GB 深層学習の利用が一般的に

Slide 9

Slide 9 text

9 ● 画像・自然言語処理の機械学習コンテストを題材 に深層学習ライブラリ「PyTorch」の実装を交え、 著者らの経験に基づく知見をまとめた書籍 ● 第 1-2 章で基礎知識を学び、第 3-5 章で具体的な 機械学習コンテストに挑戦していく構成 『Kaggle に挑む深層学習プログラミング の極意』(講談社)

Slide 10

Slide 10 text

10 目次 https://www.kspub.co.jp/book/detail/5305133.html ● 第 1 章: 機械学習コンテストの基礎知識 ● 第 2 章: 探索的データ分析とモデルの作成・検証・ 性能向上 ● 第 3 章: 画像分類入門 ● 第 4 章: 画像検索入門 ● 第 5 章: テキスト分類入門

Slide 11

Slide 11 text

11 ● 石原(第 1-2 章): Kaggle Master ● 秋葉(第 3 章): Kaggle Grandmaster ● 小嵜(第 4 章): Kaggle Grandmaster ● 林(第 5 章): Kaggle Master ● 書籍は有識者 5 名にレビューしていただいた (まえがき参照) 著者紹介

Slide 12

Slide 12 text

12 ● 主要な対象読者は、画像や自然言語処理を題材と した機械学習コンテストに参加する方 ● 著者らの経験を基に、一般的な書籍にはあまり書 かれていない暗黙知や技法も含めてまとめている ● より広く「Kaggle でない実世界の課題を深層学習 で解決するといった場面でも役立つ」 https://karaage.hatenadiary.jp/entry/2023/02/06/073000 特徴①予測性能を高める実践的な知見

Slide 13

Slide 13 text

13 ● 第 2 章: 手戻りが少なくなるような実験方法 ● 第 3 章: 学習終盤に強いデータ拡張をやめる ● 第 4 章: ArcFace のハイパーパラメータの勘所 ● 第 5 章: 長さが近いテキストをまとめたミニバッチ 実践的な知見の例(抜粋)

Slide 14

Slide 14 text

14 ● 本体は 224 ページと比較的コンパクト ● サンプルコードは必要最低限の関数のみを掲載し て読みやすくし、全体は GitHub へ ● 参考文献(ウェブサイト・論文など)は 287 件 ● カラー本で図表も多め 特徴②凝縮した内容 + 付録・参考文献

Slide 15

Slide 15 text

15 データサイズも大きく、泥臭い処理も含めて掲載 ● 第 3 章: 犬猫の画像分類 ○ 多くの画像認識タスクに拡張可能 ● 第 4 章: 著名な Google Landmark Retrieval ● 第 5 章: 質問文の類似判定 ○ 多くの自然言語処理タスクに拡張可能 特徴③実際のコンテストを題材に

Slide 16

Slide 16 text

16 ● 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) ● 『Kaggle で勝つデータ分析の技術』 (技術評論社、2019 年) ● 『統計的学習の基礎』(共立出版) 補完① Kaggle 全般やテーブル形式の データセットを扱う方法

Slide 17

Slide 17 text

17 ● 『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』 (マイナビ出版) ● 『深層学習 改訂第2版』(講談社) ● 『画像認識』(講談社) ● 『Vision Transformer入門』(技術評論社) ● 『深層学習による自然言語処理』(講談社) ● 『IT Text 自然言語処理の基礎』(オーム社) 補完②深層学習や画像認識・自然言語処理

Slide 18

Slide 18 text

18 ● 開発ツールの説明は必要最小限にとどめている ● 公式ドキュメントやチュートリアルなどを必要に 応じて参照 ○ https://docs.docker.com/ ○ https://yutaroogawa.github.io/pytorch_tuto rials_jp/ 補完③ Docker や PyTorch

Slide 19

Slide 19 text

お気軽にご質問ください AMA (Ask me anything) 『Kaggleに挑む深層学習 プログラミングの極意』