著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』

石原祥太郎日本経済新聞社日経イノベーション・ラボ主任研究員みんなのPython勉強会#90 2023 年 2 月 16
日著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』

2 著: 小嵜耕平, 秋葉拓哉, 林孝紀, 石原祥太郎 • Kaggle 関連書籍
3 冊出版 • Kaggle は 2019 年に優勝 • 同年にコンテストも開催 • Weekly Kaggle News 刊行 • 業務は言語処理・機械学習の研究開発

• 1 月 31 日に紙版の発売を開始し、3 刷が決定 • 電子版も販売予定 https://twitter.com/kspub_kodansha/
status/1623863793624453120 （2 月 10 日のツイート） 3 お礼申し上げます

4 • 機械学習コンテストの概要・役割 • 『Kaggleに挑む深層学習プログラミングの極意』 ◦ 出版に至った背景 ◦ 書籍の概要や特徴 ◦
書籍を補完する資料本発表の概要

5 新刊本から知る機械学習の今今回の stapy のテーマ

6 機械学習の今といえば・・・生成 AI の凄さが話題に Stable Diﬀusion, ChatGPT など

7 「凄さ」をどう評価する？定性＆定量例: Stable Diﬀusion や ChatGPT などを利用者に提供し検証
例: 評価用データセットを構築し、特定の評価指標での優位性を検証

8 特定の条件で提案手法が優れた結果を示すと報告 Long Ouyang, Jeﬀ Wu, Xu Jiang, et
al. 2022. Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155 ChatGPT に関係する InstructGPT

9 ImageNet での性能の変遷 https://paperswithcode.com/sota/image-classiﬁcation-on-imagenet

10 • 大規模画像データセット「ImageNet」を用いた画像認識のコンテスト • 2010 年に開始し、2012 年に畳み込み層を用いた深層学習のモデル「AlexNet」が従来手法を圧倒的に凌駕する性能を叩き出した
• この事例は、昨今の深層学習研究の急速な発展に向けた転換点とも言われている大規模画像認識コンテスト「ILSVRC」

• 主催者がデータセットと課題を提供 • 評価用データセットの正解ラベルを予測 • 開催中に順位を競う • 終了時の最終結果で
順位が確定 11 機械学習コンテストとは？

12 • 1997 年にはデータマイニングの国際会議「KDD」にて、第 1 回の「KDD Cup」が開催 • 「NeurIPS」「RecSys」など、機械学習に関連する
さまざまな国際会議でコンテストが併設機械学習コンテスト × 国際会議

13 1. 特定の問題に適した予測手法の研究促進 2. 予測手法の汎用性を報知する場の提供 3. 実用上の知見の蓄積機械学習コンテストの貢献馬場雪乃 (2016).
機械学習コンペティションの進展と今後の展開. 人工知能 31 (2): 248–253.

14 • ILSVRC や、映画推薦の「Netﬂix Prize」など • 機械学習の利用に対する参入障壁の低減特定の問題に適した予測手法の研究促進

15 • 多くの人が同じ枠組みで性能を検証 • 評価用データセットが最後まで公開されないので汎用性を確認できる予測手法の汎用性を報知する場の提供

16 • 実装に当たっての勘所や論文の再検証 • プラットフォームごとに議論やソースコード共有の場が用意されていることも実用上の知見の蓄積

17 • 2010 年設立の機械学習コンテストのプラットフォーム（2017 年に Google が買収） • コンテスト開催に必要なユーザ管理・順位表・ス
コア計算などの機能を提供 • ユーザ数は 2022 年に 1000 万人に達し世界最大（日本からの参加者も年々増えている） Kaggle とは

18 • SIGNATE: 日本最大のコンテストプラットフォーム • Nishika: 特許庁初となるコンテストを開催 • ProbSpace: 優勝解法のピアレビュー制度が独特
• Solafune: 衛星データが専門 • atmaCup: Kaggle Master が運営日本発のコンテストサイトの例

19 • 日本経済新聞社のユーザの属性予測 • JR 西日本の着雪量予測 • マレーシアのペットの引き取り予測 • ワクチン開発に向けた
RNA の塩基の安定性予測 • 動画のディープフェイク判定機械学習コンテストを通じた事例

21 • Kaggle の入門としてタイタニック号を題材にしたコンテストが有名 • 扱うのは、テーブル形式のデータセット（右図） • サイズは総計で
93.08 kB https://www.kaggle.com/c/titanic Kaggle のイメージ => Titanic ?

22 ※ Amazon で、レビュー数が上位の 2 冊 • 『Kaggle で勝つデータ分析の技術』（技術評論社、2019
年） • 『Python ではじめる Kaggle スタートブック』（講談社、2020 年）これまでの「Kaggle 本」はテーブル形式のデータセットを扱う例が有名

23 データセットの種類別の推移 Kaggle 公開のデータセット「Meta Kaggle」から作成したデータセットの種類別のコンテスト数の推移（2023 年
1 月時点で終了したコンテストまでを対象に集計）

24 • 画像やテキストを題材にしたコンテストが増加 • アルゴリズムも、勾配ブースティング決定木からニューラルネットワーク（深層学習）に • データセットのサイズも巨大化 ◦ Happywhale
- Whale and Dolphin Identiﬁcation: 62.06 GB ◦ American Express - Default Prediction: 50.31 GB ◦ H&M Personalized Fashion Recommendations: 34.56 GB 深層学習の利用が一般的に

26 • 画像・自然言語処理の機械学習コンテストを題材に深層学習ライブラリ「PyTorch」の実装を交え、著者らの経験に基づく知見をまとめた書籍 • 第 1, 2 章で基礎知識を学び、第
3-5 章で具体的な機械学習コンテストに挑戦していく構成『Kaggle に挑む深層学習プログラミングの極意』（講談社）

27 目次 https://www.kspub.co.jp/book/detail/5305133.html • 第 1 章: 機械学習コンテストの基礎知識 • 第
2 章: 探索的データ分析とモデルの作成・検証・性能向上 • 第 3 章: 画像分類入門 • 第 4 章: 画像検索入門 • 第 5 章: テキスト分類入門

28 • 小嵜（第 4 章）: Kaggle Grandmaster https://www.kaggle.com/conﬁrm • 秋葉（第
3 章）: Kaggle Grandmaster https://www.kaggle.com/takiba • 林（第 5 章）: Kaggle Master https://www.kaggle.com/ﬂowlight • 石原（第 1, 2 章）: Kaggle Master https://www.kaggle.com/sishihara • 書籍は有識者 5 名にレビューしていただいた（まえがき参照）著者紹介

29 • 著者の紹介記事（秋葉さん・石原） • 書評（からあげさん・TJO さん・Maxwellさん・nikkie さん） • Twitter
評判「Kaggle 極意」「Kaggle 本」紹介記事や評判

30 Twitter で「Kaggle 極意」「Kaggle 本」で検索した結果を可視化（2023 年 2 月 8 日時点）

31 • 主要な対象読者は、画像や自然言語処理を題材とした機械学習コンテストに参加する方 • 著者らの経験を基に、一般的な書籍にはあまり書かれていない暗黙知や技法も含めてまとめている • より広く「Kaggle でない実世界の課題を深層学習
で解決するといった場面でも役立つ」 https://karaage.hatenadiary.jp/entry/2023/02/06/073000 特徴①予測性能を高める実践的な知見

32 • 第 2 章: 手戻りが少なくなるような実験方法 • 第 3 章:
学習終盤に強いデータ拡張をやめる • 第 4 章: ArcFace のハイパーパラメータの勘所 • 第 5 章: 長さが近いテキストをまとめたミニバッチ実践的な知見の例（抜粋）

33 • 本体は 224 ページと比較的コンパクト • サンプルコードは必要最低限の関数のみを掲載して読みやすくし、全体は GitHub へ
• 参考文献（ウェブサイト・論文など）は 287 件 • カラー本で図表も多め特徴②凝縮した内容 + 付録・参考文献

34 データサイズも大きく、泥臭い処理も含めて掲載 • 第 3 章: 犬猫の画像分類 ◦ 多くの画像認識タスクに拡張可能 •
第 4 章: 著名な Google Landmark Retrieval • 第 5 章: 質問文の類似判定 ◦ 多くの自然言語処理タスクに拡張可能特徴③実際のコンテストを題材に

36 • 『Python ではじめる Kaggle スタートブック』（講談社、2020 年） • 『Kaggle
で勝つデータ分析の技術』（技術評論社、2019 年） • 『統計的学習の基礎』（共立出版）補完① Kaggle 全般やテーブル形式のデータセットを扱う方法

37 • 『Kaggle Grandmasterに学ぶ機械学習実践アプローチ』（マイナビ出版） • 『深層学習改訂第2版』（講談社）
• 『画像認識』（講談社） • 『Vision Transformer入門』（技術評論社） • 『深層学習による自然言語処理』（講談社） • 『IT Text 自然言語処理の基礎』（オーム社）補完②深層学習や画像認識・自然言語処理

38 • 開発ツールの説明は必要最小限にとどめている • 公式ドキュメントやチュートリアルなどを必要に応じて参照 ◦ https://docs.docker.com/ ◦ https://yutaroogawa.github.io/pytorch_tuto
rials_jp/ 補完③ Docker や PyTorch

39 補完④評価指標や Python・機械学習全般 https://startpython.connpass.com/event/270312/

40 • コンテスト：RMSE: Root Mean Square Error • 社内検証では、RMSE だけでなく年代別の正答率
も利用 • 正答率は直感的に分かりやすいが、モデルの性能を測る上では、1 歳の誤差か 50 歳の誤差かは区別して議論したい日経の Kaggle コンテストでの評価指標

41 • 機械学習コンテストの概要・役割 • 『Kaggleに挑む深層学習プログラミングの極意』 ◦ 出版に至った背景 ◦ 書籍の概要や魅力 ◦
書籍を補完する資料まとめ

42 • 書籍ページ（講談社・Amazon） • 付録コード・正誤表・脚注（GitHub） • 著者の紹介記事（秋葉さん・石原） • 書評（からあげさん・TJO さん・Maxwellさん
・nikkie さん） • Twitter 評判「Kaggle 極意」「Kaggle 本」リンク集

43 • 日本経済新聞社デジタル人材採用 https://hack.nikkei.com/ • 2024 年入社　第 1 回定期採用試験 https://www.nikkei.co.jp/saiyo/recruit/require
ments.html • お気軽にご連絡ください＆ご関心あれば懇親会で Hack the Nikkei

著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』

著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』

More Decks by Shotaro Ishihara

Other Decks in Technology

Featured

Transcript