Slide 1

Slide 1 text

石原祥太郎 日本経済新聞社 日経イノベーション・ラボ 主任研究員 みんなのPython勉強会#90 2023 年 2 月 16 日 著者による書籍紹介 『Kaggleに挑む深層学習 プログラミングの極意』

Slide 2

Slide 2 text

2 著: 小嵜耕平, 秋葉拓哉, 林孝紀, 石原 祥太郎 ● Kaggle 関連書籍 3 冊出版 ● Kaggle は 2019 年に優勝 ● 同年にコンテストも開催 ● Weekly Kaggle News 刊行 ● 業務は言語処理・機械学習 の研究開発

Slide 3

Slide 3 text

● 1 月 31 日に紙版の発売を 開始し、3 刷が決定 ● 電子版も販売予定 https://twitter.com/kspub_kodansha/ status/1623863793624453120 (2 月 10 日のツイート) 3 お礼申し上げます

Slide 4

Slide 4 text

4 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や特徴 ○ 書籍を補完する資料 本発表の概要

Slide 5

Slide 5 text

5 新刊本から知る 機械学習の今 今回の stapy のテーマ

Slide 6

Slide 6 text

6 機械学習の今といえば・・・ 生成 AI の凄さ が話題に Stable Diffusion, ChatGPT など

Slide 7

Slide 7 text

7 「凄さ」をどう評価する? 定性&定量 例: Stable Diffusion や ChatGPT などを利 用者に提供し検証 例: 評価用データセット を構築し、特定の評価指 標での優位性を検証

Slide 8

Slide 8 text

8 特定の条件で提案手法が 優れた結果を示すと報告 Long Ouyang, Jeff Wu, Xu Jiang, et al. 2022. Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155 ChatGPT に関係する InstructGPT

Slide 9

Slide 9 text

9 ImageNet での性能の変遷 https://paperswithcode.com/sota/image-classification-on-imagenet

Slide 10

Slide 10 text

10 ● 大規模画像データセット「ImageNet」を用いた画 像認識のコンテスト ● 2010 年に開始し、2012 年に畳み込み層を用いた 深層学習のモデル「AlexNet」が従来手法を圧倒的 に凌駕する性能を叩き出した ● この事例は、昨今の深層学習研究の急速な発展に 向けた転換点とも言われている 大規模画像認識コンテスト「ILSVRC」

Slide 11

Slide 11 text

● 主催者がデータセッ トと課題を提供 ● 評価用データセット の正解ラベルを予測 ● 開催中に順位を競う ● 終了時の最終結果で 順位が確定 11 機械学習コンテストとは?

Slide 12

Slide 12 text

12 ● 1997 年にはデータマイニングの国際会議「KDD」 にて、第 1 回の「KDD Cup」が開催 ● 「NeurIPS」「RecSys」など、機械学習に関連する さまざまな国際会議でコンテストが併設 機械学習コンテスト × 国際会議

Slide 13

Slide 13 text

13 1. 特定の問題に適した予測手法の研究促進 2. 予測手法の汎用性を報知する場の提供 3. 実用上の知見の蓄積 機械学習コンテストの貢献 馬場雪乃 (2016). 機械学習コンペティションの進展と今後の展開. 人工知能 31 (2): 248–253.

Slide 14

Slide 14 text

14 ● ILSVRC や、映画推薦の「Netflix Prize」など ● 機械学習の利用に対する参入障壁の低減 特定の問題に適した予測手法の研究促進

Slide 15

Slide 15 text

15 ● 多くの人が同じ枠組みで性能を検証 ● 評価用データセットが最後まで公開されないので 汎用性を確認できる 予測手法の汎用性を報知する場の提供

Slide 16

Slide 16 text

16 ● 実装に当たっての勘所や論文の再検証 ● プラットフォームごとに議論やソースコード共有 の場が用意されていることも 実用上の知見の蓄積

Slide 17

Slide 17 text

17 ● 2010 年設立の機械学習コンテストのプラット フォーム(2017 年に Google が買収) ● コンテスト開催に必要なユーザ管理・順位表・ス コア計算などの機能を提供 ● ユーザ数は 2022 年に 1000 万人に達し世界最大 (日本からの参加者も年々増えている) Kaggle とは

Slide 18

Slide 18 text

18 ● SIGNATE: 日本最大のコンテストプラットフォーム ● Nishika: 特許庁初となるコンテストを開催 ● ProbSpace: 優勝解法のピアレビュー制度が独特 ● Solafune: 衛星データが専門 ● atmaCup: Kaggle Master が運営 日本発のコンテストサイトの例

Slide 19

Slide 19 text

19 ● 日本経済新聞社のユーザの属性予測 ● JR 西日本の着雪量予測 ● マレーシアのペットの引き取り予測 ● ワクチン開発に向けた RNA の塩基の安定性予測 ● 動画のディープフェイク判定 機械学習コンテストを通じた事例

Slide 20

Slide 20 text

20 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や特徴 ○ 書籍を補完する資料 本発表の概要

Slide 21

Slide 21 text

21 ● Kaggle の入門としてタイタニック号を題材にした コンテストが有名 ● 扱うのは、テーブル形式 のデータセット(右図) ● サイズは総計で 93.08 kB https://www.kaggle.com/c/titanic Kaggle のイメージ => Titanic ?

Slide 22

Slide 22 text

22 ※ Amazon で、レビュー数が上位の 2 冊 ● 『Kaggle で勝つデータ分析の技術』 (技術評論社、2019 年) ● 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) これまでの「Kaggle 本」はテーブル形式 のデータセットを扱う例が有名

Slide 23

Slide 23 text

23 データセットの種類別の推移 Kaggle 公開のデータセット 「Meta Kaggle」から作成 したデータセットの種類別 のコンテスト数の推移 (2023 年 1 月時点で終了 したコンテストまでを対象 に集計)

Slide 24

Slide 24 text

24 ● 画像やテキストを題材にしたコンテストが増加 ● アルゴリズムも、勾配ブースティング決定木から ニューラルネットワーク(深層学習)に ● データセットのサイズも巨大化 ○ Happywhale - Whale and Dolphin Identification: 62.06 GB ○ American Express - Default Prediction: 50.31 GB ○ H&M Personalized Fashion Recommendations: 34.56 GB 深層学習の利用が一般的に

Slide 25

Slide 25 text

25 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や特徴 ○ 書籍を補完する資料 本発表の概要

Slide 26

Slide 26 text

26 ● 画像・自然言語処理の機械学習コンテストを題材 に深層学習ライブラリ「PyTorch」の実装を交え、 著者らの経験に基づく知見をまとめた書籍 ● 第 1, 2 章で基礎知識を学び、第 3-5 章で具体的な 機械学習コンテストに挑戦していく構成 『Kaggle に挑む深層学習プログラミング の極意』(講談社)

Slide 27

Slide 27 text

27 目次 https://www.kspub.co.jp/book/detail/5305133.html ● 第 1 章: 機械学習コンテストの基礎知識 ● 第 2 章: 探索的データ分析とモデルの作成・検証・ 性能向上 ● 第 3 章: 画像分類入門 ● 第 4 章: 画像検索入門 ● 第 5 章: テキスト分類入門

Slide 28

Slide 28 text

28 ● 小嵜(第 4 章): Kaggle Grandmaster https://www.kaggle.com/confirm ● 秋葉(第 3 章): Kaggle Grandmaster https://www.kaggle.com/takiba ● 林(第 5 章): Kaggle Master https://www.kaggle.com/flowlight ● 石原(第 1, 2 章): Kaggle Master https://www.kaggle.com/sishihara ● 書籍は有識者 5 名にレビューしていただいた(まえがき参照) 著者紹介

Slide 29

Slide 29 text

29 ● 著者の紹介記事(秋葉さん・石原) ● 書評(からあげさん・TJO さん・Maxwellさん ・nikkie さん) ● Twitter 評判「Kaggle 極意」「Kaggle 本」 紹介記事や評判

Slide 30

Slide 30 text

30 Twitter で「Kaggle 極意」「Kaggle 本」で検索した結果を可視化(2023 年 2 月 8 日時点)

Slide 31

Slide 31 text

31 ● 主要な対象読者は、画像や自然言語処理を題材と した機械学習コンテストに参加する方 ● 著者らの経験を基に、一般的な書籍にはあまり書 かれていない暗黙知や技法も含めてまとめている ● より広く「Kaggle でない実世界の課題を深層学習 で解決するといった場面でも役立つ」 https://karaage.hatenadiary.jp/entry/2023/02/06/073000 特徴①予測性能を高める実践的な知見

Slide 32

Slide 32 text

32 ● 第 2 章: 手戻りが少なくなるような実験方法 ● 第 3 章: 学習終盤に強いデータ拡張をやめる ● 第 4 章: ArcFace のハイパーパラメータの勘所 ● 第 5 章: 長さが近いテキストをまとめたミニバッチ 実践的な知見の例(抜粋)

Slide 33

Slide 33 text

33 ● 本体は 224 ページと比較的コンパクト ● サンプルコードは必要最低限の関数のみを掲載し て読みやすくし、全体は GitHub へ ● 参考文献(ウェブサイト・論文など)は 287 件 ● カラー本で図表も多め 特徴②凝縮した内容 + 付録・参考文献

Slide 34

Slide 34 text

34 データサイズも大きく、泥臭い処理も含めて掲載 ● 第 3 章: 犬猫の画像分類 ○ 多くの画像認識タスクに拡張可能 ● 第 4 章: 著名な Google Landmark Retrieval ● 第 5 章: 質問文の類似判定 ○ 多くの自然言語処理タスクに拡張可能 特徴③実際のコンテストを題材に

Slide 35

Slide 35 text

35 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や特徴 ○ 書籍を補完する資料 本発表の概要

Slide 36

Slide 36 text

36 ● 『Python ではじめる Kaggle スタートブック』 (講談社、2020 年) ● 『Kaggle で勝つデータ分析の技術』 (技術評論社、2019 年) ● 『統計的学習の基礎』(共立出版) 補完① Kaggle 全般やテーブル形式の データセットを扱う方法

Slide 37

Slide 37 text

37 ● 『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』 (マイナビ出版) ● 『深層学習 改訂第2版』(講談社) ● 『画像認識』(講談社) ● 『Vision Transformer入門』(技術評論社) ● 『深層学習による自然言語処理』(講談社) ● 『IT Text 自然言語処理の基礎』(オーム社) 補完②深層学習や画像認識・自然言語処理

Slide 38

Slide 38 text

38 ● 開発ツールの説明は必要最小限にとどめている ● 公式ドキュメントやチュートリアルなどを必要に 応じて参照 ○ https://docs.docker.com/ ○ https://yutaroogawa.github.io/pytorch_tuto rials_jp/ 補完③ Docker や PyTorch

Slide 39

Slide 39 text

39 補完④評価指標や Python・機械学習全般 https://startpython.connpass.com/event/270312/

Slide 40

Slide 40 text

40 ● コンテスト:RMSE: Root Mean Square Error ● 社内検証では、RMSE だけでなく年代別の正答率 も利用 ● 正答率は直感的に分かりやすいが、モデルの性能 を測る上では、1 歳の誤差か 50 歳の誤差かは区別 して議論したい 日経の Kaggle コンテストでの評価指標

Slide 41

Slide 41 text

41 ● 機械学習コンテストの概要・役割 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 出版に至った背景 ○ 書籍の概要や魅力 ○ 書籍を補完する資料 まとめ

Slide 42

Slide 42 text

42 ● 書籍ページ(講談社・Amazon) ● 付録コード・正誤表・脚注(GitHub) ● 著者の紹介記事(秋葉さん・石原) ● 書評(からあげさん・TJO さん・Maxwellさん ・nikkie さん) ● Twitter 評判「Kaggle 極意」「Kaggle 本」 リンク集

Slide 43

Slide 43 text

43 ● 日本経済新聞社デジタル人材採用 https://hack.nikkei.com/ ● 2024 年入社 第 1 回定期採用試験 https://www.nikkei.co.jp/saiyo/recruit/require ments.html ● お気軽にご連絡ください&ご関心あれば懇親会で Hack the Nikkei