はてなインターンシップ2024 AI 講義資料

by Hatena

Slide 1

Slide 1 text

AI 講義 id:pokutuna 2024/08/21 Hatena (Summer) Internship 2024 1

Slide 2

Slide 2 text

2 ようこそはてなインターンへ

Slide 3

Slide 3 text

ぽくつなです id:pokutuna ● 2011 インターン 2013 入社 ● チーム歴 Miiverse ➡ カクヨム➡ PF ➡ BizPF ➡ 新規アイコン 3

Slide 4

Slide 4 text

Slide 5

Slide 5 text

5 「なんか AI で面白い話して」

Slide 6

Slide 6 text

今日の内容 ● AI の盛り上がりの背景がわかる ● AI をプロダクトに使う時の視点がわかる ● 「へー」と思う 6

Slide 7

Slide 7 text

三ない運動 ● 課題なし ● 配属後にたぶん使わない ● 数理的な話なし 7

Slide 8

Slide 8 text

8 AI 使ってる? ● チャット AI ○ ChatGPT, Claude, Gemini... ● コード生成 ○ GitHub Copilot, Cursor ● 画像生成 ○ Stable Diffusion, DALL·E

Slide 9

Slide 9 text

9 AI めちゃくちゃ盛り上がっている

Slide 10

Slide 10 text

10 盛り上がり ● ビッグテックが次々と AI モデルをリリース ○ ChatGPT, Gemini, Llama, Claude, ... ● 経済効果年間2.6～4.4兆ドル相当の可能性[1] ● 各社が AI を使ったサービスをリリース [1] McKinsey & Company 生成AIがもたらす潜在的な経済効果 https://www.mckinsey.com/jp/~/media/mckinsey/locations/asia/japan/our%20insights/the_economic_potential_of_generative_ ai_the_next_productivity_frontier_colormama_4k.pdf

Slide 11

Slide 11 text

11 盛り上がり ● ChatGPT のブレイクスルー ○ ひとめで分かるすごさ・知識があるように見える ● 従来の機械学習と違う体験 ○ 生成的である ○ 専門家でなくても使える ● 1つのモデルで多様なタスクができる

Slide 12

Slide 12 text

12 多様なタスクを解ける

Slide 13

Slide 13 text

13 多様なタスクを解ける

Slide 14

Slide 14 text

Slide 15

Slide 15 text

15 ちょっと立ち戻って

Slide 16

Slide 16 text

AI って何? ● AI = Artiﬁcial Intelligence ○ 人間の知能・知覚を模倣するコンピュータ ● 機械学習 ○ データからパターンを学習して予測するアプローチ 16

Slide 17

Slide 17 text

17 人工知能学会　AIマップタスクフォース『AIマップβ 2.0 AI研究初学者と異分野研究者・実務者のための課題と技術の俯瞰図』p12-13 https://www.ai-gakkai.or.jp/aimap/ いろいろな課題領域

Slide 18

Slide 18 text

18 ニューラルネットワーク

Slide 19

Slide 19 text

ニューラルネットワーク 19 Overview of a Neural Network’s Learning Process https://medium.com/data-science-365/overview-of-a-neural-networks-learning-process-61690a502fa

Slide 20

Slide 20 text

20 様々なつなぎ方 Van Veen, F. & Leijnen, S. (2019). The Neural Network Zoo. Retrieved from https://www.asimovinstitute.org/neural-network-zoo

Slide 21

Slide 21 text

代表的なつなぎ方畳込み(CNN) 21 再帰型(RNN) MNIST Handwritten Digits Classiﬁcation using a Convolutional Neural Network (CNN) https://towardsdatascience.com/mnist-handwritten-digits-classiﬁcation-using-a-co nvolutional-neural-network-cnn-af5fafbc35e9

Slide 22

Slide 22 text

ニューラルネットワーク ● ニューロンの集合である ● 様々なネットワークのつなぎ方がある ● 特徴を捉えるための工夫が反映されている ○ CNN: 特徴の位置関係 ○ RNN: 系列の順序依存関係 ● 大規模言語モデル(LLM)はニューラルネット 22

Slide 23

Slide 23 text

23 ニューラルネットの発展

Slide 24

Slide 24 text

24 発展を促すできごと ● AlexNet (2012) ● Transformer (2017) ● スケーリング則 (2020) ● 創発的能力の獲得 (2022)

Slide 25

Slide 25 text

AlexNet ● 画像認識コンペで圧勝 ○ GPU を利用した学習 ○ データ拡張、ドロップアウト 👉 ディープラーニングが流行る 25

Slide 26

Slide 26 text

26 Transformer ● 2017年『Attention Is All You Need』 ○ We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. ● Self-Attention ○ 入力のすべての要素との関連性を計算する機構 ○ 局所的・全体的な関係も学習する

Slide 27

Slide 27 text

27 Transformer ● (ある程度)汎用的なアーキテクチャ ○ 実装の共通化 & 相互利用性が高まる 🤗 👉 研究が加速 ○ アーキテクチャの探索 → 大規模化・効率化

Slide 28

Slide 28 text

28 LLM Visualization https://bbycroft.net/llm Transformer

Slide 29

Slide 29 text

29 ● 計算量・学習データ・パラメータ数のべき乗に比例して誤差が減少するスケーリング則 Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020, January 23). Scaling Laws for Neural Language Models. arXiv. https://arxiv.org/abs/2001.08361

Slide 30

Slide 30 text

30 ● ある学習量から突然タスクが解ける ○ 10^22~24 FLOPs ● 明に学習していない推論ができるように創発的能力の発現 Jason Wei and Yi Tay, Research Scientists, Google Research, Brain Team (2022), Characterizing Emergent Phenomena in Large Language Models https://research.google/blog/characterizing-emergent-phenomena-in-large-language-models/

Slide 31

Slide 31 text

31 今へ戻る

Slide 32

Slide 32 text

32 ChatGPT 登場 ● 2022-11 Chat GPT-3.5 ● 2023-01 アクティブユーザ 1億人超え ● 2023-03 Chat GPT-4, Whisper ● 2023-10 DALLE-3

Slide 33

Slide 33 text

33 競争の激化 ● 各社が次々と新モデルをリリース ● 学習コスト・パラメータ数の増加 ○ 23年7月 Llama2 70B → 24年7月 Llama3.1 405B ○ Llama3.1 学習 3,930万 GPU 時間 (405B ≒ 810GB)

Slide 34

Slide 34 text

Slide 35

Slide 35 text

性能競争 + 価格競争 ● 学習も推論もコストがバカ高い ○ 自分たちでやるのは現実的ではない ○ 頑張っている会社もある ● 一方で API 値段はどんどん下がっている ○ ユーザー奪い合いバトル ● アプリ開発者として API 使うのが正着 35

Slide 36

Slide 36 text

36 良いモデルを選ぶには?

Slide 37

Slide 37 text

37 OpenAI (2024), Hello GPT-4o, https://openai.com/index/hello-gpt-4o/ ベンチマーク

Slide 38

Slide 38 text

38 よく見るベンチマーク ● MMLU: Measuring Massive Multitask Language Understanding ○ 57教科の様々な分野、4択問題 ● GLUE, SuperGLUE: General Language Understanding Evaluation ○ 自然言語処理のタスク ○ 文法の正しさ, ネガポジ, 文同士が同じ意味か, ... ● DROP: Discrete Reasoning Over the content of Paragraphs ○ 文章理解 & 計算操作の必要な推論

Slide 39

Slide 39 text

39 MMLU 🙈 https://huggingface.co/datasets/cais/mmlu/viewer/world_religions/test

Slide 40

Slide 40 text

40 MMLU 日本がキリスト教とヨーロッパから閉ざされた期間は、次のどれですか。 🙈 https://huggingface.co/datasets/cais/mmlu/viewer/world_religions/test A: 1749-1945 B: 1052-1616 C: 1641-1853 D: 1517-1870

Slide 41

Slide 41 text

41 MMLU 日本がキリスト教とヨーロッパから閉ざされた期間は、次のどれですか。 https://huggingface.co/datasets/cais/mmlu/viewer/world_religions/test A: 1749-1945 B: 1052-1616 C: 1641-1853 D: 1517-1870

Slide 42

Slide 42 text

42 DROP 日本では、スーパーファミコン版のファイナルファンタジーIVが 144万本売れた。プレイステーション版は1997年に日本でさらに26万1000本売れた。2003年3月31日までに、プレイステーションとワンダースワンカラーのリメイク版を含むこのゲームは世界中で216万本出荷され、そのうち182万本が日本で、34万本が海外で出荷された。ニンテンドーDS版が発売される直前の 2007年の時点で、このゲームは世界中で約300万本売れた。ゲームボーイアドバンス版は、2006年末までに日本で21万9000 本以上売れた。2009年5月までに、このゲームのDS版は世界中で110万本売れた。 Q: スーパーファミコン版のファイナルファンタジーIVは、DS版より何百万本多く売れたのでしょうか？ https://huggingface.co/datasets/ucinlp/drop/viewer/default/train?q=Japan&row=76857 1.44 - 1.1 = 0.34

Slide 43

Slide 43 text

43 じゃあ GPT4 が良いんだな ● と言っていいのか? ○ 「Claude のほうが賢い」と言う人も多い ● ベンチは性能の一面でしかない ● 良い = 課題が解決できる

Slide 44

Slide 44 text

44 使いやすさ ● 生成以外の機能 ● コンテキストサイズ ● レイテンシ ● レートリミット ● コスト & 請求 ● アカウント管理 ● 利用規約 ○ 学習に使われるか ● etc...

Slide 45

Slide 45 text

45 プロダクトに組み込むには?

Slide 46

Slide 46 text

Slide 47

Slide 47 text

Slide 48

Slide 48 text

48 toitta

Slide 49

Slide 49 text

LLM の得意なこと ● なめらかなテキスト生成 ● 要約 ● 非構造化データの読み取り ● 推論・優先順位付け ● 従来の自然言語処理タスク(ものによる) 49

Slide 50

Slide 50 text

LLM の苦手なこと ● 最新情報に基づく出力 ● 専門知識が必要なもの ● 正確性が要求されるもの ● 数値計算 50

Slide 51

Slide 51 text

51 SUZURI 商品説明生成

Slide 52

Slide 52 text

52 Leading Drive-Thru Innovation with Wendy’s FreshAI https://www.wendys.com/blog/drive-thru-innovation-wendys-freshai Wendy's ドライブスルー

Slide 53

Slide 53 text

53 評価

Slide 54

Slide 54 text

評価を考える ● 「AI で良い記事タイトルをつける」 ○ 良いって何?? ○ 言語化 → 定量化する(できるとは限らない) ● 基準がないと ○ 再現性がない, 改善ができない ○ 目視の雰囲気運用になる 54

Slide 55

Slide 55 text

55 従来の指標に学ぶ ● 正解不正解があるもの ○ 精度, 適合率, 再現率... ● 翻訳, 要約から ○ BLUE, ROUGE, BERTスコア… ● タスクベースの指標を参考に ○ 音声認識 → WER, CER, … ○ 検索 → AP, カバレッジ Hugging Face Evaluate Metric https://huggingface.co/evaluate-metric

Slide 56

Slide 56 text

56 LLM-as-a-Judge ● LLM で LLM を評価する ○ 一対比較, 点数付け, etc ● 一部を人間が評価 → LLM に続き ● スコアで捉えにくい良し悪しを捉える ● まだまだ未開拓

Slide 57

Slide 57 text

57 まとめ

Slide 58

Slide 58 text

58 話したこと ● AI の盛り上がりと昨今の背景 ● 課題を解決できるのが良いモデル ● チャットだけじゃない得意を活かそう ● 継続的な評価の仕組み重要

Slide 59

Slide 59 text

59 話していないこと ● Embedding & RAG ● 画像生成、拡散モデル ● CLIP、マルチモーダル化 ● Encoder-Decoder ● etc...

Slide 60

Slide 60 text

60 これからどうなる? ● このまま性能向上していく? ● 小さいモデルの実用性が上がる? ● 追加学習の技術が発達する? ● AI 開発に関わらずに済む?

Slide 61

Slide 61 text

61 おわり