Upgrade to Pro — share decks privately, control downloads, hide ads and more …

はてなインターン2024 AI 講義

Avatar for pokutuna pokutuna
August 21, 2024

はてなインターン2024 AI 講義

Avatar for pokutuna

pokutuna

August 21, 2024
Tweet

More Decks by pokutuna

Other Decks in Technology

Transcript

  1. 4

  2. 8 AI 使ってる? • チャット AI ◦ ChatGPT, Claude, Gemini...

    • コード生成 ◦ GitHub Copilot, Cursor • 画像生成 ◦ Stable Diffusion, DALL·E
  3. 10 盛り上がり • ビッグテックが次々と AI モデルをリリース ◦ ChatGPT, Gemini, Llama,

    Claude, ... • 経済効果 年間2.6~4.4兆ドル相当の可能性[1] • 各社が AI を使ったサービスをリリース [1] McKinsey & Company 生成AIがもたらす潜在的な経済効果 https://www.mckinsey.com/jp/~/media/mckinsey/locations/asia/japan/our%20insights/the_economic_potential_of_generative_ ai_the_next_productivity_frontier_colormama_4k.pdf
  4. 14

  5. AI って何? • AI = Artificial Intelligence ◦ 人間の知能・知覚を模倣するコンピュータ •

    機械学習 ◦ データからパターンを学習して予測するアプローチ 16
  6. 20 様々なつなぎ方 Van Veen, F. & Leijnen, S. (2019). The

    Neural Network Zoo. Retrieved from https://www.asimovinstitute.org/neural-network-zoo
  7. 代表的なつなぎ方 畳込み(CNN) 21 再帰型(RNN) MNIST Handwritten Digits Classification using a

    Convolutional Neural Network (CNN) https://towardsdatascience.com/mnist-handwritten-digits-classification-using-a-co nvolutional-neural-network-cnn-af5fafbc35e9
  8. 26 Transformer • 2017年 『Attention Is All You Need』 ◦

    We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. • Self-Attention ◦ 入力のすべての要素との関連性を計算する機構 ◦ 局所的・全体的な関係も学習する
  9. 29 • 計算量・学習データ・パラメータ数の べき乗に比例して誤差が減少する スケーリング則 Kaplan, J., McCandlish, S., Henighan,

    T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020, January 23). Scaling Laws for Neural Language Models. arXiv. https://arxiv.org/abs/2001.08361
  10. 30 • ある学習量から突然タスクが解ける ◦ 10^22~24 FLOPs • 明に学習していない 推論ができるように 創発的能力の発現

    Jason Wei and Yi Tay, Research Scientists, Google Research, Brain Team (2022), Characterizing Emergent Phenomena in Large Language Models https://research.google/blog/characterizing-emergent-phenomena-in-large-language-models/
  11. 32 ChatGPT 登場 • 2022-11 Chat GPT-3.5 • 2023-01 アクティブユーザ

    1億人超え • 2023-03 Chat GPT-4, Whisper • 2023-10 DALLE-3
  12. 34

  13. 性能競争 + 価格競争 • 学習も推論もコストがバカ高い ◦ 自分たちでやるのは現実的ではない ◦ 頑張っている会社もある •

    一方で API 値段はどんどん下がっている ◦ ユーザー奪い合いバトル • アプリ開発者として API 使うのが正着 35
  14. 38 よく見るベンチマーク • MMLU: Measuring Massive Multitask Language Understanding ◦

    57教科の様々な分野、4択問題 • GLUE, SuperGLUE: General Language Understanding Evaluation ◦ 自然言語処理のタスク ◦ 文法の正しさ, ネガポジ, 文同士が同じ意味か, ... • DROP: Discrete Reasoning Over the content of Paragraphs ◦ 文章理解 & 計算操作の必要な推論
  15. 43 じゃあ GPT4 が良いんだな • と言っていいのか? ◦ 「Claude のほうが賢い」 と言う人も多い

    • ベンチは性能の一面でしかない • 良い = 課題が解決できる
  16. 44 使いやすさ • 生成以外の機能 • コンテキストサイズ • レイテンシ • レートリミット

    • コスト & 請求 • アカウント管理 • 利用規約 ◦ 学習に使われるか • etc...
  17. 46

  18. 47

  19. 評価を考える • 「AI で良い記事タイトルをつける」 ◦ 良いって何?? ◦ 言語化 → 定量化する(できるとは限らない)

    • 基準がないと ◦ 再現性がない, 改善ができない ◦ 目視の雰囲気運用になる 54
  20. 55 従来の指標に学ぶ • 正解不正解があるもの ◦ 精度, 適合率, 再現率... • 翻訳,

    要約から ◦ BLUE, ROUGE, BERTスコア… • タスクベースの指標を参考に ◦ 音声認識 → WER, CER, … ◦ 検索 → AP, カバレッジ Hugging Face Evaluate Metric https://huggingface.co/evaluate-metric
  21. 56 LLM-as-a-Judge • LLM で LLM を評価する ◦ 一対比較, 点数付け,

    etc • 一部を人間が評価 → LLM に続き • スコアで捉えにくい良し悪しを捉える • まだまだ未開拓