Slide 1

Slide 1 text

生成 AIの活用パターンと継続的評価 Asei Sugiyama

Slide 2

Slide 2 text

自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 事例でわかる MLOps 共著 決闘者 @ マスターデュエル

Slide 3

Slide 3 text

生成 AI の活用パターン 生成 AI の活用パターン <- 生成 AI を活用する技術 LLMOps Citadel AI の取り組み

Slide 4

Slide 4 text

生成 AI の利用方法 1. フルスクラッチ 2. ファインチューン 3. モデルのホスティング 4. API 利用

Slide 5

Slide 5 text

API 利用 API やサービスとして公開 されているものをそのま ま用いる試み Azure OpenAI Gemini (Google) Amazon Bedrock Overview - OpenAI API https://platform.openai.com/docs/overview

Slide 6

Slide 6 text

API 利用の特徴 訓練に必要なインフラが すべて必要ない 推論に必要なインフラを 自分で管理しなくて良い とくに推論用のアク セラレーター モデル選択の自由度もあ る程度高い Amazon Bedrock Overview 【 Amazon Bedrock Series #01】 【 AWS Black Belt】 https://youtu.be/b8uReUdJBfM?si=CHV2B3d0gVJ0VYvb

Slide 7

Slide 7 text

モデルのホスティング 公開されているモデルをホストして利用する試み 特徴 既存の ML で必須だった、訓練に必要なインフラがすべて必要ない 推論に必要なインフラの整備を楽にできる場合がある モデル選択の自由度は高い

Slide 8

Slide 8 text

ユースケース 高セキュリティの要求さ れる環境での利用 API 利用コストの低減 バッチ処理 toC サービスでの高頻 度な利用 ローカルでの利用 Swallow https://swallow-llm.github.io/swallow-llama.ja.html

Slide 9

Slide 9 text

ファインチューン 既存の言語モデルをベースとして独自のモデルを構築する試み 特徴 モデル選択の自由度が高い 高品質なデータセットが必要 訓練および推論用の基盤が必要 知識獲得には向かない可能性 (後述 )

Slide 10

Slide 10 text

ユースケース 比較的軽量な生成モデルによる UXの確保 ククリ様 by Spiral.AI 独特なキャラクター性の獲得 低いレイテンシーの実現 ククリさま| SpiralAI https://kukuri-sama.com/

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

データの作成方法 「オズの魔法使い」パターンで作成 ククリさまとは?| SpiralAI https://kukuri-sama.com/about

Slide 13

Slide 13 text

Finetune で独自ドメインの知識を 与えるのは困難 元のモデルが知識として持たない データセットを構築し、ファイン チューニングで意図的にそのよう な知識を獲得させようと訓練 知らない知識を与えれば与えるほ どハルシネーションを引き起こし やすくなるという結果 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 14

Slide 14 text

Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 15

Slide 15 text

フルスクラッチ ゼロからオリジナルのモ デルを構築する試み LLM-jp: Preferred Elements (Preferred Networks): PLaMo 富士通 : Takane

Slide 16

Slide 16 text

特徴 GPU という確保が大変なリソース を大量に要求 クラウドで実施する場合の多額の コスト 大量のデータセットが必要 訓練に必要なノウハウが不明瞭 ハイパーパラメーターチューニン グ : LLM-jp の事例 LLM-jp-3 172B alpha1, alpha2 の公開 | 国立情報学研究所 大規模言語モデル研究開発セン ター https://llmc.nii.ac.jp/topics/llm-jp-3-172b-alpha1-alpha2/

Slide 17

Slide 17 text

ユースケース 研究開発・技術検証 : とくに、大規模なモデルを訓練する技術やデ ータセットの開発 技術力のアピール 著作権など権利関係の問題の解決

Slide 18

Slide 18 text

市場動向 基本的には API 利用 「訓練せずに使える AI」は今までの機械学習に必要な手間を大幅に 削減する 機械学習モデルの訓練について一切質問されなくなった

Slide 19

Slide 19 text

生成 AI の活用パターン 生成 AI の活用パターン 生成 AI を活用する技術 <- LLMOps Citadel AI の取り組み

Slide 20

Slide 20 text

生成 AI を活用する技術 考慮すべき課題 基礎となる考え方 プロンプトエンジニアリング few-shot learning RAG Notebook LM & Gemini Chain of Thought (CoT)

Slide 21

Slide 21 text

考慮すべき課題 カットオフ : 最新の知識の不足 ドメイン特有の知識の不足 特有のタスクに関する知識の不足 コンテキストウィンドウ

Slide 22

Slide 22 text

基礎となる考え方 「要約」というタスクの 特殊性に注目 生成 AI は訓練データにな いデータを用いて文章を 生成可能 入力を工夫することで、 モデルにない知識を用い た対話が可能

Slide 23

Slide 23 text

プロンプトエンジニア リング 入力文章を調整して、言 語モデルを効率的に使お うとする手法群 指示文を人が見たときに わかりやすくなるよう、 明確に記述することが基 本 (Zero-shot learning) Prompt Engineering Guide | Prompt Engineering Guide https://www.promptingguide.ai/jp

Slide 24

Slide 24 text

few-shot learning 入力に数例、サンプルの 出力を与えて精度を上げ る試み 正例のみではなく、負例 を加えることも効果的 論理的な推論にはあまり 効果的ではない Few-Shotプロンプティング | Prompt Engineering Guide https://www.promptingguide.ai/jp/techniques/fewshot

Slide 25

Slide 25 text

RAG (Retrieval-Augmented Generation) 検索と LLM を組み合わせ ることで、言語モデルの 持たない外部知識を利用 可能にする 最新知識や専門知識を後 付で与える Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 26

Slide 26 text

RAG の問題点 検索と LLM という意図しない出力が得られる可能性のあるものを 組み合わせている 検索結果が正しいかどうかユーザーが確認するすべがない LLM は一度に入力できるトークンの数が制限されているため、参照 するドキュメントが長大な場合、入力できる単位に分割しなければ いけないものの、どのように分割すべきか不明瞭

Slide 27

Slide 27 text

Notebook LM & Gemini 検索と生成の分離 参照すべきドキュメント全体を入力可能な、とても長いコンテキス トウィンドウ

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

Chain of Thought (CoT) "ステップバイステップで考え てみましょう。 " と付け加える テクニック 中間結果を意図的に出力させ ることで、推論性能が (なぜ か ) 上がる LLM が意図しない出力を行っ た場合に、デバッグするため の情報を与えてくれる Chain-of-Thoughtプロンプティング | Prompt Engineering Guide https://www.promptingguide.ai/jp/techniques/cot

Slide 30

Slide 30 text

生成 AI の活用パターン 生成 AI の活用パターン 生成 AI を活用する技術 LLMOps <- Citadel AI の取り組み

Slide 31

Slide 31 text

LLMOps LLM を用いたシステムの難しさ 既存の LLMOps は必ずしも役に立たない LLMOps 再考 ユーザーテスト 継続的評価 LLM-as-a-Judge Trace

Slide 32

Slide 32 text

LLM を用いたシステムの難しさ 過去の MLOps に関するノウハウが通じにくい

Slide 33

Slide 33 text

LLM の評価はかなり難しい LLM は翻訳・要約・コー ド生成などさまざまな用 途に使えるため、評価す べき能力の列挙が困難 自然言語の評価はそもそ も難しい 機械学習による言語パフォーマンスの評価 - Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Slide 34

Slide 34 text

LLM の評価はかなり難しい 要約ひとつをとっても 「良い要約」は組織ごと に異なる 出力結果に対する評価観 点をあらかじめ取り揃え ることは非常に困難 機械学習による言語パフォーマンスの評価 - Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Slide 35

Slide 35 text

既存の LLMOps は必ずしも 役に立たない LLMOps という名前のつい たドキュメントはさまざま に公開されている LLM を訓練する前提となっ ており、モデルを訓練しな い現在の主流とは異なって いる (右は数少ない例外 ) GenOps: マイクロサービスと従来の DevOps の世界から学ぶ | Google Cloud 公 式ブログ https://cloud.google.com/blog/ja/products/devops-sre/genops- learnings-from-microservices-and-traditional-devops

Slide 36

Slide 36 text

LLMOps 再考 LLM を活用している方々にインタビュー 実際の現場の課題や、解決方法を収集中 収集したものから主なものを紹介

Slide 37

Slide 37 text

ユーザーテスト VUI (Voice User Interface) のような対話に基づくア プリケーションではユー ザーテストが有名 LLM が対話を行う場合、 ユーザーテストは非常に 有効 Cathy Pearl 著 川本 大功 監訳 高橋 信夫 訳 デザイニング・ボイスユーザー インターフェース―音声で対話するサービスのためのデザイン原則 オライ リージャパン 2018 年

Slide 38

Slide 38 text

継続的評価 評価観点を最初から取り揃え るのではなく、評価観点を評 価を通じて育てていくという 考え方 評価を通じて明らかになった 評価観点を新たに加えて、イ テレーティブに評価を行う

Slide 39

Slide 39 text

LLM-as-a-Judge (1/2) プロンプトを用いて LLM に出力の良さを評価させ る手法 新たな評価観点が得られ た場合、その評価観点に 基づく評価方法の手順書 を書くと、その観点に基 づく評価が LLM で可能 LLMによる LLMの評価「 LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212

Slide 40

Slide 40 text

LLM-as-a-Judge (2/2) 主要なケースやエッジケ ースを few-shot に用いる ことは有用 手順書自体を LLM 自体に 生成させることも有用 LLMによる LLMの評価「 LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212

Slide 41

Slide 41 text

Trace RAG や Agent は検索や LLM を組 み合わせて使うため、望ましくな い結果が得られたときにその原因 追及が困難 最終結果を生成するまでの途中で 何が起きているのかを記録し、分 析できるようにする LangSmith や Langfuse は Trace の ための機能を実装している LangSmithによる LLMアプリケーションのトレーシング入門 https://zenn.dev/pharmax/articles/61edc477e4de17

Slide 42

Slide 42 text

生成 AI の活用パターン 生成 AI の活用パターン 生成 AI を活用する技術 LLMOps Citadel AI の取り組み <-

Slide 43

Slide 43 text

No content

Slide 44

Slide 44 text

No content

Slide 45

Slide 45 text

No content

Slide 46

Slide 46 text

No content

Slide 47

Slide 47 text

Lens for LLMs のレポートの例

Slide 48

Slide 48 text

Lens for LLMs 組み込みの評価指標

Slide 49

Slide 49 text

継続的評価のサポート 評価用のプロンプトを組んで 評価指標をカスタマイズ可能 (LLM-as-a-Judge) 人手による評価結果と比較す ることで、作成したプロンプ トの精度の確認が可能 評価 →評価観点の修正 →評価 というフィードバックループ を実行可能

Slide 50

Slide 50 text

まとめ 生成 AI の活用パターンは 4通りにまとめられ、 API として利用する ことが一般的 生成 AI の活用においてプロンプトエンジニアリングは重要であ り、さまざまなテクニックが知られている 生成 AI の活用における課題が明らかになりつつあり、 LLMOps と 呼ぶべきノウハウが集まりつつある LLMOps においては評価が重要であり、継続的に評価を行うことで 満たすべき特性が徐々に明らかになる