生成AIの活用パターンと継続的評価

Slide 1

Slide 1 text

生成 AIの活用パターンと継続的評価 Asei Sugiyama

Slide 2

Slide 2 text

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑共著事例でわかる MLOps 共著決闘者 @ マスターデュエル

Slide 3

Slide 3 text

生成 AI の活用パターン生成 AI の活用パターン <- 生成 AI を活用する技術 LLMOps Citadel AI の取り組み

Slide 4

Slide 4 text

生成 AI の利用方法 1. フルスクラッチ 2. ファインチューン 3. モデルのホスティング 4. API 利用

Slide 5

Slide 5 text

API 利用 API やサービスとして公開されているものをそのまま用いる試み Azure OpenAI Gemini (Google) Amazon Bedrock Overview - OpenAI API https://platform.openai.com/docs/overview

Slide 6

Slide 6 text

API 利用の特徴訓練に必要なインフラがすべて必要ない推論に必要なインフラを自分で管理しなくて良いとくに推論用のアクセラレーターモデル選択の自由度もある程度高い Amazon Bedrock Overview 【 Amazon Bedrock Series #01】【 AWS Black Belt】 https://youtu.be/b8uReUdJBfM?si=CHV2B3d0gVJ0VYvb

Slide 7

Slide 7 text

モデルのホスティング公開されているモデルをホストして利用する試み特徴既存の ML で必須だった、訓練に必要なインフラがすべて必要ない推論に必要なインフラの整備を楽にできる場合があるモデル選択の自由度は高い

Slide 8

Slide 8 text

ユースケース高セキュリティの要求される環境での利用 API 利用コストの低減バッチ処理 toC サービスでの高頻度な利用ローカルでの利用 Swallow https://swallow-llm.github.io/swallow-llama.ja.html

Slide 9

Slide 9 text

ファインチューン既存の言語モデルをベースとして独自のモデルを構築する試み特徴モデル選択の自由度が高い高品質なデータセットが必要訓練および推論用の基盤が必要知識獲得には向かない可能性 (後述 )

Slide 10

Slide 10 text

ユースケース比較的軽量な生成モデルによる UXの確保ククリ様 by Spiral.AI 独特なキャラクター性の獲得低いレイテンシーの実現ククリさま｜ SpiralAI https://kukuri-sama.com/

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

データの作成方法「オズの魔法使い」パターンで作成ククリさまとは？｜ SpiralAI https://kukuri-sama.com/about

Slide 13

Slide 13 text

Finetune で独自ドメインの知識を与えるのは困難元のモデルが知識として持たないデータセットを構築し、ファインチューニングで意図的にそのような知識を獲得させようと訓練知らない知識を与えれば与えるほどハルシネーションを引き起こしやすくなるという結果 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 14

Slide 14 text

Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 15

Slide 15 text

フルスクラッチゼロからオリジナルのモデルを構築する試み LLM-jp: Preferred Elements (Preferred Networks): PLaMo 富士通 : Takane

Slide 16

Slide 16 text

特徴 GPU という確保が大変なリソースを大量に要求クラウドで実施する場合の多額のコスト大量のデータセットが必要訓練に必要なノウハウが不明瞭ハイパーパラメーターチューニング : LLM-jp の事例 LLM-jp-3 172B alpha1, alpha2 の公開｜国立情報学研究所大規模言語モデル研究開発センター https://llmc.nii.ac.jp/topics/llm-jp-3-172b-alpha1-alpha2/

Slide 17

Slide 17 text

ユースケース研究開発・技術検証 : とくに、大規模なモデルを訓練する技術やデータセットの開発技術力のアピール著作権など権利関係の問題の解決

Slide 18

Slide 18 text

市場動向基本的には API 利用「訓練せずに使える AI」は今までの機械学習に必要な手間を大幅に削減する機械学習モデルの訓練について一切質問されなくなった

Slide 19

Slide 19 text

生成 AI の活用パターン生成 AI の活用パターン生成 AI を活用する技術 <- LLMOps Citadel AI の取り組み

Slide 20

Slide 20 text

生成 AI を活用する技術考慮すべき課題基礎となる考え方プロンプトエンジニアリング few-shot learning RAG Notebook LM & Gemini Chain of Thought (CoT)

Slide 21

Slide 21 text

考慮すべき課題カットオフ : 最新の知識の不足ドメイン特有の知識の不足特有のタスクに関する知識の不足コンテキストウィンドウ

Slide 22

Slide 22 text

基礎となる考え方「要約」というタスクの特殊性に注目生成 AI は訓練データにないデータを用いて文章を生成可能入力を工夫することで、モデルにない知識を用いた対話が可能

Slide 23

Slide 23 text

プロンプトエンジニアリング入力文章を調整して、言語モデルを効率的に使おうとする手法群指示文を人が見たときにわかりやすくなるよう、明確に記述することが基本 (Zero-shot learning) Prompt Engineering Guide | Prompt Engineering Guide https://www.promptingguide.ai/jp

Slide 24

Slide 24 text

few-shot learning 入力に数例、サンプルの出力を与えて精度を上げる試み正例のみではなく、負例を加えることも効果的論理的な推論にはあまり効果的ではない Few-Shotプロンプティング | Prompt Engineering Guide https://www.promptingguide.ai/jp/techniques/fewshot

Slide 25

Slide 25 text

RAG (Retrieval-Augmented Generation) 検索と LLM を組み合わせることで、言語モデルの持たない外部知識を利用可能にする最新知識や専門知識を後付で与える Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 26

Slide 26 text

RAG の問題点検索と LLM という意図しない出力が得られる可能性のあるものを組み合わせている検索結果が正しいかどうかユーザーが確認するすべがない LLM は一度に入力できるトークンの数が制限されているため、参照するドキュメントが長大な場合、入力できる単位に分割しなければいけないものの、どのように分割すべきか不明瞭

Slide 27

Slide 27 text

Notebook LM & Gemini 検索と生成の分離参照すべきドキュメント全体を入力可能な、とても長いコンテキストウィンドウ

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

Chain of Thought (CoT) "ステップバイステップで考えてみましょう。 " と付け加えるテクニック中間結果を意図的に出力させることで、推論性能が (なぜか ) 上がる LLM が意図しない出力を行った場合に、デバッグするための情報を与えてくれる Chain-of-Thoughtプロンプティング | Prompt Engineering Guide https://www.promptingguide.ai/jp/techniques/cot

Slide 30

Slide 30 text

生成 AI の活用パターン生成 AI の活用パターン生成 AI を活用する技術 LLMOps <- Citadel AI の取り組み

Slide 31

Slide 31 text

LLMOps LLM を用いたシステムの難しさ既存の LLMOps は必ずしも役に立たない LLMOps 再考ユーザーテスト継続的評価 LLM-as-a-Judge Trace

Slide 32

Slide 32 text

LLM を用いたシステムの難しさ過去の MLOps に関するノウハウが通じにくい

Slide 33

Slide 33 text

LLM の評価はかなり難しい LLM は翻訳・要約・コード生成などさまざまな用途に使えるため、評価すべき能力の列挙が困難自然言語の評価はそもそも難しい機械学習による言語パフォーマンスの評価 - Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Slide 34

Slide 34 text

LLM の評価はかなり難しい要約ひとつをとっても「良い要約」は組織ごとに異なる出力結果に対する評価観点をあらかじめ取り揃えることは非常に困難機械学習による言語パフォーマンスの評価 - Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Slide 35

Slide 35 text

既存の LLMOps は必ずしも役に立たない LLMOps という名前のついたドキュメントはさまざまに公開されている LLM を訓練する前提となっており、モデルを訓練しない現在の主流とは異なっている (右は数少ない例外 ) GenOps: マイクロサービスと従来の DevOps の世界から学ぶ | Google Cloud 公式ブログ https://cloud.google.com/blog/ja/products/devops-sre/genops- learnings-from-microservices-and-traditional-devops

Slide 36

Slide 36 text

LLMOps 再考 LLM を活用している方々にインタビュー実際の現場の課題や、解決方法を収集中収集したものから主なものを紹介

Slide 37

Slide 37 text

ユーザーテスト VUI (Voice User Interface) のような対話に基づくアプリケーションではユーザーテストが有名 LLM が対話を行う場合、ユーザーテストは非常に有効 Cathy Pearl 著川本大功監訳高橋信夫訳デザイニング・ボイスユーザーインターフェース―音声で対話するサービスのためのデザイン原則オライリージャパン 2018 年

Slide 38

Slide 38 text

継続的評価評価観点を最初から取り揃えるのではなく、評価観点を評価を通じて育てていくという考え方評価を通じて明らかになった評価観点を新たに加えて、イテレーティブに評価を行う

Slide 39

Slide 39 text

LLM-as-a-Judge (1/2) プロンプトを用いて LLM に出力の良さを評価させる手法新たな評価観点が得られた場合、その評価観点に基づく評価方法の手順書を書くと、その観点に基づく評価が LLM で可能 LLMによる LLMの評価「 LLM-as-a-Judge」入門〜基礎から運用まで徹底解説 https://zenn.dev/pharmax/articles/2d07bf0498e212

Slide 40

Slide 40 text

LLM-as-a-Judge (2/2) 主要なケースやエッジケースを few-shot に用いることは有用手順書自体を LLM 自体に生成させることも有用 LLMによる LLMの評価「 LLM-as-a-Judge」入門〜基礎から運用まで徹底解説 https://zenn.dev/pharmax/articles/2d07bf0498e212

Slide 41

Slide 41 text

Trace RAG や Agent は検索や LLM を組み合わせて使うため、望ましくない結果が得られたときにその原因追及が困難最終結果を生成するまでの途中で何が起きているのかを記録し、分析できるようにする LangSmith や Langfuse は Trace のための機能を実装している LangSmithによる LLMアプリケーションのトレーシング入門 https://zenn.dev/pharmax/articles/61edc477e4de17

Slide 42

Slide 42 text

生成 AI の活用パターン生成 AI の活用パターン生成 AI を活用する技術 LLMOps Citadel AI の取り組み <-

Slide 43

Slide 43 text

No content

Slide 44

Slide 44 text

No content

Slide 45

Slide 45 text

No content

Slide 46

Slide 46 text

No content

Slide 47

Slide 47 text

Lens for LLMs のレポートの例

Slide 48

Slide 48 text

Lens for LLMs 組み込みの評価指標

Slide 49

Slide 49 text

継続的評価のサポート評価用のプロンプトを組んで評価指標をカスタマイズ可能 (LLM-as-a-Judge) 人手による評価結果と比較することで、作成したプロンプトの精度の確認が可能評価 →評価観点の修正 →評価というフィードバックループを実行可能

Slide 50

Slide 50 text

まとめ生成 AI の活用パターンは 4通りにまとめられ、 API として利用することが一般的生成 AI の活用においてプロンプトエンジニアリングは重要であり、さまざまなテクニックが知られている生成 AI の活用における課題が明らかになりつつあり、 LLMOps と呼ぶべきノウハウが集まりつつある LLMOps においては評価が重要であり、継続的に評価を行うことで満たすべき特性が徐々に明らかになる