Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMによるLLMアプリ評価パイプライン構築

mtsukada
November 21, 2024
170

 LLMによるLLMアプリ評価パイプライン構築

「JAWS-UG SRE支部 #10 SREでもAI活用がしたい!」の登壇資料です。
https://jawsug-sre.connpass.com/event/334942/

mtsukada

November 21, 2024
Tweet

Transcript

  1. ©Mitsubishi Electric Corporation L L M に よ る L

    L M ア プ リ 評 価 パ イ プ ラ イ ン 構 築 A I 戦 略 プ ロ ジ ェ ク ト グ ル ー プ 塚 田 真 規 2 0 2 4 / 1 1 / 2 1
  2. ©Mitsubishi Electric Corporation 自 己 紹 介 2 @m_tsukada •

    2024 Japan AWS All Certifications Engineers • 名前: • 塚田 真規 (つかだ まさき) • 所属: • 三菱電機株式会社 • AI戦略プロジェクトグループ (横浜市みなとみらい)
  3. 3 ChatGPTの登場後、LLM(大規模言語モデル) の 活用はどんどん広がっています! 「AIOps で障害分析を効率化してみよう」 • AWS Summit Tokyo

    2024 (AWS Blog) • AWS 秋のObservability祭り2024@Loft Tokyo 「セキュリティ検出結果をBedrockで読みやすくしてみた」 • Bedrock Night in 大阪 (JAWS-UG AI/ML×大阪×東京支部コラボ)
  4. ©Mitsubishi Electric Corporation L L M ア プ リ の

    継 続 的 評 価 4 今までの機械学習と何が違うの? これまでと同じ方法で 評価できないの? 1. モデルやプロンプトの変更前後を比較して、改善を確認するため 2. 性能面でのボトルネックを把握するため 3. 運用開始後、ユーザ入出力に対する性能や品質を監視するため LLMアプリも、従来アプリと同様に継続的な品質/性能の評価が重要!
  5. ©Mitsubishi Electric Corporation L L M ア プ リ 評

    価 の 難 し さ と は ? 6 • 例えば、シンプルなテキスト生成であっても… 私は犬の世話が好きでなので、 毎日餌をあげています 犬は私の世話が好きでなので、 毎日餌をあげています 文字の並びは殆ど変わらないが、意味は逆 単純な文字の並びの比較では評価できない じゃあどうすればいいの? 私は犬の世話が好きでなので、 毎日餌をあげています 犬が好きなので、 毎日欠かさず、ご飯をあげています 意味は類似しているが、文字の並びは異なる LLMアプリの評価も、LLMに手伝ってもらえばいいんだよ!
  6. ©Mitsubishi Electric Corporation L L M に よ る L

    L M ア プ リ の 評 価 ( L L M a s a J u d g e ) 7 LLMを評価に用いるメリットとは? RAG Agents/Tool use cases Natural Language Comparison SQL General purpose Others 自然言語の意味を考慮した評価ができる! 人を介さず自動で評価ができる! 評価の定量化も可能! AWS Step Functions上に 評価パイプラインを構築! LLMアプリの評価を支援・強化してくれる 便利なPythonライブラリ
  7. ©Mitsubishi Electric Corporation ※RAGとは… テキスト生成に、外部情報の検索を組み合わせることで、回答精度を向上させる手法 LLMが知らない最新情報をベクトルデータベースから取得し、ユーザのクエリに回答する 今 回 の タ

    ー ゲ ッ ト 8 RAGアプリ データベース Amazon S3 LLM Model Embedding Model Amazon Bedrock Knowledge bases データ取り込み 関連情報取得 関連情報+クエリ →テキスト生成 AWS Cloud 三菱電機ニュースリリース 2024/5/22~2024/5/29の PDF10ファイル Claude 3 Haiku プロンプト 検索結果とユーザクエリから質問に 回答してください。 …… Prompt Management プロンプト読み込み 対象LLMアプリ:RAGアプリ (Amazon Bedrock Knowledge Basesを利用) クエリ ユーザ
  8. ©Mitsubishi Electric Corporation L L M ア プ リ 評

    価 パ イ プ ラ イ ン 9 AWS Step Functions Amazon Bedrock Prompt Management AWS Lambda AWS Cloud Amazon S3 Amazon SNS RAG(LLMアプリ) RAGアプリ処理フロー Amazon Bedrock Knowledge bases AWS Lambda LLM Model 結果NG テストデータ Application Load Balancer Amazon ECS AWS Lambda PostgreSQL Amazon Aurora プロンプト更新をトリガに、RAGを自動評価 ブラウザ上での 実行結果の確認 実行結果と評価結果の蓄積 EventBridge イベントトリガー SNS通知 プロンプト更新 テストデータ 実行結果 評価結果 トレーシングデータ 評価結果
  9. ©Mitsubishi Electric Corporation 動 か し て み ま し

    た ! 10 テストケース1 テストケース2 質問文 ※事前に定義 三菱電機の台湾東部沖地震への寄付総額はいくらですか? Ground Truth ※事前に定義 寄付の総額は7,131,036円です。 RAGの生成結果 検索結果によると、三菱電機株式会社は「台湾東部沖地震」への支援として、従業員から 3,565,518円の寄付を集め、さらに会社が同額を上乗せして合計7,131,036円を日本赤十字 社に寄付しています。つまり、三菱電機の台湾東部沖地震への寄付総額は7,131,036円です。 Answer Relevancy 0.450319 Context Precision 0.999999 質問文 ※事前に定義 三菱電機の福山製作所の所在地は? Ground Truth ※事前に定義 広島県福山市緑町1番8号です。 RAGの生成結果 検索結果によると、三菱電機の福山製作所の所在地は、広島県福山市緑町1番8号です。 Answer Relevancy 0.253673 Context Precision 0.999999 2つのテストケースに対して2つの評価メトリクスを取得 1. Answer Relevancy:生成結果と元の質問の関連性を評価 2. Context Precision(without reference):質問文と検索情報の関連性を評価
  10. ©Mitsubishi Electric Corporation L a n g f u s

    e へ の 結 果 蓄 積 11 LLMへの入出力結果と評価結果を関連付けし、管理可能!
  11. ©Mitsubishi Electric Corporation 何 を 、 ど の よ う

    に 評 価 す る べ き か ? 12 この提案はどう? LLMアプリのユースケースに応じて 適切な評価基準を決める必要がある! LLMアプリ 引用ドキュメントに厳格に 従った回答が欲しい! 創造的な回答が欲しい! 参考ドキュメントと生成結果の忠実度が重要 質問と生成結果のドメイン関連性が重要 規則はどうなっている?