LLMによるLLMアプリ評価パイプライン構築

©Mitsubishi Electric Corporation L L M による L
L M アプリ評価パイプライン構築 A I 戦略プロジェクトグループ塚田真規 2 0 2 4 / 1 1 / 2 1

©Mitsubishi Electric Corporation 自己紹介 2 @m_tsukada •
2024 Japan AWS All Certifications Engineers • 名前： • 塚田真規 (つかだまさき) • 所属： • 三菱電機株式会社 • AI戦略プロジェクトグループ (横浜市みなとみらい)

3 ChatGPTの登場後、LLM(大規模言語モデル) の活用はどんどん広がっています！「AIOps で障害分析を効率化してみよう」 • AWS Summit Tokyo
2024 (AWS Blog) • AWS 秋のObservability祭り2024@Loft Tokyo 「セキュリティ検出結果をBedrockで読みやすくしてみた」 • Bedrock Night in 大阪（JAWS-UG AI/ML×大阪×東京支部コラボ）

©Mitsubishi Electric Corporation L L M アプリの
継続的評価 4 今までの機械学習と何が違うの？これまでと同じ方法で評価できないの？ 1. モデルやプロンプトの変更前後を比較して、改善を確認するため 2. 性能面でのボトルネックを把握するため 3. 運用開始後、ユーザ入出力に対する性能や品質を監視するため LLMアプリも、従来アプリと同様に継続的な品質/性能の評価が重要！

5 従来のML評価手法ではLLMアプリの評価は難しい！ LLMアプリの入力・出力データが自然言語であるから！！結論

©Mitsubishi Electric Corporation L L M アプリ評
価の難しさとは？ 6 • 例えば、シンプルなテキスト生成であっても… 私は犬の世話が好きでなので、毎日餌をあげています犬は私の世話が好きでなので、毎日餌をあげています文字の並びは殆ど変わらないが、意味は逆単純な文字の並びの比較では評価できないじゃあどうすればいいの？私は犬の世話が好きでなので、毎日餌をあげています犬が好きなので、毎日欠かさず、ご飯をあげています意味は類似しているが、文字の並びは異なる LLMアプリの評価も、LLMに手伝ってもらえばいいんだよ！

©Mitsubishi Electric Corporation L L M による L
L M アプリの評価 ( L L M a s a J u d g e ) 7 LLMを評価に用いるメリットとは？ RAG Agents/Tool use cases Natural Language Comparison SQL General purpose Others 自然言語の意味を考慮した評価ができる！人を介さず自動で評価ができる！評価の定量化も可能！ AWS Step Functions上に評価パイプラインを構築！ LLMアプリの評価を支援・強化してくれる便利なPythonライブラリ

©Mitsubishi Electric Corporation ※RAGとは… テキスト生成に、外部情報の検索を組み合わせることで、回答精度を向上させる手法 LLMが知らない最新情報をベクトルデータベースから取得し、ユーザのクエリに回答する今回のタ
ーゲット 8 RAGアプリデータベース Amazon S3 LLM Model Embedding Model Amazon Bedrock Knowledge bases データ取り込み関連情報取得関連情報＋クエリ →テキスト生成 AWS Cloud 三菱電機ニュースリリース 2024/5/22～2024/5/29の PDF10ファイル Claude 3 Haiku プロンプト検索結果とユーザクエリから質問に回答してください。 …… Prompt Management プロンプト読み込み対象LLMアプリ：RAGアプリ (Amazon Bedrock Knowledge Basesを利用) クエリユーザ

©Mitsubishi Electric Corporation L L M アプリ評
価パイプライン 9 AWS Step Functions Amazon Bedrock Prompt Management AWS Lambda AWS Cloud Amazon S3 Amazon SNS RAG(LLMアプリ) RAGアプリ処理フロー Amazon Bedrock Knowledge bases AWS Lambda LLM Model 結果NG テストデータ Application Load Balancer Amazon ECS AWS Lambda PostgreSQL Amazon Aurora プロンプト更新をトリガに、RAGを自動評価ブラウザ上での実行結果の確認実行結果と評価結果の蓄積 EventBridge イベントトリガー SNS通知プロンプト更新テストデータ実行結果評価結果トレーシングデータ評価結果

©Mitsubishi Electric Corporation 動かしてみまし
た！ 10 テストケース1 テストケース2 質問文 ※事前に定義三菱電機の台湾東部沖地震への寄付総額はいくらですか? Ground Truth ※事前に定義寄付の総額は7,131,036円です。 RAGの生成結果検索結果によると、三菱電機株式会社は「台湾東部沖地震」への支援として、従業員から 3,565,518円の寄付を集め、さらに会社が同額を上乗せして合計7,131,036円を日本赤十字社に寄付しています。つまり、三菱電機の台湾東部沖地震への寄付総額は7,131,036円です。 Answer Relevancy 0.450319 Context Precision 0.999999 質問文 ※事前に定義三菱電機の福山製作所の所在地は？ Ground Truth ※事前に定義広島県福山市緑町1番8号です。 RAGの生成結果検索結果によると、三菱電機の福山製作所の所在地は、広島県福山市緑町1番8号です。 Answer Relevancy 0.253673 Context Precision 0.999999 2つのテストケースに対して2つの評価メトリクスを取得 1. Answer Relevancy：生成結果と元の質問の関連性を評価 2. Context Precision(without reference)：質問文と検索情報の関連性を評価

©Mitsubishi Electric Corporation 何を、どのよう
に評価するべきか？ 12 この提案はどう？ LLMアプリのユースケースに応じて適切な評価基準を決める必要がある！ LLMアプリ引用ドキュメントに厳格に従った回答が欲しい！創造的な回答が欲しい！参考ドキュメントと生成結果の忠実度が重要質問と生成結果のドメイン関連性が重要規則はどうなっている？

LLMによるLLMアプリ評価パイプライン構築

LLMによるLLMアプリ評価パイプライン構築

matsukada

More Decks by matsukada

Featured

Transcript

©Mitsubishi Electric Corporation L L M による L

©Mitsubishi Electric Corporation 自己紹介 2 @m_tsukada •

3 ChatGPTの登場後、LLM(大規模言語モデル) の活用はどんどん広がっています！「AIOps で障害分析を効率化してみよう」 • AWS Summit Tokyo

©Mitsubishi Electric Corporation L L M アプリの

5 従来のML評価手法ではLLMアプリの評価は難しい！ LLMアプリの入力・出力データが自然言語であるから！！結論

©Mitsubishi Electric Corporation L L M アプリ評

©Mitsubishi Electric Corporation L L M による L

©Mitsubishi Electric Corporation ※RAGとは… テキスト生成に、外部情報の検索を組み合わせることで、回答精度を向上させる手法 LLMが知らない最新情報をベクトルデータベースから取得し、ユーザのクエリに回答する今回のタ

©Mitsubishi Electric Corporation L L M アプリ評

©Mitsubishi Electric Corporation 動かしてみまし

©Mitsubishi Electric Corporation L a n g f u s

©Mitsubishi Electric Corporation 何を、どのよう