Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure Machine Learning Prompt flow 評価メトリクス解説

Azure Machine Learning Prompt flow 評価メトリクス解説

Nobusuke Hanagasaki

August 19, 2023
Tweet

More Decks by Nobusuke Hanagasaki

Other Decks in Programming

Transcript

  1. Azure Machine Learning Prompt flow 評価メトリクス解説 日本マイクロソフト株式会社 パートナー事業本部 AI &

    Azure アーキテクト本部 パートナー ソリューション アーキテクト 花ケ﨑 伸祐 Aug. 18th, 2023 パートナー・コミュニティ
  2. 生成 AI アプリケーション Azure Machine Learning OSS モデルカタログ 責任ある AI

    Azure AI Content Safety プロンプト構築/評 価ツール Prompt flow 大規模AI アプリデプロイ 生成 AI モデルモ ニタリング
  3. • 選択したフレームワークとAPI を使用してさまざ まな言語モデルとデータソースを使用する AI ワー クフローを作成 • 1つのプラットフォームで生成 AI

    ワークフローの 構築、調整、評価を実行 • 事前構築済の指標で AI ワークフローの品質を評価 • プロンプトのチューニング、比較、トラッキング Azure Machine Learning Prompt Flow プレビュー
  4. 評価・展開・監視 プロンプトに基づき、 フローを開発 テストデータ (Small data) を使ったフローのデ バッグ・実行 フローの更新 (プロンプトやツールなど)

    OK ? メトリクス (品質, relevance, 安全性 など) に基づ き large data でフローを評価 OK ? フローの最適化 展開 (Deploy) と監視 利用者の フィードバック収集 1. デザインと開発 2. 評価とリファイン 3. 最適化とプロダクション No Yes No Yes
  5. 組み込み評価メトリクス一覧 評価方法 メトリック 説明 LLM 必要な入力 スコアの値 1 QnA f1

    スコア評価 F1 スコア モデルの予測と実測値の間で共有されている単語数の割合を測定 No 質問、回答、実測値 (コ ンテキスト不要) 0~1 の範囲内。 2 QnA Ada 類似性評価 Ada 類似性 Ada Embeddings API を使って、実測値と予測の両方について、文 (ドキュメント) レベルの Embeddings を計算します。 次に、それ らの間のコサイン類似度を計算します (1 つの浮動小数点数) Yes 質問、回答、実測値 (コ ンテキスト不要) 0~1 の範囲内。 3 QnA 関連性評価 関連性 モデルで予測された回答が質問とどの程度関連しているかを測定 Yes 質問、回答、コンテキス ト (実測値不要) 1~5、1 が最 低、5 が最高。 4 QnA 流暢性評価 流暢性 モデルで予測された回答の文法的および言語的な正しさを測定 Yes 質問、回答 (実測値また はコンテキスト不要) 1~5、1 が最 低、5 が最高 5 QnA 一貫性評価 一貫性 モデルで予測された回答内のすべての文の品質と、それらの自然な 適合具合を測定 Yes 質問、回答 (実測値また はコンテキスト不要) 1~5、1 が最 低、5 が最高。 6 QnA 根拠有無の評価 根拠があるか モデルの予測回答が入力ソースにどれだけ根拠があるかを測定しま す。LLM の回答が真であっても、ソースに対して検証可能でなけ れば、根拠がないことになります。 Yes 質問、回答、コンテキス ト (実測値不要) 1~5、1 が最 低、5 が最高。 7 QnA 関連性スコアのペア ごとの評価 スコア、勝敗 質問応答システムによって生成された回答の品質を評価します。 ユーザーの質問との一致の程度に基づく各回答への関連性スコアの 割り当て、ベースラインの回答に対するさまざまな回答の比較、結 果を集計したメトリック (平均勝率や関連性スコアなど) の生成が 含まれます。 Yes 質問、回答 (実測値また はコンテキスト不要) スコア: 0~ 100、勝敗: 1/0 8 QnA 類似性評価 類似性 ユーザーが提供した実測値の回答とモデルで予測された回答の類似 性を測定します。 Yes 質問、回答、実測値 (コ ンテキスト不要) 0~1 の範囲内。 9 分類の精度の評価 精度 出力を実測値と比較することで、分類システムのパフォーマンスを 測定します。 No 予測、実測値 0~1 の範囲内。 https://learn.microsoft.com/azure/machine-learning/prompt-flow/how-to-bulk-test-evaluate-flow
  6. 自動評価メトリクス それぞれに一長一短あり。詳細解説は以下参照 n-gram LLM Embeddings 生成文と参照文の間のトーク ンの重複数を測定 ベクトルのコサイン距離を比較 することでテキスト間の類似性 を比較

    LLM で生成したスコアを用い る手法 ROUGE, BLEU BERTscore BARTscore, GPTscore Azure Machine Learning の Prompt flow の評価メトリクス紹介 https://qiita.com/nohanaga/items/b68bf5a65142c5af7969
  7. 1. QnA f1 scores Evaluation 標準的な n-gram ベースのメトリクスは、生成文と参照文の間のトークンの重複数を測定します。適合率、 再現率、F1 スコアの値を使って比較を行います。この種類のメトリクスとして

    ROUGE や BLEU がよく知ら れています。これらのメトリクスはたとえ意味が似ていても、トークンが完全に一致していなければ評価が 得られないという制約があります。 n-gram デフォルトは空白区 切りなのでカスタム 前提
  8. 2. QnA Ada Similarity Evaluation BERTScore が有名。LLM を使用して生成した Embeddings ベクトルのコサイン距離を比較することで類似性

    を比較します。Prompt flow では text-embedding-ada-002 を利用して生成文と実測値の類似度を測る QnA Ada Similarity Evaluation があります。 Embeddings
  9. 3. QnA Relevance Evaluation Q&A 関連性評価フローでは、モデルが予測した答えが、質問された内容にどれだけ関連しているかを測定 します。関連性メトリクスは 1 から 5

    のスケールで採点され、1 が最も悪く、5 が最高です。 LLM 関連性とは、文脈に基づいて、答えが質問の主要な側面にどの程度対応してい るかを測るものです。関連性を評価する際には、重要な側面がすべて、あるい は重要な側面だけが回答に含まれているかどうか を考慮してください。文脈と質問を考慮し、以下の評価尺度を使用して、回答 の関連性を星1つから5つの間で採点します: 星1つ: 関連性が完全に欠けている。 星2つ: 関連性がほとんどない 星3つ: 部分的に関連性がある 星4つ: 回答はほとんど関連性がある 星5つ: 関連性が完全にある この評価値は常に1から5の間の整数でなければなりません。 つまり、生成される評価は1または2または3または4または5でなければなりま せん。 コンテキスト: マリー・キュリーはポーランド生まれの物理学者・化学者で、 放射能研究のパイオニアであり、女性として初めてノーベル賞を受賞した。 質問: キュリー夫人が得意とした分野は? 答え: マリー・キュリーは、主に印象派のスタイルと技法に焦点を当てた有名 な画家であった。 星: 1 ... プロンプトフロー プロンプト
  10. 4. QnA Fluency Evaluation Q&A 流暢性評価フローでは、モデルが予測した答えが、文法的・言語的にどれだけ正しいかを測定しま す。関連性メトリクスは 1 から 5

    のスケールで採点され、1 が最も悪く、5 が最高です。 LLM 流暢さは解答に含まれる個々の文の質を測定し、それらがよく書かれているか、 文法的に正しいかを評価します。 流暢さを評価するときは個々の文の質を考慮してください。問題と解答が与え られた場合、次の評価スケールで解答の流暢さを星1つから5つの間で採点して ください: 星1つ: 流暢さが完全に欠けている。 星2つ: ほとんどが流暢さに欠けている。 星3つ: 部分的に流暢である 星4つ: ほとんど流暢 星5つ: 完璧に流暢 この評価値は常に1から5の間の整数でなければなりません。 したがって、生成される評価は1または2または3または4または5でなければな りません。 質問: 今日の朝食は何を食べましたか? 答え: シリアルとオレンジジュースを食べました。 星: 1 ...
  11. 5. QnA Coherence Evaluation Q&A コヒーレンス評価フローでは、モデルの予測回答に含まれるすべての文の品質と、それらの文がどの ように自然に組み合わされているかを測定します。コヒーレンスとは首尾一貫性という意味です。 LLM 解答の一貫性は、すべての文章がどの程度まとまっているか、全体として自然 に聞こえるかによって評価されます。

    首尾一貫性を評価する際には、解答全体の質を考慮してください。質問と答え が与えられたら、以下の評価尺度を 使用して、答えの一貫性を1つ星から5つ星の間で採点してください: 星1つ: 答えに一貫性が全くない。 星2つ: 答えに一貫性がほとんどない 星3つ: 答えに部分的に一貫性がある 星4つ: 回答はほぼ首尾一貫している 星5つ: 答えに一貫性がある この評価値は常に1から5の間の整数でなければなりません。 したがって、生成される評価は1または2または3または4または5でなければな りません。 質問: 好きな室内でのアクティビティとその理由を教えてください。 答え: ピザが好きです。太陽が輝いているから。 星: 1 ...
  12. 6. QnA Groundedness Evaluation Groundedness 評価フローでは、モデルの予測回答がコンテキストに対してどの程度根拠があるかを測定し ます。LLM の回答が真であっても、コンテキストに対して検証可能でなければ、根拠がないことになりま す。グラウンディングを使用する RAG

    システムの評価に利用できます。 LLM コンテキストと質問が与えられたら、答えを星1つから5つの間で採点してくだ さい。星1つは「矛盾」を意味し、星5つは「完全な一貫性」を意味します。一 貫性とは、「答えの中の事実がコンテキストの中の事実と一貫しているかどう か」を測定することに注意してください。答案が事実を正確に再現しているか、 事実と異なる情報をでっち上げていないかを検討する。回答は1~5の整数のみ とする。 context: {{context}} question: {{question}} answer: {{answer}} stars:
  13. 7. QnA Relevance Scores Pairwise Evaluation 質問応答システムによって生成された回答の品質を評価するフローです。ユーザーの質問にどれだけマッチ しているかに基づいて各回答に関連性スコアを割り当て、異なる回答をベースラインの回答と比較し、勝敗 や関連性スコアなどのメトリクスを生成するために結果を集計します。 LLM

    あなたにはランキングシステムとしての役割を担ってもらいたい。 あなたの仕事は、与えられた答えの候補が与えられた質問にどの程度マッチし ているかを評価し、その答えに点数をつけることです。 以下の評価スケールを使用します: 0-20点: 答えにまったく自信がない 20-40点: ほとんど自信がない 40-60点: 部分的に自信がある 60-80点: ほとんど自信がある 80-100点: 答えは完全に自信がある スコアは0から100の間の整数でなければなりません。整数のみを返してくださ い。 質問: アイアンマンの俳優は誰ですか? 答え: マット・サリンジャー スコア: 20 "win_lose": { "variant_0":"baseline" "variant_1":"lose" "variant_2":"win" "variant_3":"win" } 勝敗 ベースラインとスコアを比較し、 上回っていれば勝ちと判定します。
  14. 8. QnA GPT Similarity Evaluation Similarity の評価フローでは、ChatGPT のプロンプトによって類似性を判定します。 LLM 評価指標としての等価性は、予測された答えと正しい答えの類似性を測定します。予測された答えに含まれる情報とコンテンツ

    が正解と似ているか同等であれば、Equivalenceメトリクスの値は高く、そうでなければ低くなります。質問、正解、および予測 された答えがある場合、次の評価スケールを使用してEquivalenceメトリクスの値を決定します: 星1つ: 予測された答えは正解とまったく似ていません。 星2つ: 予測された答えは正解とほとんど似ていません。 星3つ: 予測された答えは正解と多少似ている。 星4つ: 予測された答えは正解とほとんど似ている。 星5つ: 予測された答えは正解と完全に似ている。 この評価値は常に1から5の間の整数でなければなりません。 つまり、生成される評価は1または2または3または4または5でなければなりません。 以下の例では、質問、正解、予測される答えの等価スコアを示しています。 質問: リボソームの役割は何ですか? 正解: リボソームはタンパク質合成を担う細胞構造体である。リボソームはメッセンジャーRNA(mRNA)が伝える遺伝情報を解 釈し、それを使ってアミノ酸をタンパク質に組み立てる。 予測回答: リボソームは、複雑な糖分子から栄養素を除去することにより、糖質の分解に関与する。 星: 1
  15. Conditions and terms of use Microsoft Confidential 20 © Microsoft

    Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION. 本資料は情報提供のみを目的としており、本資料に記載されている情報は、本資料作成時点でのマイク ロソフトの見解を示したものです。状況等の変化により、内容は変更される場合があります。マイクロ ソフトは、本資料の情報に対して明示的、黙示的または法的な、いかなる保証も行いません。