Slide 17
Slide 17 text
主要なMLメトリクス
メトリクス 説明 用途
Perplexity Loss
テキストシーケンスにおいて、次の単語をどれだけ正確に予測できるかを測定するメト
リクス。値が低いほど、言語と文脈をよりよく理解していることを示します。
言語モデルの性能評価に使用され、特に次の単語を予
測するタスク(例:文章生成)でモデルの理解度を測
定します。
ROUGE (Recall-Oriented
Understudy for Gisting
Evaluation)
自然言語処理(NLP)や機械学習で、機械生成テキスト(例:要約や生成されたテキス
ト)の品質を評価するために使用されるメトリクスのセット。生成されたテキストと人
間が作成した参照テキストとの類似性を評価します。
テキスト生成や要約タスクで、生成されたテキストが
参照テキストとどれだけ一致しているかを評価します。
ROUGE-1, ROUGE-2
ROUGE-Nは、システム生成テキストと参照テキストのn-gramの重複を測定します。n
の値を1や2に設定して、生成されたテキストがn-gramをどれだけ正確に捉えているか
を評価します。
生成されたテキストと参照テキストのn-gramの一致度
を評価します。
ROUGE-L
システム生成テキストと参照テキストの間で、最長の共通部分列(Longest Common
Subsequence)を計算します。このメトリクスは、内容の重複に加えて単語の順序も
考慮します。
単語の順序を考慮したテキスト生成タスク(例:文章
生成)の評価に使用されます。
ROUGE-L-Sum
テキスト要約システムの評価に特化したメトリクスで、システム生成の要約と参照要約
の間で最長の共通部分列を計算します。単語の順序を考慮し、要約タスクにおける精度
を評価します。
テキスト要約タスクにおいて、生成された要約が参照
要約とどれだけ一致しているかを評価します。
BLEU (Bilingual Evaluation
Understudy)
BLEUは、機械翻訳やテキスト生成の評価に使用されるメトリクスで、システムが生成
したテキストと参照テキスト(人間が作成したテキスト)との間でn-gramの一致を測
定します。BLEUスコアは、生成されたテキストがどれだけ参照テキストに似ているか
を評価し、0から1の範囲で示され、1に近いほど一致度が高いことを示します。
- 機械翻訳やテキスト生成(例:自動要約、対話シス
テム)の評価に使用されます。
- 特に、生成され
た文が参照文とどれだけ一致しているかを評価する際
に有効です。
BERTScore
BERTScoreは、BERT(Bidirectional Encoder Representations from Transformers)
を使用して、システム生成のテキストと参照テキストの単語埋め込みを比較します。
BLEUのようにn-gramの一致ではなく、文の意味的な類似性を考慮するため、文の意味
的な一致度をより正確に評価することができます。BERTScoreは、各単語の埋め込み
ベクトルの類似度を基にスコアを計算します。
- 意味的な類似性を評価するため、機械翻訳、テキス
ト生成、要約などのNLPタスクで使用されます。
- 特に、文の意味が重要な場合にBLEUよりも優
れた評価を提供します。
• LLMのファインチューニングに使用されるメトリクス
参考
・https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-llms-finetuning-metrics.html