NLP2024の論文を対象にテキスト生成の自動評価について分析してみた

NLP2024の論文を対象にテキスト生成の自動評価について分析してみた 1 NSK@naohachi89 @NLP2024参加報告会

前提 • 本発表資料は、NLP2024 参加報告会のLT資料です • スライド中にGPTを用いて論文を解析した結果を記載していますが、あくまでGPTの解析結果であるため、内容が正しいとは限らない点にご注意ください 2

NLP2024に参加したモチベーション 1. ネットワーキング 2. 大規模言語モデル（LLM）の出力の自動評価に関する最先端の知見獲得 3

自動評価周りの論文を確認したいが... • 掲載された論文数はなんと599件！ • 会場でも自動評価に関する発表を幾つか聞くことは出来たが当然すべて聞くことはできず • 自動評価を扱っている論文の内容を理解したいが、自力で探して読むのは大変 ◦ → LLMを使って関心のある論文を絞り込んで効率よくポイントを理解したい
◦ できれば論文の内容を解釈し、自分が知りたいポイントを解説してもらいたい 4

知りたいポイント • 日本語において、大規模言語モデルが生成したテキストを自動評価することはできるのか？ ◦ 特に、大規模言語モデルを用いた自動評価を行うことはできるのか？ • 自動評価には、どのような評価指標があるのか？ ◦ それぞれの評価指標と人間による評価結果はどの程度相関するのか？
上記の問いに答えるため、NLP2024の論文を対象にGPTを用いて分析を実施本発表では、その結果を共有します 5

アジェンダ • 分析の全体像 • 1段階目の解析について • 2段階目の解析について • 各自動評価方法について •
まとめ 6

分析の全体像 • 論文中でどのような自動評価が行われているか及び各手法で自動評価した結果について GPT APIで出力 • LLMを用いた評価を行っている論文に絞って2段階目の解析を実施(コスト節約のため) NLP2024の全論文(599件)を対象に、GPTのAPIを用いて2段階の解析を実施 2段階に分割したのは精度向上とコスト節約のため GPTを用いて解析を行っている都合上、本発表で用いられている解析結果および解析に基づく集計結果は
間違っている可能性がある点にご注意ください 1段階目の解析: LLMを用いた自動評価を行っている論文の絞り込み • 論文中で、言語モデルの出力したテキストに対してLLMを用いた評価を行っているか？等の項目をGPT APIで出力 2段階目の解析: LLMを用いた自動評価(+その他の自動評価指標)の有効性の分析 7 1段目の解析 2段目の解析各自動評価分析概要

1段階目の解析について gpt-4-turboを使って下表の項目をjson形式で出力プロンプトにはタスクの指示、論文のテキスト、出力項目の説明を含める項目名説明 use_lm 実験において、言語モデル（LM）もしくは大規模言語モデル（LLM）を用いてテキスト生成を行っているか use_lm_to_eval LMの出力に対して、LLM(またはLM)を用いて評価を行っているか
use_gpt_to_eval LMが出力したテキストの品質を評価する際に、OpenAIのGPTシリーズのモデル(gpt-3.5-turbo、gpt-4等)を用いているか。 ※use_lm_to_evalだと拾えないケースがあったため別途設定 use_human_evaluation 実験で、人間が手動評価を行っているか 8 知りたいポイントどの論文がLLMを用いた自動評価を行っているのか？また、人手評価との比較を行っているのか？解析の概要分析概要 1段目の解析 2段目の解析各自動評価

1段階目の実行結果の例 { "use_lm": true, "use_lm_to_eval": false, "use_gpt_to_eval": false, "use_human_evaluation": false
} A1-1. 「市況コメント生成のための少数事例選択」に対する実行結果 9 分析概要 2段目の解析各自動評価 1段目の解析 LLMを自動評価に用いている論文&人手評価との相関を確認している論文を絞り込むための項目を出力

1段階目の解析結果全599件のち、41件の論文においてLLMが評価に用いられていると判定されたこれらの41件の論文に対して、GPTによる2段階目の解析を実施した項目論文数 use_lm (実験でLMを使っている論文) 447件 use_lm_to_eval (LMを評価に用いている論文)
31件 use_gpt_to_eval (GPTを評価に用いている論文) 33件 ①use_lm_to_evalもしくはuse_gpt_to_evalがtrueの論文 (LMを評価に用いている論文) 41件 ②use_human_evaluation (人手評価を行っている論文) 292件 (①かつ②は21件) ※本来、gptを評価に用いている論文はuse_lm_to_evalにも該当すべきだが、今回の解析ではuse_gpt_to_evalがtrueであってもuse_lm_to_evalがfalseとなるケースが散見された 10 分析概要 2段目の解析各自動評価 1段目の解析

2段階目の解析について • gpt-4-turboを利用し、下表の項目等をjson形式で出力（一部項目の掲載を割愛） ◦ プロンプトにはタスクの指示、論文のテキスト、1段階目の解析結果、出力項目の説明を含める • 解析対象はLLMを用いた評価を行っていると1段階目で判定された論文に限定 ◦ 該当しない論文でも自動評価を行っている論文はあるが、今回は分析の対象外項目名
説明 eval_metrics LMの出力評価に用いられている評価指標 llm_model_names 論文中で、評価に用いられている言語モデル（LM）もしくは大規模言語モデル（LLM）の名称 correlation_with_human_eval 自動評価の指標と、人間の手動評価の結果の関係性 summary_for_automatic_evaluation 自動評価の結果についての簡潔なまとめ。人手評価との相関性や、自動評価の有効性について記述する。 11 • どのような評価指標が使われているのか？ • どの評価指標がどの程度信頼できるのか？（＝人手評価と相関があるのか）知りたいポイント解析の概要分析概要 1段目の解析 2段目の解析各自動評価

2段階目の出力の例 { "eval_metrics": [ "BLEU-4", "ROUGE-1", "ROUGE-2", "ROUGE-L", "BERTScore", "G-Eval"],
"correlation_with_human_eval": { "BERTScore": { "evidence_text": "全体評価は既往手法のうちBERTScoreが最も人手評価に近い結果を示した。", "has_strong_positive_corr": true }, "BLEU-4": { "evidence_text": "全体評価は既往手法のうちBERTScoreが最も人手評価に近い結果を示した。", "has_strong_positive_corr": false }, …省略... }, "llm_model_names": [ "Llama 2 -Chat (7B)","GPT-3.5-turbo","GPT-4", "PaLM 2 (Bison)", "Gemini-Pro" ] } 使われている評価指標各評価指標の有効性自動評価に用いたLLM 12 分析概要 1段目の解析各自動評価 2段目の解析各自動評価の有効性を確認するための項目を出力主にcorrelation_with_human_evalの内容に対して後段の分析を実施

LLMを用いた自動評価について論文タイトル評価指標人手評価との強い相関があるか LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析 LLM_EVAL FALSE ChatGPTを用いた日本語対話応答の多面的自動評価 LLM_EVAL TRUE
長文生成の多面的評価:人手評価と自動評価の向上を目指して LLM_EVAL TRUE ホープスピーチ研究のための日本語データセット LLM_EVAL TRUE 文法誤り訂正の包括的メタ評価: 既存自動評価の限界と大規模言語モデルの可能性 LLM_EVAL TRUE 日本語文埋め込みの文書検索性能と検索補助付き生成での評価 LLM_EVAL TRUE ichikara-instruction LLMのための日本語インストラクションデータの作成 GPT-4 FALSE Adversarial Evaluation of Dialogue System Metrics GPT-3.5 TRUE Adversarial Evaluation of Dialogue System Metrics GPT-4 TRUE RAGの連結方式および自動評価指標の定量評価 GPT-4-Acc. TRUE 社会的状況を踏まえた大規模言語モデルによる日本語メール生成 GPT-4 TRUE 13 分析概要 1段目の解析 2段目の解析各自動評価人手評価未実施下表の論文が、LLMを自動評価に用いている※ & 論文上で人手評価との比較を行っていると判定された ※correlation_with_human_evalのkeyにGPTもしくはLLM_EVALが含まれる論文。上表の件数とp10の表に記載された件数は整合しない点に注意

LLMを用いた自動評価について • 対象41論文のうち前スライドの10件の論文が、LLMを用いた自動評価を行っている & 人手評価との比較を実施していると判定された ◦ ただし、うち1件は実際には人手評価は行っていない（ハルシネーションが発生） • 人手評価まで行っている9件中8件の論文（評価指標単位では10件中9件）において、 LLMを用いた自動評価と人手評価に強い相関があると判定された
◦ LLMを用いた自動評価は、タスクによってはある程度信頼できると言えそう？（あくまで今回分析した論文で言及されているタスクに限る） ◦ 自動評価がワークする条件（タスク、モデル、プロンプト等）が存在するはずだが、今回の分析ではそちらは未確認 14 分析概要 1段目の解析 2段目の解析各自動評価

日本語文埋め込みの文書検索性能と検索補助付き生成での評価 • 著者 ◦ 矢野千紘, 塚越駿, 笹野遼平, 武田浩一 (名大) •
概要 ◦ 日本語の文埋め込みについて、文書検索性能の評価およびそれぞれの文埋め込みをRAGに利用した場合の性能評価を実施 • 自動評価について ◦ 質問応答タスクにおいて、質問・正答・生成された回答をLLM (GPT-4) に入力し、生成された回答が正解とみなせるかを判定する ◦ 自動評価と人手評価の結果の一致率を確認し、294/300件において一致することを確認自動評価と人手評価に強い相関があると記述した論文の例 15 分析概要 1段目の解析 2段目の解析各自動評価

自動評価と人手評価に強い相関がないと記述した論文の例 LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析 • 著者 ◦ 関根聡 (理研), 小島淳嗣, 貞光九月, 北岸郁雄
(マネーフォーワード) • 概要 ◦ LLMの出力に対して人手評価とGPT-4による自動評価を行い、それぞれの評価方法について比較・分析を実施 • 自動評価について ◦ Rakuda Benchmark (自由回答形式のQA) を対象に、2つのLLMで回答を出力し、それぞれの出力の品質について、GPT-4による自動評価と人手評価を実施 ◦ 評価結果を分析した結果、人間の評価とGPT-4の評価結果に大きな食い違いがあることが確認された ▪ GPT-4による自動評価は、正確性に欠ける記述であっても高く評価してしまう傾向が見られた 16 分析概要 1段目の解析 2段目の解析各自動評価

ROUGEによる自動評価について • 対象41論文のうち8件の論文でROUGEを評価に利用。うち6件の論文が人手評価と比較 ◦ ただし、グレーアウトしている論文は実際にはROUGEを使った評価を行っていない • 下表の全ての論文で、ROUGEは人手評価と強い相関がないとGPTは判定 ◦ 各論文を目検でも確認したが、赤字実際に人手評価との相関が低い旨が報告されていた論文タイトル
論文URL 評価指標評価指標人手評価と強い相関があるか LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/A4-3.pdf ROUGE rouge FALSE 土木分野におけるLLMを用いた言語モデル評価手法の提案 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/A8-1.pdf ROUGE-1 rouge FALSE 土木分野におけるLLMを用いた言語モデル評価手法の提案 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/A8-1.pdf ROUGE-2 rouge FALSE 土木分野におけるLLMを用いた言語モデル評価手法の提案 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/A8-1.pdf ROUGE-L rouge FALSE 長文生成の多面的評価:人手評価と自動評価の向上を目指して https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/C3-2.pdf ROUGE rouge FALSE ホープスピーチ研究のための日本語データセット https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/C7-6.pdf ROUGE rouge FALSE 日本語TruthfulQAの構築 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/P6-15.pdf ROUGE-1 rouge FALSE RAGの連結方式および自動評価指標の定量評価 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/P9-11.pdf ROUGE-L rouge FALSE 17 分析概要 1段目の解析 2段目の解析各自動評価

BERTScoreによる自動評価について • 対象41論文のうち、8件の論文がBERTScoreを評価に利用し、下表の論文が人手評価との比較を実施 ◦ ただし、グレーアウトしている論文は実際にはBERTScoreを使った評価を行っていない • 1件の論文を除いて、BERTScoreは人手評価との強い相関がないとGPTは判定 ◦ 論文①では「既往手法の中ではBERTScoreが最も人手評価と相関が高かった」という記述されているが、相関係数は0.22と低い値となっている（記述に引っ張られている？）
◦ 一方、論文②においてはBERTScoreがそれなりに高い相関係数（0.71）を記録している ▪ 表中でのみ記述されているので論文pdfをテキスト化した段階で情報が落ちている？論文タイトル論文URL 評価指標人手評価と強い相関があるか LLMの出力結果に対する人間による評価分析と GPT-4による自動評価との比較分析 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/A4-3.pdf BERTScore TRUE ①土木分野におけるLLMを用いた言語モデル評価手法の提案 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/A8-1.pdf BERTScore TRUE ChatGPTを用いた日本語対話応答の多面的自動評価 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/B11-2.pdf BERTScore FALSE 長文生成の多面的評価:人手評価と自動評価の向上を目指して https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/C3-2.pdf BERT-Score FALSE ホープスピーチ研究のための日本語データセット https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/C7-6.pdf BERTScore FALSE 日本語TruthfulQAの構築 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/P6-15.pdf BERTScore FALSE ②RAGの連結方式および自動評価指標の定量評価 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/P9-11.pdf BERTScore FALSE 18 分析概要 1段目の解析 2段目の解析各自動評価

• NLP2024の論文を対象に、テキスト生成タスクにおける各自動評価の有効性について、GPTを用いて分析を実施した ◦ 自動評価手法の中でも、GPTを用いた自動評価は多くの論文で人手評価と相関がある/一致率が高いと報告されていた • 一方で、GPTを用いた自動評価も万能ではなく、それだけ使えば十分というわけではない ◦ 正確性の判断が弱く、人手評価と結果が一致しない事例が報告されていた
◦ 最低限、そのタスクにおいてGPTによる評価は信頼できるのか?を検証した上で利用すべき • 上記の総論は、GPTが分析対象だと判断した論文のみを分析した結果である点に注意 19 まとめテキスト生成タスクにおける自動評価について GPTを用いた分析の効率化について • それなりの Precision で分析対象の論文を抽出できた ◦ 人手評価との相関についてもほぼ妥当な判定を出力している ◦ Recall については未確認 • 一方で、分析の効率化がどこまで実現出来たかと言うと... ◦ プロンプトのチューニングには時間を要する ▪ 定型化してしまえば楽だが、定型化までに時間がかかる ◦ APIコストもかかる（1段階目で7000円、2段階目で500円程度）

• LLM専用のコンペティションプラットフォームを作っています ◦ タスク・データに対して、プロンプト（及びプロンプトのパイプライン）をサブミットすると精度評価が行われるプラットフォーム ◦ Kaggle等と異なり、自然言語の記述だけでソリューションをサブミットできる • コンペティションへの参加や、データ提供に興味ある方がいらっしゃいましたら懇親会でぜひお話させてください
◦ 色々模索しながらプロトタイプを作っている段階なのでディスカッションも大歓迎です 20 宣伝

Appendix 21

1段階目のプロンプト pdfから抽出した論文のテキストデータが与えられるので、その論文について分析し、以下に示すjson形式で出力してください。 # 出力させる項目 - use_lm - 説明: 実験において、言語モデル（LM）もしくは大規模言語モデル（LLM）を用いてテキスト生成を行っているか。ここでは、言語モデルとは、テキストを生成するために訓練されたモデルを指し、BERT等のスコアリングや分類を行うモデルは含まない。
- 型: bool - use_lm_to_eval - 説明: LMの出力に対して、LLM(またはLM)を用いて評価を行っているか。ただし、ここでいう言語モデルはテキストを生成するために訓練されたモデルを指し、スコアリングや分類を行うモデルは含まない。 - 型: bool - use_gpt_to_eval - 説明: LMが出力したテキストの品質を評価する際に、OpenAIのGPTシリーズのモデル(gpt-3.5-turbo、gpt-4等)を用いているか。テキスト生成でのみGPTを利用している場合はfalseとする。 - 型: bool - use_human_evaluation - 説明: 実験で人間が手動評価を行っているか。ここでいう手動評価とは、個別の事例に対するLMの出力を人間が確認し、評価値等をアノテーションすることを指す。ROUGEやBLEU、あるいはLLMを用いた自動評価を行っているものについては、手動評価とはみなさない。 - 型: bool # 出力フォーマット {{ "use_lm": true, "use_lm_to_eval": fale, "use_gpt_to_eval": false, "use_human_evaluation": true }} 論文はこのあと user message として与えられます。 22 分析概要 2段目の解析各自動評価 1段目の解析

2段階目のプロンプト pdfから抽出した、自然言語処理に関する論文のテキストデータを解析してください。解析配下の2段階で行います。既に1段階目の解析は終えているので、2段階目の解析を行ってください。ただし、1段階目の解析結果が間違っている場合がある点に注意してください。 1. 論文中で記述されている実験に置いて、LLMを用いた生成を行っているか、LLMを用いた評価を行っているかの解析を実施 2. LLMを用いた評価を行っていると判断された論文について、評価方法や評価結果の詳細な解析を実施 …中略... #
出力させる項目 - eval_metrics - 説明: LMの出力評価に用いられている評価指標（BLEU，ROUGE，BERTScore、LLM_EVAL(LLMを用いた出力評価)等）。GPTや llama2等のLLMを使って出力を評価している場合は、LLM_EVALとすること。 - 型: list[str] - :lm_model_names - 説明: 論文中で、評価に用いられている言語モデル（LM）もしくは大規模言語モデル（LLM）の名称 - 型: list[str] - correlation_with_human_eval - 説明: 自動評価の指標と、人間の手動評価の結果の関係性。人手評価を行っていない場合は空の辞書を返す。また、dictのkeyは評価指標(eval_metrics)が入る。 - 型: dict[dict[str, str|bool]] 以下省略 23 分析概要 1段目の解析各自動評価 2段目の解析

どのような評価指標が使われているのか？ • LLMで自動評価を行っていると判定された41件の論文が集計対象 • 評価指標について一部正規化を適用(小文字化、正規表現等) • ROUGE-1, ROUGE-2等の同種の評価指標が1つの論文に複数登場している場合は、出現回数を個別にカウント評価指標
出現回数論文数 llm_eval 12 12 rouge 12 10 gpt 10 9 bertscore 7 7 bleu 6 6 recall 5 5 precision 5 5 accuracy 4 4 g-eval 3 3 f1 2 2 answer relevancy 2 2 mrr 1 1 以下省略 … … 24 反省点・課題分析概要 1段目の解析各自動評価 2段目の解析各論文で用いられている評価指標 (eval_metrics) をGPTで出力し、使われている回数を集計集計について • 評価の指標と方法が綯い交ぜになってしまった ◦ llm_eval等は評価をどう行うかという話であって指標ではない • LLMを用いた出力評価を行っている場合は llm_eval と出力するようにプロンプトに記述していたが、ワークしないケースが多発 ◦ GPTで評価を行っているものが、llm_evalと出力されない等 ◦ llm_evalの論文も結局大半がGPTを使っているので、むしろ GPTを使って評価を行っている論文に絞った方が良かったかも

自動評価に用いられているLLM LLMを用いた自動評価を行っている論文に対して、利用されているモデル名をGPTで抽出正規化したモデル名利用されている論文数 gpt-4 24 gpt-3.5-turbo 16 gpt-4-turbo 7
llama2-7b 3 gemini-pro 3 japanese-large-lm-3.6b-sft 1 stabilityai/japanese-stablelm-instruct-gamma-7b 1 elyza/elyza-japanese-llama2-7b-instruct 1 roberta 1 stablelm 1 elyza 1 weblab 1 llava1.5-13b 1 以下省略 … GPTで抽出したモデル名に対して、正規表現等で正規化を実施 e.g. gpt-3.5-turbo-0125 -> gpt-3.5-turbo 後処理 25

NLP2024の論文を対象にテキスト生成の自動評価について分析してみた

NLP2024の論文を対象にテキスト生成の自動評価について分析してみた

NSK

More Decks by NSK

Featured

Transcript