NLP2024の論文を対象にテキスト生成の自動評価について分析してみた

Slide 1

Slide 1 text

NLP2024の論文を対象にテキスト生成の自動評価について分析してみた 1 NSK@naohachi89 @NLP2024参加報告会

Slide 17

Slide 17 text

ROUGEによる自動評価について ● 対象41論文のうち8件の論文でROUGEを評価に利用。うち6件の論文が人手評価と比較 ○ ただし、グレーアウトしている論文は実際にはROUGEを使った評価を行っていない ● 下表の全ての論文で、ROUGEは人手評価と強い相関がないとGPTは判定 ○ 各論文を目検でも確認したが、赤字実際に人手評価との相関が低い旨が報告されていた論文タイトル論文URL 評価指標評価指標人手評価と強い相関があるか LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/A4-3.pdf ROUGE rouge FALSE 土木分野におけるLLMを用いた言語モデル評価手法の提案 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/A8-1.pdf ROUGE-1 rouge FALSE 土木分野におけるLLMを用いた言語モデル評価手法の提案 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/A8-1.pdf ROUGE-2 rouge FALSE 土木分野におけるLLMを用いた言語モデル評価手法の提案 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/A8-1.pdf ROUGE-L rouge FALSE 長文生成の多面的評価:人手評価と自動評価の向上を目指して https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/C3-2.pdf ROUGE rouge FALSE ホープスピーチ研究のための日本語データセット https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/C7-6.pdf ROUGE rouge FALSE 日本語TruthfulQAの構築 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/P6-15.pdf ROUGE-1 rouge FALSE RAGの連結方式および自動評価指標の定量評価 https://www.anlp.jp/proceedings/annual_m eeting/2024/pdf_dir/P9-11.pdf ROUGE-L rouge FALSE 17 分析概要 1段目の解析 2段目の解析各自動評価

Slide 18

Slide 18 text

BERTScoreによる自動評価について ● 対象41論文のうち、8件の論文がBERTScoreを評価に利用し、下表の論文が人手評価との比較を実施 ○ ただし、グレーアウトしている論文は実際にはBERTScoreを使った評価を行っていない ● 1件の論文を除いて、BERTScoreは人手評価との強い相関がないとGPTは判定 ○ 論文①では「既往手法の中ではBERTScoreが最も人手評価と相関が高かった」という記述されているが、相関係数は0.22と低い値となっている（記述に引っ張られている？） ○ 一方、論文②においてはBERTScoreがそれなりに高い相関係数（0.71）を記録している ■ 表中でのみ記述されているので論文pdfをテキスト化した段階で情報が落ちている？論文タイトル論文URL 評価指標人手評価と強い相関があるか LLMの出力結果に対する人間による評価分析と GPT-4による自動評価との比較分析 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/A4-3.pdf BERTScore TRUE ①土木分野におけるLLMを用いた言語モデル評価手法の提案 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/A8-1.pdf BERTScore TRUE ChatGPTを用いた日本語対話応答の多面的自動評価 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/B11-2.pdf BERTScore FALSE 長文生成の多面的評価:人手評価と自動評価の向上を目指して https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/C3-2.pdf BERT-Score FALSE ホープスピーチ研究のための日本語データセット https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/C7-6.pdf BERTScore FALSE 日本語TruthfulQAの構築 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/P6-15.pdf BERTScore FALSE ②RAGの連結方式および自動評価指標の定量評価 https://www.anlp.jp/proceedings/annu al_meeting/2024/pdf_dir/P9-11.pdf BERTScore FALSE 18 分析概要 1段目の解析 2段目の解析各自動評価

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text