Slide 7
Slide 7 text
©2024 CyberAgent Inc. Distribution prohibited
llm-jp-evalの言い換え検証
7
検証
JCommonsenseQAの言い換え 評価結果(4-shot/100samples)
オリジナル
質問と回答の選択肢を入力として受け取り、選択肢から回答を選択してください。なお、回答は
選択肢の番号(例: 0)でするものとします。 回答となる数値を int型で返し、他には何も含め
ないことを厳守してください。
質問:電子機器で使用される最も主要な電子回路基板の事をなんと言う? 選択肢:0.掲示
板,1.パソコン,2.マザーボード ,3.ハードディスク ,4.まな板
回答:2
言い換え
質問と回答の選択肢を入力として受け取り、選択肢から 不正解となる回答をすべて選択してく
ださい。 なお、回答は選択肢の番号(例: 1,2,3,4)でするものとします。 回答となる数値を
int型でカンマ区切りで出力してください。
質問:電子機器で使用される最も主要な電子回路基板の事をなんと言う? 選択肢:0.掲示
板,1.パソコン,2.マザーボード ,3.ハードディスク ,4.まな板
回答:0,1,3,4
model オリジナル 言い換え
gpt-4-turbo 95 78
gpt-3.5-turbo 90 56
RakutenAI-7B-instruct 91 7
llm-jp-13b-instruct-full-jast
er-v1.0
71 5
Swallow-13b-instruct-hf 71 8
● 問題文を言い換えるだけで正解率に大きな影響
● 訓練データを学習したとしても似たようなタスクに汎化するとは限らない