→ 全体として適切 / 不適切を検出 • Inaccurateがあれば全体もInaccurateとラベルを付与 • 下記2つの戦略を選択 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 o Segment-level Reward Prediction • 各単語に対してaccurate / inaccurate / analysisを検出 o 上記2つの検出器を学習し,Rejection Samplingを実施 • best-of-𝑛 / worst-of-𝑛 により,MLLMにrewardを与える • MLLM = {Instruct-BLIP, LLaVA, mPLUG-Owl} , 𝑛 = {16, 64} [Liu+, NeurIPS23] [Ye+, 2023]