Slide 6
Slide 6 text
提案: Reward ModelによるMLLMの改善
6
o Sentence-level Reward Prediction
• InstructBLIPに回帰ヘッドを追加 → 全体として適切 / 不適切を検出
• Inaccurateがあれば全体もInaccurateとラベルを付与
• 下記2つの戦略を選択
• Binary Classification → accurate / inaccurate のみ検出
• Ternary Classification → accurate / inaccurate / analysisを検出
o Segment-level Reward Prediction
• 各単語に対してaccurate / inaccurate / analysisを検出
o 上記2つの検出器を学習し,Rejection Samplingを実施
• best-of-𝑛 / worst-of-𝑛 により,MLLMにrewardを与える
• MLLM = {Instruct-BLIP, LLaVA, mPLUG-Owl} , 𝑛 = {16, 64}
[Liu+, NeurIPS23] [Ye+, 2023]