Slide 4
Slide 4 text
© DENTSU SOKEN 4
HD-Eval: Aligning Large Language Model Evaluators Through
Hierarchical Criteria Decomposition(2/2)
▍階層的基準分解を通じてLLMベースの評価器を人間の嗜好に反復的に整合させる[URL]
⚫ 3つのステップで構成
1. Criteria Decomposition
➢ 評価基準を木構造的に分解 親基準:一貫性 下位基準:分順序、談話構造、話題フォーカス etc
➢ 分解された下位基準はLLMによってスコアリングされる
2. Human Preference-Guided Aggregation
➢ 人間があらかじめ評価したスコアを模倣できるように、統合器(線形回帰・RF・浅いMLPなど)を用意し学習する。
➢ 統合器は下位基準のLLMによるスコアを入力として、最終的な親基準スコアを計算する
➢ この計算した親基準スコアが人間と近くなるように、投合器を学習する
3. Attribution Pruning
➢ 下位基準から、最終スコアに効いているもののみを選び、重要度の低い基準は打ち切る