Minimum Bayes-Risk Decoding における性能変動の理解に向けて（2024年6月5日第59回 NLPコロキウム）

Minimum Bayes-Risk (MBR) Decoding における性能変動の理解に向けて⼤橋厚元 2024年6⽉5⽇第59回 NLPコロキウム

⾃⼰紹介 • ⼤橋厚元（おおはしあつもと） • 所属 ▪ 名古屋⼤学東中研究室
博⼠後期課程２年 • 所属研究室での研究テーマ ▪ ⾃然⾔語処理寄りの対話システム • CyberAgent AI Lab（NLPチーム / RLチーム）で取り組んだ研究テーマ ▪ MBR decoding 2 @atsumoto_ohashi 𝕏 Home page 今回の発表内容

発表の流れ • MBR decoding の紹介（7分） • MBR decoding における性能変動の分析 (13分）
3 NAACL 2024

4

Minimum Bayes-Risk (MBR) decoding の紹介 • テキスト⽣成で⽤いられるデコーディング⼿法の⼀つ • 以前から⾳声認識 (Stolcke+
’97, Goel+ ’00) や機械翻訳 (Kumar+ ’04) で研究されてきた • ニューラルテキスト⽣成モデルにおいても，再び注⽬を集めている ▪ 機械翻訳 (Eikema+ ’20, Freitag+ ʻ22) ▪ 要約⽣成 (Suzgun+ ’23, Jinnai+ ʻ24) ▪ キャプション⽣成 (Suzgun+ ’23, Jinnai+ ʻ24) 5

典型的なデコーディング⼿法とその問題 • Beam search decoding などは，モデルが付与する確率が最⼤となる系列を探す⼿法 • しかし，この確率が⾼い系列が望ましいとは限らない．例えば… ▪ <eos>
のみの系列が確率最⼤になる場合がある (Stahlberg+ ’19) ▪ ⼈間の参照⽂よりも，beam search で出⼒した系列の確率が⾼くなる (Ott+ ʻ18) 6 𝑦∗ = arg max " ∈ 𝒴 log 𝑝 𝑦 𝑥) • 𝑥 : ⼊⼒⽂ • 𝒴 : 出⼒⽂の候補の集合 • 𝑦 : 出⼒⽂の候補

MBR decoding • 探したいのは，出⼒⽂のクオリティを測る尺度（効⽤）を最⼤化する系列 ▪ 機械翻訳における効⽤関数の例：BLEU, METEOR, BLEURT, COMET •
なので，効⽤の期待値が最⼤となる系列を選択する • なお，効⽤の低さ（リスク）の期待値として考えると MBR な系列を選択する問題になる 7 𝑦∗ = arg max " ∈ 𝒴 𝔼 (∼*!"#$% ⋅ 𝑥 𝑢 𝑦, 𝑟 𝑦∗ = arg min " ∈ 𝒴 𝔼 (∼*!"#$% ⋅ 𝑥 −𝑢 𝑦, 𝑟 • 𝑃!"#$% (⋅ |𝑥) : ⼈間が⽣成する⽂の確率分布 • 𝑟 : 参照⽂ • 𝑢 : 効⽤関数

近似による MBR decoding の実⽤化 8 𝑦∗ = arg max "
∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) • あり得る全系列の集合 Ω を⽤いて式を展開

近似による MBR decoding の実⽤化 • ⼈間の確率分布（真の分布）は不明なので，モデルの確率分布で近似 9 𝑦∗ =
arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 • あり得る全系列の集合 Ω を⽤いて式変形

arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3) • あり得る全系列は計算できないので，モデルからの有限サンプル ℛ, でモンテカルロ推定 ▪ 𝑟, ∈ ℛ, は擬似参照と呼ばれる • あり得る全系列の集合 Ω を⽤いて式変形

arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3) • あり得る全系列は計算できないので，モデルからの有限サンプル ℛ, でモンテカルロ推定 ▪ 𝑟, ∈ ℛ, は擬似参照と呼ばれる以降では，このモンテカルロ近似バージョン (Eikema+ ʻ20) を単に “MBR decoding” と呼ぶ • あり得る全系列の集合 Ω を⽤いて式変形

𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦,
𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ▪ 任意のサンプリング⼿法を使⽤可能（例：top-p, top-k） 12

𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦,
𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ▪ 任意のサンプリング⼿法を使⽤可能（例：top-p, top-k） 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ▪ 任意のサンプリング⼿法を使⽤可能 ▪ 多くの研究は 𝒴 を直接使⽤（つまり ℛ, = 𝒴） 13

𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦,
𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ▪ 任意のサンプリング⼿法を使⽤可能（例：top-p, top-k） 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ▪ 任意のサンプリング⼿法を使⽤可能 ▪ 多くの研究は 𝒴 を直接使⽤（つまり ℛ, = 𝒴） 3. 効⽤関数 𝑢 を⽤いて，各候補 𝑦 と擬似参照 𝑟′ との類似度を計算 ▪ 𝑢としては，BLEU や COMET など，任意の関数を使⽤可能 14

𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦,
𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ▪ 任意のサンプリング⼿法を使⽤可能（例：top-p, top-k） 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ▪ 任意のサンプリング⼿法を使⽤可能 ▪ 多くの研究は 𝒴 を直接使⽤（つまり ℛ, = 𝒴） 3. 効⽤関数 𝑢 を⽤いて，各候補 𝑦 と擬似参照 𝑟′ との類似度を計算 ▪ 𝑢としては，BLEU や COMET など，任意の関数を使⽤可能 4. ℛ*と最も類似した（効⽤期待値が最⼤の） 𝑦∗ ∈ 𝒴 を最終的な出⼒⽂として選択 15

16 NAACL 2024

背景：MBR decoding における性能変動 • 候補や擬似参照のサンプリング⼿法の違いによって，MBR decoding の性能が変動 ▪ サンプルのどんな特性が起因しているのか？ 17
Freitag+ ’23 Table 1(a) より引⽤

MBR decoding の理論を⾒返してみると… • 理想では，真の分布 𝑃/0123 から得られた参照⽂ 𝑟 との類似度が最⼤の候補 𝑦
を選択したい • 現実では， 𝑃/0123 は不明なので，モデルがサンプルした擬似参照 ℛ* で近似する 18 この ℛ, による近似の度合いが MBR decoding の性能に影響しそう 𝑦∗ = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) 𝑦∗ ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3)

先⾏研究 • いくつかの先⾏研究では，MBR decoding の性能変動の理由が考察されている ▪ バイアスが少ないサンプリング⼿法の⽅が適しているはず (Eikema+ ʻ22) ▪
多様な⽂を⽣成できるサンプリング⼿法の⽅が適しているはず (Freitag+ ʻ23) • しかしこれらサンプリング⼿法の性質が，𝑃/0123 の近似に関係しているかどうかは⾃明ではなく，検証もされていない 19 結局，MBR decoding において，サンプリング⼿法がもたらす性能と 𝑃/0123 の近似との関係は未だ不明問題 Ancestral sampling のこと

本研究の⽬的 • MBR decoding の性能と 𝑃/0123 の近似度合いとの関係を裏付けたい • すなわち，以下の仮説を実験的に検証したい： 20
𝑃/0123 をよく近似できている擬似参照集合は，⾼いMBR decoding 性能を達成できる仮説

本研究のアプローチ • 𝑃/0123 の近似度合いを，異常検知⼿法を⽤いて定量化する ▪ 具体的には，擬似参照集合に対する参照⽂の異常スコアを測る • 我々の想定： ▪ もし擬似参照集合が
𝑃/0123 をよく近似できているのなら， 𝑃/0123 から得られている参照⽂は，その擬似参照集合から逸脱していないはず ▪ つまり，参照⽂の異常スコアは，性能の⾼い擬似参照集合に対しては低くなるはず 21

擬似参照集合に対する参照⽂の異常スコアの測り⽅ • 異常スコアを測るには，各擬似参照⽂および参照⽂を特徴空間で表す必要がある • 対象とする類似度において各⽂を表現するため，各次元を各候補⽂ 𝑦+ との類似度 𝑢(𝑦+,
𝑟) としたベクトル 𝑣 を⽤いる： 22 0.58 0.48 0.52 0.61 0.66 0.54 0.81 0.73 0.59 0.48 0.47 0.46 !′! : Blue bird flying. !′" : Flying blue bird seen. !′# : Blue bird seen in sky. Candidates ! Pseudo-References ℛ′ ## : A blue bird. # " : The bird is flying. #$ : Blue bird is flying. #% : There's a blue bird. 0.48 0.79 0.59 0.61 ! : (reference) !′$ !′% !′ !′& ! Feature space

実験 1. 性能変動の確認 ▪ 擬似参照集合のサンプリング⼿法を複数試し， MBR decoding の性能が変化することを確認する 2. 異常スコアとの相関確認
▪ 各擬似参照集合を⽤いた時の MBR decoding 性能 ▪ 各擬似参照集合に対する参照⽂の異常スコア 23 これが相関するかどうかを検証

実験1. 性能変動の確認 ‒ 設定 • ⽣成タスク：WMT19 における 4⾔語対の翻訳（De → En,
En → De, Ru → En, En → Ru) • ⽣成モデル：WMT19 ⽤に学習された Transformer モデル (Ng+ ʻ19) • 効⽤関数，および最終的な出⼒⽂の評価尺度：COMET22 (Rei+ ’22) ▪ COMET20 (Rei+ ’20) を⽤いた実験でも同様の結果を確認済み • 候補集合のサンプリング⼿法：Epsilon sampling (𝜖 = 0.02) で固定 ▪ 1翻訳に対してサンプルする候補⽂の数 𝑁 は 100 に設定 • 擬似参照集合のサンプリング⼿法：MBR decoding における主要な 6 種類 ▪ 1翻訳に対してサンプルする擬似参照⽂の数 𝑀 は 100 に設定 25 (Freitag+ ʻ23) と我々の事前実験において，候補集合として⾼性能であることが判明

実験1. 性能変動の確認 ‒ 結果 • 擬似参照集合のサンプリング⼿法によって，MBR decoding の性能が変動することを確認 • 特に，変動の傾向は，⾔語対が異なる場合でも同じ
26 候補擬似参照 De→En En→De Ru→En En→Ru Epsilon (𝜖 = 0.02) Ancestral 85.82 87.51 82.02 88.41 Beam 85.62 87.40 81.64 87.78 Epsilon (𝜖 = 0.02) 85.89 87.74 82.01 88.46 Epsilon (𝜖 = 0.02)* 85.87 87.74 81.98 88.46 Top-𝑝 (𝑝 = 0.6) 85.69 87.57 81.76 88.26 Top-𝑝 (𝑝 = 0.9) 86.04 87.82 82.18 88.61 表1：異なる擬似参照集合を⽤いた場合の MBR decoding 性能（COMET22）．太字/ 下線の値は，それぞれ最⾼/最低スコアを⽰す．スコアは3種類のシードの平均．候補集合をそのまま使い回し候補集合とは異なるシード値で再サンプリング

実験2. 異常スコアとの相関分析 ‒ 設定 • MBR decoding 性能と以下の特徴量が相関するかを，スピアマンの順位相関を⽤いて検証 ▪
ベースライン特徴量：先⾏研究において，MBR decoding 性能に影響すると想定されていた擬似参照集合の特性 ▪ 提案特徴量：擬似参照集合に対する，参照⽂の異常スコア 28 Avg. Prob. (Eikema+ ʻ22) 全擬似参照に対するモデル確率の平均 Cum. Prob. (Freitag+ ʻ23) 全擬似参照（重複した⽂は除く）の累積確率 Ref. Sim. (Eikema+ ʻ22) 全擬似参照と参照⽂の類似度（COMET22）の平均 Cand. Sim. (Eikema+ ʻ22) 全擬似参照と全候補の類似度（COMET22）の平均 𝑑- 参照⽂と擬似参照集合とのマハラノビス距離 kNN 参照⽂とk近傍の擬似参照とのL2距離の平均 LOF 参照⽂の擬似参照集合に対する Local Outlier Factor (LOF)スコア

実験2. 異常スコアとの相関分析 ‒ 結果 29 表2：各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌．太字
は絶対値が最⼤の値を⽰す． De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657

実験2. 異常スコアとの相関分析 ‒ 結果 • ベースラインよりも，異常スコアの⽅が⾼い相関を⽰す ▪ 先⾏研究の想定では性能変動を⼗分に説明できなさそう
▪ 擬似参照集合に対する参照の異常スコア，つまり擬似参照集合による 𝑃/0123 の近似度合いによって変動を説明できてそう 30 表2：各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌．太字は絶対値が最⼤の値を⽰す． De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657

実験2. 異常スコアとの相関分析 ‒ 結果 • ベースラインよりも，異常スコアの⽅が⾼い相関を⽰す ▪ 先⾏研究の想定では性能変動を⼗分に説明できなさそう
▪ 擬似参照集合に対する参照の異常スコア，つまり擬似参照集合による 𝑃/0123 の近似度合いによって変動を説明できてそう • k < 100 の場合で⾼い相関を⽰す ▪ 全ての擬似参照が参照⽂の近くに分布する必要はなく，多少の外れ値が含まれていも問題なさそう 31 表2：各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌．太字は絶対値が最⼤の値を⽰す． De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657

まとめ • 本研究は，初めて，「MBR decoding の性能」と「真の分布 𝑃/0123 の近似度合い」との関係を実験的に裏付け • 擬似参照による
𝑃/0123 の近似度合いを，異常検知⼿法を⽤いて定量化する⼿法を提案 • 4⾔語対にまたがる翻訳タスクにおける実験を実施 ▪ MBR decoding の性能と擬似参照集合の異常スコアに強い相関があることを確認 ▪ 先⾏研究の想定では，MBR decoding の性能変動を⼗分に説明できないことを発⾒ 32 MBR decoding において「参照⽂が逸脱しないような擬似参照集合を得るべき」という観点を提⽰貢献

限界と展望 • 本研究の限界 ▪ 検証に使⽤した翻訳タスクや⽣成モデルが限定的 ▪ なぜ特定のサンプリング⼿法（𝑝 = 0.9の top-𝑝
等）が 𝑃/0123 を近似しやすいかは不明 • 今後の展望 ▪ 「参照⽂が逸脱しないような擬似参照集合を得るべき」という切り⼝から，より MBR decoding に適したサンプルを得る⼿法を考える ▪ 例えば： ◆ 外れ値を擬似参照集合から省くことで計算コストを削減 ◆ 多様性とクオリティのバランスを考慮した効率的なサンプリング 33

予備スライド 34

MBR decoding の性能 • 効⽤関数として sBLEU や BLEURT を⽤いることで，⼈⼿評価において Beam
< MBR • 確率は Beam > MBR なので，やはり確率最⼤化と⼈間の選好には乖離がある 35 Freitag+ ’22 Table 2 より引⽤

事前実験：候補集合のサンプリング⼿法の選択 36

Minimum Bayes-Risk Decoding における性能変動の理解に向けて（202...

Minimum Bayes-Risk Decoding における性能変動の理解に向けて（2024年6月5日 第59回 NLPコロキウム）

More Decks by Atsumoto Ohashi

Other Decks in Research

Featured

Transcript

Minimum Bayes-Risk Decoding における性能変動の理解に向けて（2024年6月5日第59回 NLPコロキウム）