Slide 1

Slide 1 text

Minimum Bayes-Risk (MBR) Decoding における性能変動の理解に向けて ⼤橋厚元 2024年6⽉5⽇ 第59回 NLPコロキウム

Slide 2

Slide 2 text

⾃⼰紹介 ● ⼤橋 厚元(おおはし あつもと) ● 所属 ■ 名古屋⼤学 東中研究室 博⼠後期課程2年 ● 所属研究室での研究テーマ ■ ⾃然⾔語処理寄りの対話システム ● CyberAgent AI Lab(NLPチーム / RLチーム)で取り組んだ研究テーマ ■ MBR decoding 2 @atsumoto_ohashi 𝕏 Home page 今回の発表内容

Slide 3

Slide 3 text

発表の流れ ● MBR decoding の紹介(7分) ● MBR decoding における性能変動の分析 (13分) 3 NAACL 2024

Slide 4

Slide 4 text

発表の流れ ● MBR decoding の紹介(7分) ● MBR decoding における性能変動の分析 (13分) 4

Slide 5

Slide 5 text

Minimum Bayes-Risk (MBR) decoding の紹介 ● テキスト⽣成で⽤いられるデコーディング⼿法の⼀つ ● 以前から⾳声認識 (Stolcke+ ’97, Goel+ ’00) や機械翻訳 (Kumar+ ’04) で研究されてきた ● ニューラルテキスト⽣成モデルにおいても,再び注⽬を集めている ■ 機械翻訳 (Eikema+ ’20, Freitag+ ʻ22) ■ 要約⽣成 (Suzgun+ ’23, Jinnai+ ʻ24) ■ キャプション⽣成 (Suzgun+ ’23, Jinnai+ ʻ24) 5

Slide 6

Slide 6 text

典型的なデコーディング⼿法とその問題 ● Beam search decoding などは,モデルが付与する確率が最⼤となる系列を探す⼿法 ● しかし,この確率が⾼い系列が望ましいとは限らない.例えば… ■ のみの系列が確率最⼤になる場合がある (Stahlberg+ ’19) ■ ⼈間の参照⽂よりも,beam search で出⼒した系列の確率が⾼くなる (Ott+ ʻ18) 6 𝑦∗ = arg max " ∈ 𝒴 log 𝑝 𝑦 𝑥) • 𝑥 : ⼊⼒⽂ • 𝒴 : 出⼒⽂の候補の集合 • 𝑦 : 出⼒⽂の候補

Slide 7

Slide 7 text

MBR decoding ● 探したいのは,出⼒⽂のクオリティを測る尺度(効⽤)を最⼤化する系列 ■ 機械翻訳における効⽤関数の例:BLEU, METEOR, BLEURT, COMET ● なので,効⽤の期待値が最⼤となる系列を選択する ● なお,効⽤の低さ(リスク)の期待値として考えると MBR な系列を選択する問題になる 7 𝑦∗ = arg max " ∈ 𝒴 𝔼 (∼*!"#$% ⋅ 𝑥 𝑢 𝑦, 𝑟 𝑦∗ = arg min " ∈ 𝒴 𝔼 (∼*!"#$% ⋅ 𝑥 −𝑢 𝑦, 𝑟 • 𝑃!"#$% (⋅ |𝑥) : ⼈間が⽣成する⽂の確率分布 • 𝑟 : 参照⽂ • 𝑢 : 効⽤関数

Slide 8

Slide 8 text

近似による MBR decoding の実⽤化 8 𝑦∗ = arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ● あり得る全系列の集合 Ω を⽤いて式を展開

Slide 9

Slide 9 text

近似による MBR decoding の実⽤化 ● ⼈間の確率分布(真の分布)は不明なので, モデルの確率分布で近似 9 𝑦∗ = arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 ● あり得る全系列の集合 Ω を⽤いて式変形

Slide 10

Slide 10 text

近似による MBR decoding の実⽤化 ● ⼈間の確率分布(真の分布)は不明なので, モデルの確率分布で近似 10 𝑦∗ = arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3) ● あり得る全系列は計算できないので,モデル からの有限サンプル ℛ, でモンテカルロ推定 ■ 𝑟, ∈ ℛ, は擬似参照と呼ばれる ● あり得る全系列の集合 Ω を⽤いて式変形

Slide 11

Slide 11 text

近似による MBR decoding の実⽤化 ● ⼈間の確率分布(真の分布)は不明なので, モデルの確率分布で近似 11 𝑦∗ = arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3) ● あり得る全系列は計算できないので,モデル からの有限サンプル ℛ, でモンテカルロ推定 ■ 𝑟, ∈ ℛ, は擬似参照と呼ばれる 以降では,このモンテカルロ近似バージョン (Eikema+ ʻ20) を単に “MBR decoding” と呼ぶ ● あり得る全系列の集合 Ω を⽤いて式変形

Slide 12

Slide 12 text

𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦, 𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ■ 任意のサンプリング⼿法を使⽤可能 (例:top-p, top-k) 12

Slide 13

Slide 13 text

𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦, 𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ■ 任意のサンプリング⼿法を使⽤可能 (例:top-p, top-k) 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ■ 任意のサンプリング⼿法を使⽤可能 ■ 多くの研究は 𝒴 を直接使⽤(つまり ℛ, = 𝒴) 13

Slide 14

Slide 14 text

𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦, 𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ■ 任意のサンプリング⼿法を使⽤可能 (例:top-p, top-k) 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ■ 任意のサンプリング⼿法を使⽤可能 ■ 多くの研究は 𝒴 を直接使⽤(つまり ℛ, = 𝒴) 3. 効⽤関数 𝑢 を⽤いて,各候補 𝑦 と擬似参照 𝑟′ との類似度を計算 ■ 𝑢としては,BLEU や COMET など,任意の関数を使⽤可能 14

Slide 15

Slide 15 text

𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦, 𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ■ 任意のサンプリング⼿法を使⽤可能 (例:top-p, top-k) 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ■ 任意のサンプリング⼿法を使⽤可能 ■ 多くの研究は 𝒴 を直接使⽤(つまり ℛ, = 𝒴) 3. 効⽤関数 𝑢 を⽤いて,各候補 𝑦 と擬似参照 𝑟′ との類似度を計算 ■ 𝑢としては,BLEU や COMET など,任意の関数を使⽤可能 4. ℛ*と最も類似した(効⽤期待値が最⼤の) 𝑦∗ ∈ 𝒴 を最終的な出⼒⽂として選択 15

Slide 16

Slide 16 text

発表の流れ ● MBR decoding の紹介(7分) ● MBR decoding における性能変動の分析 (13分) 16 NAACL 2024

Slide 17

Slide 17 text

背景:MBR decoding における性能変動 ● 候補や擬似参照のサンプリング⼿法の違いによって,MBR decoding の性能が変動 ■ サンプルのどんな特性が起因しているのか? 17 Freitag+ ’23 Table 1(a) より引⽤

Slide 18

Slide 18 text

MBR decoding の理論を⾒返してみると… ● 理想では,真の分布 𝑃/0123 から得られた参照⽂ 𝑟 との類似度が最⼤の候補 𝑦 を選択したい ● 現実では, 𝑃/0123 は不明なので,モデルがサンプルした擬似参照 ℛ* で近似する 18 この ℛ, による近似の度合いが MBR decoding の性能に影響しそう 𝑦∗ = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) 𝑦∗ ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3)

Slide 19

Slide 19 text

先⾏研究 ● いくつかの先⾏研究では,MBR decoding の性能変動の理由が考察されている ■ バイアスが少ないサンプリング⼿法の⽅が適しているはず (Eikema+ ʻ22) ■ 多様な⽂を⽣成できるサンプリング⼿法の⽅が適しているはず (Freitag+ ʻ23) ● しかしこれらサンプリング⼿法の性質が,𝑃/0123 の近似に関係しているかどうかは⾃明で はなく,検証もされていない 19 結局,MBR decoding において,サンプリング⼿法がもたらす性能と 𝑃/0123 の近似との関係は未だ不明 問題 Ancestral sampling のこと

Slide 20

Slide 20 text

本研究の⽬的 ● MBR decoding の性能と 𝑃/0123 の近似度合いとの関係を裏付けたい ● すなわち,以下の仮説を実験的に検証したい: 20 𝑃/0123 をよく近似できている擬似参照集合は, ⾼いMBR decoding 性能を達成できる 仮説

Slide 21

Slide 21 text

本研究のアプローチ ● 𝑃/0123 の近似度合いを,異常検知⼿法を⽤いて定量化する ■ 具体的には,擬似参照集合に対する参照⽂の異常スコアを測る ● 我々の想定: ■ もし擬似参照集合が 𝑃/0123 をよく近似できているのなら, 𝑃/0123 から得られている 参照⽂は,その擬似参照集合から逸脱していないはず ■ つまり,参照⽂の異常スコアは,性能の⾼い擬似参照集合に対しては低くなるはず 21

Slide 22

Slide 22 text

擬似参照集合に対する参照⽂の異常スコアの測り⽅ ● 異常スコアを測るには,各擬似参照⽂および 参照⽂を特徴空間で表す必要がある ● 対象とする類似度において各⽂を表現するた め,各次元を各候補⽂ 𝑦+ との類似度 𝑢(𝑦+, 𝑟) としたベクトル 𝑣 を⽤いる: 22 0.58 0.48 0.52 0.61 0.66 0.54 0.81 0.73 0.59 0.48 0.47 0.46 !′! : Blue bird flying. !′" : Flying blue bird seen. !′# : Blue bird seen in sky. Candidates ! Pseudo-References ℛ′ ## : A blue bird. # " : The bird is flying. #$ : Blue bird is flying. #% : There's a blue bird. 0.48 0.79 0.59 0.61 ! : (reference) !′$ !′% !′ !′& ! Feature space

Slide 23

Slide 23 text

実験 1. 性能変動の確認 ■ 擬似参照集合のサンプリング⼿法を複数試し, MBR decoding の性能が変化することを確認する 2. 異常スコアとの相関確認 ■ 各擬似参照集合を⽤いた時の MBR decoding 性能 ■ 各擬似参照集合に対する参照⽂の異常スコア 23 これが相関するかどうかを検証

Slide 24

Slide 24 text

実験 1. 性能変動の確認 ■ 擬似参照集合のサンプリング⼿法を複数試し, MBR decoding の性能が変化することを確認する 2. 異常スコアとの相関確認 ■ 各擬似参照集合を⽤いた時の MBR decoding 性能 ■ 各擬似参照集合に対する参照⽂の異常スコア 24 これが相関するかどうかを検証

Slide 25

Slide 25 text

実験1. 性能変動の確認 ‒ 設定 ● ⽣成タスク:WMT19 における 4⾔語対の翻訳(De → En, En → De, Ru → En, En → Ru) ● ⽣成モデル:WMT19 ⽤に学習された Transformer モデル (Ng+ ʻ19) ● 効⽤関数,および最終的な出⼒⽂の評価尺度:COMET22 (Rei+ ’22) ■ COMET20 (Rei+ ’20) を⽤いた実験でも同様の結果を確認済み ● 候補集合のサンプリング⼿法:Epsilon sampling (𝜖 = 0.02) で固定 ■ 1翻訳に対してサンプルする候補⽂の数 𝑁 は 100 に設定 ● 擬似参照集合のサンプリング⼿法:MBR decoding における主要な 6 種類 ■ 1翻訳に対してサンプルする擬似参照⽂の数 𝑀 は 100 に設定 25 (Freitag+ ʻ23) と我々の事前 実験において,候補集合とし て⾼性能であることが判明

Slide 26

Slide 26 text

実験1. 性能変動の確認 ‒ 結果 ● 擬似参照集合のサンプリング⼿法によって,MBR decoding の性能が変動することを確認 ● 特に,変動の傾向は,⾔語対が異なる場合でも同じ 26 候補 擬似参照 De→En En→De Ru→En En→Ru Epsilon (𝜖 = 0.02) Ancestral 85.82 87.51 82.02 88.41 Beam 85.62 87.40 81.64 87.78 Epsilon (𝜖 = 0.02) 85.89 87.74 82.01 88.46 Epsilon (𝜖 = 0.02)* 85.87 87.74 81.98 88.46 Top-𝑝 (𝑝 = 0.6) 85.69 87.57 81.76 88.26 Top-𝑝 (𝑝 = 0.9) 86.04 87.82 82.18 88.61 表1:異なる擬似参照集合を⽤いた場合の MBR decoding 性能(COMET22).太字/ 下線 の値は,それぞれ最⾼/最低 スコアを⽰す.スコアは3種類のシードの平均. 候補集合をそのまま 使い回し 候補集合とは異なるシード 値で再サンプリング

Slide 27

Slide 27 text

実験 1. 性能変動の確認 ■ 擬似参照集合のサンプリング⼿法を複数試し, MBR decoding の性能が変化することを確認する 2. 異常スコアとの相関確認 ■ 各擬似参照集合を⽤いた時の MBR decoding 性能 ■ 各擬似参照集合に対する参照⽂の異常スコア 27 これが相関するかどうかを検証

Slide 28

Slide 28 text

実験2. 異常スコアとの相関分析 ‒ 設定 ● MBR decoding 性能と以下の特徴量が相関するかを, スピアマンの順位相関を⽤いて検証 ■ ベースライン特徴量:先⾏研究において,MBR decoding 性能に影響すると想定され ていた擬似参照集合の特性 ■ 提案特徴量:擬似参照集合に対する,参照⽂の異常スコア 28 Avg. Prob. (Eikema+ ʻ22) 全擬似参照に対するモデル確率の平均 Cum. Prob. (Freitag+ ʻ23) 全擬似参照(重複した⽂は除く)の累積確率 Ref. Sim. (Eikema+ ʻ22) 全擬似参照と参照⽂の類似度(COMET22)の平均 Cand. Sim. (Eikema+ ʻ22) 全擬似参照と全候補の類似度(COMET22)の平均 𝑑- 参照⽂と擬似参照集合とのマハラノビス距離 kNN 参照⽂とk近傍の擬似参照とのL2距離の平均 LOF 参照⽂の擬似参照集合に対する Local Outlier Factor (LOF)スコア

Slide 29

Slide 29 text

実験2. 異常スコアとの相関分析 ‒ 結果 29 表2:各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌.太字 は絶対値が最⼤の値を⽰す. De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657

Slide 30

Slide 30 text

実験2. 異常スコアとの相関分析 ‒ 結果 ● ベースラインよりも,異常スコアの⽅が ⾼い相関を⽰す ■ 先⾏研究の想定では性能変動を⼗分 に説明できなさそう ■ 擬似参照集合に対する参照の異常ス コア,つまり擬似参照集合による 𝑃/0123 の近似度合いによって変動を 説明できてそう 30 表2:各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌.太字 は絶対値が最⼤の値を⽰す. De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657

Slide 31

Slide 31 text

実験2. 異常スコアとの相関分析 ‒ 結果 ● ベースラインよりも,異常スコアの⽅が ⾼い相関を⽰す ■ 先⾏研究の想定では性能変動を⼗分 に説明できなさそう ■ 擬似参照集合に対する参照の異常ス コア,つまり擬似参照集合による 𝑃/0123 の近似度合いによって変動を 説明できてそう ● k < 100 の場合で⾼い相関を⽰す ■ 全ての擬似参照が参照⽂の近くに分 布する必要はなく,多少の外れ値が 含まれていも問題なさそう 31 表2:各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌.太字 は絶対値が最⼤の値を⽰す. De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657

Slide 32

Slide 32 text

まとめ ● 本研究は,初めて,「MBR decoding の性能」と「真の分布 𝑃/0123 の近似度合い」との 関係を実験的に裏付け ● 擬似参照による 𝑃/0123 の近似度合いを,異常検知⼿法を⽤いて定量化する⼿法を提案 ● 4⾔語対にまたがる翻訳タスクにおける実験を実施 ■ MBR decoding の性能と擬似参照集合の異常スコアに強い相関があることを確認 ■ 先⾏研究の想定では,MBR decoding の性能変動を⼗分に説明できないことを発⾒ 32 MBR decoding において「参照⽂が逸脱しないような 擬似参照集合を得るべき」という観点を提⽰ 貢献

Slide 33

Slide 33 text

限界と展望 ● 本研究の限界 ■ 検証に使⽤した翻訳タスクや⽣成モデルが限定的 ■ なぜ特定のサンプリング⼿法(𝑝 = 0.9の top-𝑝 等)が 𝑃/0123 を近似しやすいかは不明 ● 今後の展望 ■ 「参照⽂が逸脱しないような擬似参照集合を得るべき」という切り⼝から, より MBR decoding に適したサンプルを得る⼿法を考える ■ 例えば: ◆ 外れ値を擬似参照集合から省くことで計算コストを削減 ◆ 多様性とクオリティのバランスを考慮した効率的なサンプリング 33

Slide 34

Slide 34 text

予備スライド 34

Slide 35

Slide 35 text

MBR decoding の性能 ● 効⽤関数として sBLEU や BLEURT を⽤いることで,⼈⼿評価において Beam < MBR ● 確率は Beam > MBR なので,やはり確率最⼤化と⼈間の選好には乖離がある 35 Freitag+ ’22 Table 2 より引⽤

Slide 36

Slide 36 text

事前実験:候補集合のサンプリング⼿法の選択 36