Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Minimum Bayes-Risk Decoding における性能変動の理解に向けて(202...

Minimum Bayes-Risk Decoding における性能変動の理解に向けて(2024年6月5日 第59回 NLPコロキウム)

2024年6月5日 第59回 NLPコロキウムで使用したスライドです.
https://nlp-colloquium-jp.github.io/schedule/2024-06-05-atsumoto-ohashi/

Atsumoto Ohashi

June 05, 2024
Tweet

More Decks by Atsumoto Ohashi

Other Decks in Research

Transcript

  1. ⾃⼰紹介 • ⼤橋 厚元(おおはし あつもと) • 所属 ▪ 名古屋⼤学 東中研究室

    博⼠後期課程2年 • 所属研究室での研究テーマ ▪ ⾃然⾔語処理寄りの対話システム • CyberAgent AI Lab(NLPチーム / RLチーム)で取り組んだ研究テーマ ▪ MBR decoding 2 @atsumoto_ohashi 𝕏 Home page 今回の発表内容
  2. Minimum Bayes-Risk (MBR) decoding の紹介 • テキスト⽣成で⽤いられるデコーディング⼿法の⼀つ • 以前から⾳声認識 (Stolcke+

    ’97, Goel+ ’00) や機械翻訳 (Kumar+ ’04) で研究されてきた • ニューラルテキスト⽣成モデルにおいても,再び注⽬を集めている ▪ 機械翻訳 (Eikema+ ’20, Freitag+ ʻ22) ▪ 要約⽣成 (Suzgun+ ’23, Jinnai+ ʻ24) ▪ キャプション⽣成 (Suzgun+ ’23, Jinnai+ ʻ24) 5
  3. 典型的なデコーディング⼿法とその問題 • Beam search decoding などは,モデルが付与する確率が最⼤となる系列を探す⼿法 • しかし,この確率が⾼い系列が望ましいとは限らない.例えば… ▪ <eos>

    のみの系列が確率最⼤になる場合がある (Stahlberg+ ’19) ▪ ⼈間の参照⽂よりも,beam search で出⼒した系列の確率が⾼くなる (Ott+ ʻ18) 6 𝑦∗ = arg max " ∈ 𝒴 log 𝑝 𝑦 𝑥) • 𝑥 : ⼊⼒⽂ • 𝒴 : 出⼒⽂の候補の集合 • 𝑦 : 出⼒⽂の候補
  4. MBR decoding • 探したいのは,出⼒⽂のクオリティを測る尺度(効⽤)を最⼤化する系列 ▪ 機械翻訳における効⽤関数の例:BLEU, METEOR, BLEURT, COMET •

    なので,効⽤の期待値が最⼤となる系列を選択する • なお,効⽤の低さ(リスク)の期待値として考えると MBR な系列を選択する問題になる 7 𝑦∗ = arg max " ∈ 𝒴 𝔼 (∼*!"#$% ⋅ 𝑥 𝑢 𝑦, 𝑟 𝑦∗ = arg min " ∈ 𝒴 𝔼 (∼*!"#$% ⋅ 𝑥 −𝑢 𝑦, 𝑟 • 𝑃!"#$% (⋅ |𝑥) : ⼈間が⽣成する⽂の確率分布 • 𝑟 : 参照⽂ • 𝑢 : 効⽤関数
  5. 近似による MBR decoding の実⽤化 8 𝑦∗ = arg max "

    ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) • あり得る全系列の集合 Ω を⽤いて式を展開
  6. 近似による MBR decoding の実⽤化 • ⼈間の確率分布(真の分布)は不明なので, モデルの確率分布で近似 9 𝑦∗ =

    arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 • あり得る全系列の集合 Ω を⽤いて式変形
  7. 近似による MBR decoding の実⽤化 • ⼈間の確率分布(真の分布)は不明なので, モデルの確率分布で近似 10 𝑦∗ =

    arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3) • あり得る全系列は計算できないので,モデル からの有限サンプル ℛ, でモンテカルロ推定 ▪ 𝑟, ∈ ℛ, は擬似参照と呼ばれる • あり得る全系列の集合 Ω を⽤いて式変形
  8. 近似による MBR decoding の実⽤化 • ⼈間の確率分布(真の分布)は不明なので, モデルの確率分布で近似 11 𝑦∗ =

    arg max " ∈ 𝒴 𝔼 &∼(&'()* ⋅ 𝑥 𝑢 𝑦, 𝑟 = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) ≈ arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃,/012 𝑟 𝑥 ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3) • あり得る全系列は計算できないので,モデル からの有限サンプル ℛ, でモンテカルロ推定 ▪ 𝑟, ∈ ℛ, は擬似参照と呼ばれる 以降では,このモンテカルロ近似バージョン (Eikema+ ʻ20) を単に “MBR decoding” と呼ぶ • あり得る全系列の集合 Ω を⽤いて式変形
  9. 𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦,

    𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ▪ 任意のサンプリング⼿法を使⽤可能 (例:top-p, top-k) 12
  10. 𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦,

    𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ▪ 任意のサンプリング⼿法を使⽤可能 (例:top-p, top-k) 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ▪ 任意のサンプリング⼿法を使⽤可能 ▪ 多くの研究は 𝒴 を直接使⽤(つまり ℛ, = 𝒴) 13
  11. 𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦,

    𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ▪ 任意のサンプリング⼿法を使⽤可能 (例:top-p, top-k) 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ▪ 任意のサンプリング⼿法を使⽤可能 ▪ 多くの研究は 𝒴 を直接使⽤(つまり ℛ, = 𝒴) 3. 効⽤関数 𝑢 を⽤いて,各候補 𝑦 と擬似参照 𝑟′ との類似度を計算 ▪ 𝑢としては,BLEU や COMET など,任意の関数を使⽤可能 14
  12. 𝑦∗ = arg max #∈𝒴 & |ℛ!| ∑ )!∈ℛ! 𝑢(𝑦,

    𝑟*) は結局どういう⼿続きなのか 1. モデルから候補集合をサンプル 𝒴 = 𝑦+ +,& - ▪ 任意のサンプリング⼿法を使⽤可能 (例:top-p, top-k) 2. モデルから擬似参照集合をサンプル ℛ′ = 𝑟′+ +,& . ▪ 任意のサンプリング⼿法を使⽤可能 ▪ 多くの研究は 𝒴 を直接使⽤(つまり ℛ, = 𝒴) 3. 効⽤関数 𝑢 を⽤いて,各候補 𝑦 と擬似参照 𝑟′ との類似度を計算 ▪ 𝑢としては,BLEU や COMET など,任意の関数を使⽤可能 4. ℛ*と最も類似した(効⽤期待値が最⼤の) 𝑦∗ ∈ 𝒴 を最終的な出⼒⽂として選択 15
  13. MBR decoding の理論を⾒返してみると… • 理想では,真の分布 𝑃/0123 から得られた参照⽂ 𝑟 との類似度が最⼤の候補 𝑦

    を選択したい • 現実では, 𝑃/0123 は不明なので,モデルがサンプルした擬似参照 ℛ* で近似する 18 この ℛ, による近似の度合いが MBR decoding の性能に影響しそう 𝑦∗ = arg max " ∈ 𝒴 / &∈) 𝑢 𝑦, 𝑟 𝑃*+,-. (𝑟|𝑥) 𝑦∗ ≈ arg max " ∈ 𝒴 1 |ℛ3| / &+ ∈ ℛ+ 𝑢(𝑦, 𝑟3)
  14. 先⾏研究 • いくつかの先⾏研究では,MBR decoding の性能変動の理由が考察されている ▪ バイアスが少ないサンプリング⼿法の⽅が適しているはず (Eikema+ ʻ22) ▪

    多様な⽂を⽣成できるサンプリング⼿法の⽅が適しているはず (Freitag+ ʻ23) • しかしこれらサンプリング⼿法の性質が,𝑃/0123 の近似に関係しているかどうかは⾃明で はなく,検証もされていない 19 結局,MBR decoding において,サンプリング⼿法がもたらす性能と 𝑃/0123 の近似との関係は未だ不明 問題 Ancestral sampling のこと
  15. 本研究のアプローチ • 𝑃/0123 の近似度合いを,異常検知⼿法を⽤いて定量化する ▪ 具体的には,擬似参照集合に対する参照⽂の異常スコアを測る • 我々の想定: ▪ もし擬似参照集合が

    𝑃/0123 をよく近似できているのなら, 𝑃/0123 から得られている 参照⽂は,その擬似参照集合から逸脱していないはず ▪ つまり,参照⽂の異常スコアは,性能の⾼い擬似参照集合に対しては低くなるはず 21
  16. 擬似参照集合に対する参照⽂の異常スコアの測り⽅ • 異常スコアを測るには,各擬似参照⽂および 参照⽂を特徴空間で表す必要がある • 対象とする類似度において各⽂を表現するた め,各次元を各候補⽂ 𝑦+ との類似度 𝑢(𝑦+,

    𝑟) としたベクトル 𝑣 を⽤いる: 22 0.58 0.48 0.52 0.61 0.66 0.54 0.81 0.73 0.59 0.48 0.47 0.46 !′! : Blue bird flying. !′" : Flying blue bird seen. !′# : Blue bird seen in sky. Candidates ! Pseudo-References ℛ′ ## : A blue bird. # " : The bird is flying. #$ : Blue bird is flying. #% : There's a blue bird. 0.48 0.79 0.59 0.61 ! : (reference) !′$ !′% !′ !′& ! Feature space
  17. 実験 1. 性能変動の確認 ▪ 擬似参照集合のサンプリング⼿法を複数試し, MBR decoding の性能が変化することを確認する 2. 異常スコアとの相関確認

    ▪ 各擬似参照集合を⽤いた時の MBR decoding 性能 ▪ 各擬似参照集合に対する参照⽂の異常スコア 23 これが相関するかどうかを検証
  18. 実験 1. 性能変動の確認 ▪ 擬似参照集合のサンプリング⼿法を複数試し, MBR decoding の性能が変化することを確認する 2. 異常スコアとの相関確認

    ▪ 各擬似参照集合を⽤いた時の MBR decoding 性能 ▪ 各擬似参照集合に対する参照⽂の異常スコア 24 これが相関するかどうかを検証
  19. 実験1. 性能変動の確認 ‒ 設定 • ⽣成タスク:WMT19 における 4⾔語対の翻訳(De → En,

    En → De, Ru → En, En → Ru) • ⽣成モデル:WMT19 ⽤に学習された Transformer モデル (Ng+ ʻ19) • 効⽤関数,および最終的な出⼒⽂の評価尺度:COMET22 (Rei+ ’22) ▪ COMET20 (Rei+ ’20) を⽤いた実験でも同様の結果を確認済み • 候補集合のサンプリング⼿法:Epsilon sampling (𝜖 = 0.02) で固定 ▪ 1翻訳に対してサンプルする候補⽂の数 𝑁 は 100 に設定 • 擬似参照集合のサンプリング⼿法:MBR decoding における主要な 6 種類 ▪ 1翻訳に対してサンプルする擬似参照⽂の数 𝑀 は 100 に設定 25 (Freitag+ ʻ23) と我々の事前 実験において,候補集合とし て⾼性能であることが判明
  20. 実験1. 性能変動の確認 ‒ 結果 • 擬似参照集合のサンプリング⼿法によって,MBR decoding の性能が変動することを確認 • 特に,変動の傾向は,⾔語対が異なる場合でも同じ

    26 候補 擬似参照 De→En En→De Ru→En En→Ru Epsilon (𝜖 = 0.02) Ancestral 85.82 87.51 82.02 88.41 Beam 85.62 87.40 81.64 87.78 Epsilon (𝜖 = 0.02) 85.89 87.74 82.01 88.46 Epsilon (𝜖 = 0.02)* 85.87 87.74 81.98 88.46 Top-𝑝 (𝑝 = 0.6) 85.69 87.57 81.76 88.26 Top-𝑝 (𝑝 = 0.9) 86.04 87.82 82.18 88.61 表1:異なる擬似参照集合を⽤いた場合の MBR decoding 性能(COMET22).太字/ 下線 の値は,それぞれ最⾼/最低 スコアを⽰す.スコアは3種類のシードの平均. 候補集合をそのまま 使い回し 候補集合とは異なるシード 値で再サンプリング
  21. 実験 1. 性能変動の確認 ▪ 擬似参照集合のサンプリング⼿法を複数試し, MBR decoding の性能が変化することを確認する 2. 異常スコアとの相関確認

    ▪ 各擬似参照集合を⽤いた時の MBR decoding 性能 ▪ 各擬似参照集合に対する参照⽂の異常スコア 27 これが相関するかどうかを検証
  22. 実験2. 異常スコアとの相関分析 ‒ 設定 • MBR decoding 性能と以下の特徴量が相関するかを, スピアマンの順位相関を⽤いて検証 ▪

    ベースライン特徴量:先⾏研究において,MBR decoding 性能に影響すると想定され ていた擬似参照集合の特性 ▪ 提案特徴量:擬似参照集合に対する,参照⽂の異常スコア 28 Avg. Prob. (Eikema+ ʻ22) 全擬似参照に対するモデル確率の平均 Cum. Prob. (Freitag+ ʻ23) 全擬似参照(重複した⽂は除く)の累積確率 Ref. Sim. (Eikema+ ʻ22) 全擬似参照と参照⽂の類似度(COMET22)の平均 Cand. Sim. (Eikema+ ʻ22) 全擬似参照と全候補の類似度(COMET22)の平均 𝑑- 参照⽂と擬似参照集合とのマハラノビス距離 kNN 参照⽂とk近傍の擬似参照とのL2距離の平均 LOF 参照⽂の擬似参照集合に対する Local Outlier Factor (LOF)スコア
  23. 実験2. 異常スコアとの相関分析 ‒ 結果 29 表2:各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌.太字

    は絶対値が最⼤の値を⽰す. De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657
  24. 実験2. 異常スコアとの相関分析 ‒ 結果 • ベースラインよりも,異常スコアの⽅が ⾼い相関を⽰す ▪ 先⾏研究の想定では性能変動を⼗分 に説明できなさそう

    ▪ 擬似参照集合に対する参照の異常ス コア,つまり擬似参照集合による 𝑃/0123 の近似度合いによって変動を 説明できてそう 30 表2:各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌.太字 は絶対値が最⼤の値を⽰す. De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657
  25. 実験2. 異常スコアとの相関分析 ‒ 結果 • ベースラインよりも,異常スコアの⽅が ⾼い相関を⽰す ▪ 先⾏研究の想定では性能変動を⼗分 に説明できなさそう

    ▪ 擬似参照集合に対する参照の異常ス コア,つまり擬似参照集合による 𝑃/0123 の近似度合いによって変動を 説明できてそう • k < 100 の場合で⾼い相関を⽰す ▪ 全ての擬似参照が参照⽂の近くに分 布する必要はなく,多少の外れ値が 含まれていも問題なさそう 31 表2:各擬似参照集合を⽤いた場合の MBR decoding 性能と各特徴量の相関係数 𝜌.太字 は絶対値が最⼤の値を⽰す. De→En En→De Ru→En En→Ru Avg. Prob. 0.580 0.290 0.870 0.638 Cum. Prob. -0.058 -0.116 -0.348 -0.058 Ref. Sim. -0.580 -0.290 -0.870 -0.638 Cand. Sim. -0.543 -0.314 -0.829 -0.657 𝑑" -0.771 -0.486 -0.886 -0.771 kNN k=5 -0.771 -0.829 -0.886 -0.829 k=25 -0.943 -0.943 -0.886 -0.943 k=50 -0.771 -0.943 -0.943 -0.829 k=75 -0.771 -0.943 -0.371 -0.829 k=100 -0.086 -0.314 -0.371 -0.029 LOF k=5 -0.829 -0.600 -0.943 -0.771 k=25 -0.829 -0.714 -0.943 -0.829 k=50 -1.000 -0.886 -0.943 -0.829 k=75 -1.000 -0.886 -0.943 -0.829 k=100 -0.600 -0.371 -0.886 -0.657
  26. まとめ • 本研究は,初めて,「MBR decoding の性能」と「真の分布 𝑃/0123 の近似度合い」との 関係を実験的に裏付け • 擬似参照による

    𝑃/0123 の近似度合いを,異常検知⼿法を⽤いて定量化する⼿法を提案 • 4⾔語対にまたがる翻訳タスクにおける実験を実施 ▪ MBR decoding の性能と擬似参照集合の異常スコアに強い相関があることを確認 ▪ 先⾏研究の想定では,MBR decoding の性能変動を⼗分に説明できないことを発⾒ 32 MBR decoding において「参照⽂が逸脱しないような 擬似参照集合を得るべき」という観点を提⽰ 貢献
  27. 限界と展望 • 本研究の限界 ▪ 検証に使⽤した翻訳タスクや⽣成モデルが限定的 ▪ なぜ特定のサンプリング⼿法(𝑝 = 0.9の top-𝑝

    等)が 𝑃/0123 を近似しやすいかは不明 • 今後の展望 ▪ 「参照⽂が逸脱しないような擬似参照集合を得るべき」という切り⼝から, より MBR decoding に適したサンプルを得る⼿法を考える ▪ 例えば: ◆ 外れ値を擬似参照集合から省くことで計算コストを削減 ◆ 多様性とクオリティのバランスを考慮した効率的なサンプリング 33
  28. MBR decoding の性能 • 効⽤関数として sBLEU や BLEURT を⽤いることで,⼈⼿評価において Beam

    < MBR • 確率は Beam > MBR なので,やはり確率最⼤化と⼈間の選好には乖離がある 35 Freitag+ ’22 Table 2 より引⽤