Slide 1

Slide 1 text

(Bryan Eikema and Wilker Aziz, EMNLP2022)

Slide 2

Slide 2 text

β—Ό ⚫ ⚫ π’šMAP = argmax π’‰βˆˆπ’΄ log 𝑝 𝒉 | 𝒙, πœƒ 𝒴 β–Ά ⚫ π’šMBR = argmax π’‰βˆˆπ’΄ 𝔼 𝑒 π’šβˆ—, 𝒉 | 𝒙, πœƒ = argmax π’‰βˆˆπ’΄ πœ‡π‘’ 𝒉; 𝒙, πœƒ β–Ά 𝑒 𝒉 ∈ 𝒴 π’šβˆ— ∈ 𝒴 β—Ό 𝒴 πœ‡π‘’ ⚫ β–Ά β–Ά πœ‡π‘’

Slide 3

Slide 3 text

(Eikema&Aziz, COLING2020) β—Ό 𝑁 ΰ΄₯ β„‹ 𝒙 = π’š 1 , … , π’š 𝑁 ⚫ β—Ό πœ‡π‘’ 𝒉; 𝒙, πœƒ ⚫ ො πœ‡π‘’ 𝒉; 𝒙, 𝑁 ≔ 1 𝑁 σ𝑛=1 𝑁 𝑒 π’š 𝑛 , 𝒉 ⚫ π’šNbyN ≔ argmaxπ’‰βˆˆ ΰ΄₯ β„‹ 𝒙 ො πœ‡π‘’ 𝒉; 𝒙, 𝑁 β—Ό ⚫ 𝑁2 β–Ά β–Ά π’ͺ 𝑁2 Γ— π‘ˆ , π‘ˆ is the uppperbound cost to assess the utility function once. ⚫ β€œIs MAP Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translation”, Eikema&Aziz, COLING2020

Slide 4

Slide 4 text

β—Ό 𝑆 < 𝑁 ො πœ‡π‘’ π’ͺ 𝑁2 Γ— π‘ˆ β†’ π’ͺ 𝑁 Γ— 𝑆 Γ— π‘ˆ β—Ό 𝑇 ො πœ‡π‘’proxy ⚫ ΰ΄₯ ℋ𝑇 𝒙 ≔ topπ‘‡π’‰βˆˆ ΰ΄₯ β„‹ 𝒙 ො πœ‡π‘’proxy 𝒉; 𝒙, 𝑆 ⚫ π’šC2F ≔ argmaxπ’‰βˆˆ ΰ΄₯ ℋ𝑇 𝒙 ො πœ‡π‘’target 𝒉; 𝒙, 𝐿 β–Ά π’ͺ 𝑁 Γ— 𝑆 Γ— π‘ˆproxy + 𝑇 Γ— 𝐿 Γ— π‘ˆtarget β–Ά 𝑆 = 5 𝑆 = 50

Slide 5

Slide 5 text

β—Ό ⚫ ⚫ ⚫ β—Ό β—Ό (StanojeviΔ‡&Sima’an, WMT2014) ⚫ β—Ό β€œBEER: BEtter Evaluation as Ranking”, StanojeviΔ‡&Sima’an, WMT2014

Slide 6

Slide 6 text

β—Ό ⚫

Slide 7

Slide 7 text

β—Ό β—Ό β—Ό

Slide 8

Slide 8 text

β—Ό π’šNbyS ≔ argmax π’‰βˆˆ π’š π‘˜ π‘˜=1 𝑁 ො πœ‡π‘’ 𝒉; 𝒙, 𝑆 β—Ό 𝑆 β—Ό 𝑆

Slide 9

Slide 9 text

β—Ό 𝑁 ⚫ ΰ΄₯ β„‹ 𝒙 β—Ό ⚫ β–Ά ΰ΄₯ β„‹ 𝒙 𝑁

Slide 10

Slide 10 text

β—Ό ⚫ 𝑆 𝑆 ⚫ ⚫ β—Ό ⚫ ⚫ β–Ά

Slide 11

Slide 11 text

β—Ό ⚫ β–Ά 𝑁 = 405 β–Ά 𝑆 = 13 ⚫ β–Ά top𝑇 = 50 β–Ά β–Ά 𝐿 = 100 ⚫ 𝑁 = 405 β—Ό ⚫

Slide 12

Slide 12 text

β—Ό ⚫ β–Ά β—Ό ⚫ ⚫

Slide 13

Slide 13 text

β—Ό ⚫ ⚫ 𝑁 = 405, 𝑆 = 13, 𝑆large = 100 ⚫ β—Ό ⚫ ⚫

Slide 14

Slide 14 text

β—Ό ⚫ ⚫ β—Ό ⚫ ⚫