Upgrade to PRO for Only $50/Yearโ€”Limited-Time Offer! ๐Ÿ”ฅ

20240820: Minimum Bayes Risk Decoding for High-...

20240820: Minimum Bayes Risk Decoding for High-Quality Text Generation Beyond High-Probabilityย Text

Hiroyuki Deguchi

August 20, 2024
Tweet

More Decks by Hiroyuki Deguchi

Other Decks in Research

Transcript

  1. โ—ผ โšซ โšซ โšซ โ—ผ โ—ผ โšซ โšซ โ–ถ โ–ถ

    https://en.wikipedia.org/wiki/Transfer-based_machine_translation
  2. โ—ผ โšซ ๐’šโ‹† โˆˆ ๐’ด โ–ถ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ—

    โšซ ๐’™ โˆˆ ๐’ณ โ–ถ โ—ผ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’ฑ๐‘‹ โˆ—, ๐’ฑ๐‘Œ โˆ— โšซ ๐’š1 โšซ ๐’š2 โšซ ๐’š3 โšซ ๐’š4 โšซ
  3. โ—ผ โšซ ๐’šโ‹† โˆˆ ๐’ด โ–ถ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ—

    โšซ ๐’™ โˆˆ ๐’ณ โ–ถ โ—ผ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’ฑ๐‘‹ โˆ—, ๐’ฑ๐‘Œ โˆ—
  4. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ ๐’™

    โˆˆ ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’š โˆˆ ๐’ฑ๐‘Œ โˆ— โšซ ๐’ฑ๐‘‹ โˆ—, ๐’ฑ๐‘Œ โˆ— โ—ผ ๐œƒ โšซ ๐‘ This book is interesting ; ๐œƒ) = 0.8434 ๐‘ This book is delicious ; ๐œƒ) = 0.0013
  5. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ โšซ

    โšซ ๐‘ ๐’š|๐’™; ๐œƒ = ๐‘ ๐‘ฆ1 |๐’™; ๐œƒ ๐‘ ๐‘ฆ2 |๐‘ฆ1 , ๐’™; ๐œƒ ๐‘ ๐‘ฆ3 |๐‘ฆ2 , ๐‘ฆ1 , ๐’™; ๐œƒ โ€ฆ โ—ผ ๐’™ โˆˆ ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’š โˆˆ ๐’ฑ๐‘Œ โˆ— โšซ ๐’ฑ๐‘‹ โˆ—, ๐’ฑ๐‘Œ โˆ— โ—ผ ๐œƒ โšซ ๐‘ interesting This book is, ; ๐œƒ) = 0.2875 ๐‘ delicious This book is, ; ๐œƒ) = 0.0003
  6. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ ๐’šMAP๐œƒ

    โˆˆ ๐’ด ๐’šMAP๐œƒ = argmax ๐’šโˆˆ๐’ด ๐‘ ๐’š|๐’™; ๐œƒ ฯ‚ ๐‘ก=1 ๐’š ๐‘ ๐‘ฆ๐‘ก|๐’š<๐‘ก,๐’™;๐œƒ โšซ โšซ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’š1 โšซ ๐’š2 โšซ ๐’š3 โšซ ๐’š4 โšซ โ—ผ ๐œƒ โšซ
  7. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ ๐’šMAP๐œƒ

    โˆˆ ๐’ด ๐’šMAP๐œƒ = argmax ๐’šโˆˆ๐’ด ๐‘ ๐’š|๐’™; ๐œƒ ฯ‚ ๐‘ก=1 ๐’š ๐‘ ๐‘ฆ๐‘ก|๐’š<๐‘ก,๐’™;๐œƒ โšซ โšซ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’š1 โšซ ๐’š2 โšซ ๐’š3 โšซ ๐’š4 โšซ โ—ผ ๐œƒ โšซ โ—ผ โšซ
  8. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ ๐’šMAP๐œƒ

    โˆˆ ๐’ด ๐’šMAP๐œƒ = argmax ๐’šโˆˆ๐’ด ๐‘ ๐’š|๐’™; ๐œƒ ฯ‚ ๐‘ก=1 ๐’š ๐‘ ๐‘ฆ๐‘ก|๐’š<๐‘ก,๐’™;๐œƒ โšซ โšซ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’š1 โšซ ๐’š2 โšซ ๐’š3 โšซ ๐’š4 โšซ โ—ผ ๐œƒ โšซ โ—ผ โšซ
  9. โ—ผ โšซ โ–ถ โ—ผ โšซ โšซ ๐‘ ""|๐’™; ๐œƒ โšซ

    ; 1 2 3 4 5 ๐‘ฆ5 (Ott+, ICML2018; Stahlberg & Byrne, EMNLP2019) Ott+, ICML2018, โ€œAnalyzing Uncertainty in Neural Machine Translationโ€. Stahlberg & Byrne, EMNLP2019, โ€œOn NMT Search Errors and Model Errors: Cat Got Your Tongue?โ€
  10. โ—ผ Risk ๐’š = ๐”ผ๐’šโ€ฒ~ Pr โ‹…|๐’™ โ„’ ๐’š, ๐’šโ€ฒ

    โšซ โ—ผ โšซ argmin ๐’šโˆˆ๐’ด Risk ๐’š Goel & Byrne, CS&L Vol14., 2000, โ€œMinimum Bayes-risk automatic speech recognitionโ€. Kumar & Byrne, NAACL2004, โ€œMinimum Bayes-Risk Decoding for Statistical Machine Translationโ€. โ—ผ โ„’: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ Pr โ‹… |๐’™
  11. โ—ผ Risk ๐’š = ๐”ผ๐’šโ€ฒ~ Pr โ‹…|๐’™ โ„’ ๐’š, ๐’šโ€ฒ

    โšซ โ—ผ โšซ argmin ๐’šโˆˆ๐’ด Risk ๐’š โ—ผ Goel & Byrne, CS&L Vol14., 2000, โ€œMinimum Bayes-risk automatic speech recognitionโ€. Kumar & Byrne, NAACL2004, โ€œMinimum Bayes-Risk Decoding for Statistical Machine Translationโ€. โ—ผ โ„’: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ Pr โ‹… |๐’™
  12. โ—ผ (von Neumann & Morgenstern, 1944) โšซ von Neumann &

    Morgenstern, 1944, โ€œTheory of Games and Economic Behaviorโ€. โšซ โšซ โ–ถ $1500 โˆ— 0.75 + $3000 โˆ— 0.25 = $1875 โšซ โ–ถ $1500 โˆ— 0.25 + $3000 โˆ— 0.75 = $2625
  13. โ—ผ โšซ โšซ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ ๐’š

    โ‰ฝ ๐’šโ€ฒ โ‡” ๐‘ข ๐’š, ๐’“ โ‰ฅ ๐‘ข ๐’šโ€ฒ, ๐’“ โšซ โ—ผ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ โ‰ฝ ๐’š ๐’šโ€ฒ โ—ผ ๐’“ โˆˆ ๐’ด
  14. โ—ผ โšซ โšซ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ ๐’š

    โ‰ฝ ๐’šโ€ฒ โ‡” ๐‘ข ๐’š, ๐’“ โ‰ฅ ๐‘ข ๐’šโ€ฒ, ๐’“ โšซ โ—ผ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ โ‰ฝ ๐’š ๐’šโ€ฒ โ—ผ ๐’“ โˆˆ ๐’ด
  15. โ—ผ ๐’šMBRtrue = argmax ๐’šโˆˆ๐’ด ๐”ผ๐’“~ Pr โ‹…|๐’™ ๐‘ข ๐’š,

    ๐’“ โšซ โ—ผ argmin ๐’šโˆˆ๐’ด Risk ๐’š = argmin ๐’šโˆˆ๐’ด ๐”ผ๐’šโ€ฒ~ Pr โ‹…|๐’™ โ„’ ๐’š, ๐’šโ€ฒ โšซ โ—ผ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ Pr โ‹… |๐’™ โ—ผ โšซ
  16. โ—ผ ๐’šMBRtrue = argmax ๐’šโˆˆ๐’ด ๐”ผ๐’“~ Pr โ‹…|๐’™ ๐‘ข ๐’š,

    ๐’“ โ—ผ โšซ โ–ถ โšซ โ–ถ โ–ถ Pr โ‹… |๐’™ โšซ โ–ถ
  17. โ—ผ ๐’šMBRtrue = argmax ๐’šโˆˆ๐’ด ๐”ผ๐’“~ Pr โ‹…|๐’™ ๐‘ข ๐’š,

    ๐’“ โ—ผ โšซ โ–ถ โ„‹ โŠ† ๐’ด โšซ โ–ถ โ–ถ Pr โ‹… |๐’™ โšซ โ–ถ
  18. โ—ผ ๐’šMBRtrue = argmax ๐’šโˆˆ๐’ด ๐”ผ๐’“~ Pr โ‹…|๐’™ ๐‘ข ๐’š,

    ๐’“ โ—ผ โšซ โ–ถ โ„‹ โŠ† ๐’ด โšซ โ–ถ โ–ถ Pr โ‹… |๐’™ โšซ โ–ถ
  19. (Eikema & Aziz, COLING2020) โ—ผ เท  โ„› โ‰” ๐’“๐‘– โˆˆ

    ๐’ด ๐’“๐‘– ~๐‘ ๐’“|๐’™; ๐œƒ ๐‘–=1 เท  โ„› โ—ผ ๐‘MC ๐’“|๐’™; เท  โ„› โ‰” ๐‘š เท  โ„› ๐’“ เท  โ„› ๐œ‡MC ๐’‰; เท  โ„› โ‰” เท ๐’“โˆˆSupp เท  โ„› ๐‘MC ๐’“|๐’™; เท  โ„› ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐œ‡MC ๐’‰; เท  โ„› โ—ผ โ„‹ โŠ† ๐’ด โ—ผ เท  โ„› โ—ผ Supp เท  โ„› โŠ† ๐’ด เท  โ„› โ—ผ ๐‘š เทก โ„› : ๐’ด โ†’ โ„ค+ Eikema & Aziz, COLING2020, โ€œIs MAP Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translationโ€.
  20. (Eikema & Aziz, COLING2020) โ—ผ เท  โ„› โ‰” ๐’“๐‘– โˆˆ

    ๐’ด ๐’“๐‘– ~๐‘ ๐’“|๐’™; ๐œƒ ๐‘–=1 เท  โ„› โ—ผ ๐‘MC ๐’“|๐’™; เท  โ„› โ‰” ๐‘š เท  โ„› ๐’“ เท  โ„› ๐œ‡MC ๐’‰; เท  โ„› โ‰” เท ๐’“โˆˆSupp เท  โ„› ๐‘MC ๐’“|๐’™; เท  โ„› ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐œ‡MC ๐’‰; เท  โ„› Eikema & Aziz, COLING2020, โ€œIs MAP Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translationโ€.
  21. (Eikema & Aziz, COLING2020) Eikema & Aziz, COLING2020, โ€œIs MAP

    Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translationโ€. โ—ผ ๐‘ฆMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐œ‡MC ๐’‰; เท  โ„› โ—ผ
  22. โ—ผ โšซ โ–ถ โ„‹ = เท  โ„› โšซ ๐œ– =

    0.02 โ—ผ โšซ โšซ โ—ผ โšซ โ—ผ
  23. โ—ผ ๐’ช โ„‹ เท  โ„› โšซ ๐’ช ๐‘2 ๐‘ โ‰”

    โ„‹ โšซ โšซ โ–ถ โšซ โ—ผ โ—ผ โ„‹ โŠ† ๐’ด โ—ผ เท  โ„›
  24. โ—ผ โšซ (DeNero+, ACL2009; Vamvas&Sennrich, ACL2024) โšซ (Deguchi+, ACLFindigns2024) โ—ผ

    โšซ (Cheng&Vlachos, EMNLP2023) โ—ผ โšซ (Trabelsi+, 2024) DeNero+, ACL2009, โ€œFast Consensus Decoding over Translation Forestsโ€. Vamvas&Sennrich, ACL2024, โ€œLinear-time Minimum Bayes Risk Decoding with Reference Aggregationโ€. Deguchi+, Findings of ACL2024, โ€œCentroid-Based Efficient Minimum Bayes Risk Decodingโ€. Cheng&Vlachos, EMNLP2023, โ€œFaster Minimum Bayes Risk Decoding with Confidence-based Pruningโ€. Trabelsi+, 2024, โ€œEfficient Minimum Bayes Risk Decoding using Low-Rank Matrix Completion Algorithmsโ€.
  25. (Denero+, ACL2009; Vamvas&Sennrich, ACL2024) โ—ผ ๐œ™ ๐’š โšซ โšซ โšซ

    โ—ผ เดค ๐œ™ เท  โ„› = เท ๐’“โˆˆSupp เท  โ„› ๐‘MC ๐’“|๐’™; เท  โ„› ๐œ™ ๐’“ โ—ผ เดค ๐œ™ เท  โ„› ๐’šRAMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐‘  ๐œ™ ๐’‰ , เดค ๐œ™ เท  โ„› โšซ ๐’ช โ„‹ เท  โ„› ๐’ช โ„‹ + เท  โ„› โ—ผ โ„‹ โŠ† ๐’ด โ—ผ เท  โ„› โ—ผ ๐œ™ โ—ผ ๐‘  DeNero+, ACL2009, โ€œFast Consensus Decoding over Translation Forestsโ€. Vamvas&Sennrich, ACL2024, โ€œLinear-time Minimum Bayes Risk Decoding with Reference Aggregationโ€.
  26. (Deguchi+, Findings of ACL2024) โ—ผ ๐ท โšซ ๐œ™: ๐’ด โ†’

    โ„๐ท โ—ผ ๐‘˜ โšซ ๐‘˜ โ—ผ ๐’ช โ„‹ ๐‘˜ + เท  โ„› ๐‘˜ โ—ผ Deguchi+, Findings of ACL2024, โ€œCentroid-Based Efficient Minimum Bayes Risk Decodingโ€.
  27. (Trabelsi+, 2024) โ—ผ โ„‹ ร— เท  โ„› โšซ โ—ผ โšซ

    โ–ถ โ–ถ โ—ผ โšซ ๐ป โˆˆ โ„๐‘Ÿร— โ„‹ , ๐‘… โˆˆ โ„๐‘Ÿร— เท  โ„› โšซ ๐‘€ โ‰ˆ ๐ปโŠค๐‘… โ–ถ Trabelsi+, 2024, โ€œEfficient Minimum Bayes Risk Decoding using Low-Rank Matrix Completion Algorithmsโ€.
  28. (Jinnai+, ICML2024) โ—ผ โ—ผ โ—ผ ๐‘MB ๐’“|๐’™; โ„›, ๐œƒ โ‰”

    ๐‘ ๐’“|๐’™; ๐œƒ ฯƒ ๐’“โˆˆโ„› ๐‘ ๐’“|๐’™; ๐œƒ ๐œ‡MB ๐’‰; โ„›, ๐œƒ โ‰” เท ๐’“โˆˆโ„› ๐‘MB ๐’“|๐’™; โ„›, ๐œƒ ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MB = argmax ๐’‰โˆˆโ„‹ ๐œ‡MB ๐’‰; โ„›, ๐œƒ โ—ผ โ„‹ โŠ† ๐’ด โ—ผ โ„› Jinnai+, ICML2024, โ€œModel-Based Minimum Bayes Risk Decoding for Text Generationโ€.
  29. โ—ผ ๐‘MB ๐’“|๐’™; โ„›, ๐œƒ โ‰” ๐‘ ๐’“|๐’™; ๐œƒ ฯƒ

    ๐’“โˆˆโ„› ๐‘ ๐’“|๐’™; ๐œƒ ๐œ‡MB ๐’‰; โ„›, ๐œƒ โ‰” เท ๐’“โˆˆโ„› ๐‘MB ๐’“|๐’™; โ„›, ๐œƒ ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MB = argmax ๐’‰โˆˆโ„‹ ๐œ‡MB ๐’‰; โ„›, ๐œƒ โ—ผ โ„‹ โŠ† ๐’ด โ—ผ เท  โ„› โ—ผ โ„› โ—ผ ๐‘MC ๐’“|๐’™; เท  โ„› โ‰” ๐‘š เท  โ„› ๐’“ เท  โ„› ๐œ‡MC ๐’‰; เท  โ„› โ‰” เท ๐’“โˆˆSupp เท  โ„› ๐‘MC ๐’“|๐’™; เท  โ„› ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐œ‡MC ๐’‰; เท  โ„› Jinnai+, ICML2024, โ€œModel-Based Minimum Bayes Risk Decoding for Text Generationโ€.
  30. Deguchi+, arxiv, 2408.04167, โ€œmbrs: A Library for Minimum Bayes Risk

    Decodingโ€. ๐‘ข ๐‘ข โ—ผ โ—ผ
  31. Deguchi+, arxiv, 2408.04167, โ€œmbrs: A Library for Minimum Bayes Risk

    Decodingโ€. โ—ผ โšซ โšซ โšซ โ—ผ โšซ โšซ โšซ โšซ