Upgrade to PRO for Only $50/Yearโ€”Limited-Time Offer! ๐Ÿ”ฅ

20240820: Minimum Bayes Risk Decoding for High-...

20240820: Minimum Bayes Risk Decoding for High-Quality Text Generation Beyond High-Probabilityย Text

Avatar for Hiroyuki Deguchi

Hiroyuki Deguchi

August 20, 2024
Tweet

More Decks by Hiroyuki Deguchi

Other Decks in Research

Transcript

  1. โ—ผ โšซ โšซ โšซ โ—ผ โ—ผ โšซ โšซ โ–ถ โ–ถ

    https://en.wikipedia.org/wiki/Transfer-based_machine_translation
  2. โ—ผ โšซ ๐’šโ‹† โˆˆ ๐’ด โ–ถ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ—

    โšซ ๐’™ โˆˆ ๐’ณ โ–ถ โ—ผ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’ฑ๐‘‹ โˆ—, ๐’ฑ๐‘Œ โˆ— โšซ ๐’š1 โšซ ๐’š2 โšซ ๐’š3 โšซ ๐’š4 โšซ
  3. โ—ผ โšซ ๐’šโ‹† โˆˆ ๐’ด โ–ถ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ—

    โšซ ๐’™ โˆˆ ๐’ณ โ–ถ โ—ผ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’ฑ๐‘‹ โˆ—, ๐’ฑ๐‘Œ โˆ—
  4. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ ๐’™

    โˆˆ ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’š โˆˆ ๐’ฑ๐‘Œ โˆ— โšซ ๐’ฑ๐‘‹ โˆ—, ๐’ฑ๐‘Œ โˆ— โ—ผ ๐œƒ โšซ ๐‘ This book is interesting ; ๐œƒ) = 0.8434 ๐‘ This book is delicious ; ๐œƒ) = 0.0013
  5. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ โšซ

    โšซ ๐‘ ๐’š|๐’™; ๐œƒ = ๐‘ ๐‘ฆ1 |๐’™; ๐œƒ ๐‘ ๐‘ฆ2 |๐‘ฆ1 , ๐’™; ๐œƒ ๐‘ ๐‘ฆ3 |๐‘ฆ2 , ๐‘ฆ1 , ๐’™; ๐œƒ โ€ฆ โ—ผ ๐’™ โˆˆ ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’š โˆˆ ๐’ฑ๐‘Œ โˆ— โšซ ๐’ฑ๐‘‹ โˆ—, ๐’ฑ๐‘Œ โˆ— โ—ผ ๐œƒ โšซ ๐‘ interesting This book is, ; ๐œƒ) = 0.2875 ๐‘ delicious This book is, ; ๐œƒ) = 0.0003
  6. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ ๐’šMAP๐œƒ

    โˆˆ ๐’ด ๐’šMAP๐œƒ = argmax ๐’šโˆˆ๐’ด ๐‘ ๐’š|๐’™; ๐œƒ ฯ‚ ๐‘ก=1 ๐’š ๐‘ ๐‘ฆ๐‘ก|๐’š<๐‘ก,๐’™;๐œƒ โšซ โšซ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’š1 โšซ ๐’š2 โšซ ๐’š3 โšซ ๐’š4 โšซ โ—ผ ๐œƒ โšซ
  7. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ ๐’šMAP๐œƒ

    โˆˆ ๐’ด ๐’šMAP๐œƒ = argmax ๐’šโˆˆ๐’ด ๐‘ ๐’š|๐’™; ๐œƒ ฯ‚ ๐‘ก=1 ๐’š ๐‘ ๐‘ฆ๐‘ก|๐’š<๐‘ก,๐’™;๐œƒ โšซ โšซ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’š1 โšซ ๐’š2 โšซ ๐’š3 โšซ ๐’š4 โšซ โ—ผ ๐œƒ โšซ โ—ผ โšซ
  8. โ—ผ ๐‘ ๐’š|๐’™; ๐œƒ โšซ ๐’š ๐’™ ๐’š โ—ผ ๐’šMAP๐œƒ

    โˆˆ ๐’ด ๐’šMAP๐œƒ = argmax ๐’šโˆˆ๐’ด ๐‘ ๐’š|๐’™; ๐œƒ ฯ‚ ๐‘ก=1 ๐’š ๐‘ ๐‘ฆ๐‘ก|๐’š<๐‘ก,๐’™;๐œƒ โšซ โšซ โ—ผ ๐’ณ โ‰” ๐’ฑ๐‘‹ โˆ— โ—ผ ๐’ด โ‰” ๐’ฑ๐‘Œ โˆ— โšซ ๐’š1 โšซ ๐’š2 โšซ ๐’š3 โšซ ๐’š4 โšซ โ—ผ ๐œƒ โšซ โ—ผ โšซ
  9. โ—ผ โšซ โ–ถ โ—ผ โšซ โšซ ๐‘ ""|๐’™; ๐œƒ โšซ

    ; 1 2 3 4 5 ๐‘ฆ5 (Ott+, ICML2018; Stahlberg & Byrne, EMNLP2019) Ott+, ICML2018, โ€œAnalyzing Uncertainty in Neural Machine Translationโ€. Stahlberg & Byrne, EMNLP2019, โ€œOn NMT Search Errors and Model Errors: Cat Got Your Tongue?โ€
  10. โ—ผ Risk ๐’š = ๐”ผ๐’šโ€ฒ~ Pr โ‹…|๐’™ โ„’ ๐’š, ๐’šโ€ฒ

    โšซ โ—ผ โšซ argmin ๐’šโˆˆ๐’ด Risk ๐’š Goel & Byrne, CS&L Vol14., 2000, โ€œMinimum Bayes-risk automatic speech recognitionโ€. Kumar & Byrne, NAACL2004, โ€œMinimum Bayes-Risk Decoding for Statistical Machine Translationโ€. โ—ผ โ„’: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ Pr โ‹… |๐’™
  11. โ—ผ Risk ๐’š = ๐”ผ๐’šโ€ฒ~ Pr โ‹…|๐’™ โ„’ ๐’š, ๐’šโ€ฒ

    โšซ โ—ผ โšซ argmin ๐’šโˆˆ๐’ด Risk ๐’š โ—ผ Goel & Byrne, CS&L Vol14., 2000, โ€œMinimum Bayes-risk automatic speech recognitionโ€. Kumar & Byrne, NAACL2004, โ€œMinimum Bayes-Risk Decoding for Statistical Machine Translationโ€. โ—ผ โ„’: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ Pr โ‹… |๐’™
  12. โ—ผ (von Neumann & Morgenstern, 1944) โšซ von Neumann &

    Morgenstern, 1944, โ€œTheory of Games and Economic Behaviorโ€. โšซ โšซ โ–ถ $1500 โˆ— 0.75 + $3000 โˆ— 0.25 = $1875 โšซ โ–ถ $1500 โˆ— 0.25 + $3000 โˆ— 0.75 = $2625
  13. โ—ผ โšซ โšซ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ ๐’š

    โ‰ฝ ๐’šโ€ฒ โ‡” ๐‘ข ๐’š, ๐’“ โ‰ฅ ๐‘ข ๐’šโ€ฒ, ๐’“ โšซ โ—ผ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ โ‰ฝ ๐’š ๐’šโ€ฒ โ—ผ ๐’“ โˆˆ ๐’ด
  14. โ—ผ โšซ โšซ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ ๐’š

    โ‰ฝ ๐’šโ€ฒ โ‡” ๐‘ข ๐’š, ๐’“ โ‰ฅ ๐‘ข ๐’šโ€ฒ, ๐’“ โšซ โ—ผ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ โ‰ฝ ๐’š ๐’šโ€ฒ โ—ผ ๐’“ โˆˆ ๐’ด
  15. โ—ผ ๐’šMBRtrue = argmax ๐’šโˆˆ๐’ด ๐”ผ๐’“~ Pr โ‹…|๐’™ ๐‘ข ๐’š,

    ๐’“ โšซ โ—ผ argmin ๐’šโˆˆ๐’ด Risk ๐’š = argmin ๐’šโˆˆ๐’ด ๐”ผ๐’šโ€ฒ~ Pr โ‹…|๐’™ โ„’ ๐’š, ๐’šโ€ฒ โšซ โ—ผ ๐‘ข: ๐’ด ร— ๐’ด โ†’ โ„ โ—ผ Pr โ‹… |๐’™ โ—ผ โšซ
  16. โ—ผ ๐’šMBRtrue = argmax ๐’šโˆˆ๐’ด ๐”ผ๐’“~ Pr โ‹…|๐’™ ๐‘ข ๐’š,

    ๐’“ โ—ผ โšซ โ–ถ โšซ โ–ถ โ–ถ Pr โ‹… |๐’™ โšซ โ–ถ
  17. โ—ผ ๐’šMBRtrue = argmax ๐’šโˆˆ๐’ด ๐”ผ๐’“~ Pr โ‹…|๐’™ ๐‘ข ๐’š,

    ๐’“ โ—ผ โšซ โ–ถ โ„‹ โІ ๐’ด โšซ โ–ถ โ–ถ Pr โ‹… |๐’™ โšซ โ–ถ
  18. โ—ผ ๐’šMBRtrue = argmax ๐’šโˆˆ๐’ด ๐”ผ๐’“~ Pr โ‹…|๐’™ ๐‘ข ๐’š,

    ๐’“ โ—ผ โšซ โ–ถ โ„‹ โІ ๐’ด โšซ โ–ถ โ–ถ Pr โ‹… |๐’™ โšซ โ–ถ
  19. (Eikema & Aziz, COLING2020) โ—ผ เท  โ„› โ‰” ๐’“๐‘– โˆˆ

    ๐’ด ๐’“๐‘– ~๐‘ ๐’“|๐’™; ๐œƒ ๐‘–=1 เท  โ„› โ—ผ ๐‘MC ๐’“|๐’™; เท  โ„› โ‰” ๐‘š เท  โ„› ๐’“ เท  โ„› ๐œ‡MC ๐’‰; เท  โ„› โ‰” เท ๐’“โˆˆSupp เท  โ„› ๐‘MC ๐’“|๐’™; เท  โ„› ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐œ‡MC ๐’‰; เท  โ„› โ—ผ โ„‹ โІ ๐’ด โ—ผ เท  โ„› โ—ผ Supp เท  โ„› โІ ๐’ด เท  โ„› โ—ผ ๐‘š เทก โ„› : ๐’ด โ†’ โ„ค+ Eikema & Aziz, COLING2020, โ€œIs MAP Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translationโ€.
  20. (Eikema & Aziz, COLING2020) โ—ผ เท  โ„› โ‰” ๐’“๐‘– โˆˆ

    ๐’ด ๐’“๐‘– ~๐‘ ๐’“|๐’™; ๐œƒ ๐‘–=1 เท  โ„› โ—ผ ๐‘MC ๐’“|๐’™; เท  โ„› โ‰” ๐‘š เท  โ„› ๐’“ เท  โ„› ๐œ‡MC ๐’‰; เท  โ„› โ‰” เท ๐’“โˆˆSupp เท  โ„› ๐‘MC ๐’“|๐’™; เท  โ„› ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐œ‡MC ๐’‰; เท  โ„› Eikema & Aziz, COLING2020, โ€œIs MAP Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translationโ€.
  21. (Eikema & Aziz, COLING2020) Eikema & Aziz, COLING2020, โ€œIs MAP

    Decoding All You Need? The Inadequacy of the Mode in Neural Machine Translationโ€. โ—ผ ๐‘ฆMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐œ‡MC ๐’‰; เท  โ„› โ—ผ
  22. โ—ผ โšซ โ–ถ โ„‹ = เท  โ„› โšซ ๐œ– =

    0.02 โ—ผ โšซ โšซ โ—ผ โšซ โ—ผ
  23. โ—ผ ๐’ช โ„‹ เท  โ„› โšซ ๐’ช ๐‘2 ๐‘ โ‰”

    โ„‹ โšซ โšซ โ–ถ โšซ โ—ผ โ—ผ โ„‹ โІ ๐’ด โ—ผ เท  โ„›
  24. โ—ผ โšซ (DeNero+, ACL2009; Vamvas&Sennrich, ACL2024) โšซ (Deguchi+, ACLFindigns2024) โ—ผ

    โšซ (Cheng&Vlachos, EMNLP2023) โ—ผ โšซ (Trabelsi+, 2024) DeNero+, ACL2009, โ€œFast Consensus Decoding over Translation Forestsโ€. Vamvas&Sennrich, ACL2024, โ€œLinear-time Minimum Bayes Risk Decoding with Reference Aggregationโ€. Deguchi+, Findings of ACL2024, โ€œCentroid-Based Efficient Minimum Bayes Risk Decodingโ€. Cheng&Vlachos, EMNLP2023, โ€œFaster Minimum Bayes Risk Decoding with Confidence-based Pruningโ€. Trabelsi+, 2024, โ€œEfficient Minimum Bayes Risk Decoding using Low-Rank Matrix Completion Algorithmsโ€.
  25. (Denero+, ACL2009; Vamvas&Sennrich, ACL2024) โ—ผ ๐œ™ ๐’š โšซ โšซ โšซ

    โ—ผ เดค ๐œ™ เท  โ„› = เท ๐’“โˆˆSupp เท  โ„› ๐‘MC ๐’“|๐’™; เท  โ„› ๐œ™ ๐’“ โ—ผ เดค ๐œ™ เท  โ„› ๐’šRAMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐‘  ๐œ™ ๐’‰ , เดค ๐œ™ เท  โ„› โšซ ๐’ช โ„‹ เท  โ„› ๐’ช โ„‹ + เท  โ„› โ—ผ โ„‹ โІ ๐’ด โ—ผ เท  โ„› โ—ผ ๐œ™ โ—ผ ๐‘  DeNero+, ACL2009, โ€œFast Consensus Decoding over Translation Forestsโ€. Vamvas&Sennrich, ACL2024, โ€œLinear-time Minimum Bayes Risk Decoding with Reference Aggregationโ€.
  26. (Deguchi+, Findings of ACL2024) โ—ผ ๐ท โšซ ๐œ™: ๐’ด โ†’

    โ„๐ท โ—ผ ๐‘˜ โšซ ๐‘˜ โ—ผ ๐’ช โ„‹ ๐‘˜ + เท  โ„› ๐‘˜ โ—ผ Deguchi+, Findings of ACL2024, โ€œCentroid-Based Efficient Minimum Bayes Risk Decodingโ€.
  27. (Trabelsi+, 2024) โ—ผ โ„‹ ร— เท  โ„› โšซ โ—ผ โšซ

    โ–ถ โ–ถ โ—ผ โšซ ๐ป โˆˆ โ„๐‘Ÿร— โ„‹ , ๐‘… โˆˆ โ„๐‘Ÿร— เท  โ„› โšซ ๐‘€ โ‰ˆ ๐ปโŠค๐‘… โ–ถ Trabelsi+, 2024, โ€œEfficient Minimum Bayes Risk Decoding using Low-Rank Matrix Completion Algorithmsโ€.
  28. (Jinnai+, ICML2024) โ—ผ โ—ผ โ—ผ ๐‘MB ๐’“|๐’™; โ„›, ๐œƒ โ‰”

    ๐‘ ๐’“|๐’™; ๐œƒ ฯƒ ๐’“โˆˆโ„› ๐‘ ๐’“|๐’™; ๐œƒ ๐œ‡MB ๐’‰; โ„›, ๐œƒ โ‰” เท ๐’“โˆˆโ„› ๐‘MB ๐’“|๐’™; โ„›, ๐œƒ ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MB = argmax ๐’‰โˆˆโ„‹ ๐œ‡MB ๐’‰; โ„›, ๐œƒ โ—ผ โ„‹ โІ ๐’ด โ—ผ โ„› Jinnai+, ICML2024, โ€œModel-Based Minimum Bayes Risk Decoding for Text Generationโ€.
  29. โ—ผ ๐‘MB ๐’“|๐’™; โ„›, ๐œƒ โ‰” ๐‘ ๐’“|๐’™; ๐œƒ ฯƒ

    ๐’“โˆˆโ„› ๐‘ ๐’“|๐’™; ๐œƒ ๐œ‡MB ๐’‰; โ„›, ๐œƒ โ‰” เท ๐’“โˆˆโ„› ๐‘MB ๐’“|๐’™; โ„›, ๐œƒ ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MB = argmax ๐’‰โˆˆโ„‹ ๐œ‡MB ๐’‰; โ„›, ๐œƒ โ—ผ โ„‹ โІ ๐’ด โ—ผ เท  โ„› โ—ผ โ„› โ—ผ ๐‘MC ๐’“|๐’™; เท  โ„› โ‰” ๐‘š เท  โ„› ๐’“ เท  โ„› ๐œ‡MC ๐’‰; เท  โ„› โ‰” เท ๐’“โˆˆSupp เท  โ„› ๐‘MC ๐’“|๐’™; เท  โ„› ๐‘ข ๐’‰, ๐’“ ๐‘ฆMBR๐œƒ MC = argmax ๐’‰โˆˆโ„‹ ๐œ‡MC ๐’‰; เท  โ„› Jinnai+, ICML2024, โ€œModel-Based Minimum Bayes Risk Decoding for Text Generationโ€.
  30. Deguchi+, arxiv, 2408.04167, โ€œmbrs: A Library for Minimum Bayes Risk

    Decodingโ€. ๐‘ข ๐‘ข โ—ผ โ—ผ
  31. Deguchi+, arxiv, 2408.04167, โ€œmbrs: A Library for Minimum Bayes Risk

    Decodingโ€. โ—ผ โšซ โšซ โšซ โ—ผ โšซ โšซ โšซ โšซ