【輪講資料】Moshi: a speech-text foundation model for real-time dialogue

Moshi: a speech-text foundation model  for real-time dialogue Alexandre Défossez,
Laurent Mazaré, Manu Orsini, Amélie Royer, Patrick Pérez, Hervé Jégou, Edouard Grave, Neil Zeghidour https://arxiv.org/abs/2410.00037 Nagoya Univ. D3, Hayato Tsukagoshi

•Full-duplexͳϦΞϧλΠϜର࿩Ϟσϧ Moshi ΛఏҊ͢Δ࿦จ • ϢʔβͷԻ੠Λฉ͖ͳ͕Βಉ࣌ʹϞσϧ͕ग़ྗͰ͖Δ • 㱻 half-duplex: ยํ͕࿩ͯ͠Δؒɺ΋͏ยํ͸࿩ͤͳ͍ •ϑϥϯεͷύϦΛڌ఺ͱ͢ΔඇӦརݚڀॴ
Kyutai ͷݚڀ •పఈతʹετϦʔϛϯάॲཧΛҙࣝͨ͠ΞʔΩςΫνϟ͕ಛ௃ • ϢʔβԻ੠ɾϞσϧԻ੠ɾϞσϧςΩετΛಉ࣌ʹϞσϧ΁ೖྗ •χϡʔϥϧԻ੠ίʔσοΫ Mimi ΋։ൃͯ͠׆༻ • 24000HzͷԻ੠Λ12.5HzͷτʔΫϯྻʹτʔΫφΠζ͢Δ ֓ཁ 2

•౦தݚͷେڮ͘Μ͕  ೔ຊޠ൛ϞσϧΛެ։ • ΦϦδφϧͷMoshiʹରͯ͠  ೔ຊޠର࿩σʔλ + ߹੒σʔλ  Ͱ fi ne-tuning
•ΊͪΌͪ͘ΌόζͬͯΔ… ༨ஊ 3

•Ի੠+ݴޠͳਂ૚ֶशͷ࠷ઌ୺Ͱ໘ന͍ʂ બఆཧ༝ 4

•ࣗݾճؼܕTransformerϕʔεͷ7BϞσϧ + Ի੠τʔΫφΠβ •Ի੠τʔΫφΠβ Mimi ʹΑΓԻ੠ΛIDྻʹม׵͠཭ࢄతʹѻ͏ • frame rate (1ඵ͋ͨΓͷσʔλྔ)
͸ 12.5 •ೖྗ: ϢʔβͷԻ੠ɺϞσϧͷԻ੠ɺςΩετ (inner monologue) • ͦΕͧΕʹରԠ͢ΔϕΫτϧΛͨ͋͠ΘͤͯTransformerʹೖྗ Moshiͷߏ੒ 5

•MoshiΛࢧ͑Δج൫ٕज़ͷҰͭɺ96.2MͰConvͱTransformer͔ΒͳΔ (hf) • 80msΛ1 tokenͱͯ͠ѻ͍ɺೖྗαϯϓϦϯάϨʔτ͸24000Hz •Ի੠೾ܗΛ཭ࢄతͳAudio tokenʹม׵͢ΔNeural Audio Codec •
VQ-VAEͰ஌ΒΕΔdiscrete bottleneckΛ࠾༻ •Audio token͸Acoustic TokenͱSemantic Tokenͷ2छྨ͕ग़ྗ • Semantic Token: Ի੠ͷҙຯతɾԻӆత৘ใΛଊ͑Δ • WavLM ͷຒΊࠐΈදݱΛৠཹ • Acoustic Token: ࡉ͔ͳԻڹಛ௃Λଊ͑Δ •Residual Vector Quantizer (RVQ) ʹΑΓஈ֊తʹԻ੠೾ܗΛྔࢠԽ Mimi 6

•MoshiΛࢧ͑Δج൫ٕज़ͷҰͭɺ96.2MͰConvͱTransformer͔ΒͳΔ (hf) • 80msΛ1 tokenͱͯ͠ѻ͍ɺೖྗαϯϓϦϯάϨʔτ͸24000Hz •Ի੠೾ܗΛ཭ࢄతͳAudio tokenʹม׵͢ΔNeural Audio Codec •
VQ-VAEͰ஌ΒΕΔdiscrete bottleneckΛ࠾༻ •Audio token͸Acoustic TokenͱSemantic Tokenͷ2छྨ͕ग़ྗ • Semantic Token: Ի੠ͷҙຯతɾԻӆత৘ใΛଊ͑Δ • WavLM ͷຒΊࠐΈදݱΛৠཹ • Acoustic Token: ࡉ͔ͳԻڹಛ௃Λଊ͑Δ •Residual Vector Quantizer (RVQ) ʹΑΓஈ֊తʹԻ੠೾ܗΛྔࢠԽ Mimi 7

•ϕΫτϧΛෳ਺ͷID͔ΒͳΔIDྻʹྔࢠԽ •ྔࢠԽ͸ஈ֊తʹߦΘΕΔ • ·ͣϕΫτϧྔࢠԽΛߦ͏ • ࣍ʹೖྗϕΫτϧͱྔࢠԽޙͷϕΫτϧͱͷࠩ෼Λಉ༷ʹྔࢠԽ͢Δ • ҎԼ܁Γฦ͠ •ॏཁͳ৘ใ͔ΒॱʹྔࢠԽ͢ΔΑ͏ʹࣗવʹֶश͞ΕΔ •
Quantizer͸·ͣೖྗϕΫτϧશମΛද͢Α͏ͳϕΫτϧΛબͿ • ײ֮తʹ͸Matryoshka Representation Learningʹ͍ۙʁ Residual Vector Quantization: RVQ 8

RVQ: Πϝʔδਤ 9 Codebook ྔࢠԽର৅ … id=0 id=1 id=2 id=3
id=2047

id=2047 ࠷ۙ๣

id=2047 [ 1, ग़ྗIDྻ

id=2047 [ 1, ग़ྗIDྻ = -

id=2047 [ 1, ग़ྗIDྻ

id=2047 [ 1, ग़ྗIDྻ ࠷ۙ๣

id=2047 ग़ྗIDྻ [ 1, 3,

id=2047 ग़ྗIDྻ [ 1, 3, = -

id=2047 ग़ྗIDྻ [ 1, 3, ࠷ۙ๣

id=2047 ग़ྗIDྻ [ 1, 3, 2, = -

RVQ: Πϝʔδਤ (nճޙ) 19 Codebook ྔࢠԽର৅ … id=0 id=1 id=2
id=3 id=2047 ग़ྗIDྻ [ 1, 3, 2, 2047, …, 4]

Mimiͷ܇࿅֓ཁਤ: ΊͬͪΌ؆ུԽ൛ 20 Mimi  Encoder Mimi  Decoder WavLM Cosྨࣅ౓ ❄
࠶ߏ੒ଛࣦ + ఢରతଛࣦ

Mimiͷ܇࿅֓ཁਤ: ΊͬͪΌ؆ུԽ൛ 21 Mimi  Encoder Mimi  Decoder WavLM Cosྨࣅ౓ ❄
࠶ߏ੒ଛࣦ + ఢରతଛࣦ non-causalϞσϧͷϕΫτϧ  ʹ͚ۙͮͭͭɺԻ੠඼࣭΋ߴΊΔ

•݁ߏؤுͬͯ࡞͍ͬͯΔ Mimiͷ֓ཁਤ 22

•݁ߏؤுͬͯ࡞͍ͬͯΔ Mimiͷ֓ཁਤ 23 ੜͷԻ੠ΛࣗݾճؼతʹϕΫτϧྻ΁

•݁ߏؤுͬͯ࡞͍ͬͯΔ Mimiͷ֓ཁਤ 24 Acoustic Token͸RVQ Semantic Token͸ઢܗ૚+VQ

•݁ߏؤுͬͯ࡞͍ͬͯΔ Mimiͷ֓ཁਤ 25 WavLMͷϕΫτϧʹ  Semantic Token͕ۙͮ͘Α͏ʹֶश

•݁ߏؤுͬͯ࡞͍ͬͯΔ Mimiͷ֓ཁਤ 26 ଍͠߹ΘͤΛDecoderʹೖྗͯ͠ Ի੠೾ܗΛ௚઀ग़ྗ

•݁ߏؤுͬͯ࡞͍ͬͯΔ Mimiͷ֓ཁਤ 27 ग़ྗͨ͠Ի੠೾ܗ͕ೖྗʹۙͮ͘Α͏ʹ +ຊ෺ͬΆ͘ͳΔΑ͏ʹֶश

•·ͣ௨ৗͷࣗݾճؼܕݴޠϞσϧΛߏங • ެ։ӳޠίʔύε 2.1T tokensɺܥྻ௕4096ɺϞσϧαΠζ7B • ߏங͞Εͨ7B LLMΛHeliumͱݺশ • ͜ͷஈ֊Ͱ͸୯७ʹtext-in,
text-out •࣍ʹɺHeliumΛϕʔεʹԻ੠Λೖग़ྗʹ଍ͯ͠܇࿅ • ͱݴͬͯ΋MimiͷτʔΫϯΛ༧ଌ͢ΔΑ͏ʹ܇࿅͢ΔͷͰ௨ৗͷ  ݴޠϞσϦϯάͱରͯ͠มΘΒͳ͍ (࣍ͷτʔΫϯ༧ଌ) •Temporal Transformer (HeliumͰॳظԽ) ͱ Depth Transformer͔ΒͳΔ • ͜ͷೋͭΛ·ͱΊͯRQ-Transformerͱݺশ MoshiͷΞʔΩςΫνϟ֓ཁ 28

•·ͣ௨ৗͷࣗݾճؼܕݴޠϞσϧΛߏங • ެ։ӳޠίʔύε 2.1T tokensɺܥྻ௕4096ɺϞσϧαΠζ7B • ߏங͞Εͨ7B LLMΛHeliumͱݺশ • ͜ͷஈ֊Ͱ͸୯७ʹtext-in,
text-out •࣍ʹɺHeliumΛϕʔεʹԻ੠Λೖग़ྗʹ଍ͯ͠܇࿅ • ͱݴͬͯ΋MimiͷτʔΫϯΛ༧ଌ͢ΔΑ͏ʹ܇࿅͢ΔͷͰ௨ৗͷ  ݴޠϞσϦϯάͱରͯ͠มΘΒͳ͍ (࣍ͷτʔΫϯ༧ଌ) •Temporal Transformer (HeliumͰॳظԽ) ͱ Depth Transformer͔ΒͳΔ • ͜ͷೋͭΛ·ͱΊͯRQ-Transformerͱݺশ MoshiͷΞʔΩςΫνϟ֓ཁ 29

•Temporal Transformer͕ςΩετΛग़ྗ •Depth Transformer͕Semantic TokenͱAcoustic TokenΛࣗݾճؼతʹग़ྗ →࣌ؒํ޲ɾcodebookํ޲ͷೋͭͷࣗݾճؼͷྲྀΕ MoshiͷΞʔΩςΫνϟਤ 30 RQ-Transformer
Mimi  Encoder Mimi  Decoder Temporal  Transformer Helium Depth  Transformer

•Temporal TransformerʹϕΫτϧΛೖྗ •࣍ͷτʔΫϯ༧ଌͰ܇࿅ RQ-TransformerͷΞʔΩςΫνϟਤ 31

•1࣌ࠁ͝ͱʹ… •ϢʔβͷԻ੠͕1+7 token •ϞσϧͷԻ੠͕1+7 token •ϞσϧͷςΩετ͕1 token → Multi-stream Modeling
•1࣌ࠁ͝ͱʹશ෦଍͠߹Θͤͯ  ୯ҰͷϕΫτϧʹ͠ɺϞσϧ΁  ೖྗ Moshiͷೖྗ֓ཁਤ 32

•1࣌ࠁ͝ͱʹ… •ϢʔβͷԻ੠͕1+7 token •ϞσϧͷԻ੠͕1+7 token •ϞσϧͷςΩετ͕1 token → Multi-stream Modeling
•1࣌ࠁ͝ͱʹશ෦଍͠߹Θͤͯ  ୯ҰͷϕΫτϧʹ͠ɺϞσϧ΁  ೖྗ Moshiͷೖྗ֓ཁਤ 33 https://github.com/kyutai-labs/moshi/blob/950e9771dc33d7aa48f80175a189c5c902016df2/moshi/moshi/models/lm.py#L381 ݩ࣮૷ (৴͡೉͍͕) 17ݸͷຒΊࠐΈΛ଍͠߹Θͤͯ ҰͭͷϕΫτϧʹ͍ͯ͠Δ Σ੧(❛□❛✿)

Moshiͷೖྗ֓ཁਤ: ετϦʔϛϯάॲཧͷ৔߹ 34 Ϟσϧͷग़ྗԻ੠ ϢʔβͷೖྗԻ੠ Ϟσϧͷग़ྗςΩετ •Ұఆ࣌ؒ͝ͱʹೖྗ͕Ϟσϧʹೖͬͯ͘Δ •ετϦʔϛϯάॲཧͷͨΊʹ͸: • Ϟσϧ͸Ұఆ࣌ؒҎ಺ʹॲཧΛ׬ྃͤͯ͞ग़ྗΛग़͢
• ͦΕΛ΋͏Ұ౓ೖྗʹೖΕͭͭɺϢʔβଆͷ࣍ͷ࣌ࠁͷԻ੠΋ೖྗ

Moshiͷೖྗ֓ཁਤ: ࣮ࡍͷ࣌ࠁ͝ͱͷೖྗ 35 Ϟσϧͷग़ྗԻ੠ ϢʔβͷೖྗԻ੠ Ϟσϧͷग़ྗςΩετ •Ұఆ࣌ؒ͝ͱʹೖྗ͕Ϟσϧʹೖͬͯ͘Δ •ετϦʔϛϯάॲཧͷͨΊʹ͸: • Ϟσϧ͸Ұఆ࣌ؒҎ಺ʹॲཧΛ׬ྃͤͯ͞ग़ྗΛग़͢
• ͦΕΛ΋͏Ұ౓ೖྗʹೖΕͭͭɺϢʔβଆͷ࣍ͷ࣌ࠁͷԻ੠΋ೖྗ t=2

Ի੠ೝࣝ(ASR), Ի੠߹੒(TTS)΁ͷస༻ 39 ςΩετ Ի੠ Ի੠ ςΩετ ASR TTS •MoshiͷMulti-stream
Modeling͸؆୯ʹASR, TTS΁ద༻Ͱ͖Δ •ζϨΛม͑Δ͚ͩͰࣗવʹͲͪΒͷλεΫ΋දݱՄೳ • ASRͷ৔߹͸ॻ͖ى͍ͨ͜͠Ի੠Λฉ͍͔ͯΒςΩετΛग़ྗ • TTSͷ৔߹͸ൃԻ͍ͨ͠ςΩετΛݟ͔ͯΒԻ੠Λग़ྗ ͕ͬͪ͜଴ͭ ͕ͬͪ͜଴ͭ

Ի੠ೝࣝ(ASR), Ի੠߹੒(TTS)΁ͷస༻ 40 ςΩετ Ի੠ Ի੠ ςΩετ ASR TTS Ϟσϧࣗ਎ͷग़ྗςΩετ
80ms͝ͱͷϢʔβͷԻ੠ ͜͜ͷग़ྗϕΫτϧͰ࣍୯ޠ༧ଌ

Ի੠ೝࣝ(ASR), Ի੠߹੒(TTS)΁ͷస༻ 41 ςΩετ Ի੠ Ի੠ ςΩετ ASR TTS ͜͜ͷग़ྗϕΫτϧ͔Β࣍”Ի੠”༧ଌ
Ϣʔβ͕ೖྗͨ͠ςΩετ Ϟσϧͷग़ྗԻ੠

•Temporal Transformer͕ςΩετΛग़ྗ •Depth Transformer͕Semantic TokenͱAcoustic TokenΛࣗݾճؼతʹग़ྗ →࣌ؒํ޲ɾcodebookํ޲ͷೋͭͷࣗݾճؼͷྲྀΕ MoshiͷΞʔΩςΫνϟਤ (࠶ܝ) 42
RQ-Transformer Mimi  Encoder Mimi  Decoder Temporal  Transformer Helium Depth  Transformer

1. Heliumͷࣄલֶश: 2.1T tokenͰ7BͷLLMΛ܇࿅ 2. RQ‑Transformerͷࣄલֶश: Ի੠ɾςΩετΛೖग़ྗʹ700ສֶ࣌ؒश 3. Multi-Streamର࿩ֶश: ্هΛ࿩ऀ෼཭ˠԻ੠ɾςΩετΛಉ࣌ʹ܇࿅
4. Fisher datasetʹΑΔ fi ne-tuning 5. ࢦֶࣔश Moshiͷ܇࿅޻ఔ 43

•ධՁ߲໨ • HeliumͷLLM ͱͯ͠ͷೳྗ • Ի੠τʔΫφΠζ • Ի੠LMͱͯ͠ͷೳྗ • Ի੠QA
• ର࿩ੜ੒඼࣭ • ετϦʔϛϯάASR, TTS • ྔࢠԽ ධՁ࣮ݧ 44

•Llama2΍Mistralͱൺֱͯ͠ѱ͘ͳ͍ੑೳ • → ಉن໛ܭࢉࢿݯͷLLMͱͯ͠͸͍͍ײ͡ ධՁ࣮ݧ: LLMͱͯ͠ͷධՁ 45 ܧଓֶश͡Όμϝͩͬͨͷ͔? 🤨

•ABX: Ի੠ͷຒΊࠐΈදݱΛ༻͍ͨࣗಈධՁࢦඪ •MOSNet: reference-freeͳԻ࣭༧ଌධՁ (ਂ૚ֶशϞσϧʹΑΔਪఆ) •MUSHRA: ਓखʹΑΔओ؍ධՁࢦඪ Ի੠඼࣭ʹؔ͢ΔධՁ 46

•ABX: Ի੠ͷຒΊࠐΈදݱΛ༻͍ͨࣗಈධՁࢦඪ •MOSNet: reference-freeͳԻ࣭༧ଌධՁ (ਂ૚ֶशϞσϧʹΑΔਪఆ) •MUSHRA: ਓखʹΑΔओ؍ධՁࢦඪ Ի੠඼࣭ʹؔ͢ΔධՁ 47 Causa,
ߴѹॖ཰ͷׂʹѱ͘ͳ͍

•sWUGGY: ͋Δ୯ޠ͔Βِͷ୯ޠΛ࡞ΓɺͲͪΒͷ֬཰͕ߴ͍͔ΛଌΔ • ݩͷWUGGY͸ςΩετϨϕϧ͕ͩɺsWUGGY͸TTSͯ͠Ի੠ͰධՁ •sBLIMP: ౷ޠతʹਖ਼͍͠ํͷςΩετΛબͿλεΫ • ͪ͜Β΋Ի੠ϨϕϧͰධՁ •sStoryCloze: 4จ͕༩͑ΒΕɺೋͭ༩͑ΒΕΔ5จ໨ͷਖ਼͍͠ํΛબͿ
• શମΛԻ੠ʹͯ͠ධՁ •sTopic‑StoryCloze: sStoryClozeΛ؆୯ʹͨ͠όʔδϣϯ •MMLU: inner monologueͷςΩετΛ࢖ͬͯී௨ʹ໰୊Λղ͚Δ͔ධՁ Ի੠ݴޠϞσϧͱͯ͠ͷධՁ 48

•ͲͷλεΫͰ΋ฏۉͯ͠ߴ͍ੑೳɺԻ੠͚ͩͰͳ͘ςΩετ΋ॲཧՄೳ Ի੠ݴޠϞσϧͱͯ͠ͷධՁ 49

•ੜ੒Ի੠ΛWhisperͰจࣈىͯ͜͠͠DialoGPTͰର࿩ͷPPLධՁ •Moshi͸PPL͕௿͘ର࿩ςΩετͱͯࣗ͠વ •࿩ऀؒͷ௜໧(Gap, Pause)΋গͳ͘λʔϯςΠΩϯά΋ࣗવʹͰ͖͍ͯΔ ର࿩ੜ੒඼࣭ 50

•full-duplexͳԻ੠ର࿩Ϟσϧ Moshi ΛఏҊ • χϡʔϥϧԻ੠ίʔσοΫ Mimi ͱ RQ-Transformer Ͱߏ੒ •Multi-stream
modelingʹΑΔϢʔβԻ੠ɾϞσϧԻ੠ɾςΩετͷಉ࣌ॲཧ • શମΛcausalʹߏ੒͢Δ͜ͱͰετϦʔϛϯάॲཧΛՄೳʹ ·ͱΊ 51 RQ-Transformer Mimi  Encoder Mimi  Decoder Temporal  Transformer Helium Depth  Transformer

【輪講資料】Moshi: a speech-text foundation model for...

【輪講資料】Moshi: a speech-text foundation model for real-time dialogue

More Decks by Hayato Tsukagoshi

Other Decks in Research

Featured

Transcript

【輪講資料】Moshi: a speech-text foundation model for...

【輪講資料】Moshi: a speech-text foundation model for real-time dialogue