Self-Conditioned CTCとその発展

Slide 1

Slide 1 text

4FMG$POEJUJPOFE$5$ͱͦͷൃల 5BUTVZB,PNBUTV 4FOJPS3FTFBSDI4DJFOUJTU -*/&$PSQPSBUJPO

Slide 2

Slide 2 text

ຊ೔ͷ಺༰ɿ4FMG$POEJUJPOFE$5$ • 4FMGDPOEJUJPOFE$5$ • $5$ʹجͮ͘ඇࣗݾճؼܕԻ੠ೝࣝํࣜ • ߴ଎ʹਪ࿦͕ՄೳɺࣗݾճؼܕԻ੠ೝࣝʹඖఢ͢Δਪ࿦ਫ਼౓ • جຊख๏ͱͦͷൃలܗʹ͍ͭͯ঺հ &ODPEFS O &ODPEFS O &ODPEFS -JOFBS4PGUNBY -JOFBS $5$ $5$ -JOFBS4PGUNBY &ODPEFS / *OQVUBVEJP 0VUQVUUPLFO 4FMGDPOEJUJPOJOH

Slide 3

Slide 3 text

$5$ʹجͮ͘ඇࣗݾճؼܕԻ੠ೝࣝ ࠓ࠷΋ߴ͍֬཰Λ࣋ͭจࣈΛฒ΂ͯ ͗Ύͬͱ·ͱΊΔͱਖ਼ղʹͳΔΑ͏ʹֶश͢Δ ܁Γฦ͠ χϡʔϥϧωοτ ͜ Μ Μ ʹ ͪ ͸ ͸ ͜Μʹͪ͸ 1. p(こ) = 0.7 2. p(＿) = 0.2 3. p(藤) = 0.0001 $POOFDUJPOJTU5FNQPSBM$MBTTJGJDBUJPO<(SBWFT> ͜ ࣗݾճؼܕํࣜ ʹਫ਼౓͸ߴ͍͕͋·Γ଎͘ͳ͍ "UUFOUJPO&OD%FD<$IPSPXTLJ> 3//5SBOTEVDFS<(SBWFT> ֤จࣈ͸ಠཱʹਪఆʢ৚݅෇͖ಠཱͷԾఆʣ ʹߴ଎͕ͩਫ਼౓͸ͦ͜·Ͱߴ͘ͳ͍ • ߴ଎ʹਪ࿦͕Ͱ͖Δೝࣝํࣜ

Slide 4

Slide 4 text

$5$ʹجͮ͘ඇࣗݾճؼܕԻ੠ೝࣝ &ODPEFS O &ODPEFS O &ODPEFS $5$ -JOFBS4PGUNBY &ODPEFS / *OQVUBVEJP • ԻڹΤϯίʔμͱ$5$σίʔμͰߏ੒ ʢ5SBOTGPSNFS$POGPSNFSʣ • จࣈؒͷ৚݅෇͖ಠཱੑΛԾఆ • ߴ଎͕ͩਫ਼౓͸ͦ͜·Ͱߴ͘ͳ͍ 0VUQVUUPLFO ߴ଎͞Λอͪͭͭ ਫ਼౓Λߴ͍ͨ͘͠

Slide 5

Slide 5 text

ઌߦݚڀɿ*OUFSNFEJBUF$5$<-FF > &ODPEFS O &ODPEFS O &ODPEFS -JOFBS4PGUNBY $5$ $5$ -JOFBS4PGUNBY &ODPEFS / *OQVUBVEJP 0VUQVUUPLFO தؒ૚Ͱ$5$ϩεΛܭࢉ͠ਖ਼ଇԽ γϯϓϧ͕ͩͱͯ΋ޮՌత

Slide 6

Slide 6 text

ઌߦݚڀɿ*OUFSNFEJBUF$5$<-FF > &ODPEFS O &ODPEFS O &ODPEFS -JOFBS4PGUNBY $5$ $5$ -JOFBS4PGUNBY &ODPEFS / *OQVUBVEJP 0VUQVUUPLFO தؒ૚Ͱ$5$ϩεΛܭࢉ͠ਖ਼ଇԽ γϯϓϧ͕ͩͱͯ΋ޮՌత தؒ૚Ͱͷೝࣝ݁ՌΛ ΋ͬͱ༗ޮར༻Ͱ͖ΔͷͰ͸ʁ

Slide 7

Slide 7 text

4FMGDPOEJUJPOFE$5$ &ODPEFS O &ODPEFS O &ODPEFS -JOFBS4PGUNBY -JOFBS $5$ $5$ -JOFBS4PGUNBY &ODPEFS / *OQVUBVEJP 0VUQVUUPLFO 4FMGDPOEJUJPOJOH தؒ૚ͷೝࣝ݁ՌΛޙஈʹϑΟʔυόοΫ ʹೝࣝ݁ՌΛߟྀ͠ͳ͕ΒͷΤϯίʔυΛՄೳʹ ʹจࣈؒͷؔ܎ੑΛֶ΂Δʂʂ

Slide 8

Slide 8 text

࣮ݧ݁Ռɿࣗݾճؼܕͱඖఢ͢ΔੑೳΛୡ੒ ࣗݾճؼܕʹൺ΂ͯʜ ഒߴ଎ ಉ౳ͷ8&3

Slide 9

Slide 9 text

ग़ྗ݁Ռͷྫ • ૚ΛܦΔ͝ͱʹೝࣝ݁Ռ͕վળ͞ΕͯΏ͘

Slide 10

Slide 10 text

ଞͷඇࣗݾճؼܕํࣜͱͷൺֱ • ࠷৽ख๏ͷதͰτοϓੑೳ <)JHVDIJ "436> ଎౓ɺਫ਼౓ͱ΋ʹ τοϓͷੑೳ

Slide 11

Slide 11 text

ଞͷඇࣗݾճؼܕํࣜͱͷൺֱ • ࠷৽ख๏ͷதͰτοϓੑೳ <)JHVDIJ "436> தؒ૚ʹ͓͚Δ༧ଌͱޙஈ΁ͷϑΟʔυόοΫ͢Δ 4FMG$POEJUJPOJOH͸ۃΊͯ༗ޮʹ࡞༻͍ͯ͠Δ

Slide 12

Slide 12 text

ଞͷඇࣗݾճؼܕํࣜͱͷൺֱ • ࠷৽ख๏ͷதͰτοϓੑೳ <)JHVDIJ "436> ଞͷඇࣗݾճؼํࣜͱͷؔ࿈͸ʁ

Slide 13

Slide 13 text

ଞͷඇࣗݾճؼܕԻ੠ೝࣝͱͷؔ࿈ • $5$ग़ྗʹର͢ΔඇࣗݾճؼσίʔμΛ༻͍ͨ܁Γฦ͠վળ &"$IJFUBM "MJHO3FGJOF/PO"VUPSFHSFTTJWF4QFFDI3FDPHOJUJPOWJB*UFSBUJWF3FBMJHONFOU :)JHVDIJ FUBM .BTL$5$/PO"VUPSFHSFTTJWF&OEUP&OE"43XJUI$5$BOE.BTL1SFEJDU .BTL$5$ "MJHO3FGJOF ʢ܁Γฦ͠ʣ ྑ͘͢Δ ݁ՌΛʜ ྑ͘͢Δ ݁ՌΛʜ ྑ͘͢Δ ݁ՌΛʜ

Slide 14

Slide 14 text

Self-conditioned CTCΛ΋͏Ұ౓ݟͯΈΔ CTC Input Target label Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ CTC CTC Output Output Output (intermediate) (intermediate) Linear!→# + Softmax Linear!→# + Softmax Linear#→! Linear!→# + Softmax Linear#→! ܁Γฦ͠ํࣜͱಉ౳ͷॲཧΛ ಺෦Ͱߦ͍ͬͯΔʁ ʢதؒʣ݁ՌΛʜ ྑ͘͢Δ ʢதؒʣ݁ՌΛʜ ྑ͘͢Δ

Slide 15

Slide 15 text

ൃలܗ΁ͷ͍͔ͭ͘ͷΞΠσΞ CTC Input Target label Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ CTC CTC Output Output Output (intermediate) (intermediate) Linear!→# + Softmax Linear!→# + Softmax Linear#→! Linear!→# + Softmax Linear#→! ʢதؒʣ݁ՌΛʜ ྑ͘͢Δ ʢதؒʣ݁ՌΛʜ ྑ͘͢Δ ᶃ தؒೝࣝ݁ՌʹΘ͟ͱޡΓΛ෇༩ ʮ܁Γฦͯ͠ྑ͘͢ΔʯΛΑΓ͏·ֶ͘श ˠ *OUFS"VH ᶄ தؒ૚͝ͱʹ׽ࣈͱಡΈΛަޓʹֶश ׽ࣈͱಡΈͷ૬ޓؔ܎Λֶश ˠ "MUFSOBUF$POEJUJPOJOH<'VKJUB 4-5> ᶅ ܁Γฦ͠ߏ଄ʹண໨ ಉҰͷ໾ׂΛ࣋ͭ෦෼Λ·ͱΊͯܰྔԽ ˠ 'PMEFE &ODPEFS<,PNBUTV *$"441>

Slide 16

Slide 16 text

ᶃ*OUFS"VH CTC Input Target label Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ CTC CTC Output Output Output (intermediate) (intermediate) Linear!→# + Softmax Linear!→# + Softmax Linear#→! Linear!→# + Softmax Linear#→! தؒ૚༧ଌʹରͯ͠Θ͟ͱޡΓΛ෇༩ தؒ૚$5$ͷ܁Γฦ͠ʹΑΓվળ ԿΛʮྑ͘͢Δʯ͔Λ໌ࣔతʹֶश 𝐈𝐧𝐭𝐞𝐫𝐀𝐮𝐠 𝐈𝐧𝐭𝐞𝐫𝐀𝐮𝐠

Slide 17

Slide 17 text

ᶃ*OUFS"VH • 4FMGDPOEJUJPOFE$5$Λ্ճΔೝࣝਫ਼౓Λୡ੒ • ॴ๬ͷޡΓʹର͢Δؤ݈ੑΛ֫ಘ

Slide 18

Slide 18 text

ᶄ "MUFSOBUF$POEJUJPOJOH<'VKJUB 4-5> • ಉԻҟࣈ΍׽ࣈ͕࣋ͭෳ਺ͷൃԻ͸೔ຊޠԻ੠ೝࣝͷ՝୊ • දهͱൃԻͷ૬ޓ࡞༻Λߟྀͨ͠ϚϧνλεΫֶश :'VKJUBFUBM "MUFSOBUF*OUFSNFEJBUF$POEJUJPOJOHXJUI4ZMMBCMFMFWFMBOE$IBSBDUFSMFWFM5BSHFUTGPS+BQBOFTF"43 දه΁ Իઅ͔Β දه΁ Իઅ͔Β Իઅ΁ දه͔Β

Slide 19

Slide 19 text

ᶄ "MUFSOBUF$POEJUJPOJOH<'VKJUB 4-5> • $4+ͰධՁɺදهͱൃԻͷਫ਼౓͕ಉ࣌ʹ޲্͢Δ͜ͱΛ֬ೝ

Slide 20

Slide 20 text

ᶅ 'PMEFE&ODPEFS<,PNBUTV *$"441> CTC Input Target label Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ CTC CTC Output Output Output (intermediate) (intermediate) ֤ઢܗ૚͸ڞ௨ͷύϥϝʔλ ೖग़ྗ͸ಉҰͷ্ۭؒʹࣹӨ Linear!→# + Softmax Linear!→# + Softmax Linear#→! Linear!→# + Softmax Linear#→! JOQVU ྨࣅͷೖग़ྗؔ܎ PVUQVU JOQVU PVUQVU

Slide 21

Slide 21 text

Linear!→# + Softmax Linear!→# + Softmax Linear#→! CTC Input Target label Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ Encoder Layer Encoder Layer ⋮ Linear!→# + Softmax Linear#→! CTC CTC Output Output Output (intermediate) (intermediate) 4IBSFE 1BSBNFUFST ಉҰͷ໾ׂΛ࣋ͭΤϯίʔμϒϩοΫΛ ύϥϝʔλڞ௨ԽʹܰྔԽ ܁Γฦ͠ར༻ 'PMEFE &ODPEFS #BTF &ODPEFS ᶅ 'PMEFE&ODPEFS<,PNBUTV *$"441>

Slide 22

Slide 22 text

ᶅ 'PMEFE&ODPEFS<,PNBUTV *$"441> • 4FMGDPOEJUJPOFE$5$ͷੑೳΛอͪͳ͕Βύϥϝʔλ࡟ݮ

Slide 23

Slide 23 text

ͦͷଞͷൃలܗ • ͳͥੑೳ޲্͢Δ͔ΛఆࣜԽɺ ਪ࿦࣌ʹΑΓΑ͍தؒ༧ଌͰ$POEJUJPOJOH • #FUUFSJOUFSNFEJBUFT<,PNBUTV *OUFSTQFFDI> • ֶश࣌ʹ௥Ճͷதؒ૚ਖ਼ଇԽ • *OUFS%FDPEFS <,PNBUTV 4-5> • ࿩ऀμΠΞϥΠθʔγϣϯ΁ͷԠ༻ • 4FMG$POEJUJPOFE/PO"VUPSFHSFTTJWF"UUSBDUPS<'VKJUB *$"441>

Slide 24

Slide 24 text

#FUUFS*OUFSNFEJBUFT <,PNBUTV *OUFSTQFFDI> 4FBSDIFEJOUFSNFEJBUFDPOEJUJPOJOH &ODPEFS O &ODPEFS O &ODPEFS -JOFBS4PGUNBY &NCFEEJOH "MJHONFOU 7JUFSCJ #FBN TFBSDI $5$ $5$ &YUFSOFM -. -JOFBS4PGUNBY &ODPEFS / *OQVUBVEJP 0VUQVUUPLFO $POGPSNFS$5$ 4FMGDPOEJUJPOJOH ᶃ 'SBNFXJTF UPLFOQSPCBCJMJUZ ᶄ&TUJNBUF UPLFOTFRVFODF ᶅ "MJHOFTUJNBUFEUPLFOT UPGSBNFXJTFQSPCBCJMJUZ *NQSPWFJOUFSNFEJBUFQSFEJDUJPOCZ BOFYUFSOBM-.BOECFBNTFBSDI (𝑇×𝑉) (𝑇×𝐷) (𝑇×𝐷) (𝑇×1) (𝐿×1)

Slide 25

Slide 25 text

#FUUFS*OUFSNFEJBUFT <,PNBUTV *OUFSTQFFDI> .VMUJQBTTDPOEJUJPOJOH &ODPEFS O &ODPEFS O &ODPEFS -JOFBS4PGUNBY &NCFEEJOH "MJHONFOU 7JUFSCJ $5$ -JOFBS4PGUNBY &ODPEFS / *OQVUBVEJP OE QBTTPVUQVU $POGPSNFS$5$ 4FMGDPOEJUJPOJOH &ODPEFS O &ODPEFS O &ODPEFS $5$ -JOFBS4PGUNBY &ODPEFS / *OQVUBVEJP TU QBTTPVUQVU $POGPSNFS$5$ 4FMG $POEJUJPOJOH &ODP &ODPE &ODP $5 -JOFBS &ODP *OQVU SE QBTT $POGPSNFS$5$ ᶄ "MJHOPVUQVUTPG QSFWJPVTJOGFSFODF ᶃ 'SBNFXJTF UPLFOQSPCBCJMJUZ (𝑇×𝑉) (𝑇×𝐷) (𝑇×𝐷) (𝐿×1)

Slide 26

Slide 26 text

*OUFS%FDPEFS <,PNBUTV 4-5> • ࣗݾճؼσίʔμΛʢֶश࣌ͷΈʣதؒ૚ͷਖ਼ଇԽͱͯ͠ར༻ )ZCSJE$5$"UUFOUJPOͷߏ଄Λதؒ૚΁ ˠதؒ૚ͷਫ਼౓޲্ TFMGDPOEJUJPOJOHͱ߹Θͤͯ૬৐ޮՌ

Slide 27

Slide 27 text

࿩ऀμΠΞϥΠθʔγϣϯ΁ͷԠ༻ • /FVSBM%JBSJ[BUJPO XJUI/POBVUPSFHSFTTJWF*OUFSNFEJBUF"UUSBDUPST <'VKJUB *$"441> 𝑋 TransEnc! 𝐴 𝐸" Sigmoid(𝐴#𝐸" ) 𝑌 TransEnc" … Audio sequence Attractors Embeddings Speaker labels LSTM$%& LSTM'$& Autoregressive 𝑋 TransEnc( Audio sequence BEFORE Autoregressive attractor 𝐸( 𝑊𝐴( 𝐸( TransEnc()! + 𝐴( = Attn(𝑄, 𝐸( , 𝐸( ) Sigmoid(𝐴( #𝐸( ) 𝑌( AFTER Non-autoregressive intermediate attractors intermediate prediction conditioning Speaker-wise

Slide 28

Slide 28 text

·ͱΊ • 4FMG$POEJUJPOFE$5$ʹ͍ͭͯ঺հ • தؒ૚ʹ͓͚Δ༧ଌͱޙஈ΁ͷϑΟʔυόοΫߏ଄͸ۃΊͯ༗ޮ • छʑͷൃలܗʹ͍ͭͯ঺հ • *OUFS"VHɿதؒ૚ʹର͠ޡΓΛ෇༩ֶ͠श • "MUFSOBUF$POEJUJPOJOHɿදهԻૉؒͷؔ܎ੑΛֶश • 'PMEFE&ODPEFSɿ܁Γฦ͠ߏ଄Λ௿ύϥϝʔλԽ • #FUUFS*OUFSNFEJBUFɿΑΓΑ͍தؒ༧ଌʹΑΓ$POEJUJPOJOH • *OUFS%FDPEFSɿதؒ૚ʹର͢Δ௥Ճਖ਼ଇԽ • 4FMG$POEJUJPOFE%JBSJ[BUJPOɿ࿩ऀμΠΞϥΠͥʔγϣϯ΁ͷԠ༻ • ࠓճ঺հͰ͖ͳ͔ͬͨൃలܗ΋ • )JFSBSDIJDBM$POEJUJPOJOH<)JHVDIJ *$"441>ɿཻ౓Λม͑֊૚తʹ$POEJUJPOJOH • (BUFE*OUFSMBZFS$PMMBCPSBUJPO<*$"441>ɿ(BUFߏ଄ΛՃ͑ͨ$POEJUJPOJOH