Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
wavenet
Search
soymsk
April 27, 2017
Technology
0
86
wavenet
soymsk
April 27, 2017
Tweet
Share
More Decks by soymsk
See All by soymsk
[SUSTEN 勉強会]マイナンバーカードの仕組み
soymsk
0
230
Google_Cloud_Next_19_AI_ML_Summary_public.pdf
soymsk
6
1.9k
DeNAにおけるデータ活用事例 〜移動体データ活用によるサービス創出とその基盤 / Data Driven Service in Taxi hiring app MOV
soymsk
0
390
Introduction of GCP Dataflow
soymsk
1
240
Other Decks in Technology
See All in Technology
なぜフロントエンド技術を追うのか?なぜカンファレンスに参加するのか?
sakito
9
2k
ページの可視領域を算出する方法について整理する
yamatai1212
0
160
useEffectってなんで非推奨みたいなこと言われてるの?
maguroalternative
9
6.2k
生成AI・AIエージェント時代、データサイエンティストは何をする人なのか?そして、今学生であるあなたは何を学ぶべきか?
kuri8ive
2
1.9k
Symfony AI in Action
el_stoffel
2
370
21st ACRi Webinar - AMD Presentation Slide (Nao Sumikawa)
nao_sumikawa
0
200
pmconf2025 - 他社事例を"自社仕様化"する技術_iRAFT法
daichi_yamashita
0
540
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
3
21k
世界最速級 memcached 互換サーバー作った
yasukata
0
160
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
0
650
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
1
120
知っていると得する!Movable Type 9 の新機能を徹底解説
masakah
0
210
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Testing 201, or: Great Expectations
jmmastey
46
7.8k
Bash Introduction
62gerente
615
210k
Mobile First: as difficult as doing things right
swwweet
225
10k
A Modern Web Designer's Workflow
chriscoyier
697
190k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
69k
It's Worth the Effort
3n
187
29k
The Language of Interfaces
destraynor
162
25k
Code Reviewing Like a Champion
maltzj
527
40k
Facilitating Awesome Meetings
lara
57
6.7k
Become a Pro
speakerdeck
PRO
30
5.7k
Transcript
Wavenet 2017/04/27 @soymsk
Wavenet • 2016ʹDeepMind͕ൃදͨ͠Ի߹ΞϧΰϦζϜ • Text to Speech(TTS)ͷͰߴ͍Ի߹ͷਫ਼Λୡ͠ ͨɻ • ࣮͕ެ։͞Ε͓ͯΒͣɺ·ͨࣜগͳ͘ɺ࣮ࡍʹͲͷΑ
͏ʹͳ͍ͬͯΔ͔ෆ໌ͳॴଟ͍ • Concatenate Text to Speech • parametric TTS parametric TTS • PixelRNN • PixelCNN 8BWFOFU +
ैདྷͷख๏ • Concatenate Text to Speech • ͍ԻσʔλΛେྔʹσʔλϕʔεʹ֨ೲ͠ɺͦΕΛͭͳ͗߹ΘͤΔख๏ • طଘͷσʔλΛͭͳ͗߹ΘͤΔ͚ͩͳͷͰɺڧௐɾ৭มߋͳͲ͕ۤखɻ·
ͨɺ߹ޙͷԻͷͭͳ͕ΓෆࣗવʹͳΓ͕ͪ • parametric TTS • ੜϞσϧʹΑͬͯԻ߹͢Δख๏ • ൃ༰ൃऀͷಛΛϞσϧͷೖྗͱͯ͠ίϯτϩʔϧͤ͞Δ͜ͱ͕Ͱ ͖ΔΑ͏ʹͳͬͨɻ • ͨͩ͠ɺࣗવͳൃɺͱݴ͍͍
ैདྷख๏
Wavenet
Wavenet • Wavenetաڈͷೖྗσʔλ͔Β࣍ͷԻ σʔλͷ֬Λ༧ଌ͢Δ t: ࣌ࠁ x: ೖྗԻ
ೖྗԻσʔλ • Իσʔλܗࣜ • ྔࢠԽ: 16bit • αϯϓϦϯάप: 44.1 kHz
(ԻCD)
Wavenetग़ྗσʔλܗࣜ • Ի৴߸Ұൠతʹ16bitͰྔࢠԽ͞Ε͓ͯΓɺͦ ͷ··Ͱ65,536ͷ1 of N ग़ྗϊʔυ͕ඞཁ • ԼهͷΑ͏ʹೖྗΛมͯ͠ѹॖ •
ԻͰҰൠతͳѹॖܗࣜ: μ-law 256ϊʔυ·Ͱѹॖ
8BWFOFU ЖMBX෮߸ t-1 0 ࣌ࠁtʹ͓͚Δग़ྗ: 1 of 256
Dilated causal convolution
Dilated causal convolution • ࣌ܥྻͷԻσʔλʹରͯ͠ɺRNNͰͳ͘ConvolutionͰֶशΛߦ͏ɻ • ΈࠐΈͷϑΟϧλΛ2ͱ͢ΔͱɺҎԼͷΑ͏ʹ4Ͱ5͔ͭ͠ΈΒΕͳ͍ɻʢ௨ৗͷ ࠐΈ) • 44.1kHz
(ԻCD)ͷೖྗΛѻ͏߹ɺ1ඵؒͷԻೖྗ͚ͩͰɺ44100ͷೖྗϊʔυ͕ඞཁ receptive field(ड༰) = 5
Dilated causal convolution • Dilated causal convolutionͰೖྗΛNݸඈ͠Ͱ࣍ͷʹೖྗ͢Δɻ • ͕ਂ͘ͳΔͨͼʹDilationͷΛഒʹ͢Δ •
DilationʹΑͬͯग़ྗϊʔυͷड༰Λ૿͢͜ͱ͕Ͱ͖Δ
Dilated causal convolution • 44100ͷೖྗ16ͷDilated causal convolution ͰΈΔ͜ͱ͕Մೳ • WavenetͰɺ࠷େDilation=512·ͰΛॏͶ(
1- block )ɺblockΛෳੵΈॏͶΔߏΛऔ͍ͬͯ Δɻ • Λਂֶͯ͘͠शͰ͖ΔΑ͏ʹResidualNetΛར ༻
None
• http://musyoku.github.io/images/post/ 2016-09-17/dilated_conv.gif
RNNͱWavenetͷֶशͷҧ͍ • RNNֶश࣌ɺ࣌ܥྻॱʹσʔλΛೖྗ͍ͯ͘͠ඞཁ͕͋ΔͨΊɺ࣌ؒ ͕͔͔Δɻ • WavenetCNNͷΑ͏ʹɺೖྗσʔλΛ࣌ܥྻʹॲཧ͢Δඞཁ͕ͳ͘ɺ ̍ʹωοτϫʔΫʹೖྗ͢ΔͨΊɺֶश͕ૣ͍ • αϯϓϧʹ͍ͭͯɺ࣌ܥྻॱʹֶश͢Δඞཁ͕ͳ͍ Wavenet
RNN
Wavenetͷߏ filter gate x: input k: layer
Conditional Wavenet • Conditional Pixel CNN ͱಉ༷ɺWavenetʹҙͷύϥϝʔλhಋೖ͢Δ ͜ͱͰɺWavenetΛύϥϝʔλͰૢ࡞ • Global
conditions: WavenetʹൃऀͷಛΛֶशͤ͞Δ ύϥϝʔλhʹΑͬͯൃશମͷதͰͷൃऀͷಛΛ࠶ݱͰ͖Δ ex: ࠃޠ͕ҟͳΔൃऀͷಛ શͯͷ࣌ؒεςοϓͰ࡞༻͢Δ߲
Conditional Wavenet • Local conditions: Wavenetʹݴ༿ͷಛΛֶशͤ͞Δ ݸʑͷ࣌ؒεςοϓͰ࡞༻͢Δ߲ ൃͷݴޠతಛΛύϥϝʔλͱͯ͠ೖྗͰ͖Δ ex: ୯ޠͷͭͳ͕ΓʹΑͬͯൃ͞Εͳ͍จࣈͳͲʁ
ੜ݁ՌσϞ https://deepmind.com/blog/wavenet-generative- model-raw-audio/
࣮ݧ݁Ռ • GoogleͷTTSσʔληοτΛར༻ֶͯ͠श • ैདྷख๏ʹൺͯߴ͍ਫ਼Λୡ
·ͱΊ • WavenetԻ߹ͷʹCNNͷख๏Λಋ ೖ͠ɺߴ͍߹ਫ਼Λୡͨ͠ • Dilated convolutionʹΑͬͯɺRNNͷΑ͏ʹ࣌ ܥྻσʔλʹద༻Ͱ͖ΔՄೳੑΛࣔͨ͠ɻ • Ի͚ͩͰͳ͘ɺԻָͷ߹ͳͲԠ༻ൣғ
͍
ࢀߟ • https://arxiv.org/abs/1609.03499 • ݪஶPDF • https://deepmind.com/blog/wavenet-generative-model-raw-audio/ • σϞ݁ՌͳͲ •
http://musyoku.github.io/2016/09/18/wavenet-a-generative-model-for-raw- audio/ • Chainer࣮Dilationͷ෦͕Θ͔Γ͍͢ • https://www.slideshare.net/DeepLearningJP2016/dlwavenet-a-generative- model-for-raw-audio