自然言語処理と深層学習の最先端

ࣗવݴޠॲཧͱਂ૚ֶशͷ࠷ઌ୺ ಙӬ୓೭ +VTU5FDI5BML

ࣗવݴޠॲཧͱਂ૚ֶशͷ࠷ઌ୺ ͷҰ෦෼Λ঺հ͠·͢ ಙӬ୓೭ (@tkng) +VTU5FDI5BML

ࣗݾ঺հɿಙӬ୓೭ • Twitter ID: @tkng • εϚʔτχϡʔεגࣜձࣾͰࣗવݴޠॲཧ΍ ը૾ॲཧΛ΍ͬͯ·͢

ࣗવݴޠॲཧͱ͸ • ࣗવݴޠʢ≠ϓϩάϥϛϯάݴޠʣΛѻ͏෼໺ • ػց຋༁ • ࣭໰Ԡ౴ • จॻ෼ྨ •
ߏจղੳɾ܎Γड͚ղੳ • ܗଶૉղੳɾ୯ޠ෼ׂ

ػց຋༁ͷྫ • Google຋༁ͷword lensػೳ IUUQHPPHMFUSBOTMBUFCMPHTQPUKQIBMMPIPMBPMBUPOFXNPSFQPXFSGVM@IUNM

࣭໰Ԡ౴ͷྫ • IBM Watson • Jeopardy!Ͱਓؒʹউར IUUQXXXOZUJNFTDPNTDJFODFKFPQBSEZXBUTPOIUNM

ਂ૚ֶशͱ͸ • ≒ χϡʔϥϧωοτ • ۙ೥ͷྲྀߦ͸ɺҎԼͷཧ༝ʹΑΔ • ܭࢉػͷੑೳ޲্ • ֶशσʔλͷ૿Ճ
• ࠷దԽख๏ͳͲͷݚڀͷਐల

ࣗવݴޠॲཧͱ ਂ૚ֶशͷ࠷ઌ୺

Show, Attend and Tell: Neural Image Caption Generation with Visual
Attention (Xu+, 2015) • ը૾ʹର͢Δղઆจͷੜ੒ IUUQLFMWJOYVHJUIVCJPQSPKFDUTDBQHFOIUNM

Show, Attend and Tell͸ Ͳ͏͍͏ख๏͔ • ҎԼͷ3ͭͷ૊Έ߹Θͤ • Convolutional Neural
Network • Long Short Term Memory • Attention

Generating Images from Captions with Attention (Mansimov+, 2015) • Ωϟϓγϣϯ͔Βը૾Λੜ੒͢Δ
• ࡉ໨ͰݟΕ͹ඈߦػʹݟ͑ͳ͘΋ͳ͍

Effective Approaches to Attention- based Neural Machine Translation (Bahdanau+, 2015)
• Deep LearningΛ༻͍ͯػց຋༁ • Local Attentionͱ͍͏৽͍͠ख๏ΛఏҊ • ͍͔ͭ͘ͷݴޠϖΞͰɺstate of the artΛୡ੒ ࠷ߴਫ४

Ask Me Anything: Dynamic Memory Networks for Natural Language Processing
(Kumar+, 2015) • ৽͍͠ϞσϧʢDynamic Memory Networksʣ ΛఏҊͨ͠ • Recurrent Neural NetworkΛ૊Έ߹ΘͤͨΑ ͏ͳϞσϧʹͳ͍ͬͯΔ • ࣭໰Ԡ౴ɺ඼ࢺλά෇͚ɺڞࢀরղੳɺධ൑ ෼ੳͰstate of the art

ਂ૚ֶशͷNLPʹ͓͚Δݱঢ় • ਫ਼౓໘Ͱ͸ɺଞͷख๏ͱେࠩ͸͍͍ͭͯͳ͍ • ը૾ॲཧ΍Ի੠ೝࣝͱҧ͏ • ػց຋༁΍࣭໰Ԡ౴͕γϯϓϧͳख๏Ͱղ͚ ΔΑ͏ʹͳͬͨ • จͷੜ੒͕Ͱ͖ΔΑ͏ʹͳͬͨ

ࠓޙ͸Ͳ͏ͳΔͷ͔ʁ • ਖ਼௚ɺΑ͘Θ͔Βͳ͍…… • ը૾΍ಈըͱ૊Έ߹Θͤͨݚڀ͸૿͑ͦ͏

࠷ઌ୺ʹ͍͍ͭͯͨ͘Ίʹ

3ͭʹߜͬͯղઆ͠·͢ • Neural Networkͷجૅ • Recurrent Neural Network • ಛʹGated
Recurrent Unit • Attention

χϡʔϥϧωοτϫʔΫ = ؔ਺ • χϡʔϥϧωοτϫʔΫ͸ɺ͋Δछͷؔ਺Ͱ ͋Δͱߟ͑Δ͜ͱ͕Ͱ͖Δ • ೖग़ྗ͸ϕΫτϧ • ඍ෼Մೳ

γϯϓϧͳྫ͔Β࢝ΊΔ y = f(x) = W x

ग़ྗΛ0ʙ1ʹਖ਼نԽ͢Δ • y = softmax(f(x))

ଟ૚Խͯ͠ΈΑ͏ • y = softmax(g(f(x)))

Ͳ͕͜ϨΠϠʔʁ

౾஌ࣝ • ϨΠϠʔͱ͍͏ݴ༿ʹؾΛ͚ͭΑ͏ • ͲͬͪΛࢦͯ͠Δ͔ᐆດʢಡΉͱ͖ʹؾΛ ͚ͭΕ͹Θ͔Δ͕…ʣ • ϝδϟʔͳOSSͰ͸ɺؔ਺Λࢦ͢΋ͷ͕ଟ਺ ೿ʢCaﬀe, Torch,
Chainer, TensorFlowʣ

Recurrent Neural Network • ࣌ܥྻʹฒͿཁૉΛ1ͭͣͭड͚औͬͯɺঢ়ଶ Λߋ৽͍ͯ͘͠ωοτϫʔΫͷ૯শ • ࠷ۙͱͯ΋ྲྀߦ͍ͯ͠Δ IUUQDPMBIHJUIVCJPQPTUT6OEFSTUBOEJOH-45.T

ͳͥRNN͕ྲྀߦ͍ͯ͠Δͷ͔ʁ • Մม௕ͷσʔλͷऔΓѻ͍͸೉͍͠ • RNNΛ࢖ͬͨseq2seqϞσϧʢEncoder/ DecoderϞσϧͱ΋ݺͿʣͰ͸Մม௕σʔλΛ ͏·͘औΓѻ͑Δࣄ͕Θ͔͖ͬͯͨ

Seq2seqϞσϧͱ͸ʁ • Մม௕ͷೖྗσʔλΛɺݻఆ௕ͷϕΫτϧʹ Τϯίʔυͯ͠ɺ͔ͦ͜Β຋༁ޙͷσʔλΛ σίʔυ͢Δ • ػց຋༁΍ࣗಈཁ໿ͳͲೖग़ྗͷ௕͕͞ҧ͏ λεΫͰۙ೥ݚڀ͕ਐΜͰ͍Δ

Seq2seqϞσϧͰͷ຋༁ 5IJT JT B QFO &04 ͜Ε ͸ ϖϯ Ͱ͢
&04 ͜Ε ͸ ϖϯ Ͱ͢

Seq2seqϞσϧͰͷ຋༁ 5IJT JT B QFO &04 ͜Ε ͸ ϖϯ Ͱ͢
&04 ͜Ε ͸ ϖϯ Ͱ͢ 5IJTJTBQFOΛݻఆ௕ʹ Τϯίʔυ͍ͯ͠Δʂ

Seq2seqϞσϧΛ຋༁ʹ࢖͏ͱʁ • ͔ͳΓ͏·͍͘͘ࣄ͕Θ͔͍ͬͯΔ • ͨͩ࣍͠ͷ༷ͳऑ఺͕͋Δ • ௕จʹऑ͍ • ݻ༗໊ࢺ͕ೖΕସΘΔ •
͜ΕΛղܾ͢Δͷ͕࣍ʹઆ໌͢ΔAttention

Attentionͱ͸ • σίʔυ࣌ʹΤϯίʔυ࣌ͷ৘ใΛগ͚ͩ͠ ࢀর͢ΔͨΊͷ࢓૊Έ • গ͚ͩ͠ = બ୒ͨ͠෦෼͚ͩΛݟΔ • Global
AttentionͱLocal Attention͕͋Δ

Global Attention • ީิঢ়ଶͷॏΈ෇͖࿨ΛAttentionͱ͢Δ • ྺ࢙తʹ͸ͪ͜Βͷํ͕ͪΐͬͱݹ͍ 5IJT JT B QFO
&04 ͜Ε ͸ ͜Ε ͸

Local Attention • Τϯίʔυ࣌ͷঢ়ଶΛ͍͔ͭ͘બ୒ͯ͠࢖͏ 5IJT JT B QFO &04 ͜Ε
͸ ͜Ε ͸

Attentionͷॱং • ஫໨Λ౰ͯΔॱং͸ɺGlobal AttentionͰ΋ Local AttentionͰ΋೉͍͠໰୊Ͱ͋Δ • Attentionͷॱং΋RNNͰֶशͨ͠Γ͢Δ • લ͔ΒॱʹAttentionΛ౰͍͚ͯͯͩ͘Ͱ΋ੑ
ೳ͸޲্͢Δ

࣮ݧ݁ՌɿWMT'14

࣮ݧ݁ՌɿWMT'15

࣮ࡍͷ຋༁ͷྫ

͜͜·Ͱͷ·ͱΊ • جૅతͳχϡʔϥϧωοτϫʔΫͷղઆ • Recurrent Neural Network • Attention

ࠓ೔࿩͞ͳ͔ͬͨ͜ͱ • ֶशʢback propagation, minibatchʣ • ଛࣦؔ਺ʢlog loss, cross entropy
lossʣ • ਖ਼ଇԽͷςΫχοΫ • dropout, batch normalization • ࠷దԽͷςΫχοΫ • RMSProp, AdaGrad, Adam • ֤छ׆ੑԽؔ਺ • (Very) Leaky ReLU, Maxout

ࠓޙͷΦεεϝ • ࣗ෼Ͱͳʹ͔࣮ݧͯ͠ΈΑ͏ • γϯϓϧͳྫͰ͍͍͔Β·ͣಈ͔͢ • ಈ͍ͨΒ࣍ʹࣗ෼Ͱվ଄ͯ͠ΈΔ • ͱʹ͔͘खΛಈ͔͢͜ͱ͕େࣄ •
࠷ॳ͔Β೉͗͢͠Δ͜ͱʹ͸खΛग़͞ͳ͍

࠷৽৘ใ΁ͷΞϯςφ (1) • TwitterͰػցֶशͳͲʹ͍ͭͯൃݴ͍ͯ͠Δ ਓΛϑΥϩʔ͢Δ • ͱΓ͋͑ͣ @hillbig • ͍͍ਓ͸ଞʹ΋ͨ͘͞Μ͍·͕͢
• ͋΍͍͠ਓ΋͍Δ͔Β஫ҙͯ͠Ͷ

࠷৽৘ใ΁ͷΞϯςφ (2) • ࿦จΛಡ΋͏ • ಡΉ͚ͩ࣌ؒͷແବͳ࿦จ΋͋ΔͷͰ஫ҙ • ࠷ॳͷ͏ͪ͸ɺ༗໊ͳֶձʢACL, EMNLP, ICML,
NIPS, KDD, etc.ʣʹ௨ͬͯΔ࿦จʹ ߜ͕ͬͨΑ͍

࠷৽৘ใ΁ͷΞϯςφ (3) • ࿦จͷஶऀʹ஫໨͢Δ • ࿦จΛಡΜͰ͍Δ͏ͪʹɺࣗ෼͕໘ന͍ͱ ࢥ͏࿦จͷஶऀ͕Կਓ͔ग़ͯ͘Δ • ͦ͏͍͏ਓͷ৽͍͠࿦จ͸Ͳ͏ʹ͔ͯ͠ νΣοΫ͠Α͏

Take home messages • ؾ͕࣋ͪ੝Γ্͕ͬͯΔ͏ͪʹɺࣗ෼ͷखͰ ৭ʑ࣮ݧͯ͠ΈΑ͏ • ॳ৺ऀʹ͸Chainer͕Φεεϝ • ࠷৽৘ใ͸ωοτͰೖखͰ͖Δ
• มͳํ޲ʹҙ͕ࣝߴ͍ਓʹ͸஫ҙ

自然言語処理と深層学習の最先端

自然言語処理と深層学習の最先端

More Decks by tkng

Other Decks in Technology

Featured

Transcript