Upgrade to Pro — share decks privately, control downloads, hide ads and more …

saisentan-nlp(hiraoka)

6f881fac818f465f2b375ed7e335cf2a?s=47 tatHi
September 28, 2019

 saisentan-nlp(hiraoka)

Learning to Discover, Ground and Use Words with Segmental Neural Language Models
Kazuya Kawakami, Chris Dyer, Phil Blunsom
ACL2019

6f881fac818f465f2b375ed7e335cf2a?s=128

tatHi

September 28, 2019
Tweet

More Decks by tatHi

Other Decks in Science

Transcript

  1. Learning to Discover, Ground and Use Words with Segmental Neural

    Language Models Kazuya Kawakami, Chris Dyer, Phil Blunsom. ACL2019 Presenter: Tatsuya Hiraoka (D1) Okazaki lab. TokyoTech 2019/9/28 最先端NLP2019 1
  2. Outline • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM+lexical memoryで単語確率を計算する ⾔語モデル •

    画像を使って⾔語モデルを学習すると性能向上 2019/9/28 最先端NLP2019 2
  3. Motivation • ⼈間の⾔語獲得の第⼀歩として,語彙の獲得がある • これを模倣するようなモデルを作りたい →教師なし語彙獲得 • Continuity Hypothesis (Pinker,

    1984) • タスクとしてはいわゆる教師なし単語分割 2019/9/28 最先端NLP2019 3
  4. 教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a

    character sequence (a, n, a, p, p, l, e) • : a segment sequence (an, ap, ple) • 分割の尤もらしさを⾔語モデルで計算 • その分割に含まれる単語の確率 = + ,∈ ~ argmax | 2019/9/28 最先端NLP2019 4
  5. 教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a

    character sequence (a, n, a, p, p, l, e) • : a segment sequence (an, ap, ple) • 分割の尤もらしさを⾔語モデルで計算 • その分割に含まれる単語の確率 = + ,∈ ~ argmax | 2019/9/28 最先端NLP2019 5 • ⾔語モデルの性能が良いほど,分割性能が良い • 教師なし単語分割が⾔語モデルに求める性質 • ありうる全ての⽂字列に確率を与えることができる
  6. ⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 6

  7. ⾔語モデル Predict next segment from character-context 直前までの⽂字列から,単語lookが出る確率 = “look” 5”6”

    2019/9/28 最先端NLP2019 7
  8. ⾔語モデル Predict next segment from character-context ⽂字レベルの⾔語モデル Segmental Language Model

    (Sun+, 2018) 2019/9/28 最先端NLP2019 8
  9. ⾔語モデル Predict next segment from character-context Lexical Memory コーパスに含まれるM個の “単語”

    には 固有のベクトルを与える →この “単語” は通常のsoftmaxで確率を計算できる →含まれない “単語” の確率は0 ある⽂字列がベクトルを持てる条件: (1) ⻑さ2以上,L以下 (2) データセットで最低F回使⽤されている L,Fはハイパラ 2019/9/28 最先端NLP2019 9
  10. ⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 10

  11. Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log •

    ⽂字列のあらゆる可能な分割による “単語”列を列挙 = J :M N () • DPで求められる P = 1, Q = J RNQST QSU R = R:Q|VR QWU = EOS = QWU can ca c y ny any 2019/9/28 最先端NLP2019 11
  12. Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log •

    ⽂字列のあらゆる可能な分割による “単語”列を列挙 = J :M N () • DPで求められる P = 1, Q = J RNQST QSU R = R:Q|VR QWU = EOS = QWU can ca c y ny any 2019/9/28 最先端NLP2019 12 ⻑い単語の確率が⾼くなって終了
  13. Learning • あらゆる分割の周辺確率を最⼤化 ℒ = J ∈K − log +

    , • ⽂字列xのあらゆる可能な分割による “単語”列を列挙 = J :M N () • ⻑い単語にペナルティ • その分割の確率で重み付け • はハイパラ • ⼤きいほど短い “単語”が 出やすくなる , = J :M N | J ∈ _ はハイパラ 2019/9/28 最先端NLP2019 13
  14. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 14
  15. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 15
  16. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 16
  17. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 (階層)ディリクレ過程 を⽤いた教師なし単語分割 (Goldwater+, 2009) 2019/9/28 最先端NLP2019 17
  18. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 18
  19. Experiment(2) • 教師なし単語分割 • 英語(BR-text) • スペース除去 • 中国語 •

    指標としてよく使われる • わかること • 弱いベースラインより強い 2019/9/28 最先端NLP2019 19
  20. Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語(BR-text) • スペース除去

    • 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い 2019/9/28 最先端NLP2019 20
  21. Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語(BR-text) • スペース除去

    • 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い PYHSMM(Uchiumi+, 2015) 81.6 2019/9/28 最先端NLP2019 21
  22. Experiment(3) • 画像を使った学習 • MS COCOのcaptionと画像で ⾔語モデルを学習 • どう使っているのかは不明 •

    LSTMのinit hidden stateなどか • わかること • 画像を使うと分割・⾔語モデル の性能向上(?) 2019/9/28 最先端NLP2019 22
  23. Conclusion • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM+lexical memoryで単語確率を計算する ⾔語モデル •

    画像を使って⾔語モデルを学習すると性能向上 2019/9/28 最先端NLP2019 23