Upgrade to Pro — share decks privately, control downloads, hide ads and more …

saisentan-nlp(hiraoka)

6f881fac818f465f2b375ed7e335cf2a?s=47 tatHi
September 28, 2019

 saisentan-nlp(hiraoka)

Learning to Discover, Ground and Use Words with Segmental Neural Language Models
Kazuya Kawakami, Chris Dyer, Phil Blunsom
ACL2019

6f881fac818f465f2b375ed7e335cf2a?s=128

tatHi

September 28, 2019
Tweet

Transcript

  1. Learning to Discover, Ground and Use Words with Segmental Neural

    Language Models Kazuya Kawakami, Chris Dyer, Phil Blunsom. ACL2019 Presenter: Tatsuya Hiraoka (D1) Okazaki lab. TokyoTech 2019/9/28 最先端NLP2019 1
  2. Outline • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM+lexical memoryで単語確率を計算する ⾔語モデル •

    画像を使って⾔語モデルを学習すると性能向上 2019/9/28 最先端NLP2019 2
  3. Motivation • ⼈間の⾔語獲得の第⼀歩として,語彙の獲得がある • これを模倣するようなモデルを作りたい →教師なし語彙獲得 • Continuity Hypothesis (Pinker,

    1984) • タスクとしてはいわゆる教師なし単語分割 2019/9/28 最先端NLP2019 3
  4. 教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a

    character sequence (a, n, a, p, p, l, e) • : a segment sequence (an, ap, ple) • 分割の尤もらしさを⾔語モデルで計算 • その分割に含まれる単語の確率 = + ,∈ ~ argmax | 2019/9/28 最先端NLP2019 4
  5. 教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a

    character sequence (a, n, a, p, p, l, e) • : a segment sequence (an, ap, ple) • 分割の尤もらしさを⾔語モデルで計算 • その分割に含まれる単語の確率 = + ,∈ ~ argmax | 2019/9/28 最先端NLP2019 5 • ⾔語モデルの性能が良いほど,分割性能が良い • 教師なし単語分割が⾔語モデルに求める性質 • ありうる全ての⽂字列に確率を与えることができる
  6. ⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 6

  7. ⾔語モデル Predict next segment from character-context 直前までの⽂字列から,単語lookが出る確率 = “look” 5”6”

    2019/9/28 最先端NLP2019 7
  8. ⾔語モデル Predict next segment from character-context ⽂字レベルの⾔語モデル Segmental Language Model

    (Sun+, 2018) 2019/9/28 最先端NLP2019 8
  9. ⾔語モデル Predict next segment from character-context Lexical Memory コーパスに含まれるM個の “単語”

    には 固有のベクトルを与える →この “単語” は通常のsoftmaxで確率を計算できる →含まれない “単語” の確率は0 ある⽂字列がベクトルを持てる条件: (1) ⻑さ2以上,L以下 (2) データセットで最低F回使⽤されている L,Fはハイパラ 2019/9/28 最先端NLP2019 9
  10. ⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 10

  11. Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log •

    ⽂字列のあらゆる可能な分割による “単語”列を列挙 = J :M N () • DPで求められる P = 1, Q = J RNQST QSU R = R:Q|VR QWU = EOS = QWU can ca c y ny any 2019/9/28 最先端NLP2019 11
  12. Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log •

    ⽂字列のあらゆる可能な分割による “単語”列を列挙 = J :M N () • DPで求められる P = 1, Q = J RNQST QSU R = R:Q|VR QWU = EOS = QWU can ca c y ny any 2019/9/28 最先端NLP2019 12 ⻑い単語の確率が⾼くなって終了
  13. Learning • あらゆる分割の周辺確率を最⼤化 ℒ = J ∈K − log +

    , • ⽂字列xのあらゆる可能な分割による “単語”列を列挙 = J :M N () • ⻑い単語にペナルティ • その分割の確率で重み付け • はハイパラ • ⼤きいほど短い “単語”が 出やすくなる , = J :M N | J ∈ _ はハイパラ 2019/9/28 最先端NLP2019 13
  14. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 14
  15. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 15
  16. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 16
  17. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 (階層)ディリクレ過程 を⽤いた教師なし単語分割 (Goldwater+, 2009) 2019/9/28 最先端NLP2019 17
  18. Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

    lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 18
  19. Experiment(2) • 教師なし単語分割 • 英語(BR-text) • スペース除去 • 中国語 •

    指標としてよく使われる • わかること • 弱いベースラインより強い 2019/9/28 最先端NLP2019 19
  20. Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語(BR-text) • スペース除去

    • 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い 2019/9/28 最先端NLP2019 20
  21. Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語(BR-text) • スペース除去

    • 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い PYHSMM(Uchiumi+, 2015) 81.6 2019/9/28 最先端NLP2019 21
  22. Experiment(3) • 画像を使った学習 • MS COCOのcaptionと画像で ⾔語モデルを学習 • どう使っているのかは不明 •

    LSTMのinit hidden stateなどか • わかること • 画像を使うと分割・⾔語モデル の性能向上(?) 2019/9/28 最先端NLP2019 22
  23. Conclusion • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM+lexical memoryで単語確率を計算する ⾔語モデル •

    画像を使って⾔語モデルを学習すると性能向上 2019/9/28 最先端NLP2019 23