Upgrade to Pro — share decks privately, control downloads, hide ads and more …

saisentan-nlp(hiraoka)

tatHi
September 28, 2019

 saisentan-nlp(hiraoka)

Learning to Discover, Ground and Use Words with Segmental Neural Language Models
Kazuya Kawakami, Chris Dyer, Phil Blunsom
ACL2019

tatHi

September 28, 2019
Tweet

More Decks by tatHi

Other Decks in Science

Transcript

  1. Learning to Discover, Ground and Use Words
    with Segmental Neural Language Models
    Kazuya Kawakami, Chris Dyer, Phil Blunsom. ACL2019
    Presenter: Tatsuya Hiraoka (D1)
    Okazaki lab. TokyoTech
    2019/9/28 最先端NLP2019 1

    View full-size slide

  2. Outline
    • Segmental Language Modelによる教師なし「語彙獲得」
    • ⽂字レベルLSTM+lexical memoryで単語確率を計算する
    ⾔語モデル
    • 画像を使って⾔語モデルを学習すると性能向上
    2019/9/28 最先端NLP2019 2

    View full-size slide

  3. Motivation
    • ⼈間の⾔語獲得の第⼀歩として,語彙の獲得がある
    • これを模倣するようなモデルを作りたい
    →教師なし語彙獲得
    • Continuity Hypothesis (Pinker, 1984)
    • タスクとしてはいわゆる教師なし単語分割
    2019/9/28 最先端NLP2019 3

    View full-size slide

  4. 教師なし単語分割
    • 中国語などの⾔語の単語分割を教師なしで求める
    • ⽂字列の尤もらしい分割argmax | を⾒つける
    • : a character sequence (a, n, a, p, p, l, e)
    • : a segment sequence (an, ap, ple)
    • 分割の尤もらしさを⾔語モデルで計算
    • その分割に含まれる単語の確率
    = +
    ,∈

    ~
    argmax |
    2019/9/28 最先端NLP2019 4

    View full-size slide

  5. 教師なし単語分割
    • 中国語などの⾔語の単語分割を教師なしで求める
    • ⽂字列の尤もらしい分割argmax | を⾒つける
    • : a character sequence (a, n, a, p, p, l, e)
    • : a segment sequence (an, ap, ple)
    • 分割の尤もらしさを⾔語モデルで計算
    • その分割に含まれる単語の確率
    = +
    ,∈

    ~
    argmax |
    2019/9/28 最先端NLP2019 5
    • ⾔語モデルの性能が良いほど,分割性能が良い
    • 教師なし単語分割が⾔語モデルに求める性質
    • ありうる全ての⽂字列に確率を与えることができる

    View full-size slide

  6. ⾔語モデル
    Predict next segment from character-context
    2019/9/28 最先端NLP2019 6

    View full-size slide

  7. ⾔語モデル
    Predict next segment from character-context
    直前までの⽂字列から,単語lookが出る確率
    = “look” 5”6”
    2019/9/28 最先端NLP2019 7

    View full-size slide

  8. ⾔語モデル
    Predict next segment from character-context
    ⽂字レベルの⾔語モデル
    Segmental Language Model (Sun+, 2018)
    2019/9/28 最先端NLP2019 8

    View full-size slide

  9. ⾔語モデル
    Predict next segment from character-context
    Lexical Memory
    コーパスに含まれるM個の “単語” には
    固有のベクトルを与える
    →この “単語” は通常のsoftmaxで確率を計算できる
    →含まれない “単語” の確率は0
    ある⽂字列がベクトルを持てる条件:
    (1) ⻑さ2以上,L以下
    (2) データセットで最低F回使⽤されている
    L,Fはハイパラ
    2019/9/28 最先端NLP2019 9

    View full-size slide

  10. ⾔語モデル
    Predict next segment from character-context
    2019/9/28 最先端NLP2019 10

    View full-size slide

  11. Learning
    • あらゆる分割の周辺確率を最⼤化
    ℒ = − J
    ∈K
    log
    • ⽂字列のあらゆる可能な分割による
    “単語”列を列挙
    = J
    :M N
    ()
    • DPで求められる
    P = 1, Q = J
    RNQST
    QSU
    R = R:Q|VR
    QWU = EOS
    = QWU
    can
    ca
    c
    y
    ny
    any

    2019/9/28 最先端NLP2019 11

    View full-size slide

  12. Learning
    • あらゆる分割の周辺確率を最⼤化
    ℒ = − J
    ∈K
    log
    • ⽂字列のあらゆる可能な分割による
    “単語”列を列挙
    = J
    :M N
    ()
    • DPで求められる
    P = 1, Q = J
    RNQST
    QSU
    R = R:Q|VR
    QWU = EOS
    = QWU
    can
    ca
    c
    y
    ny
    any

    2019/9/28 最先端NLP2019 12
    ⻑い単語の確率が⾼くなって終了

    View full-size slide

  13. Learning
    • あらゆる分割の周辺確率を最⼤化
    ℒ = J
    ∈K
    − log + ,
    • ⽂字列xのあらゆる可能な分割による
    “単語”列を列挙
    = J
    :M N
    ()
    • ⻑い単語にペナルティ
    • その分割の確率で重み付け
    • はハイパラ
    • ⼤きいほど短い “単語”が
    出やすくなる
    , = J
    :M N
    | J

    _
    はハイパラ
    2019/9/28 最先端NLP2019 13

    View full-size slide

  14. Experiment(1)
    • 教師なし単語分割
    • 英語⾳素
    • わかること
    • Lexical memory機構
    lengthペナルティの両⽅が必要
    2019/9/28 最先端NLP2019 14

    View full-size slide

  15. Experiment(1)
    • 教師なし単語分割
    • 英語⾳素
    • わかること
    • Lexical memory機構
    lengthペナルティの両⽅が必要
    2019/9/28 最先端NLP2019 15

    View full-size slide

  16. Experiment(1)
    • 教師なし単語分割
    • 英語⾳素
    • わかること
    • Lexical memory機構
    lengthペナルティの両⽅が必要
    2019/9/28 最先端NLP2019 16

    View full-size slide

  17. Experiment(1)
    • 教師なし単語分割
    • 英語⾳素
    • わかること
    • Lexical memory機構
    lengthペナルティの両⽅が必要
    (階層)ディリクレ過程
    を⽤いた教師なし単語分割
    (Goldwater+, 2009)
    2019/9/28 最先端NLP2019 17

    View full-size slide

  18. Experiment(1)
    • 教師なし単語分割
    • 英語⾳素
    • わかること
    • Lexical memory機構
    lengthペナルティの両⽅が必要
    2019/9/28 最先端NLP2019 18

    View full-size slide

  19. Experiment(2)
    • 教師なし単語分割
    • 英語(BR-text)
    • スペース除去
    • 中国語
    • 指標としてよく使われる
    • わかること
    • 弱いベースラインより強い
    2019/9/28 最先端NLP2019 19

    View full-size slide

  20. Experiment(2)
    SLM-4(Sun+, 2018) 79.2
    • 教師なし単語分割
    • 英語(BR-text)
    • スペース除去
    • 中国語
    • 指標としてよく使われる
    • わかること
    • 弱いベースラインより強い
    2019/9/28 最先端NLP2019 20

    View full-size slide

  21. Experiment(2)
    SLM-4(Sun+, 2018) 79.2
    • 教師なし単語分割
    • 英語(BR-text)
    • スペース除去
    • 中国語
    • 指標としてよく使われる
    • わかること
    • 弱いベースラインより強い
    PYHSMM(Uchiumi+, 2015) 81.6
    2019/9/28 最先端NLP2019 21

    View full-size slide

  22. Experiment(3)
    • 画像を使った学習
    • MS COCOのcaptionと画像で
    ⾔語モデルを学習
    • どう使っているのかは不明
    • LSTMのinit hidden stateなどか
    • わかること
    • 画像を使うと分割・⾔語モデル
    の性能向上(?)
    2019/9/28 最先端NLP2019 22

    View full-size slide

  23. Conclusion
    • Segmental Language Modelによる教師なし「語彙獲得」
    • ⽂字レベルLSTM+lexical memoryで単語確率を計算する
    ⾔語モデル
    • 画像を使って⾔語モデルを学習すると性能向上
    2019/9/28 最先端NLP2019 23

    View full-size slide