saisentan-nlp(hiraoka)

Learning to Discover, Ground and Use Words with Segmental Neural
Language Models Kazuya Kawakami, Chris Dyer, Phil Blunsom. ACL2019 Presenter: Tatsuya Hiraoka (D1) Okazaki lab. TokyoTech 2019/9/28 最先端NLP2019 1

Outline • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM＋lexical memoryで単語確率を計算する⾔語モデル •
画像を使って⾔語モデルを学習すると性能向上 2019/9/28 最先端NLP2019 2

Motivation • ⼈間の⾔語獲得の第⼀歩として，語彙の獲得がある • これを模倣するようなモデルを作りたい →教師なし語彙獲得 • Continuity Hypothesis (Pinker,
1984) • タスクとしてはいわゆる教師なし単語分割 2019/9/28 最先端NLP2019 3

教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a
character sequence (a, n, a, p, p, l, e) • : a segment sequence (an, ap, ple) • 分割の尤もらしさを⾔語モデルで計算 • その分割に含まれる単語の確率 = + ,∈ ~ argmax | 2019/9/28 最先端NLP2019 4

教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a
character sequence (a, n, a, p, p, l, e) • : a segment sequence (an, ap, ple) • 分割の尤もらしさを⾔語モデルで計算 • その分割に含まれる単語の確率 = + ,∈ ~ argmax | 2019/9/28 最先端NLP2019 5 • ⾔語モデルの性能が良いほど，分割性能が良い • 教師なし単語分割が⾔語モデルに求める性質 • ありうる全ての⽂字列に確率を与えることができる

⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 6

⾔語モデル Predict next segment from character-context 直前までの⽂字列から，単語lookが出る確率 = “look” 5”6”
2019/9/28 最先端NLP2019 7

⾔語モデル Predict next segment from character-context ⽂字レベルの⾔語モデル Segmental Language Model
(Sun+, 2018) 2019/9/28 最先端NLP2019 8

⾔語モデル Predict next segment from character-context Lexical Memory コーパスに含まれるM個の “単語”
には固有のベクトルを与える →この “単語” は通常のsoftmaxで確率を計算できる →含まれない “単語” の確率は0 ある⽂字列がベクトルを持てる条件： (1) ⻑さ2以上，L以下 (2) データセットで最低F回使⽤されている L，Fはハイパラ 2019/9/28 最先端NLP2019 9

⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 10

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log •
⽂字列のあらゆる可能な分割による “単語”列を列挙 = J :M N () • DPで求められる P = 1, Q = J RNQST QSU R = R:Q|VR QWU = EOS = QWU can ca c y ny any 2019/9/28 最先端NLP2019 11

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log •
⽂字列のあらゆる可能な分割による “単語”列を列挙 = J :M N () • DPで求められる P = 1, Q = J RNQST QSU R = R:Q|VR QWU = EOS = QWU can ca c y ny any 2019/9/28 最先端NLP2019 12 ⻑い単語の確率が⾼くなって終了

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = J ∈K − log +
, • ⽂字列xのあらゆる可能な分割による “単語”列を列挙 = J :M N () • ⻑い単語にペナルティ • その分割の確率で重み付け • はハイパラ • ⼤きいほど短い “単語”が出やすくなる , = J :M N | J ∈ _ はハイパラ 2019/9/28 最先端NLP2019 13

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構
lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 14

lengthペナルティの両⽅が必要（階層）ディリクレ過程を⽤いた教師なし単語分割 (Goldwater+, 2009) 2019/9/28 最先端NLP2019 17

Experiment(2) • 教師なし単語分割 • 英語（BR-text） • スペース除去 • 中国語 •
指標としてよく使われる • わかること • 弱いベースラインより強い 2019/9/28 最先端NLP2019 19

Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語（BR-text） • スペース除去
• 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い 2019/9/28 最先端NLP2019 20

Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語（BR-text） • スペース除去
• 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い PYHSMM(Uchiumi+, 2015) 81.6 2019/9/28 最先端NLP2019 21

Experiment(3) • 画像を使った学習 • MS COCOのcaptionと画像で⾔語モデルを学習 • どう使っているのかは不明 •
LSTMのinit hidden stateなどか • わかること • 画像を使うと分割・⾔語モデルの性能向上（？） 2019/9/28 最先端NLP2019 22

Conclusion • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM＋lexical memoryで単語確率を計算する⾔語モデル •
画像を使って⾔語モデルを学習すると性能向上 2019/9/28 最先端NLP2019 23

saisentan-nlp(hiraoka)

saisentan-nlp(hiraoka)

tatHi

More Decks by tatHi

Other Decks in Science

Featured

Transcript

Learning to Discover, Ground and Use Words with Segmental Neural

Outline • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM＋lexical memoryで単語確率を計算する⾔語モデル •

Motivation • ⼈間の⾔語獲得の第⼀歩として，語彙の獲得がある • これを模倣するようなモデルを作りたい →教師なし語彙獲得 • Continuity Hypothesis (Pinker,

教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a

教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a

⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 6

⾔語モデル Predict next segment from character-context 直前までの⽂字列から，単語lookが出る確率 = “look” 5”6”

⾔語モデル Predict next segment from character-context ⽂字レベルの⾔語モデル Segmental Language Model

⾔語モデル Predict next segment from character-context Lexical Memory コーパスに含まれるM個の “単語”

⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 10

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log •

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log •

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = J ∈K − log +

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構

Experiment(2) • 教師なし単語分割 • 英語（BR-text） • スペース除去 • 中国語 •

Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語（BR-text） • スペース除去

Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語（BR-text） • スペース除去

Experiment(3) • 画像を使った学習 • MS COCOのcaptionと画像で⾔語モデルを学習 • どう使っているのかは不明 •

Conclusion • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM＋lexical memoryで単語確率を計算する⾔語モデル •