Slide 1

Slide 1 text

Learning to Discover, Ground and Use Words with Segmental Neural Language Models Kazuya Kawakami, Chris Dyer, Phil Blunsom. ACL2019 Presenter: Tatsuya Hiraoka (D1) Okazaki lab. TokyoTech 2019/9/28 最先端NLP2019 1

Slide 2

Slide 2 text

Outline • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM+lexical memoryで単語確率を計算する ⾔語モデル • 画像を使って⾔語モデルを学習すると性能向上 2019/9/28 最先端NLP2019 2

Slide 3

Slide 3 text

Motivation • ⼈間の⾔語獲得の第⼀歩として,語彙の獲得がある • これを模倣するようなモデルを作りたい →教師なし語彙獲得 • Continuity Hypothesis (Pinker, 1984) • タスクとしてはいわゆる教師なし単語分割 2019/9/28 最先端NLP2019 3

Slide 4

Slide 4 text

教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a character sequence (a, n, a, p, p, l, e) • : a segment sequence (an, ap, ple) • 分割の尤もらしさを⾔語モデルで計算 • その分割に含まれる単語の確率 = + ,∈ ~ argmax | 2019/9/28 最先端NLP2019 4

Slide 5

Slide 5 text

教師なし単語分割 • 中国語などの⾔語の単語分割を教師なしで求める • ⽂字列の尤もらしい分割argmax | を⾒つける • : a character sequence (a, n, a, p, p, l, e) • : a segment sequence (an, ap, ple) • 分割の尤もらしさを⾔語モデルで計算 • その分割に含まれる単語の確率 = + ,∈ ~ argmax | 2019/9/28 最先端NLP2019 5 • ⾔語モデルの性能が良いほど,分割性能が良い • 教師なし単語分割が⾔語モデルに求める性質 • ありうる全ての⽂字列に確率を与えることができる

Slide 6

Slide 6 text

⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 6

Slide 7

Slide 7 text

⾔語モデル Predict next segment from character-context 直前までの⽂字列から,単語lookが出る確率 = “look” 5”6” 2019/9/28 最先端NLP2019 7

Slide 8

Slide 8 text

⾔語モデル Predict next segment from character-context ⽂字レベルの⾔語モデル Segmental Language Model (Sun+, 2018) 2019/9/28 最先端NLP2019 8

Slide 9

Slide 9 text

⾔語モデル Predict next segment from character-context Lexical Memory コーパスに含まれるM個の “単語” には 固有のベクトルを与える →この “単語” は通常のsoftmaxで確率を計算できる →含まれない “単語” の確率は0 ある⽂字列がベクトルを持てる条件: (1) ⻑さ2以上,L以下 (2) データセットで最低F回使⽤されている L,Fはハイパラ 2019/9/28 最先端NLP2019 9

Slide 10

Slide 10 text

⾔語モデル Predict next segment from character-context 2019/9/28 最先端NLP2019 10

Slide 11

Slide 11 text

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log • ⽂字列のあらゆる可能な分割による “単語”列を列挙 = J :M N () • DPで求められる P = 1, Q = J RNQST QSU R = R:Q|VR QWU = EOS = QWU can ca c y ny any 2019/9/28 最先端NLP2019 11

Slide 12

Slide 12 text

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = − J ∈K log • ⽂字列のあらゆる可能な分割による “単語”列を列挙 = J :M N () • DPで求められる P = 1, Q = J RNQST QSU R = R:Q|VR QWU = EOS = QWU can ca c y ny any 2019/9/28 最先端NLP2019 12 ⻑い単語の確率が⾼くなって終了

Slide 13

Slide 13 text

Learning • あらゆる分割の周辺確率を最⼤化 ℒ = J ∈K − log + , • ⽂字列xのあらゆる可能な分割による “単語”列を列挙 = J :M N () • ⻑い単語にペナルティ • その分割の確率で重み付け • はハイパラ • ⼤きいほど短い “単語”が 出やすくなる , = J :M N | J ∈ _ はハイパラ 2019/9/28 最先端NLP2019 13

Slide 14

Slide 14 text

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構 lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 14

Slide 15

Slide 15 text

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構 lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 15

Slide 16

Slide 16 text

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構 lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 16

Slide 17

Slide 17 text

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構 lengthペナルティの両⽅が必要 (階層)ディリクレ過程 を⽤いた教師なし単語分割 (Goldwater+, 2009) 2019/9/28 最先端NLP2019 17

Slide 18

Slide 18 text

Experiment(1) • 教師なし単語分割 • 英語⾳素 • わかること • Lexical memory機構 lengthペナルティの両⽅が必要 2019/9/28 最先端NLP2019 18

Slide 19

Slide 19 text

Experiment(2) • 教師なし単語分割 • 英語(BR-text) • スペース除去 • 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い 2019/9/28 最先端NLP2019 19

Slide 20

Slide 20 text

Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語(BR-text) • スペース除去 • 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い 2019/9/28 最先端NLP2019 20

Slide 21

Slide 21 text

Experiment(2) SLM-4(Sun+, 2018) 79.2 • 教師なし単語分割 • 英語(BR-text) • スペース除去 • 中国語 • 指標としてよく使われる • わかること • 弱いベースラインより強い PYHSMM(Uchiumi+, 2015) 81.6 2019/9/28 最先端NLP2019 21

Slide 22

Slide 22 text

Experiment(3) • 画像を使った学習 • MS COCOのcaptionと画像で ⾔語モデルを学習 • どう使っているのかは不明 • LSTMのinit hidden stateなどか • わかること • 画像を使うと分割・⾔語モデル の性能向上(?) 2019/9/28 最先端NLP2019 22

Slide 23

Slide 23 text

Conclusion • Segmental Language Modelによる教師なし「語彙獲得」 • ⽂字レベルLSTM+lexical memoryで単語確率を計算する ⾔語モデル • 画像を使って⾔語モデルを学習すると性能向上 2019/9/28 最先端NLP2019 23