翻訳言語モデルを中間タスクとするゼロ照応解析

⾺越雅⼈村脇有吾⿊橋禎夫京都⼤学⼤学院情報学研究科 2022/3/17@ANLP2022 1 翻訳⾔語モデルを中間タスクとするゼロ照応解析

ゼロ照応解析 (ZAR) 2 • 述語に対し主格や与格などの格を埋める項を解析することを格解析と呼ぶ • ⽇本語ではしばしば項の省略が起こる • 省略された項 (=ゼロ代名詞)
を検出し、その照応先を解析することをゼロ照応解析と呼ぶ妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。

• 関連するタスクとの同時学習 (Ueda+, 2020) • ⽤⾔・体⾔の格解析、共参照解析、橋渡し照応解析の同時解析 3 関連研究: BERT を⽤いたゼロ照応解析
BERT [CLS] 息⼦にが妻おもちゃを買って [CLS] 息⼦にが妻おもちゃを買ってあげた⾚い⾞を特に気にいっている。あげた⾚い⾞を特に気にいっている。ガ格

課題: 訓練データの少なさ • ゼロ照応解析の訓練データは⽐較的少ない • 質の⾼いアノテーションを得るにはエキスパートの協⼒が必要であり、⼤幅にデータ量を増やすのが難しい 4 ガ格ヲ格
ニ格京都⼤学ウェブ⽂書リードコーパス 16,950 3,444 4,415 京都⼤学テキストコーパス 18,856 3,294 3,764

⽇英対訳テキストとゼロ照応解析 5 • ⽇本語では省略されていても英語では明⽰的に書く必要があるものがある • 明⽰された情報をゼロ照応解析に活かす Ø桁違いに規模の⼤きい対訳コーパスを⽤いて改善 • ゼロ照応解析は数万⽂規模、
対訳コーパスは数百万⽂規模妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。 My wife got my son several toys. He especially likes the red car.

先⾏研究: 機械翻訳からの転移学習 6 • 機械翻訳 (MT) を事前学習とゼロ照応解析の間の中間タスクとして⽤いる (Umakoshi+, 2021) •
英語の⽣成を通じて暗黙的にゼロ代名詞を復元するように学習 BERT !! !" !# !$ ( "! "" "# "$ !! !" !# !$ !% BERT !! !! !$ !$ !% !# !! !" !# !! !" !# !! !" !# BERT !! !" !# ) ( ) (

MTは中間タスクとして最適か? • MT を中間タスクとする場合、様々な⽬的タスクで精度が低下 (Wang+, 2019) • 仮説: 事前学習タスクと中間タスクの乖離が⼤きいことによる破滅的忘却に原因 •
MT での中間学習時に MLM も加えて同時学習を⾏うことで⽬的タスク (ZAR) の精度がより向上 (Umakoshi+, 2021) • 上記の仮説をサポート Ø より事前学習タスク (MLM) に近いタスクを中間タスクとすると良さそう 7

提案⼿法 • MLM により近い翻訳ライクなタスクである翻訳⾔語モデル (TLM) を⽤いる 8 XLM-R !! !"
!! !" !# !# XLM-R !! !$ "! !! !$ "! "" "" "$ !" !$ !! !" !$ ( ( ) !! !" !$ !! !" !$ XLM-R !! !" !$

XLM-R • XLM-R (Conneau+, 2020): ⼤規模多⾔語コーパスを⽤い MLM で事前学習した多⾔語エンコーダモデル •
100⾔語の単⼀⾔語テキストを集めた合計2.5TBの⼤規模多⾔語コーパスで学習 9 XLM-R てもらえ [MASK] その [MASK] 取っをかばん ; ʼ ; ʼ かてもらえますその [MASK] 取っをか [MASK]

翻訳⾔語モデル (TLM) • 翻訳⾔語モデル: 多⾔語タスクのための事前学習 (Conneau+, 2019) • 対訳ペアを連結しマスク⾔語モデルで学習 •
周りの単語と、対となる⾔語の単語を元にマスクされた単語を予測 10 XLM-R ; ʼ かばんてもらえ [MASK] その [MASK] 取っをか Could [MASK] get that bag for ? ? [MASK] てもらえ [MASK] その [MASK] 取っをか Could [MASK] get that bag for ? ? [MASK] ます ; ʼ you ; ʼ me ; ʼ

TLM におけるマスキング戦略 • 原論⽂では両⾔語について全てのトークンをランダムにマスクしている • キーとなる語をマスクするようにコントロールすることで改善の可能性 Ø2つの戦略を提案 1. 英語のマスク割合を増やす •
英語トークンを予測することが寄与していることが期待されるため 2. 英語の代名詞を全てマスクする • ⽇本語のゼロ代名詞は英語では代名詞として現れることが多いため 11

設定: モデル • ベースライン: • BERT ベースのマルチタスク学習 (Ueda+, 2020) •
XLM-R ベースのマルチタスク学習 • +MT w/ MLM (≒Umakoshi+, 2021) • 提案⼿法: • +TLM 翻訳⾔語モデルを中間タスクとして⽤いる • +TLM w/ mask strategy マスク戦略に基づく翻訳⾔語モデル (説明は後ほど) 12

設定: データセット • ゼロ照応解析 (学習時は連結して⽤い、それぞれについて評価) • 京都⼤学ウェブ⽂書リードコーパス (WEB) • ウェブページの先頭3⽂を収集
• 約 15,000⽂ • 京都⼤学テキストコーパス (NEWS) • 新聞記事 • 約 12,000⽂ • 機械翻訳 • 読売新聞⽇英対訳コーパス • 約 1,000,000⽂ペア • ⽂間の関係を扱うため連続する⽂は連結して⼊⼒ • 連結後の対訳ペアは約410,000個 13

設定: TLM におけるマスク戦略 • 基本設定 (+TLM) • ⽇本語と英語をランダムに15%マスクする • 代名詞の優先的マスク
(+TLM w/ PR masking) • 英語に現れる代名詞を必ずマスクした上で15%になるようにマスク • ⽇本語側は基本設定と同様 • マスク割合の変更 • 英語側のマスク割合を {5, 10, 15, 20, 25, 30, 40, 50}% で変化させる • ⽇本語側は基本設定と同様 14

結果: ベースラインの⽐較 15 • XLM-R が BERTのスコアを⼤きく上回る WEB NEWS
BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア

結果: TLM と MT の⽐較 16 • NEWS では TLM
が上回り、WEB でも同程度 ØTLM の⽅が良い中間タスク WEB NEWS BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア

結果: 代名詞の優先的マスク 17 • 代名詞を優先的にマスクした⽅がわずかに良い結果 WEB NEWS BERT (Ueda+,
2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア

結果: 英語側のマスク割合の影響 18 • マスク割合を {5, 10, 15, 20, 25,
30, 40, 50}% で変化させた • マスク割合が⼩さい⽅が TLM の精度が⾼く、ZAR の精度も⾼い傾向があるように⾒える • 相関係数: 0.763 (WEB), 0.567 (NEWS)

まとめ・今後の課題 • 翻訳⾔語モデルを中間タスクとする⼿法を提案 • 機械翻訳を⽤いた場合よりも精度が向上することを⽰した • 今後の課題 • より精緻なマスク戦略 •
E.g. 英語の代名詞を優先的にマスクしつつかつマスク数を減らす • 動詞の屈折 (三単現の s) から主語が特定できる場合の対処 19

翻訳言語モデルを中間タスクとするゼロ照応解析

翻訳言語モデルを中間タスクとするゼロ照応解析

Masato Umakoshi

More Decks by Masato Umakoshi

Other Decks in Technology

Featured

Transcript

⾺越雅⼈村脇有吾⿊橋禎夫京都⼤学⼤学院情報学研究科 2022/3/17@ANLP2022 1 翻訳⾔語モデルを中間タスクとするゼロ照応解析

ゼロ照応解析 (ZAR) 2 • 述語に対し主格や与格などの格を埋める項を解析することを格解析と呼ぶ • ⽇本語ではしばしば項の省略が起こる • 省略された項 (=ゼロ代名詞)

• 関連するタスクとの同時学習 (Ueda+, 2020) • ⽤⾔・体⾔の格解析、共参照解析、橋渡し照応解析の同時解析 3 関連研究: BERT を⽤いたゼロ照応解析

課題: 訓練データの少なさ • ゼロ照応解析の訓練データは⽐較的少ない • 質の⾼いアノテーションを得るにはエキスパートの協⼒が必要であり、⼤幅にデータ量を増やすのが難しい 4 ガ格ヲ格

先⾏研究: 機械翻訳からの転移学習 6 • 機械翻訳 (MT) を事前学習とゼロ照応解析の間の中間タスクとして⽤いる (Umakoshi+, 2021) •

MTは中間タスクとして最適か? • MT を中間タスクとする場合、様々な⽬的タスクで精度が低下 (Wang+, 2019) • 仮説: 事前学習タスクと中間タスクの乖離が⼤きいことによる破滅的忘却に原因 •

提案⼿法 • MLM により近い翻訳ライクなタスクである翻訳⾔語モデル (TLM) を⽤いる 8 XLM-R !! !"

XLM-R • XLM-R (Conneau+, 2020): ⼤規模多⾔語コーパスを⽤い MLM で事前学習した多⾔語エンコーダモデル •

翻訳⾔語モデル (TLM) • 翻訳⾔語モデル: 多⾔語タスクのための事前学習 (Conneau+, 2019) • 対訳ペアを連結しマスク⾔語モデルで学習 •

設定: モデル • ベースライン: • BERT ベースのマルチタスク学習 (Ueda+, 2020) •

設定: データセット • ゼロ照応解析 (学習時は連結して⽤い、それぞれについて評価) • 京都⼤学ウェブ⽂書リードコーパス (WEB) • ウェブページの先頭3⽂を収集

設定: TLM におけるマスク戦略 • 基本設定 (+TLM) • ⽇本語と英語をランダムに15%マスクする • 代名詞の優先的マスク

結果: ベースラインの⽐較 15 • XLM-R が BERTのスコアを⼤きく上回る WEB NEWS

結果: TLM と MT の⽐較 16 • NEWS では TLM

結果: 代名詞の優先的マスク 17 • 代名詞を優先的にマスクした⽅がわずかに良い結果 WEB NEWS BERT (Ueda+,

結果: 英語側のマスク割合の影響 18 • マスク割合を {5, 10, 15, 20, 25,

まとめ・今後の課題 • 翻訳⾔語モデルを中間タスクとする⼿法を提案 • 機械翻訳を⽤いた場合よりも精度が向上することを⽰した • 今後の課題 • より精緻なマスク戦略 •