Upgrade to Pro — share decks privately, control downloads, hide ads and more …

翻訳言語モデルを中間タスクとするゼロ照応解析

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 翻訳言語モデルを中間タスクとするゼロ照応解析

2022年の自然言語処理学会年次大会での発表資料です。

Avatar for Masato Umakoshi

Masato Umakoshi

March 17, 2022
Tweet

More Decks by Masato Umakoshi

Other Decks in Technology

Transcript

  1. ゼロ照応解析 (ZAR) 2 • 述語に対し主格や与格などの格を埋める項を解析することを格解析と呼ぶ • ⽇本語ではしばしば項の省略が起こる • 省略された項 (=ゼロ代名詞)

    を検出し、その照応先を解析することをゼロ 照応解析と呼ぶ 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。
  2. • 関連するタスクとの同時学習 (Ueda+, 2020) • ⽤⾔・体⾔の格解析、共参照解析、橋渡し照応解析の同時解析 3 関連研究: BERT を⽤いたゼロ照応解析

    BERT [CLS] 息⼦ に が 妻 おもちゃ を 買って [CLS] 息⼦ に が 妻 おもちゃ を 買って あげた ⾚い ⾞ を 特に 気にいって いる 。 あげた ⾚い ⾞ を 特に 気にいって いる 。 ガ格
  3. 先⾏研究: 機械翻訳からの転移学習 6 • 機械翻訳 (MT) を事前学習とゼロ照応解析の間の中間タスクとして⽤いる (Umakoshi+, 2021) •

    英語の⽣成を通じて暗黙的にゼロ代名詞を復元するように学習 BERT !! !" !# !$ ( "! "" "# "$ !! !" !# !$     !% BERT !! !! !$ !$     !%     !#  !! !" !#  !! !" !#  !! !" !# BERT  !! !" !# ) ( ) (
  4. MTは中間タスクとして最適か? • MT を中間タスクとする場合、様々な⽬的タスクで精度が低下 (Wang+, 2019) • 仮説: 事前学習タスクと中間タスクの乖離が⼤きいことによる破滅的忘却に原因 •

    MT での中間学習時に MLM も加えて同時学習を⾏うことで⽬的タスク (ZAR) の精度がより向上 (Umakoshi+, 2021) • 上記の仮説をサポート Ø より事前学習タスク (MLM) に近いタスクを中間タスクとすると良さそう 7
  5. 提案⼿法 • MLM により近い翻訳ライクなタスクである翻訳⾔語モデル (TLM) を⽤いる 8 XLM-R !! !"

    !! !" !# !# XLM-R !! !$ "! !! !$ "! "" ""     "$     !"     !$  !! !" !$ ( ( )  !! !" !$  !! !" !$ XLM-R  !! !" !$
  6. XLM-R • XLM-R (Conneau+, 2020): ⼤規模多⾔語コーパスを⽤い MLM で事前学習 した多⾔語エンコーダモデル •

    100⾔語の単⼀⾔語テキストを集めた合計2.5TBの⼤規模多⾔語コーパスで学習 9 XLM-R て もら え [MASK] その [MASK] 取っ を かばん ; ʼ ; ʼ か て もら え ます その [MASK] 取っ を か [MASK]
  7. 翻訳⾔語モデル (TLM) • 翻訳⾔語モデル: 多⾔語タスクのための事前学習 (Conneau+, 2019) • 対訳ペアを連結しマスク⾔語モデルで学習 •

    周りの単語と、対となる⾔語の単語を元にマスクされた単語を予測 10 XLM-R ; ʼ かばん て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] ます ; ʼ you ; ʼ me ; ʼ
  8. TLM におけるマスキング戦略 • 原論⽂では両⾔語について全てのトークンをランダムにマスクしている • キーとなる語をマスクするようにコントロールすることで改善の可能性 Ø2つの戦略を提案 1. 英語のマスク割合を増やす •

    英語トークンを予測することが寄与していることが期待されるため 2. 英語の代名詞を全てマスクする • ⽇本語のゼロ代名詞は英語では代名詞として現れることが多いため 11
  9. 設定: モデル • ベースライン: • BERT ベースのマルチタスク学習 (Ueda+, 2020) •

    XLM-R ベースのマルチタスク学習 • +MT w/ MLM (≒Umakoshi+, 2021) • 提案⼿法: • +TLM 翻訳⾔語モデルを中間タスクとして⽤いる • +TLM w/ mask strategy マスク戦略に基づく翻訳⾔語モデル (説明は後ほど) 12
  10. 設定: データセット • ゼロ照応解析 (学習時は連結して⽤い、それぞれについて評価) • 京都⼤学ウェブ⽂書リードコーパス (WEB) • ウェブページの先頭3⽂を収集

    • 約 15,000⽂ • 京都⼤学テキストコーパス (NEWS) • 新聞記事 • 約 12,000⽂ • 機械翻訳 • 読売新聞 ⽇英対訳コーパス • 約 1,000,000⽂ペア • ⽂間の関係を扱うため連続する⽂は連結して⼊⼒ • 連結後の対訳ペアは約410,000個 13
  11. 設定: TLM におけるマスク戦略 • 基本設定 (+TLM) • ⽇本語と英語をランダムに15%マスクする • 代名詞の優先的マスク

    (+TLM w/ PR masking) • 英語に現れる代名詞を必ずマスクした上で15%になるようにマスク • ⽇本語側は基本設定と同様 • マスク割合の変更 • 英語側のマスク割合を {5, 10, 15, 20, 25, 30, 40, 50}% で変化させる • ⽇本語側は基本設定と同様 14
  12. 結果: ベースラインの⽐較 15 • XLM-R が BERTのスコアを⼤きく上回 る WEB NEWS

    BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
  13. 結果: TLM と MT の⽐較 16 • NEWS では TLM

    が上回り、WEB でも 同程度 ØTLM の⽅が良い中間タスク WEB NEWS BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
  14. 結果: 代名詞の優先的マスク 17 • 代名詞を優先的にマスクした⽅がわ ずかに良い結果 WEB NEWS BERT (Ueda+,

    2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
  15. 結果: 英語側のマスク割合の影響 18 • マスク割合を {5, 10, 15, 20, 25,

    30, 40, 50}% で変化させた • マスク割合が⼩さい⽅が TLM の精度が⾼く、ZAR の精度も⾼い傾向がある ように⾒える • 相関係数: 0.763 (WEB), 0.567 (NEWS)
  16. まとめ・今後の課題 • 翻訳⾔語モデルを中間タスクとする⼿法を提案 • 機械翻訳を⽤いた場合よりも精度が向上することを⽰した • 今後の課題 • より精緻なマスク戦略 •

    E.g. 英語の代名詞を優先的にマスクしつつかつマスク数を減らす • 動詞の屈折 (三単現の s) から主語が特定できる場合の対処 19