Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
翻訳言語モデルを中間タスクとするゼロ照応解析
Search
Masato Umakoshi
March 17, 2022
Technology
0
37
翻訳言語モデルを中間タスクとするゼロ照応解析
2022年の自然言語処理学会年次大会での発表資料です。
Masato Umakoshi
March 17, 2022
Tweet
Share
More Decks by Masato Umakoshi
See All by Masato Umakoshi
Japanese Zero Anaphora Resolution Can Benefit from Parallel Texts Through Neural Transfer Learning
kevin3314
0
59
BottleSum
kevin3314
0
17
Initiative-Aware Self-Supervised Learning for Knowledge-Grounded Conversation
kevin3314
0
45
Other Decks in Technology
See All in Technology
アプリをリリースできる状態に保ったまま 段階的にリファクタリングするための 戦略と戦術 / Strategies and tactics for incremental refactoring
yanzm
6
480
PDF Viewer作成の今までとこれから
hunachi
0
250
EitherT_with_Future
aoiroaoino
1
980
Creative UIs with Compose: DroidKaigi 2024
chrishorner
1
160
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
2
170
React Aria で実現する次世代のアクセシビリティ
ryo_manba
4
1k
なぜクラウドサービスで Web コンソールを提供するのか
shuta13
4
2k
セキュリティ監視の内製化 効率とリスク
mixi_engineers
PRO
7
890
エンジニア向け会社紹介資料
caddi_eng
15
250k
PdMはどのように全てのスピードを上げられるか ~ 非連続進化のための具体的な取り組み ~
sansantech
PRO
1
140
2024年版 運用者たちのLLM
nwiizo
3
510
可視化により内部品質をあげるAIドキュメントリバース/20240910 Hiromitsu Akiba
shift_evolve
0
180
Featured
See All Featured
Debugging Ruby Performance
tmm1
72
12k
Why You Should Never Use an ORM
jnunemaker
PRO
53
8.9k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
36
1.9k
Side Projects
sachag
451
42k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
45
4.8k
Clear Off the Table
cherdarchuk
91
320k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
24
3.9k
The Cult of Friendly URLs
andyhume
76
5.9k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
The Invisible Customer
myddelton
119
13k
Pencils Down: Stop Designing & Start Developing
hursman
119
11k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2k
Transcript
⾺越雅⼈ 村脇有吾 ⿊橋禎夫 京都⼤学⼤学院 情報学研究科 2022/3/17@ANLP2022 1 翻訳⾔語モデルを中間タスクとする ゼロ照応解析
ゼロ照応解析 (ZAR) 2 • 述語に対し主格や与格などの格を埋める項を解析することを格解析と呼ぶ • ⽇本語ではしばしば項の省略が起こる • 省略された項 (=ゼロ代名詞)
を検出し、その照応先を解析することをゼロ 照応解析と呼ぶ 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。
• 関連するタスクとの同時学習 (Ueda+, 2020) • ⽤⾔・体⾔の格解析、共参照解析、橋渡し照応解析の同時解析 3 関連研究: BERT を⽤いたゼロ照応解析
BERT [CLS] 息⼦ に が 妻 おもちゃ を 買って [CLS] 息⼦ に が 妻 おもちゃ を 買って あげた ⾚い ⾞ を 特に 気にいって いる 。 あげた ⾚い ⾞ を 特に 気にいって いる 。 ガ格
課題: 訓練データの少なさ • ゼロ照応解析の訓練データは⽐較的少ない • 質の⾼いアノテーションを得るにはエキスパートの協⼒が必要であり、⼤ 幅にデータ量を増やすのが難しい 4 ガ格 ヲ格
ニ格 京都⼤学ウェブ⽂書リード コーパス 16,950 3,444 4,415 京都⼤学テキストコーパス 18,856 3,294 3,764
⽇英対訳テキストとゼロ照応解析 5 • ⽇本語では省略されていても英語では明⽰的に書く必要があるものがある • 明⽰された情報をゼロ照応解析に活かす Ø桁違いに規模の⼤きい対訳コーパスを⽤いて改善 • ゼロ照応解析は 数万⽂規模、
対訳コーパスは数百万⽂規模 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。 My wife got my son several toys. He especially likes the red car.
先⾏研究: 機械翻訳からの転移学習 6 • 機械翻訳 (MT) を事前学習とゼロ照応解析の間の中間タスクとして⽤いる (Umakoshi+, 2021) •
英語の⽣成を通じて暗黙的にゼロ代名詞を復元するように学習 BERT !! !" !# !$ ( "! "" "# "$ !! !" !# !$ !% BERT !! !! !$ !$ !% !# !! !" !# !! !" !# !! !" !# BERT !! !" !# ) ( ) (
MTは中間タスクとして最適か? • MT を中間タスクとする場合、様々な⽬的タスクで精度が低下 (Wang+, 2019) • 仮説: 事前学習タスクと中間タスクの乖離が⼤きいことによる破滅的忘却に原因 •
MT での中間学習時に MLM も加えて同時学習を⾏うことで⽬的タスク (ZAR) の精度がより向上 (Umakoshi+, 2021) • 上記の仮説をサポート Ø より事前学習タスク (MLM) に近いタスクを中間タスクとすると良さそう 7
提案⼿法 • MLM により近い翻訳ライクなタスクである翻訳⾔語モデル (TLM) を⽤いる 8 XLM-R !! !"
!! !" !# !# XLM-R !! !$ "! !! !$ "! "" "" "$ !" !$ !! !" !$ ( ( ) !! !" !$ !! !" !$ XLM-R !! !" !$
XLM-R • XLM-R (Conneau+, 2020): ⼤規模多⾔語コーパスを⽤い MLM で事前学習 した多⾔語エンコーダモデル •
100⾔語の単⼀⾔語テキストを集めた合計2.5TBの⼤規模多⾔語コーパスで学習 9 XLM-R て もら え [MASK] その [MASK] 取っ を かばん ; ʼ ; ʼ か て もら え ます その [MASK] 取っ を か [MASK]
翻訳⾔語モデル (TLM) • 翻訳⾔語モデル: 多⾔語タスクのための事前学習 (Conneau+, 2019) • 対訳ペアを連結しマスク⾔語モデルで学習 •
周りの単語と、対となる⾔語の単語を元にマスクされた単語を予測 10 XLM-R ; ʼ かばん て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] ます ; ʼ you ; ʼ me ; ʼ
TLM におけるマスキング戦略 • 原論⽂では両⾔語について全てのトークンをランダムにマスクしている • キーとなる語をマスクするようにコントロールすることで改善の可能性 Ø2つの戦略を提案 1. 英語のマスク割合を増やす •
英語トークンを予測することが寄与していることが期待されるため 2. 英語の代名詞を全てマスクする • ⽇本語のゼロ代名詞は英語では代名詞として現れることが多いため 11
設定: モデル • ベースライン: • BERT ベースのマルチタスク学習 (Ueda+, 2020) •
XLM-R ベースのマルチタスク学習 • +MT w/ MLM (≒Umakoshi+, 2021) • 提案⼿法: • +TLM 翻訳⾔語モデルを中間タスクとして⽤いる • +TLM w/ mask strategy マスク戦略に基づく翻訳⾔語モデル (説明は後ほど) 12
設定: データセット • ゼロ照応解析 (学習時は連結して⽤い、それぞれについて評価) • 京都⼤学ウェブ⽂書リードコーパス (WEB) • ウェブページの先頭3⽂を収集
• 約 15,000⽂ • 京都⼤学テキストコーパス (NEWS) • 新聞記事 • 約 12,000⽂ • 機械翻訳 • 読売新聞 ⽇英対訳コーパス • 約 1,000,000⽂ペア • ⽂間の関係を扱うため連続する⽂は連結して⼊⼒ • 連結後の対訳ペアは約410,000個 13
設定: TLM におけるマスク戦略 • 基本設定 (+TLM) • ⽇本語と英語をランダムに15%マスクする • 代名詞の優先的マスク
(+TLM w/ PR masking) • 英語に現れる代名詞を必ずマスクした上で15%になるようにマスク • ⽇本語側は基本設定と同様 • マスク割合の変更 • 英語側のマスク割合を {5, 10, 15, 20, 25, 30, 40, 50}% で変化させる • ⽇本語側は基本設定と同様 14
結果: ベースラインの⽐較 15 • XLM-R が BERTのスコアを⼤きく上回 る WEB NEWS
BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: TLM と MT の⽐較 16 • NEWS では TLM
が上回り、WEB でも 同程度 ØTLM の⽅が良い中間タスク WEB NEWS BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: 代名詞の優先的マスク 17 • 代名詞を優先的にマスクした⽅がわ ずかに良い結果 WEB NEWS BERT (Ueda+,
2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: 英語側のマスク割合の影響 18 • マスク割合を {5, 10, 15, 20, 25,
30, 40, 50}% で変化させた • マスク割合が⼩さい⽅が TLM の精度が⾼く、ZAR の精度も⾼い傾向がある ように⾒える • 相関係数: 0.763 (WEB), 0.567 (NEWS)
まとめ・今後の課題 • 翻訳⾔語モデルを中間タスクとする⼿法を提案 • 機械翻訳を⽤いた場合よりも精度が向上することを⽰した • 今後の課題 • より精緻なマスク戦略 •
E.g. 英語の代名詞を優先的にマスクしつつかつマスク数を減らす • 動詞の屈折 (三単現の s) から主語が特定できる場合の対処 19