Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
翻訳言語モデルを中間タスクとするゼロ照応解析
Search
Masato Umakoshi
March 17, 2022
Technology
0
42
翻訳言語モデルを中間タスクとするゼロ照応解析
2022年の自然言語処理学会年次大会での発表資料です。
Masato Umakoshi
March 17, 2022
Tweet
Share
More Decks by Masato Umakoshi
See All by Masato Umakoshi
Japanese Zero Anaphora Resolution Can Benefit from Parallel Texts Through Neural Transfer Learning
kevin3314
0
82
BottleSum
kevin3314
0
22
Initiative-Aware Self-Supervised Learning for Knowledge-Grounded Conversation
kevin3314
0
52
Other Decks in Technology
See All in Technology
Automating Web Accessibility Testing with AI Agents
maminami373
0
1.3k
20250912_RPALT_データを集める→とっ散らかる問題_Obsidian紹介
ratsbane666
0
100
初めてAWSを使うときのセキュリティ覚書〜初心者支部編〜
cmusudakeisuke
1
270
普通のチームがスクラムを会得するたった一つの冴えたやり方 / the best way to scrum
okamototakuyasr2
0
100
AWSを利用する上で知っておきたい名前解決のはなし(10分版)
nagisa53
10
3.2k
💡Ruby 川辺で灯すPicoRubyからの光
bash0c7
0
120
【NoMapsTECH 2025】AI Edge Computing Workshop
akit37
0
220
S3アクセス制御の設計ポイント
tommy0124
3
200
AIをプライベートや業務で使ってみよう!効果的な認定資格の活かし方
fukazawashun
0
100
DDD集約とサービスコンテキスト境界との関係性
pandayumi
3
290
エンジニアリングマネージャーの成長の道筋とキャリア / Developers Summit 2025 KANSAI
daiksy
2
450
「何となくテストする」を卒業するためにプロダクトが動く仕組みを理解しよう
kawabeaver
0
420
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
188
55k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.6k
How STYLIGHT went responsive
nonsquared
100
5.8k
Why Our Code Smells
bkeepers
PRO
339
57k
A designer walks into a library…
pauljervisheath
207
24k
The Cult of Friendly URLs
andyhume
79
6.6k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Mobile First: as difficult as doing things right
swwweet
224
9.9k
Facilitating Awesome Meetings
lara
55
6.5k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Transcript
⾺越雅⼈ 村脇有吾 ⿊橋禎夫 京都⼤学⼤学院 情報学研究科 2022/3/17@ANLP2022 1 翻訳⾔語モデルを中間タスクとする ゼロ照応解析
ゼロ照応解析 (ZAR) 2 • 述語に対し主格や与格などの格を埋める項を解析することを格解析と呼ぶ • ⽇本語ではしばしば項の省略が起こる • 省略された項 (=ゼロ代名詞)
を検出し、その照応先を解析することをゼロ 照応解析と呼ぶ 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。
• 関連するタスクとの同時学習 (Ueda+, 2020) • ⽤⾔・体⾔の格解析、共参照解析、橋渡し照応解析の同時解析 3 関連研究: BERT を⽤いたゼロ照応解析
BERT [CLS] 息⼦ に が 妻 おもちゃ を 買って [CLS] 息⼦ に が 妻 おもちゃ を 買って あげた ⾚い ⾞ を 特に 気にいって いる 。 あげた ⾚い ⾞ を 特に 気にいって いる 。 ガ格
課題: 訓練データの少なさ • ゼロ照応解析の訓練データは⽐較的少ない • 質の⾼いアノテーションを得るにはエキスパートの協⼒が必要であり、⼤ 幅にデータ量を増やすのが難しい 4 ガ格 ヲ格
ニ格 京都⼤学ウェブ⽂書リード コーパス 16,950 3,444 4,415 京都⼤学テキストコーパス 18,856 3,294 3,764
⽇英対訳テキストとゼロ照応解析 5 • ⽇本語では省略されていても英語では明⽰的に書く必要があるものがある • 明⽰された情報をゼロ照応解析に活かす Ø桁違いに規模の⼤きい対訳コーパスを⽤いて改善 • ゼロ照応解析は 数万⽂規模、
対訳コーパスは数百万⽂規模 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。 My wife got my son several toys. He especially likes the red car.
先⾏研究: 機械翻訳からの転移学習 6 • 機械翻訳 (MT) を事前学習とゼロ照応解析の間の中間タスクとして⽤いる (Umakoshi+, 2021) •
英語の⽣成を通じて暗黙的にゼロ代名詞を復元するように学習 BERT !! !" !# !$ ( "! "" "# "$ !! !" !# !$ !% BERT !! !! !$ !$ !% !# !! !" !# !! !" !# !! !" !# BERT !! !" !# ) ( ) (
MTは中間タスクとして最適か? • MT を中間タスクとする場合、様々な⽬的タスクで精度が低下 (Wang+, 2019) • 仮説: 事前学習タスクと中間タスクの乖離が⼤きいことによる破滅的忘却に原因 •
MT での中間学習時に MLM も加えて同時学習を⾏うことで⽬的タスク (ZAR) の精度がより向上 (Umakoshi+, 2021) • 上記の仮説をサポート Ø より事前学習タスク (MLM) に近いタスクを中間タスクとすると良さそう 7
提案⼿法 • MLM により近い翻訳ライクなタスクである翻訳⾔語モデル (TLM) を⽤いる 8 XLM-R !! !"
!! !" !# !# XLM-R !! !$ "! !! !$ "! "" "" "$ !" !$ !! !" !$ ( ( ) !! !" !$ !! !" !$ XLM-R !! !" !$
XLM-R • XLM-R (Conneau+, 2020): ⼤規模多⾔語コーパスを⽤い MLM で事前学習 した多⾔語エンコーダモデル •
100⾔語の単⼀⾔語テキストを集めた合計2.5TBの⼤規模多⾔語コーパスで学習 9 XLM-R て もら え [MASK] その [MASK] 取っ を かばん ; ʼ ; ʼ か て もら え ます その [MASK] 取っ を か [MASK]
翻訳⾔語モデル (TLM) • 翻訳⾔語モデル: 多⾔語タスクのための事前学習 (Conneau+, 2019) • 対訳ペアを連結しマスク⾔語モデルで学習 •
周りの単語と、対となる⾔語の単語を元にマスクされた単語を予測 10 XLM-R ; ʼ かばん て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] ます ; ʼ you ; ʼ me ; ʼ
TLM におけるマスキング戦略 • 原論⽂では両⾔語について全てのトークンをランダムにマスクしている • キーとなる語をマスクするようにコントロールすることで改善の可能性 Ø2つの戦略を提案 1. 英語のマスク割合を増やす •
英語トークンを予測することが寄与していることが期待されるため 2. 英語の代名詞を全てマスクする • ⽇本語のゼロ代名詞は英語では代名詞として現れることが多いため 11
設定: モデル • ベースライン: • BERT ベースのマルチタスク学習 (Ueda+, 2020) •
XLM-R ベースのマルチタスク学習 • +MT w/ MLM (≒Umakoshi+, 2021) • 提案⼿法: • +TLM 翻訳⾔語モデルを中間タスクとして⽤いる • +TLM w/ mask strategy マスク戦略に基づく翻訳⾔語モデル (説明は後ほど) 12
設定: データセット • ゼロ照応解析 (学習時は連結して⽤い、それぞれについて評価) • 京都⼤学ウェブ⽂書リードコーパス (WEB) • ウェブページの先頭3⽂を収集
• 約 15,000⽂ • 京都⼤学テキストコーパス (NEWS) • 新聞記事 • 約 12,000⽂ • 機械翻訳 • 読売新聞 ⽇英対訳コーパス • 約 1,000,000⽂ペア • ⽂間の関係を扱うため連続する⽂は連結して⼊⼒ • 連結後の対訳ペアは約410,000個 13
設定: TLM におけるマスク戦略 • 基本設定 (+TLM) • ⽇本語と英語をランダムに15%マスクする • 代名詞の優先的マスク
(+TLM w/ PR masking) • 英語に現れる代名詞を必ずマスクした上で15%になるようにマスク • ⽇本語側は基本設定と同様 • マスク割合の変更 • 英語側のマスク割合を {5, 10, 15, 20, 25, 30, 40, 50}% で変化させる • ⽇本語側は基本設定と同様 14
結果: ベースラインの⽐較 15 • XLM-R が BERTのスコアを⼤きく上回 る WEB NEWS
BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: TLM と MT の⽐較 16 • NEWS では TLM
が上回り、WEB でも 同程度 ØTLM の⽅が良い中間タスク WEB NEWS BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: 代名詞の優先的マスク 17 • 代名詞を優先的にマスクした⽅がわ ずかに良い結果 WEB NEWS BERT (Ueda+,
2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: 英語側のマスク割合の影響 18 • マスク割合を {5, 10, 15, 20, 25,
30, 40, 50}% で変化させた • マスク割合が⼩さい⽅が TLM の精度が⾼く、ZAR の精度も⾼い傾向がある ように⾒える • 相関係数: 0.763 (WEB), 0.567 (NEWS)
まとめ・今後の課題 • 翻訳⾔語モデルを中間タスクとする⼿法を提案 • 機械翻訳を⽤いた場合よりも精度が向上することを⽰した • 今後の課題 • より精緻なマスク戦略 •
E.g. 英語の代名詞を優先的にマスクしつつかつマスク数を減らす • 動詞の屈折 (三単現の s) から主語が特定できる場合の対処 19