Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
翻訳言語モデルを中間タスクとするゼロ照応解析
Search
Masato Umakoshi
March 17, 2022
Technology
0
43
翻訳言語モデルを中間タスクとするゼロ照応解析
2022年の自然言語処理学会年次大会での発表資料です。
Masato Umakoshi
March 17, 2022
Tweet
Share
More Decks by Masato Umakoshi
See All by Masato Umakoshi
Japanese Zero Anaphora Resolution Can Benefit from Parallel Texts Through Neural Transfer Learning
kevin3314
0
95
BottleSum
kevin3314
0
23
Initiative-Aware Self-Supervised Learning for Knowledge-Grounded Conversation
kevin3314
0
58
Other Decks in Technology
See All in Technology
Claude Code Skills 勉強会 (DevelersIO向けに調整済み) / claude code skills for devio
masahirokawahara
1
16k
トップマネジメントとコンピテンシーから考えるエンジニアリングマネジメント
zigorou
4
840
[2026-03-07]あの日諦めたスクラムの答えを僕達はまだ探している。〜守ることと、諦めることと、それでも前に進むチームの話〜
tosite
0
180
マルチプレーンGPUネットワークを実現するシャッフルアーキテクチャの整理と考察
markunet
2
240
JAWS DAYS 2026 ExaWizards_20260307
exawizards
0
410
OpenClawで回す組織運営
jacopen
3
690
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
5
1.2k
ランサムウエア対策してますか?やられた時の対策は本当にできてますか?AWSでのリスク分析と対応フローの泥臭いお話。
hootaki
0
110
Claude Codeが爆速進化してプラグイン追従がつらいので半自動化した話 ver.2
rfdnxbro
0
500
製造業ドメインにおける LLMプロダクト構築: 複雑な文脈へのアプローチ
caddi_eng
1
560
僕、S3 シンプルって名前だけど全然シンプルじゃありません よろしくお願いします
yama3133
1
190
[JAWSDAYS2026]Who is responsible for IAM
mizukibbb
0
430
Featured
See All Featured
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
230
From π to Pie charts
rasagy
0
150
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
120
First, design no harm
axbom
PRO
2
1.1k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
100
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
51k
The SEO Collaboration Effect
kristinabergwall1
0
390
Scaling GitHub
holman
464
140k
My Coaching Mixtape
mlcsv
0
69
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
210
Become a Pro
speakerdeck
PRO
31
5.8k
Transcript
⾺越雅⼈ 村脇有吾 ⿊橋禎夫 京都⼤学⼤学院 情報学研究科 2022/3/17@ANLP2022 1 翻訳⾔語モデルを中間タスクとする ゼロ照応解析
ゼロ照応解析 (ZAR) 2 • 述語に対し主格や与格などの格を埋める項を解析することを格解析と呼ぶ • ⽇本語ではしばしば項の省略が起こる • 省略された項 (=ゼロ代名詞)
を検出し、その照応先を解析することをゼロ 照応解析と呼ぶ 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。
• 関連するタスクとの同時学習 (Ueda+, 2020) • ⽤⾔・体⾔の格解析、共参照解析、橋渡し照応解析の同時解析 3 関連研究: BERT を⽤いたゼロ照応解析
BERT [CLS] 息⼦ に が 妻 おもちゃ を 買って [CLS] 息⼦ に が 妻 おもちゃ を 買って あげた ⾚い ⾞ を 特に 気にいって いる 。 あげた ⾚い ⾞ を 特に 気にいって いる 。 ガ格
課題: 訓練データの少なさ • ゼロ照応解析の訓練データは⽐較的少ない • 質の⾼いアノテーションを得るにはエキスパートの協⼒が必要であり、⼤ 幅にデータ量を増やすのが難しい 4 ガ格 ヲ格
ニ格 京都⼤学ウェブ⽂書リード コーパス 16,950 3,444 4,415 京都⼤学テキストコーパス 18,856 3,294 3,764
⽇英対訳テキストとゼロ照応解析 5 • ⽇本語では省略されていても英語では明⽰的に書く必要があるものがある • 明⽰された情報をゼロ照応解析に活かす Ø桁違いに規模の⼤きい対訳コーパスを⽤いて改善 • ゼロ照応解析は 数万⽂規模、
対訳コーパスは数百万⽂規模 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。 My wife got my son several toys. He especially likes the red car.
先⾏研究: 機械翻訳からの転移学習 6 • 機械翻訳 (MT) を事前学習とゼロ照応解析の間の中間タスクとして⽤いる (Umakoshi+, 2021) •
英語の⽣成を通じて暗黙的にゼロ代名詞を復元するように学習 BERT !! !" !# !$ ( "! "" "# "$ !! !" !# !$ !% BERT !! !! !$ !$ !% !# !! !" !# !! !" !# !! !" !# BERT !! !" !# ) ( ) (
MTは中間タスクとして最適か? • MT を中間タスクとする場合、様々な⽬的タスクで精度が低下 (Wang+, 2019) • 仮説: 事前学習タスクと中間タスクの乖離が⼤きいことによる破滅的忘却に原因 •
MT での中間学習時に MLM も加えて同時学習を⾏うことで⽬的タスク (ZAR) の精度がより向上 (Umakoshi+, 2021) • 上記の仮説をサポート Ø より事前学習タスク (MLM) に近いタスクを中間タスクとすると良さそう 7
提案⼿法 • MLM により近い翻訳ライクなタスクである翻訳⾔語モデル (TLM) を⽤いる 8 XLM-R !! !"
!! !" !# !# XLM-R !! !$ "! !! !$ "! "" "" "$ !" !$ !! !" !$ ( ( ) !! !" !$ !! !" !$ XLM-R !! !" !$
XLM-R • XLM-R (Conneau+, 2020): ⼤規模多⾔語コーパスを⽤い MLM で事前学習 した多⾔語エンコーダモデル •
100⾔語の単⼀⾔語テキストを集めた合計2.5TBの⼤規模多⾔語コーパスで学習 9 XLM-R て もら え [MASK] その [MASK] 取っ を かばん ; ʼ ; ʼ か て もら え ます その [MASK] 取っ を か [MASK]
翻訳⾔語モデル (TLM) • 翻訳⾔語モデル: 多⾔語タスクのための事前学習 (Conneau+, 2019) • 対訳ペアを連結しマスク⾔語モデルで学習 •
周りの単語と、対となる⾔語の単語を元にマスクされた単語を予測 10 XLM-R ; ʼ かばん て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] ます ; ʼ you ; ʼ me ; ʼ
TLM におけるマスキング戦略 • 原論⽂では両⾔語について全てのトークンをランダムにマスクしている • キーとなる語をマスクするようにコントロールすることで改善の可能性 Ø2つの戦略を提案 1. 英語のマスク割合を増やす •
英語トークンを予測することが寄与していることが期待されるため 2. 英語の代名詞を全てマスクする • ⽇本語のゼロ代名詞は英語では代名詞として現れることが多いため 11
設定: モデル • ベースライン: • BERT ベースのマルチタスク学習 (Ueda+, 2020) •
XLM-R ベースのマルチタスク学習 • +MT w/ MLM (≒Umakoshi+, 2021) • 提案⼿法: • +TLM 翻訳⾔語モデルを中間タスクとして⽤いる • +TLM w/ mask strategy マスク戦略に基づく翻訳⾔語モデル (説明は後ほど) 12
設定: データセット • ゼロ照応解析 (学習時は連結して⽤い、それぞれについて評価) • 京都⼤学ウェブ⽂書リードコーパス (WEB) • ウェブページの先頭3⽂を収集
• 約 15,000⽂ • 京都⼤学テキストコーパス (NEWS) • 新聞記事 • 約 12,000⽂ • 機械翻訳 • 読売新聞 ⽇英対訳コーパス • 約 1,000,000⽂ペア • ⽂間の関係を扱うため連続する⽂は連結して⼊⼒ • 連結後の対訳ペアは約410,000個 13
設定: TLM におけるマスク戦略 • 基本設定 (+TLM) • ⽇本語と英語をランダムに15%マスクする • 代名詞の優先的マスク
(+TLM w/ PR masking) • 英語に現れる代名詞を必ずマスクした上で15%になるようにマスク • ⽇本語側は基本設定と同様 • マスク割合の変更 • 英語側のマスク割合を {5, 10, 15, 20, 25, 30, 40, 50}% で変化させる • ⽇本語側は基本設定と同様 14
結果: ベースラインの⽐較 15 • XLM-R が BERTのスコアを⼤きく上回 る WEB NEWS
BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: TLM と MT の⽐較 16 • NEWS では TLM
が上回り、WEB でも 同程度 ØTLM の⽅が良い中間タスク WEB NEWS BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: 代名詞の優先的マスク 17 • 代名詞を優先的にマスクした⽅がわ ずかに良い結果 WEB NEWS BERT (Ueda+,
2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: 英語側のマスク割合の影響 18 • マスク割合を {5, 10, 15, 20, 25,
30, 40, 50}% で変化させた • マスク割合が⼩さい⽅が TLM の精度が⾼く、ZAR の精度も⾼い傾向がある ように⾒える • 相関係数: 0.763 (WEB), 0.567 (NEWS)
まとめ・今後の課題 • 翻訳⾔語モデルを中間タスクとする⼿法を提案 • 機械翻訳を⽤いた場合よりも精度が向上することを⽰した • 今後の課題 • より精緻なマスク戦略 •
E.g. 英語の代名詞を優先的にマスクしつつかつマスク数を減らす • 動詞の屈折 (三単現の s) から主語が特定できる場合の対処 19