$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
翻訳言語モデルを中間タスクとするゼロ照応解析
Search
Masato Umakoshi
March 17, 2022
Technology
0
43
翻訳言語モデルを中間タスクとするゼロ照応解析
2022年の自然言語処理学会年次大会での発表資料です。
Masato Umakoshi
March 17, 2022
Tweet
Share
More Decks by Masato Umakoshi
See All by Masato Umakoshi
Japanese Zero Anaphora Resolution Can Benefit from Parallel Texts Through Neural Transfer Learning
kevin3314
0
86
BottleSum
kevin3314
0
22
Initiative-Aware Self-Supervised Learning for Knowledge-Grounded Conversation
kevin3314
0
55
Other Decks in Technology
See All in Technology
「もしもデータ基盤開発で『強くてニューゲーム』ができたなら今の僕はどんなデータ基盤を作っただろう」
aeonpeople
0
230
Amazon Bedrock Knowledge Bases × メタデータ活用で実現する検証可能な RAG 設計
tomoaki25
6
2.2k
2025年 開発生産「可能」性向上報告 サイロ解消からチームが能動性を獲得するまで/ 20251216 Naoki Takahashi
shift_evolve
PRO
2
220
_第4回__AIxIoTビジネス共創ラボ紹介資料_20251203.pdf
iotcomjpadmin
0
130
AWS re:Invent 2025~初参加の成果と学び~
kubomasataka
0
180
20251219 OpenIDファウンデーション・ジャパン紹介 / OpenID Foundation Japan Intro
oidfj
0
470
普段使ってるClaude Skillsの紹介(by Notebooklm)
zerebom
8
2k
AWSに革命を起こすかもしれない新サービス・アップデートについてのお話
yama3133
0
490
AI with TiDD
shiraji
1
260
障害対応訓練、その前に
coconala_engineer
0
190
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
9.9k
ハッカソンから社内プロダクトへ AIエージェント「ko☆shi」開発で学んだ4つの重要要素
sonoda_mj
6
1.5k
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
85
9.3k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
25
Bash Introduction
62gerente
615
210k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
60
37k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
4 Signs Your Business is Dying
shpigford
186
22k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
26
AI Search: Where Are We & What Can We Do About It?
aleyda
0
6.7k
Into the Great Unknown - MozCon
thekraken
40
2.2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.8k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.1k
Transcript
⾺越雅⼈ 村脇有吾 ⿊橋禎夫 京都⼤学⼤学院 情報学研究科 2022/3/17@ANLP2022 1 翻訳⾔語モデルを中間タスクとする ゼロ照応解析
ゼロ照応解析 (ZAR) 2 • 述語に対し主格や与格などの格を埋める項を解析することを格解析と呼ぶ • ⽇本語ではしばしば項の省略が起こる • 省略された項 (=ゼロ代名詞)
を検出し、その照応先を解析することをゼロ 照応解析と呼ぶ 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。
• 関連するタスクとの同時学習 (Ueda+, 2020) • ⽤⾔・体⾔の格解析、共参照解析、橋渡し照応解析の同時解析 3 関連研究: BERT を⽤いたゼロ照応解析
BERT [CLS] 息⼦ に が 妻 おもちゃ を 買って [CLS] 息⼦ に が 妻 おもちゃ を 買って あげた ⾚い ⾞ を 特に 気にいって いる 。 あげた ⾚い ⾞ を 特に 気にいって いる 。 ガ格
課題: 訓練データの少なさ • ゼロ照応解析の訓練データは⽐較的少ない • 質の⾼いアノテーションを得るにはエキスパートの協⼒が必要であり、⼤ 幅にデータ量を増やすのが難しい 4 ガ格 ヲ格
ニ格 京都⼤学ウェブ⽂書リード コーパス 16,950 3,444 4,415 京都⼤学テキストコーパス 18,856 3,294 3,764
⽇英対訳テキストとゼロ照応解析 5 • ⽇本語では省略されていても英語では明⽰的に書く必要があるものがある • 明⽰された情報をゼロ照応解析に活かす Ø桁違いに規模の⼤きい対訳コーパスを⽤いて改善 • ゼロ照応解析は 数万⽂規模、
対訳コーパスは数百万⽂規模 妻が息⼦におもちゃを買った。 (ϕ! =ガ) ⾚い⾞を特に気に⼊っている。 My wife got my son several toys. He especially likes the red car.
先⾏研究: 機械翻訳からの転移学習 6 • 機械翻訳 (MT) を事前学習とゼロ照応解析の間の中間タスクとして⽤いる (Umakoshi+, 2021) •
英語の⽣成を通じて暗黙的にゼロ代名詞を復元するように学習 BERT !! !" !# !$ ( "! "" "# "$ !! !" !# !$ !% BERT !! !! !$ !$ !% !# !! !" !# !! !" !# !! !" !# BERT !! !" !# ) ( ) (
MTは中間タスクとして最適か? • MT を中間タスクとする場合、様々な⽬的タスクで精度が低下 (Wang+, 2019) • 仮説: 事前学習タスクと中間タスクの乖離が⼤きいことによる破滅的忘却に原因 •
MT での中間学習時に MLM も加えて同時学習を⾏うことで⽬的タスク (ZAR) の精度がより向上 (Umakoshi+, 2021) • 上記の仮説をサポート Ø より事前学習タスク (MLM) に近いタスクを中間タスクとすると良さそう 7
提案⼿法 • MLM により近い翻訳ライクなタスクである翻訳⾔語モデル (TLM) を⽤いる 8 XLM-R !! !"
!! !" !# !# XLM-R !! !$ "! !! !$ "! "" "" "$ !" !$ !! !" !$ ( ( ) !! !" !$ !! !" !$ XLM-R !! !" !$
XLM-R • XLM-R (Conneau+, 2020): ⼤規模多⾔語コーパスを⽤い MLM で事前学習 した多⾔語エンコーダモデル •
100⾔語の単⼀⾔語テキストを集めた合計2.5TBの⼤規模多⾔語コーパスで学習 9 XLM-R て もら え [MASK] その [MASK] 取っ を かばん ; ʼ ; ʼ か て もら え ます その [MASK] 取っ を か [MASK]
翻訳⾔語モデル (TLM) • 翻訳⾔語モデル: 多⾔語タスクのための事前学習 (Conneau+, 2019) • 対訳ペアを連結しマスク⾔語モデルで学習 •
周りの単語と、対となる⾔語の単語を元にマスクされた単語を予測 10 XLM-R ; ʼ かばん て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] て もら え [MASK] その [MASK] 取っ を か Could [MASK] get that bag for ? ? [MASK] ます ; ʼ you ; ʼ me ; ʼ
TLM におけるマスキング戦略 • 原論⽂では両⾔語について全てのトークンをランダムにマスクしている • キーとなる語をマスクするようにコントロールすることで改善の可能性 Ø2つの戦略を提案 1. 英語のマスク割合を増やす •
英語トークンを予測することが寄与していることが期待されるため 2. 英語の代名詞を全てマスクする • ⽇本語のゼロ代名詞は英語では代名詞として現れることが多いため 11
設定: モデル • ベースライン: • BERT ベースのマルチタスク学習 (Ueda+, 2020) •
XLM-R ベースのマルチタスク学習 • +MT w/ MLM (≒Umakoshi+, 2021) • 提案⼿法: • +TLM 翻訳⾔語モデルを中間タスクとして⽤いる • +TLM w/ mask strategy マスク戦略に基づく翻訳⾔語モデル (説明は後ほど) 12
設定: データセット • ゼロ照応解析 (学習時は連結して⽤い、それぞれについて評価) • 京都⼤学ウェブ⽂書リードコーパス (WEB) • ウェブページの先頭3⽂を収集
• 約 15,000⽂ • 京都⼤学テキストコーパス (NEWS) • 新聞記事 • 約 12,000⽂ • 機械翻訳 • 読売新聞 ⽇英対訳コーパス • 約 1,000,000⽂ペア • ⽂間の関係を扱うため連続する⽂は連結して⼊⼒ • 連結後の対訳ペアは約410,000個 13
設定: TLM におけるマスク戦略 • 基本設定 (+TLM) • ⽇本語と英語をランダムに15%マスクする • 代名詞の優先的マスク
(+TLM w/ PR masking) • 英語に現れる代名詞を必ずマスクした上で15%になるようにマスク • ⽇本語側は基本設定と同様 • マスク割合の変更 • 英語側のマスク割合を {5, 10, 15, 20, 25, 30, 40, 50}% で変化させる • ⽇本語側は基本設定と同様 14
結果: ベースラインの⽐較 15 • XLM-R が BERTのスコアを⼤きく上回 る WEB NEWS
BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: TLM と MT の⽐較 16 • NEWS では TLM
が上回り、WEB でも 同程度 ØTLM の⽅が良い中間タスク WEB NEWS BERT (Ueda+, 2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: 代名詞の優先的マスク 17 • 代名詞を優先的にマスクした⽅がわ ずかに良い結果 WEB NEWS BERT (Ueda+,
2020) 70.3 56.7 XLM-R 74.7 61.1 +MT w/ MLM (Umakoshi+, 2021) 74.8 61.7 +TLM 74.7 61.9 +TLM w/ PR masking 74.8 62.0 表: 各設定でのF1スコア
結果: 英語側のマスク割合の影響 18 • マスク割合を {5, 10, 15, 20, 25,
30, 40, 50}% で変化させた • マスク割合が⼩さい⽅が TLM の精度が⾼く、ZAR の精度も⾼い傾向がある ように⾒える • 相関係数: 0.763 (WEB), 0.567 (NEWS)
まとめ・今後の課題 • 翻訳⾔語モデルを中間タスクとする⼿法を提案 • 機械翻訳を⽤いた場合よりも精度が向上することを⽰した • 今後の課題 • より精緻なマスク戦略 •
E.g. 英語の代名詞を優先的にマスクしつつかつマスク数を減らす • 動詞の屈折 (三単現の s) から主語が特定できる場合の対処 19