Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Multi-Reference Training with Pseudo-References...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ryoma yoshimura
January 23, 2019
Research
250
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation
研究室のEMNLP読み会の発表資料です。
ryoma yoshimura
January 23, 2019
More Decks by ryoma yoshimura
See All by ryoma yoshimura
TransQuest: Translation Quality Estimation with Cross-lingual Transformers
kokeman
0
280
Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing
kokeman
0
64
BLEURT: Learning Robust Metrics for Text Generation
kokeman
0
270
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
kokeman
1
860
Courteously Yours: Inducing courteous behavior in Customer Care responses using Reinforced Pointer Generator Network
kokeman
0
170
Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
kokeman
0
180
Reinforcement Learning Based Text Style Transfer without Parallel Training Corpus
kokeman
0
130
タスクとデータセット紹介 GLUE, SuperGLUE
kokeman
0
1.1k
Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning
kokeman
0
82
Other Decks in Research
See All in Research
Research Engineerという仕事 / Research Engineering: Bridging Research and Business
chck
1
210
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.3k
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
310
LiDAR点群の地表面分類手法の比較・検証
vegapunkhiroshi79
0
120
多様なデータを許容し学習し続ける模倣学習 / Advanced Imitation Learning for VLA
prinlab
0
220
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
180
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
Ankylosing Spondylitis
ankh2054
0
170
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
630
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
470
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
300
COFFEE-Japan PROJECT Impact Report(Uminomukou Coffee)
ontheslope
0
190
Featured
See All Featured
Building an army of robots
kneath
306
46k
A designer walks into a library…
pauljervisheath
211
24k
KATA
mclloyd
PRO
35
15k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
Navigating Weather and Climate Data
rabernat
0
220
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
410
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
430
GraphQLとの向き合い方2022年版
quramy
50
15k
The agentic SEO stack - context over prompts
schlessera
0
820
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
The Cost Of JavaScript in 2023
addyosmani
55
10k
Transcript
Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation
Renji Zheng, Mingbo Ma, Liang Huang EMNLP2018 研究室EMNLP読み会 紹介者 吉村
概要 • 複数のリファレンスでモデルを学習 ◦ テキスト生成の正解は1つではないので複数あったほうがいい ◦ 複数のリファレンスがあるデータセットを使用 • 複数のリファレンスから lattice
を作ってさらに多くの擬似リファ レンスを作成 ◦ 4~5個のリファレンスでは潜在的なリファレンスをカバーできない
Main Contributions • 機械翻訳と画像キャプションにおいてマルチリファレンスでの 学習法を3つ調査 • 複数の参照訳を lattice にするための新しいネットワークベー スの複数の系列アラインメントモデルを提案
• 擬似リファレンスでを用いた学習でMTでBLEUが+1.5、画像 キャプションでBLEUが+3.1、CIDErで+11.7
複数のリファレンスでの学習法 • 学習データを変えるだけでモデルは変更しなくていい • 複数のリファレンスがあるデータセットをシングルリファレンス のデータセットに変換 • 作り方はSample One、Uniform、Shuffleの3つ
複数のリファレンスでの学習法 • Sample One ◦ 各エポックでランダムに1つリファレンスを決める • Uniform ◦ 複数の各リファレンスに同じ入力をつける
• Shuffle ◦ Uniformで各エポックごとにシャッフルする x i : source y i : reference D : multiple reference dataset D’ : single reference dataset ※ D’ は順序集合
擬似リファレンスの作り方 • 複数のリファレンスから lattice を構築してそれをたどることで 擬似リファレンスを生成 ◦ 似た単語をマージする ◦ 元のリファレンスとBLEUを測って高いものを採用
• Hard alignと Soft align がある
Hard word Alignment • ペアワイズで同じ表層の単語をマージしていく • 以下の3文を考える
Hard word Alignment • Indonesia, its, opposition, foreign をマージ
Hard word Alignment • Indonesia, opposition, to, foreign をマージ •
(c)をたどることで 33個の擬似リファレンスができる
Hard Word Alignment の問題点 • 類義語を考慮できない ◦ 例での reiterated, repeats,
reiterates • 同一の単語は他の文では異なる意味をもつ可能性がある ◦ toなど(不定詞、前置詞)
Soft Word Alignment • 文y i と文y j に対して semantic
substitution matrix を作る • 各セルM u,v の値は単語y i,u と単語y j,v の類似度スコア • bidirectional LMの隠れベクトルのcos類似度 • Mを使ってアラインメントする ◦ M 0,0 からM |yi|,|yj| までの最適パスを動的計画法で求める
単語アラインメント 状態遷移関数 global penalty p: M u,v ≦ p では
align しない
Soft Word Alignment の結果
実験(MT) • NIST(2002-2005, 2006, 2008) zh-en ◦ single ref 1Mペア
(pre-train) 4 ref 5974ペア (train, valid, test) • global penalty 0.9 ◦ 100文集まるまで global penalty を減らしていく BLEUは上位50件のみ • bi-LMはpre-training dataとtraining dataで学習, word enmmbeding は Glove • encoderとdecoderは2層のbi-LSTMでBPEを使用 • pre-train: batch size 64, beam size 15, dropout 0.3 • multi-reference-train: batch size 100, 200, 400のベスト
Analysis of generated references • リファレンスの文長が長いほど、生成されるリファレンスの数が増える
結果
結果 各エポックで使うリファレンスの分散が高いため、 sample one はリファレンス数が10を越 えると急激に悪くなる
実験(Image Captioning) • MSCOCO • Resnet を LSTM に繋げる •
batch size: 50, 250, 500, 1000 での最適なサイズ • beam size: 5 • global penalty: 0.6
Analysis of generated references • MTと比べてオリジナルのリファレンスが短いので質が低く、数も少ない
MTと違ってShuffleが良くなってる ⇨ 機械翻訳の参照よりも多様であるから Uniform だと1つのバッチ内でリファレンスの 分散が大きくなるとモデルに悪影響
Case Study BLEUが100だが オリジナルリファレンスと は異なる文 BLEUが0だが画像を説明 できている
Conclusion • マルチリファレンスでの学習方法を調査 • 既存のマルチリファレンスから擬似リファレンスを生成する手法を提案 • MTと画像キャプションの両タスクでベースラインを上回る