Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
文献紹介: Bag-of-Words as Target for Neural Machine Translation
Yumeto Inaoka
January 22, 2019
Research
0
120
文献紹介: Bag-of-Words as Target for Neural Machine Translation
2019/1/22の文献紹介で発表
Yumeto Inaoka
January 22, 2019
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
70
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
95
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
74
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
76
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
50
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
150
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
180
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
120
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
130
Other Decks in Research
See All in Research
Federated Learning Tutorial (IBIS 2022)
osx
2
2.2k
クラスターとメタバース
clustervr
PRO
0
470
AI最新論文読み会2022年11月
ailaboocu
0
280
Meta x2 理解するExplainable AI
kionawalker
0
430
第20回チャンピオンズミーティング・サジタリウス杯ラウンド1集計 / Umamusume Sagittarius 2022 Round1
kitachan_black
0
620
論文紹介:On the Importance of Gradients for Detecting Distributional Shifts in the Wild
mkimura
2
250
テーブル・画像・テキストの反実仮想説明
masatoto
0
200
研究のやり方,論文の書き方
kanojikajino
7
4.1k
日本のZ世代における自己の外見の捉え方とケアの実態に関するリサーチ(SUMMARY版)
rs125
0
1.3k
国際会議参加報告 AACL-IJCNLP 2022 / AACL-IJCNLP 2022 Report
upura
0
270
ベイズ能動学習による統計的実験計画~ベイズ最適化・能動的レベル集合推定の基礎と応用~
mayumichqm
0
190
【IR Reading2022秋】 CPFair: Personalized Consumer and Producer Fairness Re-ranking for Recommender Systems
yamato0811
1
110
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
254
12k
Reflections from 52 weeks, 52 projects
jeffersonlam
338
18k
Raft: Consensus for Rubyists
vanstee
130
5.7k
VelocityConf: Rendering Performance Case Studies
addyosmani
317
22k
No one is an island. Learnings from fostering a developers community.
thoeni
12
1.5k
The Straight Up "How To Draw Better" Workshop
denniskardys
226
130k
Making Projects Easy
brettharned
102
4.8k
Optimizing for Happiness
mojombo
365
64k
How STYLIGHT went responsive
nonsquared
89
4.2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
270
12k
Making the Leap to Tech Lead
cromwellryan
117
7.7k
What's new in Ruby 2.0
geeforr
336
30k
Transcript
1 Bag-of-Words as Target for Neural Machine Translation 文献紹介 2019/1/22
長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature • Bag-of-Words as Target for Neural Machine Translation •
Shuming Ma, Xu SUN, Yizhong Wang, Junyang Lin • Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 332-338, 2018. 2
Abstract 翻訳において正解はひとつじゃない 既存のNMTではひとつのみを正解として使用 → 他の正解は誤りとして学習される 正解同士は似たBag-of-Words (BoW)
を共有する → BoWによって正解とそれ以外を区別できる 学習セットにない正解を考慮するためにBoWを利用 → 中国語-英語の翻訳において優位性を確認 3
Introduction NMTは首尾一貫の妥当な翻訳の生成ができる 現在のNeural Machine Translation (NMT)の 多くはSequence-to-Sequence モデル(Seq2Seq)に
基づいている 4
Seq2Seq (Overview) 5 私 は 元気だ <BOS> I am fine
<EOS> 入力文 出力文 Encoder Decoder
Seq2Seq (Encoder) 6 私 は 元気だ One-hot vector Embedding layer
Recurrent layer 入力文
Seq2Seq (Decoder) 7 I <BOS> I am fine am fine
<EOS> One-hot vector Embedding layer Recurrent layer One-hot vector Output layer 出力文
Introduction NMTではひとつの正解のみを 学習に用いる 他の正解は誤った翻訳と学習 → 悪影響を与える可能性 8
Introduction 正しい翻訳は似たBoWを共有 → 正しい翻訳と誤った翻訳は BoWで区別できる 文とBoWの両方を対象とする 手法を提案 →
T.2よりT.1を優遇 9
Bag-of-Words Generation マルチラベル分類問題のようにBoWを生成 Decoderの出力である単語レベルのスコアベクトル を 合計して、文レベルのスコアベクトルを得る 文レベルのスコアベクトルは、文中の任意の位置に
対応する単語が出現する確率を表す 10
Notation データセットに含まれるサンプル数:N i番目のサンプル:(, ) (x: source, y: target)
= 1 , 2 , … , = 1 , 2 , … , = 1 , 2 , … , はのBoWを表す 11
Bag-of-Words Generation 12 = softmax = �
Targets and Loss Function 文の翻訳とBoWの生成でそれぞれ損失関数(1 , 2 )を定義
重み で2つの損失を足し合わせる() (𝑖𝑖 : epoch , k, : fixed-value) 1 = − � =1 log l2 = − � =1 log = 1 + 2 = min(, + 𝛼𝛼) 13 𝑖𝑖
Experiments LDCコーパス(1.25M)で学習、NIST翻訳タスクで評価 語彙サイズを英中それぞれ5万語に設定 BLEUで評価 14
Results 15 4.55 BLEU points↑
Results 16 4.55 BLEU points↑
Results 17
Conclusions 正解訳とBoWの両方を考慮する手法を提案 提案手法が強力なベースラインに対して優位である結果 Morphologically-rich language*や低資源言語において どのように適用するかについて今後の課題とする *
文法的関係が相対位置や助詞ではなく単語の変化で 決まるような言語 18