Slide 10
Slide 10 text
Model Architecture
• 各エンコーダの最後の数層と各デコーダの最初の数層は
それぞれ重みを共有 (weight-sharing constraint)
• 学習済みのcross-lingual embeddingsをエンコーダの強化に使用
(embedding-reinforced encoder)
embedding vectors E = {e1
, …, et
}
initial output sequence of the encoder stack H = {h1
, …, ht
}
final output sequence of the encoder Hr
W1
, W2
, b is trainable parameters and shared by each encoders
10