2014の英語からドイツ語への翻訳タスク:28.4 BLEUを達成、アンサンブ ルを含む既存の最良の結果を2 BLEU以上改善した。 Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層と Position-wise全結合層を使用している。 Self-Attentionを用いている。 文中のある単語の意味を理解する時に、文中の単語のどれに注目すれば良い かを表すスコアのこと AttentionとはQuery Q とKey K とValue V の3つのベクトルで計算される。各単語がそれぞ れのQueryとKeyとValueのベクトルを持っている。 QueryとKeyでAttentionスコアを計算し、そのAttentionスコアを使ってValueを 加重和すると、Attentionを適用した単語の潜在表現が手に入る。 短時間の訓練で高いBLEUスコアを達成した。 翻訳タスクにおいて、Seq2seq(RNNベースEncoder-Decoderモデル)よりも早くて 精度が高い。 並列化がかなりしやすく訓練時間が圧倒的に削減できる。 Transformerは他のタスクにも汎用性が高い。 RNNとエンコーダ-デコーダモデルの訓練時に並列処理ができないという大き な欠点を指摘し、RNN や CNN を使わず Attention のみ使用したニューラル機械 翻訳 Transformer を提案している. Attention Is All You Need Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin (Submitted on 12 Jun 2017 (v1), last revised 6 Dec 2017 (this version, v5)) どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は?