Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] Attention Is All You Need

shiba4839
October 01, 2024

[論文紹介] Attention Is All You Need

学部4年生の7月ごろに行った論文発表の資料です。私自身初めての論文紹介でした。

shiba4839

October 01, 2024
Tweet

More Decks by shiba4839

Other Decks in Research

Transcript

  1. 1.概要 • Attention is all you need(2017) • 再帰や畳み込みなしの系列変換モデル •

    並列化で短時間の訓練 • 様々なタスクに使えて,精度も高い. • 応用先;BERT,GPT-n,ViT • 成果:BLEUスコア100点満点中 英語→独 28.4 BLEU(SoTAより2ポイントup!) 英語→仏 41.8 BLEU(学習時の計算コスト1/4!)
  2. 2. 導入 RNNは短期依存には対応できるものの,1000ステップのよう な⾧期の系列は学習できない → 「ゲート」と呼ばれる情報の 取捨選択機構を持ったLSTM (long-short term memory)が

    提唱されたが逐次計算なので時間がかかる. (AttentionはRNNと一緒に使われてはいた) →Attentionのみのモデルtransformerを提唱 わかるLSTM ~ 最近の動向と共 に - Qiita
  3. 4. Multi-Head Attention 4.1 Scaled Dot-Product Attention 4.2 Multi-Head Attention

    どの情報に注目すべきか判断 して情報を処理する
  4. 4. Multi-Head Attention 4.1 Scaled Dot-Product Attention まず一つのクエリについて 内積が並ぶ →内積は類似度的な性質を表す

    二つのベクトルが 同じ向き→内積大 別向き→0 逆向き→内積-大 𝑸𝑻𝑲が何を表しているかを理解するのが大事 与えられたクエリに対してどのキーが似ているか
  5. 4. Multi-Head Attention Attentionではクエリとキーの類似度を計算して,それに応じた 重みでvalueを足している. 4.1 Scaled Dot-Product Attention 一つのクエリについて

    一つのクエリについて 一連の流れとしては,内積取って類似度を計算.大きい次元で内積が大きくなる効果を補正. Softmaxとって重みに変換し,その重みに応じてvalueと掛け合わせる.
  6. 4. Multi-Head Attention 4.2 Multi-Head Attention Xのどの部分を処理するか Xの注目の仕方を決める Xを回して出力を決める この時,横ベクトルの次元を

    1/8にしている. つまり,行列をかけて注目の仕 方を変えているイメージ Q:入力のどの部分をみるか K:比較の仕方 V:出力を決定するのが Multi-Head Attention
  7. 補足(説明を省いた所) • Embedding • Positional encoding • BEAMsearch • Masked

    multi head attention • デコーダでのAttention • Softmax 縛り強め和=1, • Sigmoid全般に,比較的緩め
  8. 参考 • [1706.03762] Attention Is All You Need (arxiv.org) •

    https://www.youtube.com/watch?v=50XvMaWhiTY • 深層学習界の大前提Transformerの論文解説! - Qiita • 論文解説 Attention Is All You Need (Transformer) - ディープ ラーニングブログ (hatenablog.com)