Transformer基礎「Attentionメカニズムによる自然言語処理の改善」-安田健士郎

Transformer ー Attentionメカニズムによる　自然言語処理の改善安田健士郎明治大学　先端数理科学研究科ネットワークデザイン専攻 M1 発表日時：2023/07/14
最終更新：2023/07/13

参考文献の紹介文献概要書籍名：Python機械学習プログラミング PyTorch&scikit-learn編著者名：Sebastian Raschka, Vahid Mirjalili 訳　　：福島真太朗出版社：株式会社クイープ
文献URL • https://book.impress.co.jp/books/1122101013 コード(github) • https://github.com/rasbt/machine-learning-book 2

はじめに ❏ Transformerとは ❏ Transformerはなぜ凄いのか ❏ Transformerの簡単な構造 ❏ 本稿のアジェンダ

Transformerとは Transformerは、2017年にGoogleが開発した深層学習モデルである。このモデルは、文章生成や要約などの自然言語処理タスクに特化している。 • Transformer ◦ 自然言語処理タスク（文章生成や要約）に特化した深層学習モデル ◦ 2017年にGoogleが、"Attention Is
All You Need"の論文内で発表 Transformer BERT GPT Chat GPT Google Google 4 →　テキスト分類　　　　要約 →　　文章生成　　→ 2017 2018 2022

Transformerがなぜすごいか Transformerの性能は「処理速度」「精度」「汎用性」の３つの観点で、従来の自然言語処理モデル（RNN・Seq2seq・CNN…）より優れている。 • Transformerが従来モデルより優れている点 5 処理速度精度汎用性　並列化処理によって学習速度が大幅に短縮
　英独翻訳タスクにて、従来モデルを超える精度を創出　大規模な学習データに対応可能。BERTやGPTへ応用可能

Transformerの簡単な構造 Transformerは、大きく分けてEncoderとDecoderの２つから構成される。さらに、内部の特徴的な構成としてAttention機構が複数用いられている。 • Transformerの簡単な構造・構成要素 ◦ Encoder ▪ 入力文を分析可能な形へ変換 ◦
Decoder ▪ Encoderからの情報を受理 ▪ 適切な出力へ変換処理する ◦ Attention機構 ▪ 重みを各単語へ付与する 6 Encoder Decoder Attention 機構入力文章の埋め込み出力文章の埋め込み(右へシフト)

本稿のアジェンダ本稿では、最初にAttentionについて解説する。その後、Transformerで使用されるSelf-Attentionについて説明し、Transformerの内部構造へ迫る。 7 16.1：Attention（従来モデルで使用） 16.2：Self-Attention（Transformerで使用） 16.3：Transformerの構造

16.1：Attention ❏ 従来モデル：seq2seq ❏ Attentionメカニズム

従来の言語翻訳モデル：seq2seqモデルの概要 seq2seqは、RNN層を用いた言語翻訳モデルで、EncoderとDecoderの直列構造となっている。各隠れ層にて、１つ前の層の情報を受け継ぎ、共有する。 9 EN RNN EN RNN EN RNN
EN RNN This book is thick EN RNN . DE RNN DE RNN DE RNN DE RNN この本は分厚い DE RNN 。 DE RNN <EOS> <BOS> この本は分厚い。 1 2 3 4 5 Encoder Decoder 入力文を分析可能な形へ変換 Encoderからの情報を受理適切な出力へ変換処理

従来の言語翻訳モデル：seq2seqモデルの仕組み(1/2) seq2seqモデルは、人を介するごとに内容のレベルが上がる伝言ゲームのイメージである。後半の隠れ層につれ、持つ情報の大きさが大きくなる。 10 EN RNN 1 EN RNN 2
EN RNN 3 EN RNN 4 This book is thick EN RNN 5 . 1 2 3 4 5 Decoder ・“This”の情報を聞く・②に伝えるこの本は分厚い。 Encoder ・①から“This”の情報を聞く・新たに“book”の情報を聞く・③に伝える・②から“This”と“book” の情報を聞く・新たに“is”の情報を聞く・④に伝える EN RNN 1 EN RNN 2 EN RNN 3 イメージ：「人を介する毎に内容のレベルが上がる伝言ゲーム」

従来の言語翻訳モデル：seq2seqモデルの仕組み(2/2) seq2seqモデルは、人を介するごとに内容のレベルが上がる伝言ゲームのイメージである。後半の隠れ層につれ、持つ情報の大きさが大きくなる。 11 EN RNN 1 EN RNN 2
EN RNN 3 EN RNN 4 This book is thick EN RNN 5 . 1 2 3 4 5 Decoder この本は分厚い。 Encoder EN RNN 1 This 1 EN RNN 2 book 2 1 EN RNN 3 is 3 2 イメージ：「人を介する毎に内容のレベルが上がる伝言ゲーム」

従来の言語翻訳モデル：seq2seqモデルの欠点 seq2seqは、入力文全体を一度に解析してから翻訳文を生成する。そのため、入力文全体が長い場合、途中で情報を消失する懸念がある。 12 EN RNN 1 EN RNN 2
EN RNN 3 EN RNN 4 This book is thick EN RNN 5 . 1 2 3 4 5 Decoder イメージ：人間も、英語長文を全部一気に覚えて翻訳できるわけないこの本は分厚い。 Encoder EN RNN 5 5 “This book is thick.” の情報 EN RNN 5 5 “This book is thick. However, it's not just the physical size of the book that demands attention. The depth of its content matches its impressive thickness. As you open it, you're immediately immersed in a world that exists between the lines of black ink and the rough texture of the pages.”　の情報？

従来の言語翻訳モデル：seq2seqモデルの改善入力シーケンスの各要素に、入力全体の情報を考慮した重み（Attention）を割り当てることで、seq2seqの欠点を補うことができる。 13 EN RNN 1 EN RNN 2
EN RNN 3 EN RNN 4 This book is thick EN RNN 5 . 1 2 3 4 Decoder 出力（Decoder）の各時間ステップで入力シーケンスを全体的にアクセスしたいこの本は分厚い。 Encoder 入力シーケンスの各要素にAttentionを割り当てることで効果的に全てにアクセス可能 1 1 3 4 2 ※Attention：各時間ステップにおける入力シーケンスの各要素の重要度

（参考）Attentionのイメージ下の英文の“However”を翻訳する時、前文と後ろの１文目の重要度は高い。しかし、後ろの２文目以降の文章は参考にならないので、重要度が低い。 14 “This book is thick. However, it's
not just the physical size of the book that demands attention. The depth of its content matches its impressive thickness. As you open it, you're immediately immersed in a world that exists between the lines of black ink and the rough texture of the pages.” ※Attention：各時間ステップにおける入力シーケンスの各要素の重要度〜Attentionのイメージ〜「この文字を理解したい時は、ここら辺の文字に注目(Attention)しろ！」

RNNにおけるAttentionメカニズムの概要下図は、Attentionメカニズムを持つRNNが２番目に出力する単語を生成する時の全容である。構成から説明し、最後にAttentionの導出を説明する。 15 構造②：コンテキストベクトルから出力を生成計算　：Attentionの導出構造①：入力の双方向アノテーションを生成説明順序構造② 計算
構造①

Attentionメカニズム：【Encoderの構造】双方向RNN Encoderでは、入力シーケンスを双方向から解析し、隠れ状態を得る。その後、ベクトルを連結させる。これが、各単語の数値情報（アノテーション）となる。 16 構造①：入力の双方向アノテーションを生成構造② 構造① • hF：順方向における隠れ状態
◦ 文章を前から伝言ゲーム • hB：逆方向における隠れ状態 ◦ 文章を後ろから伝言ゲーム • h：hF・hBを連結させた隠れ状態 ◦ アノテーション　　　（各単語を定量的に表すこと）計算

Attentionメカニズム：【Decoderの構造】RNN Decoderでは、コンテキストベクトルc2と、１番目に出力された出力シーケンスo(1)を隠れ状態s(2)に代入し、２番目の出力シーケンスo(2)を得る。 17 構造②：コンテキストベクトルから出力を生成構造② 構造① • c：隠れ状態hをAttentionαで重み付けしたもの
• s：値を出力するための隠れ状態 ◦ 学習時の入力：c2・y2 （y2：正解データのラベル） ◦ 推論時の入力：c2・o1 計算

Attentionメカニズム：Attentionの計算方法 Attentionは、隠れ状態h（入力）とs（出力）のペア毎の関係を数値化させたもの。ソフトマックス関数で正規化されるため、Attentionの合計は１。 18 計算　：Attentionの導出構造② 構造① • α：Attenttion •
score：スコア関数（統計検定1級レベル） ◦ 入力要素と出力要素がどのくらいマッチしているかを評価ソフトマックス関数で正規化（Attentionの合計(α2,1~α2,T)は１になる）計算

16.2：Self-Attention ❏ self-attentionの基本 • 概要 • メカニズムのプロセス ❏ self-attentionの応用 •
Attentionのパラメータ化 (Scaled Dot-Product Attention)

Self-Attentionメカニズムの概要(1/2) Self-AttentionメカニズムはTransformerで使用されるAttentionメカニズムの一種である。Attentionの数値は、入力要素の依存関係のみで算出される。 • Self-Attentionメカニズム ◦ Attentionメカニズムの一種で、Transformerで使用されている機構 ◦ 入力要素の間の依存関係のみで演算を行う 20
入力要素（Encoder）出力要素（Decoder） Attention Self-Attention 入力要素（Encoder） TransformerのAttention機構はSelf-Attentionメカニズムを採用している

Self-Attentionメカニズムの概要(2/2) Self-Attentionのプロセスは以下の図で表される。「入力シーケンス間の類似度計算」「正規化」「出力計算」の３つのプロセスで出力値を求める。 21 Attention機構 Self-Attention x：入力シーケンス z：機構からの出力

Self-Attentionメカニズムの基本的なプロセス(1/3) ステップ１は、入力シーケンス同士のドット積を全パターン計算し、類似度を求める。入力要素は、事前に埋め込み層にてベクトル表現化されている。 22 ステップ① 入力シーケンス間の類似度計算【例】：X(2)とx(3)の類似度を求める事前に値が埋め込まれている（単語分散表現を参照）

Self-Attentionメカニズムの基本的なプロセス(2/3) ステップ２は、ステップ１で求めた類似度ωをソフトマックス関数を用いて正規化する。正規化後に求められた値αがAttentionとなる。 23 ステップ② 類似度ωを正規化するソフトマックス関数 αij：Attention Attentionの合計は１となる

Self-Attentionメカニズムの基本的なプロセス(3/3) 最後にステップ３では、ステップ２で求めたAttentionαとシーケンス内の入力要素x(j)の加重和を求める。最終的にこの値が出力値となる。 24 ステップ③ 入力シークエンス全体の加重和を計算し、出力する x( j )

Self-Attentionに学習機能を持たせる Self-Attentionメカニズムはまだ学習機能を持っていない 25 従来のAttentionメカニズムはRNNが学習を行っていた「機械学習のミソは、どう学習をするかにある」なぜ？→→→

Self-Attentionに学習機能を持たせる Self-Attentionメカニズム 26 Attentionメカニズム h, sはRNN由来のパラメータなので学習過程で最適化可能 xはただの入力(シーケンス)なので学習過程で最適化不可能

Self-Attentionをどうパラメータ化するべきか(1/2) Self-Attentionに学習機能を持たせるためには、入力要素をパラメータ化する必要がある。よって、xをq, k, vの３つのパラメータに分割させた。 • Self-Attentionのxを３つのパラメータに変形する 27

Self-Attentionをどうパラメータ化するべきか(2/2) 一つの入力xから３つのパラメータq, k, vに分割する際は、Uq, Uk, Uvの３つの重みを用意する。最終的に、これらを最適化することで学習機能を持つ。 • ３つのパラメータの分割方法：Scaled Dot-Product
Attention 28 クエリシーケンスキーシーケンスバリューシーケンス学習過程で、重みのUq, Uk, Uvを最適化することが可能！！学習内容「入力ｘをq, k, vへ適切に分割するため、Uをそれぞれ最適化」重み U ✖ 入力 x

学習機能を持たせたSelf-Attentionメカニズムの全容以下の図は、学習機能を持たせたSelf-Attentionメカニズムの全容である。このメカニズムを、Scaled Dot-Product Attentionという。 • Self-Attentionを学習可能にした際のメカニズムの全容 Scaled Dot-Product Attention
29

16.3：Transformerの構造 ❏ Transformer誕生の経緯 ❏ Transformeアーキテクチャ • Multi-head Attention層 • Masked
Multi-head Attention層 • 位置エンコーディング • 層正規化

Transformer誕生の経緯（ここまでのまとめ） Transformerは、従来のAttentionメカニズムからRNNの機能を無くしたことで生まれた深層学習モデルである。 • 言語処理における、従来のRNNモデル（Seq2Seq） ➔ 長い文章を入力すると途中からデータを忘れてしまう • RNNモデルにAttentionメカニズムを採用した ◦
常に全文へアクセスできる仕組みなので、長文への処理対応が可能 ➔ ここからRNNの機能を削除すると、性能が良くなることが判明 • Transformerの誕生 ◦ Attentionメカニズム(Self-Attention)のみで作られたモデル ◦ 言語翻訳だけでなく、文章生成や文章要約に対応可能 31

Transformerのアーキテクチャの全容 32 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層説明順序構造④：層の正規化

Transformer：Multi-head Attention層(1/2) 33 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層説明順序
構造④：層の正規化

Transformer：Multi-head Attention層(2/2) Multi-head Attention層は、16.2のScaled Dot-Product Attentionがh層に渡って重なった構造で、最終的にConcat層にて値が連結される仕組みである。 Transformer Encoder 34
Multi-Head Attention層 Scaled Dot-Product Attention(16.2を参照) h層に渡って同じ構造が重なる最後にConcat層で連結される

Transformer：Masked Multi-head Attention層(1/3) 35 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層
説明順序構造④：層の正規化

Transformer：Masked Multi-head Attention層(2/3) 36 学習時、Masked Multi-head Attention層には、入力に対する出力シーケンスの正解データの全てが入る。しかし、学習では時間毎に一部ずつ使われる。 Encoder Decoder
This book is thick. この本は分厚い。 ①：入力 ②：学習 Encoder This book is thick. この本は分厚い。 book 本このこの本は分厚い。

Transformer：Masked Multi-head Attention層(3/3) 37 学習の際は出力値のカンニングを防ぐため、出力したい部分以降の正解データをマスクで隠す、そして出力時間毎に右へ一つずつシフト移動していく。 Maskedする箇所 (実際はベクトル) 出力＜BOS＞
このこの本は分厚い。本この本は分厚い。はこの本は分厚い。分厚いこの本は分厚い。。この本は分厚い。 <EOS> ②：学習 Encoder This book is thick. この本は分厚い。 book 本この

Transformer：位置エンコーディング(1/3) 38 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層説明順序構造④：層の正規化

Transformer：位置エンコーディング(2/3) 位置エンコーディングは、入力シーケンスの順序に関する単語の位置情報を補足するためのベクトルである。単語の順序は文章理解に大きく影響する。 • 位置エンコーディング ◦ 入力シーケンスの順序に関する単語の位置情報を補足する ◦ 入力文の埋め込みに対して追加する、小さな値のベクトル 39
“Mary gives John a flower”　→　主語としてのMary “John gives Mary a flower”　→　目的格としてのMary 使用単語は同じであるが、用いる順序によって文の意味は変わる

Transformer：位置エンコーディング(3/3) Transformerの位置エンコーディングでは、正弦波エンコーディングが採用されている。これにより、文章における単語の絶対位置が記録される。 • 位置エンコーディング（正弦波：絶対エンコーディング） ◦ pos：単語の位置 ◦ dmodel：エンコーディング後のベクトル次元数 ◦
k：エンコーディング後の各ベクトルの長さ 40

Transformer：層正規化 (normalize)(1/2) 41 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層説明順序
構造④：層正規化 (normalize)

Transformer：層正規化 (normalize)(2/2) 層正規化 (normalize)の部分では、訓練データ毎に特徴量の平均と標準偏差を計算し、正規化している。よって、ミニバッチの依存性が解消される。 • 層正規化 (normalize) ◦ 訓練データ毎に特徴量の平均と標準偏差を計算し、正規化する
◦ ミニバッチのサイズの制約や依存性を解消する 42

（参考）Transformerのアーキテクチャの全容 43 全結合層全結合層層正規化層正規化層正規化層正規化層正規化位置
エンコーディング位置エンコーディング Multi-head attention層 Multi-head attention層 Masked Multi-head attention層

Transformer基礎「Attentionメカニズムによる自然言語処理の改善」-安田健士郎

Transformer基礎「Attentionメカニズムによる自然言語処理の改善」-安田健士郎

安田健士郎

More Decks by 安田健士郎

Other Decks in Technology

Featured

Transcript

Transformer ー Attentionメカニズムによる　自然言語処理の改善安田健士郎明治大学　先端数理科学研究科ネットワークデザイン専攻 M1 発表日時：2023/07/14

参考文献の紹介文献概要書籍名：Python機械学習プログラミング PyTorch&scikit-learn編著者名：Sebastian Raschka, Vahid Mirjalili 訳　　：福島真太朗出版社：株式会社クイープ

はじめに ❏ Transformerとは ❏ Transformerはなぜ凄いのか ❏ Transformerの簡単な構造 ❏ 本稿のアジェンダ

16.1：Attention ❏ 従来モデル：seq2seq ❏ Attentionメカニズム

従来の言語翻訳モデル：seq2seqモデルの概要 seq2seqは、RNN層を用いた言語翻訳モデルで、EncoderとDecoderの直列構造となっている。各隠れ層にて、１つ前の層の情報を受け継ぎ、共有する。 9 EN RNN EN RNN EN RNN

従来の言語翻訳モデル：seq2seqモデルの仕組み(1/2) seq2seqモデルは、人を介するごとに内容のレベルが上がる伝言ゲームのイメージである。後半の隠れ層につれ、持つ情報の大きさが大きくなる。 10 EN RNN 1 EN RNN 2

従来の言語翻訳モデル：seq2seqモデルの仕組み(2/2) seq2seqモデルは、人を介するごとに内容のレベルが上がる伝言ゲームのイメージである。後半の隠れ層につれ、持つ情報の大きさが大きくなる。 11 EN RNN 1 EN RNN 2

従来の言語翻訳モデル：seq2seqモデルの欠点 seq2seqは、入力文全体を一度に解析してから翻訳文を生成する。そのため、入力文全体が長い場合、途中で情報を消失する懸念がある。 12 EN RNN 1 EN RNN 2

従来の言語翻訳モデル：seq2seqモデルの改善入力シーケンスの各要素に、入力全体の情報を考慮した重み（Attention）を割り当てることで、seq2seqの欠点を補うことができる。 13 EN RNN 1 EN RNN 2

（参考）Attentionのイメージ下の英文の“However”を翻訳する時、前文と後ろの１文目の重要度は高い。しかし、後ろの２文目以降の文章は参考にならないので、重要度が低い。 14 “This book is thick. However, it's

16.2：Self-Attention ❏ self-attentionの基本 • 概要 • メカニズムのプロセス ❏ self-attentionの応用 •

Self-Attentionに学習機能を持たせる Self-Attentionメカニズムはまだ学習機能を持っていない 25 従来のAttentionメカニズムはRNNが学習を行っていた「機械学習のミソは、どう学習をするかにある」なぜ？→→→

Self-Attentionに学習機能を持たせる Self-Attentionメカニズム 26 Attentionメカニズム h, sはRNN由来のパラメータなので学習過程で最適化可能 xはただの入力(シーケンス)なので学習過程で最適化不可能

16.3：Transformerの構造 ❏ Transformer誕生の経緯 ❏ Transformeアーキテクチャ • Multi-head Attention層 • Masked

Transformerのアーキテクチャの全容 32 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層説明順序構造④：層の正規化

Transformer：Multi-head Attention層(1/2) 33 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層説明順序

Transformer：Multi-head Attention層(2/2) Multi-head Attention層は、16.2のScaled Dot-Product Attentionがh層に渡って重なった構造で、最終的にConcat層にて値が連結される仕組みである。 Transformer Encoder 34

Transformer：Masked Multi-head Attention層(1/3) 35 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層

Transformer：Masked Multi-head Attention層(2/3) 36 学習時、Masked Multi-head Attention層には、入力に対する出力シーケンスの正解データの全てが入る。しかし、学習では時間毎に一部ずつ使われる。 Encoder Decoder

Transformer：位置エンコーディング(1/3) 38 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層説明順序構造④：層の正規化

Transformer：層正規化 (normalize)(1/2) 41 構造②：Masked Multi-head Attention層構造③：位置エンコーディング構造①：Multi-head Attention層説明順序

（参考）Transformerのアーキテクチャの全容 43 全結合層全結合層層正規化層正規化層正規化層正規化層正規化位置

Fin