金研究室勉強会『Attention is all you need』

Attention Is All You Need Ashish et al., 2017, arXiv:1706.03762
金研機械学習勉強会 2021/08/12 中村勇士

Transformerとは？ • RNNの問題点 ◦ 長い入力が苦手 ◦ 勾配消失問題が起こりやすい ◦ 並列化が困難 →
GPUによる学習の効率化・大量のデータによる学習が困難 • Transformerによる解決 ◦ 再帰や畳み込みを使用しない ◦ 大規模なモデル・データを使用可能 ◦ 精度の大幅な向上

EQTransformerとの関係 • Transformerをそのまま使用していない ◦ attentionをレイヤーと使用 • 疑問 ◦ Transformerの強み：再帰や畳み込みをしないこと
◦ LSTM・Convを使って良いのか？

モデル • エンコーダ・デコーダ • Attention • フィード・フォワード・ネットワーク（FFW） • 埋め込み •
ポジショナル・エンコーディング

モデル：エンコーダ・デコーダ

• エンコーダ（左） ◦ input ◦ N = 6 • デコーダ（右）
◦ output ◦ N = 6 モデル：エンコーダ・デコーダ input からの出力

モデル：埋め込み / ポジショナル・エンコーディング • 埋め込み：単語のベクトル化 ◦ • ポジショナル・エンコーディング ◦ 構造のベクトル化
◦ 再帰や畳み込みの必要がなくなる ◦ モデルの学習が容易になる pos: 単語の順番, i: 次元, d model : 全体の次元数

モデル：Attention • 単語間の相関を表す ◦ どの単語がどの単語に着目してるか • Q：query • K：key
• V：value • d k ：dimention

Transformerの活用 • 自然言語処理（NLP） ◦ BERT ◦ GPT-3 ◦ DALL・E（テキストから画像生成） •
その他 ◦ 地震学：EQTransformer（地震動検出・フェーズピック） ◦ 生物学：AlphaFold2（タンパク質の構造予測） ◦ 音楽：Music Transformer（作曲）

おまけ • Transformer解説：GPT-3、BERT、T5の背後にあるモデルを理解する ◦ AINOW ◦ https://ainow.ai/2021/06/25/256107 • The Illustrated
Transformer ◦ Jay Alammar ◦ http://jalammar.github.io/illustrated-transformer • Embedding Projector ◦ http://projector.tensorflow.org/

モデル：フィード・フォワード・ネットワーク（FFW） • FFW ◦ 2つの線形変換 ◦ ReLU • 学習 ◦
英独：450万の文, 37,000のトークン ◦ 英仏：

金研究室勉強会『Attention is all you need』

金研究室勉強会『Attention is all you need』

winnie279

More Decks by winnie279

Other Decks in Science

Featured

Transcript

Attention Is All You Need Ashish et al., 2017, arXiv:1706.03762

Transformerとは？ • RNNの問題点 ◦ 長い入力が苦手 ◦ 勾配消失問題が起こりやすい ◦ 並列化が困難 →

EQTransformerとの関係 • Transformerをそのまま使用していない ◦ attentionをレイヤーと使用 • 疑問 ◦ Transformerの強み：再帰や畳み込みをしないこと

モデル • エンコーダ・デコーダ • Attention • フィード・フォワード・ネットワーク（FFW） • 埋め込み •

モデル：エンコーダ・デコーダ

• エンコーダ（左） ◦ input ◦ N = 6 • デコーダ（右）

モデル：埋め込み / ポジショナル・エンコーディング • 埋め込み：単語のベクトル化 ◦ • ポジショナル・エンコーディング ◦ 構造のベクトル化

モデル：Attention • 単語間の相関を表す ◦ どの単語がどの単語に着目してるか • Q：query • K：key

Transformerの活用 • 自然言語処理（NLP） ◦ BERT ◦ GPT-3 ◦ DALL・E（テキストから画像生成） •

おまけ • Transformer解説：GPT-3、BERT、T5の背後にあるモデルを理解する ◦ AINOW ◦ https://ainow.ai/2021/06/25/256107 • The Illustrated

モデル：フィード・フォワード・ネットワーク（FFW） • FFW ◦ 2つの線形変換 ◦ ReLU • 学習 ◦

金研究室 勉強会 『Attention is all you need』

金研究室 勉強会 『Attention is all you need』

More Decks by winnie279

Other Decks in Science

Featured

Transcript

金研究室勉強会『Attention is all you need』

金研究室勉強会『Attention is all you need』