金研究室勉強会『もう一度理解する Transformer（前編）』

もう一度理解する Transformer（前編）金研機械学習勉強会 2022/07/12 中村勇士

もう一度とは？ • 『Attention is all you need』読みました ◦ 見返してみたら、約1年前でした（見たい方はこちら）
◦ 難しくてなかなか理解できず → リベンジします • Transformerとは？ ◦ 2017年の自然言語処理モデル ◦ 高性能、様々な分野で使われる・BERT → Google 翻訳・GPT-3 → 1ヶ月間ブログを書いたのに　　　　　 AIだと気づかれず・ViT → 画像認識

Transformerまでの道のり • なぜ難しかったのか？ ◦ 基本的にAttentionを知らなかった ◦ ほかの文章生成モデルを知らなかった • どうすれば良いか？ ◦
まずは基本的なAttentionを理解する！ ◦ ほかの文章生成モデルを知る！ • RNN • Bi-RNN • Encoder-Decoder • Attention • Transformer • BERT or GPT-3 or ViT 機械学習勉強会で出てきた前半 RNNを不使用後半以降 RNNを不使用

seq2seq（sequence to sequence） • 文章とは？ ◦ 単語や句読点などの記号を順に並べたもの ◦ 時系列データの1つ →
地震波形・音波・株価など • 文章生成モデル ◦ 系列データから系列データへ ◦ ある文章から別の文章を生成（翻訳など） ◦ リアルタイム震度予測 • 文字をどうやって入力するの？ ◦ 単語をベクトルに変換する ◦ IDを振るようなイメージ this is . a pen これはペンです。 ID 単語ベクトル 1 りんご [0, 0, 0, 1] 2 みかん [0, 0, 1, 0] …… …… …… 7 ばなな [0, 1, 1, 0] …… …… ……

• 前後の情報を持てる • 文字の説明 ◦ x：入力データ ◦ h：隠れ状態 ◦ W,
U：重み ◦ b：バイアス Bi-RNN（Bidirectional RNN） this h s is . a pen これはペンです。結合以降の情報

• 文脈ベクトル（context vector）をもつ • 入力と出力を異なる長さにできる • 文字の説明 ◦ h：隠れ状態 ◦
y：出力 ◦ c：文脈ベクトル Encoder-Decoder this h t is . a pen <bos> これははこれ文脈ベクトル 1つ前の出力隠れ状態

• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • 文字の説明
◦ h~ t ：Attention適用後の隠れ層 ◦ h t ：隠れ層 ◦ c ：文脈ベクトル ◦ b ：バイアス Attention this h s h t h~ t c is . a pen <bos> これはは

◦ t ：出力の時刻 ◦ τ ：入力の時刻 ◦ h s ：エンコーダの隠れ層 ◦ c ：文脈ベクトル ◦ a ：重み　　attention weights Attention this h s h t h~ t c a is . a pen <bos> これはは Attention

◦ t ：出力の時刻 ◦ τ ：入力の時刻 ◦ h s ：エンコーダの隠れ層 ◦ h t ：エンコーダの隠れ層 ◦ a ：重み Attention this h s h t h~ t c a is . a pen <bos> これはは Attention

• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • まとめ
◦ AttentionはEncoder-Decoderに c(t)を加えたもの ◦ cは単語と単語の関係性から文脈ベクトルを合成する Attention this h s h t h~ t c a is . a pen <bos> これはは Attention

まとめ • Attentionまでのseq2seq ◦ 初期段階からRNNが利用されている → ただし並列計算はできない ◦ 文章全体の意味を持つ文脈ベクトルが使われている ◦
単語間の関係性に注目する Attentionが導入された • 今後の流れ ◦ 応用的なAttentionの理解 ◦ Transformer全体の理解 ◦ Transformerから派生したモデルの理解 this h s h t h~ t c a is . a pen <bos> これはは Attention

金研究室勉強会『もう一度理解する Transformer（前編）』

金研究室勉強会『もう一度理解する Transformer（前編）』

winnie279

More Decks by winnie279

Other Decks in Science

Featured

Transcript

もう一度理解する Transformer（前編）金研機械学習勉強会 2022/07/12 中村勇士

もう一度とは？ • 『Attention is all you need』読みました ◦ 見返してみたら、約1年前でした（見たい方はこちら）

Transformerまでの道のり • なぜ難しかったのか？ ◦ 基本的にAttentionを知らなかった ◦ ほかの文章生成モデルを知らなかった • どうすれば良いか？ ◦

seq2seq（sequence to sequence） • 文章とは？ ◦ 単語や句読点などの記号を順に並べたもの ◦ 時系列データの1つ →

• 前後の情報を持てる • 文字の説明 ◦ x：入力データ ◦ h：隠れ状態 ◦ W,

• 文脈ベクトル（context vector）をもつ • 入力と出力を異なる長さにできる • 文字の説明 ◦ h：隠れ状態 ◦

• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • 文字の説明

• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • 文字の説明

• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • 文字の説明

• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • まとめ

まとめ • Attentionまでのseq2seq ◦ 初期段階からRNNが利用されている → ただし並列計算はできない ◦ 文章全体の意味を持つ文脈ベクトルが使われている ◦

金研究室 勉強会 『もう一度理解する Transformer（前編）』

金研究室 勉強会 『もう一度理解する Transformer（前編）』

More Decks by winnie279

Other Decks in Science

Featured

Transcript

金研究室勉強会『もう一度理解する Transformer（前編）』

金研究室勉強会『もう一度理解する Transformer（前編）』