自然言語処理～Primer

Primer: Searching for Eﬃcient Transformers for Language Modeling Keio Computer
Society 音楽班3年　辻航平

自己紹介名前：辻航平所属班：音楽班学科：電気情報工学科趣味：音ゲー、作曲、旅行、SF小説 Twitter：@4kura728

構成 1. NLPとは 2. Transformerとは 3. Primer 4. 結論

自然言語処理　　　　　　　　　　　　　　　　自然言語：英語,日本語,ドイツ語,etc... W2V：機械学習自然言語処理 W2V Transformer 前後の
単語モデル単語単語の表現ベクトルを学習

Embedding → 1. 単語を数字に　　ex. I am a cat . As
yet I have no name . 　　　　　　　　　　　→0,1,2,3,4,5,6,0,7,8,9,4 　2. 単語の種類×表現ベクトルの重み行列を用意　3. その行列からそれぞれ単語の番号のベクトルを抽出(Embedding) 　4. これを使って学習文字列：学習が難しい id数表現次元 id1の単語の表現V

W2Vと再帰構造の弱点 W2V・n番目の単語の前後k単語の表現ベクトルの総和を取る　　・そのベクトルを表現ベクトル次元×単語数の重み行列とかける　　・n番目の単語を予測する →総和なので順序が考慮されない(ex. “Tom eats tomatoes.” = “tomatoes
eats Tom.” ) 再帰構造 x1 x2 x3 h1 h3 h2 xn hn-1 ×Wh ×Wx + hn tanh b 並列化ができない　長期依存が見れない

Transformer ・Attention機構・FeedForward層・最終層で構築 InputにPositionEncoding ２つまとめて Transformer層

Attention Attention(Q,K,V) = softmax(QK^T/√d)V Q,K,V = WQS, WKT, WVT QK^T
= A Aij = Qi ･Kj→各要素はソースのi番目の単語とターゲットのj番目の単語の内積＝関連度・長期依存性〇・並列可能性〇・順序考慮性✕

Attentionの例 I am a cat . I 0.7 0.3 0
0 0 am 0.2 0.7 0.2 0 0 a 0 0 0.5 0.2 0.1 cat 0 0 0.3 0.5 0.1 . 0.1 0 0.3 0.3 0.7 吾輩は猫である。 I 0.7 0.3 0 0.2 0 am 0.2 0.6 0.1 0.5 0 a 0 0 0.3 0 0.3 cat 0 0 0.6 0.2 0.2 . 0 0 0 0.1 0.5 self-attention source target attention これらの行列にV = WVXをかける

Attention Attention(Q,K,V) = softmax(QK^T/√d)V Q,K,V = WQS, WKT, WVT QK^T
= A Aij = Qi ･Kj→各要素はソースのi番目の単語とターゲットのj番目の単語の内積＝関連度・長期依存性〇・並列可能性〇・順序考慮性✕

Position Encoding 単語の表現ベクトルに語順情報を付与表現行列X = (xa,xb,...)に対して絶対位置情報行列Pi = (p1,p2,...)で　　　　　　　　　表現行列Xに対して相対位置情報行列Pi-j
= (...,p-1,p0,p1,...)で Absolute PE(APE) ただし Relative PE(RPE)

APEの例 I am a cat . pad pad xI xam
xa xcat x. xpad xpad + As yet I have no name . xAs xyet xI xhave xno xname x. p0 p1 p2 p3 p4 p5 p6 + 同じ単語でも語順で違うベクトルに p0 p1 p2 p3 p4 p5 p6 ・長期依存性〇・並列可能性〇・順序考慮性〇

Primer ・小さい学習コストで同じクオリティ― ・同じ学習コストで高いクオリティ― ・小さい推論コストで同じクオリティーを目指してTransformerを遺伝的アルゴリズム(？)を用いて改良・ReLUの二乗化・QKVにConv　　が大きな変更

Primerの学習方法学習方法：25Kモデルで学習　　　　　→上位100モデルで再学習　　　　　　(上位10モデルが次世代に) 評価方法：1.1時間ずつ同じ環境で学習　　　　　　→学習時のpplで判断適応範囲：EncoderモデルのTrasnformer層変異 Delete 1つ内容を消す
Insert　1つ内容を増やすDelete and Insert　上二つ　Mutate Field 内容を一つ変更swap 入れ替える　　　　Mutate Bank Value　値を変更

Transformer ・Attention機構・FeedForward層・最終層で構築 InputにPositionEncoding ２つまとめて Transformer層今回のモデルはここ

Transformer層 INPUT ×WQ ×WK ×WV M×N^T softmax Layer Norm M×N^T
+ Dense Relu Dense OUTPUT Layer Norm + √d,multi head は省いてます =max(x,0) S-Attention FeedForward

変異例 Dense Relu Dense Relu x^2 Dense Dense Insert delete
Dense N×1024 Mutate Value Dense N×2126 Swap

Encoderモデルの学習 INPUT OUTPUT I am a cat . [PAD] model
[EOS] I am a cat .

Primerの結果 ×Wのあとにconv層を追加　　　　　Reluのあとに二乗

Primerの結果表現行列の次元が512→384 FF層での中間次元が表現行列の12倍 Q = KWQ normとﬀを入れ替え normで(x-μ)^2の代わりにx(x-μ) attentionでsoftmax後に定数倍小規模でのみ有効
悪化場合によって有効可変長に適用不可

Primerの性能評価・モデルサイズ(20M ~ 1.9B)　　・計算量(10~10^5単位分からない) ・データセット(LM1B, C4, PG19)　・ハードウェア(TPUv2, TPUv3, TPUv4, V100)
・フレームワーク(Tensor2Tensor, Lingvo, T5)　・モデル(いろいろ)で検証 Vanilla Transformerと同等の性能になるのに1.7倍以上高速化規模を大きくするとさらに高速化される GPT-3でVanillaと比べてone-shot性能で計算量1/3で　　　　　　　　5/25タスク上回る、1/25劣る、残り同等

Primer EZ Primerのうちconv層の追加とReluの二乗化だけしたもの →Primer EZ 一切意味がないものと適応すると逆に悪化するもの以外を適応 →Primer Primer EZは実装簡単だからとりあえずこっちを使うことをオススメ

その他デコーダーでのみ実験→エンコーダーモデルではTransformer++と同等ハイパーパラメータは変えていない EZのほうが性能よくなることもあるし、Primerのほうがいいこともある活性化関数少し変えただけでめっちゃよくなったから研究して TransformerのDecoderはとりあえずPrimer EZに置き換えよう！！！

参考文献 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion
Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin　　Attention Is All You Need　In Neural Information Processing Systems, (NIPS),2017 David R. So, Wojciech Manke, Hanxiao Liu, Zihang Dai, Noam Shazeer, Quoc V. Le　Primer: Searching for Efficient Transformers for Language Modeling　In Neural Information Processing Systems, (NeurIPS),2021

ご清聴ありがとうございました質問などあればお気軽にお聞きください

自然言語処理～Primer

自然言語処理～Primer

Keio Computer Society

More Decks by Keio Computer Society

Other Decks in Programming

Featured

Transcript

Primer: Searching for Eﬃcient Transformers for Language Modeling Keio Computer

自己紹介名前：辻航平所属班：音楽班学科：電気情報工学科趣味：音ゲー、作曲、旅行、SF小説 Twitter：@4kura728

構成 1. NLPとは 2. Transformerとは 3. Primer 4. 結論

自然言語処理　　　　　　　　　　　　　　　　自然言語：英語,日本語,ドイツ語,etc... W2V：機械学習自然言語処理 W2V Transformer 前後の

Embedding → 1. 単語を数字に　　ex. I am a cat . As

構成 1. NLPとは 2. Transformerとは 3. Primer 4. 結論

Transformer ・Attention機構・FeedForward層・最終層で構築 InputにPositionEncoding ２つまとめて Transformer層

Attention Attention(Q,K,V) = softmax(QK^T/√d)V Q,K,V = WQS, WKT, WVT QK^T

Attentionの例 I am a cat . I 0.7 0.3 0

Attention Attention(Q,K,V) = softmax(QK^T/√d)V Q,K,V = WQS, WKT, WVT QK^T

Position Encoding 単語の表現ベクトルに語順情報を付与表現行列X = (xa,xb,...)に対して絶対位置情報行列Pi = (p1,p2,...)で　　　　　　　　　表現行列Xに対して相対位置情報行列Pi-j

APEの例 I am a cat . pad pad xI xam

構成 1. NLPとは 2. Transformerとは 3. Primer 4. 結論

Transformer ・Attention機構・FeedForward層・最終層で構築 InputにPositionEncoding ２つまとめて Transformer層今回のモデルはここ

Transformer層 INPUT ×WQ ×WK ×WV M×N^T softmax Layer Norm M×N^T

変異例 Dense Relu Dense Relu x^2 Dense Dense Insert delete

Encoderモデルの学習 INPUT OUTPUT I am a cat . [PAD] model

Primerの結果 ×Wのあとにconv層を追加　　　　　Reluのあとに二乗

Primerの結果表現行列の次元が512→384 FF層での中間次元が表現行列の12倍 Q = KWQ normとﬀを入れ替え normで(x-μ)^2の代わりにx(x-μ) attentionでsoftmax後に定数倍小規模でのみ有効

Primerの性能評価・モデルサイズ(20M ~ 1.9B)　　・計算量(10~10^5単位分からない) ・データセット(LM1B, C4, PG19)　・ハードウェア(TPUv2, TPUv3, TPUv4, V100)

Primer EZ Primerのうちconv層の追加とReluの二乗化だけしたもの →Primer EZ 一切意味がないものと適応すると逆に悪化するもの以外を適応 →Primer Primer EZは実装簡単だからとりあえずこっちを使うことをオススメ

参考文献 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion

ご清聴ありがとうございました質問などあればお気軽にお聞きください