[RetNet] Retentive Network: A Successor to Transformer for Large Language Models

Slide 1

Slide 1 text

(RetNet) Retentive Network: A Successor to Transformer for Large Language Models 2023/08/04 飯田啄巳

Slide 2

Slide 2 text

背景：RetNetの目指すところ Transformer 言語モデルのデファクトになってるけど、 👍高パフォーマンス 👎🏽O(N) Complexity 👎🏽Key-Valueストアでメモリ効率悪い 👎🏽シーケンス長いと、レイテンシも悪い Linearized Attention アテンションスコアのexp(𝑞 ⋅ k)を𝜙 𝑞 ⋅ 𝜙(𝑘)で書き換え、自己回帰推論可能にした 👎🏽性能悪い Recurrent Network 👎🏽学習の並列性ない Others: Attentionを書き換える（S4など） 👎🏽性能悪い RetNet 並列表現 → 👍並列学習リカレント表現（実装も楽） → 👍メモリと計算の両面でO(1)推論チャンクごとのリカレント表現（chunkwise recurrent） → 👍長いシーケンスに対応

Slide 3

Slide 3 text

手法：Retentive Networks 全体の流れ 1. 入力：𝑥 = 𝑥1 , … 𝑥 𝑥 のシーケンス 2. 各トークンの次元を𝑑𝑚𝑜𝑑𝑒𝑙 にする：𝑋0 = 𝑥1 , … , 𝑥 𝑥 ∈ ℝ 𝑥 ×𝑑𝑚𝑜𝑑𝑒𝑙 3. 自己回帰的に次の状態を推定：𝑋𝑙 = 𝑅𝑒𝑡𝑁𝑒𝑡𝑙 𝑋𝑙−1 , 𝑙 ∈ 1, 𝐿 こんなイメージ？ 𝑑𝑚𝑜𝑑𝑒𝑙 𝑑𝑚𝑜𝑑𝑒𝑙 𝑥1 𝑥2 𝑥3 𝑥 𝑥 MSR (Multi-Scale Retention) FFN (Feed-Forward Network) RetNet

Slide 4

Slide 4 text

手法：Retentionモジュールの仕組み状態𝒔𝑛 を介して、𝒐𝑛 を出力 Aの対角化の式を使うと xPosという相対位置埋め込みの表現形式 𝛾をスカラ化共役転置 Transformerの式（並列化可能）リカレントモデルの式 RNNとTransformerの式の関係性を考えてみるハイブリッド表現（Chunkwise Recurrent Representation）長いシーケンスの学習効率化要素数Bのチャンクを作るチャンク内では並列化チャンク外では再帰 𝑖番目のチャンク三段階正規化（スケーリング）未来情報使わないように近傍の重み強めに

Slide 5

Slide 5 text

手法：Retentionモジュールの仕上げ（ゲート化・マルチスケール化）マルチヘッド化マルチスケール化ヘッドごとに異なる𝛾を使うヘッドの数ゲート化 swishを使う正規化層とかもちゃんと書くと… GroupNormは各ヘッドの出力を正規化（SubLNという方法に基づくらしい）ヘッドごとに異なる𝛾を使うとヘッドごとに分布が変わってくるので、ヘッドごとに正規化

Slide 6

Slide 6 text

全体まとめ 𝑑𝑚𝑜𝑑𝑒𝑙 𝑑𝑚𝑜𝑑𝑒𝑙 𝑥1 𝑥2 𝑥3 𝑥 𝑥 MSR (Multi-Scale Retention) FFN (Feed-Forward Network) RetNet さっきのMSR (Multi-Scale Retention)をTransformerブロックみたいに積んで完成！学習時 parallel（シーケンス内並列化）or chunkwise recurrent（チャンク内並列化） parallel chunkwise recurrent 推論時 recurrentを使う → 自己回帰推論 = O(1)

Slide 7

Slide 7 text

実装的には未来情報使わないように近傍の重み強めに

Slide 8

Slide 8 text

実装的には要素数Bのチャンクを作るチャンク内では並列化チャンク外では再帰

Slide 9

Slide 9 text

実験：モデルサイズとその性能パラメータ数 Transformer RetNet 𝑠𝑒𝑙𝑓 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑊𝑄 , 𝑊𝐾 , 𝑊𝑉 , 𝑊𝑂 = 4𝑑2 𝐹𝐹𝑁 = 8𝑑2 𝑖𝑛𝑡𝑒𝑟𝑚𝑒𝑑𝑖𝑎𝑡𝑒 𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛 = 4𝑑 𝑅𝑒𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑚𝑜𝑑𝑢𝑙𝑒 𝑊𝑄 , 𝑊𝐾 ∈ ℝ𝑑×𝑑, 𝑊𝐺 , 𝑊𝑉 ∈ ℝ𝑑×2𝑑, 𝑊𝑂 ∈ ℝ2𝑑×𝑑 = 8𝑑2 混乱度、低いほうが良いらしい。（確率分布を比較する指標）

Slide 10

Slide 10 text

実験：Zero-shot, Few-shotの性能 Transformerよりもいいです

Slide 11

Slide 11 text

実験：Transformerとのメモリ＆スループットの比較 Kernel FusionとFlashAttentionは除外

Slide 12

Slide 12 text

実験：推論コスト GPUメモリ • TransformerはKVキャッシュで線形に増加 • RetNetは長いシーケンスでも同じスループット • Transformerは長くなると低下 • RetNetはずっと高いスループットレイテンシ • Transformerはバッチサイズ大 → レイテンシ遅 • RetNetはずっと速い

Slide 13

Slide 13 text

実験：周辺技術との関係性と性能比較 Query, Keyが Content-unaware attention free& 位置埋め込みを指数減衰に置換 →再帰関係性性能比較

Slide 14

Slide 14 text

Ablation Study (𝛾 = 1)

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

使い方や実際の実装切り替えて使う感じモデルのロード方法は書いてあるケド…運用方法は？