[ACL読会] Byte Latent Transformer: Patches Scale Better Than Tokens

Byte Latent Transformer: Patches Scale Better Than Tokens Artidoro Pagnoni
, Ram Pasunuru , Pedro Rodriguez , John Nguyen , Benjamin Muller, Margaret Li , Chunting Zhou⋄, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman , Srinivasan Iyer FAIR at Meta, Paul G. Allen School of Computer Science & Engineering, University of Washington,University of Chicago 読み手：佐藤蒼馬（名大笹野研 M2）

2 概要背景：従来の大規模言語モデルはサブワード分割（BPE など）を行う • ドメインや言語に依存 • ノイズに弱い •
文字レベルの知識を失いやすい提案手法：Byte Latent Transformer (BLT) • トークナイザ不要の LLM アーキテクチャ • バイトを、動的にサイズの異なる「パッチ」にまとめる • 計算効率：推論 FLOPs を最大 50% 削減可能 • ロバスト性：ノイズのある入力や文字レベル理解で BPE より優れる • 翻訳能力：語彙に依存しないため、BPEよりも優れる

3 パッチングとはパッチングとは、テキストのバイトシーケンスを、それよりも数の少ない「パッチ」と呼ばれるかたまりに分割するプロセスのことトークン化: • 事前に作成された語彙から、テキストに合うものを選んで分割するパッチング: • 固定の語彙を持たず、ルールに基づいてバイトを動的にグループ化する手法

4 パッチング Strided Patching: バイトを常に固定の長さ（例：4バイトごと）で区切る Space Patching: スペース（空白文字）の後で新しいパッチを作成する従来手法 Entropy
Patching ： • 学習済みのTransformerモデルを用いる • エントロピーが高い部分は、小さいパッチに分割 • エントロピーが低い部分は、予測が簡単であり、大きなパッチにまとめる • 絶対的なエントロピーで判断するGlobal • 直前のバイトからのエントロピーの上昇で判断する Approximate Monotonicity 提案手法

5 エントロピーパッチング

6 Byte Latent Transformer (BLT)の構成 1. Local Encoder バイト列をパッチ表現に変換する軽量なトランスフォーマー
2. Latent Transformer パッチ表現を受け取り、それを次のパッチ表現に変換する自己回帰型のトランスフォーマー 3. Local Decoder バイト列を元に戻す軽量なトランスフォーマー

7 ローカルエンコーダの処理の流れバイトの埋め込みと強化: 1. 各バイトが基本的なベクトル表現に変換 2. n-gramハッシュ埋め込み • 各バイトの周辺情報から作成した複数の n-gramをハッシュ化して得たベクトルを、
元のバイトの基本表現に加算することで、文脈情報を豊かにする（例：「cat」の中の「a」）

8 ローカルエンコーダの処理の流れ 3. Transformer層による文脈の付与: • 情報が強化されたバイトのシーケンスは、軽量なTransformer層を通過 • 各バイトは周囲のバイトの情報を考慮した、より文脈に即した表現へと更新

9 ローカルエンコーダの処理の流れ 4. クロスアテンション機構: • バイトの情報をパッチの情報へと集約 • バッチ表現はバイトのベクトル群に対してmax-pooling •
パッチが「問い合わせ役（クエリ）」 • そのパッチを構成する各バイトが「情報提供役（キー/バリュー）」 • 各パッチは、自分を構成するバイトたちから必要な情報を集め、それらを一つのベクトル（パッチ表現）に要約 Latent Transformerへ入力「パッチ表現」

10 ローカルデコーダクロスアテンション • Byte Encoder Hidden Statesがクエリ • 文脈付きパッチ表現がキー/バリュー
• 各バイトの位置が、「この高度な文脈情報を踏まえると、自分はどの文字になるべきか？」と問い合わせることで、最終的なバイトが1つずつ決定 Local Encoderで保存しておいた、詳細なバイトレベルの情報 Latent Transformerから出力された文脈付きパッチ表現

11 実験設定事前学習データ • BLT-Exp： • 様々な公開ソースから収集された2兆トークン • 学習時のモデルのBPB (Bits-Per-Byte)の推移などを見る実験で用いる
（ BPB：次の1バイトをどれだけうまく予測できるか） • BLT-1T： • 様々な公開ソースから収集されたより高品質な1兆トークンデータセット • 下流タスクで他モデルと比較するための事前学習実行に使用

12 ３つの実験設定以下の設定でトークナイザーベースのモデルと比較を行う (a) 計算量が最適な条件 (b) 実用的なタスク (c) 推論コストを固定した条件

13 計算量が最適な条件での比較ー実験設定ー • データセット: BLT-Expデータセット • モデルサイズ: 10億, 20億, 40億,
80億パラメータ • 比較対象: • 各BPEモデルと比較 • BLTモデルの中核であるLatent TransformerのサイズをBPEモデルの Transformerサイズと揃え、全く同じデータで学習 • 評価: • 学習データに対する性能は、BPB（Bits-Per-Byte）で測定 • 値が低いほど高性能

14 計算量が最適な条件での比較ー実験結果ー • 平均パッチサイズが4 の BLTモデルは、Llama 3とほぼ同等の性能 • 平均パッチサイズを8
に増やし、推論効率を大幅に高めた場合でも、性能が大きく落ちることはない

15 実用的なタスクでの性能評価ー実験設定ー • データセット: BLT-1T • モデルサイズ: 80億パラメータのモデル • 比較対象:
• BPEベースの Llama 3 モデル • 3種類のパッチング手法を用いた BLT モデル（Space, Global, Monotonic） • 評価: 質疑応答やコード生成など、複数の標準的なベンチマークで性能を測定 • 公平性: 全てのモデルは、同等の総計算量（FLOPs）で学習

16 実用的なタスクでの性能評価ー実験結果ー

17 推論コストを固定した条件での比較ー仮説ー • BLTモデルでは、推論のFLOPsを一定に保ったまま、モデルサイズとパッチサイズを同時に大きくすることができる • より大きなパッチでより少ないステップを実行する大規模モデルが、より多くのステップを実行する小規模モデルよりも優れた性能を発揮する可能性がある

18 推論コストを固定した条件での比較ー実験設定ー • データセット: BLT-1Tデータセット • 推論コスト: 基準となるモデル（Llama 2-3.6B）で固定 •
モデルの用意: • トークンベースのLlama 3-3.9B • BLTモデルは、パラメータ数をLlama 3より大きくする代わりに、平均パッチサイズを6や8と非常に大きく設定することで、同じ推論コストを実現 • 評価: • 学習データに対する性能は、BPB（Bits-Per-Byte）で測定 • 値が低いほど高性能

19 推論コストを固定した条件での比較ー実験結果ートークンベースのアーキテクチャよりも優れたスケーリング傾向

20 バイトモデリングはロバスト性を向上させるノイズのある入力や文字レベル理解を評価

21 バイトモデリングは堅牢性を向上させる FLORES-101ベンチマークを使用し、「低リソース言語」の翻訳能力を評価

22 まとめ従来の固定語彙トークン化に代わるByte Latent Transformer (BLT)を提案 • 性能と効率: 80億パラメータ規模でトークンベースのモデルに匹敵する性能を達成しつつ
、推論コストを最大50%削減できる可能性 • ロバスト性: 生のバイトデータを直接扱うことで、ノイズの多い入力への耐性や、単語の内部構造の扱いに強み • 翻訳能力: 語彙に依存しないため、BPEよりも優れる

23 限界・今後の課題スケーリング則の最適性: • 今回の実験で用いたモデルサイズとデータ量の比率は、BPEモデル向けに計算されたものであり、BLTにとって最適ではない可能性がある大規模モデルでのアーキテクチャ: • 80億を超えるさらに巨大なモデルでは、最適な設計が変わる可能性がある他のモデルアーキテクチャの検討:
• 本研究はTransformerをベースにしていますが、Mambaのような他のアーキテクチャもバイトレベルモデリングに有効な可能性があるパッチング手法の学習: • 今回のパッチング手法は、モデル本体の学習とは別の前処理でした。モデルと一緒にパッチの区切り方も学習させるアプローチも、今後の課題

[ACL読会] Byte Latent Transformer: Patches Scale ...

[ACL読会] Byte Latent Transformer: Patches Scale Better Than Tokens

佐藤蒼馬

Featured

Transcript

Byte Latent Transformer: Patches Scale Better Than Tokens Artidoro Pagnoni

2 概要背景：従来の大規模言語モデルはサブワード分割（BPE など）を行う • ドメインや言語に依存 • ノイズに弱い •

4 パッチング Strided Patching: バイトを常に固定の長さ（例：4バイトごと）で区切る Space Patching: スペース（空白文字）の後で新しいパッチを作成する従来手法 Entropy

5 エントロピーパッチング

6 Byte Latent Transformer (BLT)の構成 1. Local Encoder バイト列をパッチ表現に変換する軽量なトランスフォーマー

7 ローカルエンコーダの処理の流れバイトの埋め込みと強化: 1. 各バイトが基本的なベクトル表現に変換 2. n-gramハッシュ埋め込み • 各バイトの周辺情報から作成した複数の n-gramをハッシュ化して得たベクトルを、

8 ローカルエンコーダの処理の流れ 3. Transformer層による文脈の付与: • 情報が強化されたバイトのシーケンスは、軽量なTransformer層を通過 • 各バイトは周囲のバイトの情報を考慮した、より文脈に即した表現へと更新

9 ローカルエンコーダの処理の流れ 4. クロスアテンション機構: • バイトの情報をパッチの情報へと集約 • バッチ表現はバイトのベクトル群に対してmax-pooling •

10 ローカルデコーダクロスアテンション • Byte Encoder Hidden Statesがクエリ • 文脈付きパッチ表現がキー/バリュー

11 実験設定事前学習データ • BLT-Exp： • 様々な公開ソースから収集された2兆トークン • 学習時のモデルのBPB (Bits-Per-Byte)の推移などを見る実験で用いる

12 ３つの実験設定以下の設定でトークナイザーベースのモデルと比較を行う (a) 計算量が最適な条件 (b) 実用的なタスク (c) 推論コストを固定した条件

13 計算量が最適な条件での比較ー実験設定ー • データセット: BLT-Expデータセット • モデルサイズ: 10億, 20億, 40億,

14 計算量が最適な条件での比較ー実験結果ー • 平均パッチサイズが4 の BLTモデルは、Llama 3とほぼ同等の性能 • 平均パッチサイズを8

15 実用的なタスクでの性能評価ー実験設定ー • データセット: BLT-1T • モデルサイズ: 80億パラメータのモデル • 比較対象:

16 実用的なタスクでの性能評価ー実験結果ー

18 推論コストを固定した条件での比較ー実験設定ー • データセット: BLT-1Tデータセット • 推論コスト: 基準となるモデル（Llama 2-3.6B）で固定 •

19 推論コストを固定した条件での比較ー実験結果ートークンベースのアーキテクチャよりも優れたスケーリング傾向

20 バイトモデリングはロバスト性を向上させるノイズのある入力や文字レベル理解を評価

21 バイトモデリングは堅牢性を向上させる FLORES-101ベンチマークを使用し、「低リソース言語」の翻訳能力を評価

22 まとめ従来の固定語彙トークン化に代わるByte Latent Transformer (BLT)を提案 • 性能と効率: 80億パラメータ規模でトークンベースのモデルに匹敵する性能を達成しつつ