Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[ACL読会] Byte Latent Transformer: Patches Scale ...

Avatar for 佐藤蒼馬 佐藤蒼馬
September 23, 2025
48

[ACL読会] Byte Latent Transformer: Patches Scale Better Than Tokens

Avatar for 佐藤蒼馬

佐藤蒼馬

September 23, 2025
Tweet

Transcript

  1. Byte Latent Transformer: Patches Scale Better Than Tokens Artidoro Pagnoni

    , Ram Pasunuru , Pedro Rodriguez , John Nguyen , Benjamin Muller, Margaret Li , Chunting Zhou⋄, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman , Srinivasan Iyer FAIR at Meta, Paul G. Allen School of Computer Science & Engineering, University of Washington,University of Chicago 読み手:佐藤蒼馬(名大 笹野研 M2)
  2. 2 概要 背景:従来の大規模言語モデルは サブワード分割(BPE など)を行う • ドメインや言語に依存 • ノイズに弱い •

    文字レベルの知識を失いやすい 提案手法:Byte Latent Transformer (BLT) • トークナイザ不要の LLM アーキテクチャ • バイトを、動的にサイズの異なる「パッチ」にまとめる • 計算効率:推論 FLOPs を最大 50% 削減可能 • ロバスト性:ノイズのある入力や文字レベル理解で BPE より優れる • 翻訳能力:語彙に依存しないため、BPEよりも優れる
  3. 4 パッチング Strided Patching: バイトを常に固定の長さ(例:4バイトごと)で区切る Space Patching: スペース(空白文字)の後で新しいパッチを作成する 従来手法 Entropy

    Patching : • 学習済みのTransformerモデルを用いる • エントロピーが高い部分は、小さいパッチに分割 • エントロピーが低い部分は、予測が簡単であり、大きなパッチにまとめる • 絶対的なエントロピーで判断するGlobal • 直前のバイトからのエントロピーの上昇で判断する Approximate Monotonicity 提案手法
  4. 6 Byte Latent Transformer (BLT)の構成 1. Local Encoder バイト列をパッチ表現に変換する 軽量なトランスフォーマー

    2. Latent Transformer パッチ表現を受け取り、それを次 のパッチ表現に変換する自己回帰 型のトランスフォーマー 3. Local Decoder バイト列を元に戻す軽量なトラン スフォーマー
  5. 9 ローカルエンコーダの処理の流れ 4. クロスアテンション機構: • バイトの情報をパッチの情報へと集約 • バッチ表現はバイトのベクトル群に対し てmax-pooling •

    パッチが「問い合わせ役(クエリ)」 • そのパッチを構成する各バイトが「情報 提供役(キー/バリュー)」 • 各パッチは、自分を構成するバイトたち から必要な情報を集め、それらを一つの ベクトル(パッチ表現)に要約 Latent Transformerへ 入力「パッチ表現」
  6. 10 ローカルデコーダ クロスアテンション • Byte Encoder Hidden Statesがクエリ • 文脈付きパッチ表現がキー/バリュー

    • 各バイトの位置が、「この高度な文脈情 報を踏まえると、自分はどの文字になる べきか?」と問い合わせることで、最終 的なバイトが1つずつ決定 Local Encoderで保 存しておいた、詳 細なバイトレベル の情報 Latent Transformerか ら出力された文脈付 きパッチ表現
  7. 11 実験設定 事前学習データ • BLT-Exp: • 様々な公開ソースから収集された2兆トークン • 学習時のモデルのBPB (Bits-Per-Byte)の推移などを見る実験で用いる

    ( BPB:次の1バイトをどれだけうまく予測できるか) • BLT-1T: • 様々な公開ソースから収集されたより高品質な1兆トークンデータセット • 下流タスクで他モデルと比較するための事前学習実行に使用
  8. 13 計算量が最適な条件での比較ー実験設定ー • データセット: BLT-Expデータセット • モデルサイズ: 10億, 20億, 40億,

    80億パラメータ • 比較対象: • 各BPEモデルと比較 • BLTモデルの中核であるLatent TransformerのサイズをBPEモデルの Transformerサイズと揃え、全く同じデータで学習 • 評価: • 学習データに対する性能は、BPB(Bits-Per-Byte)で測定 • 値が低いほど高性能
  9. 15 実用的なタスクでの性能評価ー実験設定ー • データセット: BLT-1T • モデルサイズ: 80億パラメータのモデル • 比較対象:

    • BPEベースの Llama 3 モデル • 3種類のパッチング手法を用いた BLT モデル(Space, Global, Monotonic) • 評価: 質疑応答やコード生成など、複数の標準的なベンチマークで性能を測定 • 公平性: 全てのモデルは、同等の総計算量(FLOPs)で学習
  10. 18 推論コストを固定した条件での比較ー実験設定ー • データセット: BLT-1Tデータセット • 推論コスト: 基準となるモデル(Llama 2-3.6B)で固定 •

    モデルの用意: • トークンベースのLlama 3-3.9B • BLTモデルは、パラメータ数をLlama 3より大きくする代わりに、平均パッ チサイズを6や8と非常に大きく設定することで、同じ推論コストを実現 • 評価: • 学習データに対する性能は、BPB(Bits-Per-Byte)で測定 • 値が低いほど高性能
  11. 22 まとめ 従来の固定語彙トークン化に代わるByte Latent Transformer (BLT)を提案 • 性能と効率: 80億パラメータ規模でトークンベースのモデルに匹敵する性能を 達成しつつ

    、推論コストを最大50%削減できる可能性 • ロバスト性: 生のバイトデータを直接扱うことで、ノイズの多い入力への耐性 や、単語の内部構造の扱いに強み • 翻訳能力: 語彙に依存しないため、BPEよりも優れる
  12. 23 限界・今後の課題 スケーリング則の最適性: • 今回の実験で用いたモデルサイズとデータ量の比率は、BPEモデル向けに計 算されたものであり、BLTにとって最適ではない可能性がある 大規模モデルでのアーキテクチャ: • 80億を超えるさらに巨大なモデルでは、最適な設計が変わる可能性がある 他のモデルアーキテクチャの検討:

    • 本研究はTransformerをベースにしていますが、Mambaのような他のアーキテ クチャもバイトレベルモデリングに有効な可能性がある パッチング手法の学習: • 今回のパッチング手法は、モデル本体の学習とは別の前処理でした。モデル と一緒にパッチの区切り方も学習させるアプローチも、今後の課題