Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021

F16d24f8c3767910d0ef9dd3093ae016?s=47 tosho
July 05, 2021

Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021

Shaham and Levy, 2021. "Neural Machine Translation without Embeddings." NAACL2021. の紹介スライド。

F16d24f8c3767910d0ef9dd3093ae016?s=128

tosho

July 05, 2021
Tweet

Transcript

  1. Neural Machine Translation without Embeddings Uri Shaham♦, Omer Levy♦♠ ♦

    The Blavatnik School of Computer Science, Tel Aviv University ♠ Facebook AI Research NAACL 2021 紹介者: Tosho Hirasawa (小町研D1) 2021/07/05 @小町研 EACL/NAACL 2021 論文読み会
  2. 1. どんなもの? Byte-level tokenization と one-hot embedding matrix で用いることで、 従来のルールやヒューリスティックな(サブ)ワード分割手法に頼らない、

    ユニバーサルな Transformer モデルを提案した。
  3. Byte-level tokenization ルールベースやヒューリスティックなサブワード分割に比べ、byte-level tokenization を 用いることで、256 types だけで語彙を表現できる。 • Pros:

    語彙が少ないため、モデルを小さくできる • Pros: 言語に依存しない • Cons: サブワード分割を使うモデルに比べて、性能が悪い 2. 先行研究と比べてどこがすごい?
  4. 提案手法 単語埋め込みを使わないことで、byte-level tokenization の簡潔さと汎用性を維持しつ つ、サブワード分割を使ったモデルに匹敵する性能を達成した。 2. 先行研究と比べてどこがすごい?

  5. Byte-level Tokenization Unicode な文字列をバイトに分割する • 語彙サイズを 256 になる • 言語によって変換率が異なる

    ◦ 1 byte/char: 英語 ◦ 2 byte/char: アラビア語 ◦ 3 byte/char: 中国語 ◦ 4 byte/char: 絵文字 3. 技術や手法のキモはどこ?
  6. 単語埋め込み層を削除し、単語の埋め込み表現に one-hot ベクトルを使う • 語彙が小さいので sparse でよい • パラメータの削減になる •

    より多くのメモリー空間が必要になる Space complexity: その他の工夫 • one-hot embedding と output layer の 重みは sqrt(d) で初期化 • encoder input と decoder output で dropout は使わない One-hot embedding matrix 3. 技術や手法のキモはどこ?
  7. 実験設定 Dataset: IWSLT(TED talks のサブスクリプトと翻訳のデータ) 言語対: en-x and x-en (x

    = zh, es, ar, ru, de, ja, tr, vi, fa, he) ベースライン: 3 Transformer models (Fairseq, 6 layers, 4 heads, 512d, 1024d ffn) • BPE-based model (10k merge operations) • character-based model • byte-based model w/ embedding Training: Adam, 4k warmup steps, 5e-4 lr, (0.2 or 0.3 dropout?,) batch of 64k byte average top 5 checkpoints in 50k steps Evaluation: SacreBLEU (case-sensitive), use the raw text as the reference 4. どうやって有効だと検証した?
  8. 実験結果 • tokenization の違いによる性能差は相対的に小さい • Embed-less byte model は embed-based

    char/byte models より性能が良い 4. どうやって有効だと検証した?
  9. 議論 x-en だと BPE-based model の性能が最もよい • Moses tokenizer は英語には良いが、他の言語では良くないため

    Dropout of decoder input の効果 • Embed-less byte model に有効 • Validation データ 160 件のうち、 153 件で性能が向上した • Exposure bias が軽減されたため だと考えられる 5. 議論はある?
  10. Decoder Token Dropout (0.2) の効果 • Embed-less byte model にはほぼ効果なし(ja-en

    が 1 BLEU 低下) 5. 議論はある?