Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Shaham and Levy, 2021. Neural Machine Translati...

tosho
July 05, 2021

Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021

Shaham and Levy, 2021. "Neural Machine Translation without Embeddings." NAACL2021. の紹介スライド。

tosho

July 05, 2021
Tweet

More Decks by tosho

Other Decks in Research

Transcript

  1. Neural Machine Translation without Embeddings Uri Shaham♦, Omer Levy♦♠ ♦

    The Blavatnik School of Computer Science, Tel Aviv University ♠ Facebook AI Research NAACL 2021 紹介者: Tosho Hirasawa (小町研D1) 2021/07/05 @小町研 EACL/NAACL 2021 論文読み会
  2. Byte-level tokenization ルールベースやヒューリスティックなサブワード分割に比べ、byte-level tokenization を 用いることで、256 types だけで語彙を表現できる。 • Pros:

    語彙が少ないため、モデルを小さくできる • Pros: 言語に依存しない • Cons: サブワード分割を使うモデルに比べて、性能が悪い 2. 先行研究と比べてどこがすごい?
  3. Byte-level Tokenization Unicode な文字列をバイトに分割する • 語彙サイズを 256 になる • 言語によって変換率が異なる

    ◦ 1 byte/char: 英語 ◦ 2 byte/char: アラビア語 ◦ 3 byte/char: 中国語 ◦ 4 byte/char: 絵文字 3. 技術や手法のキモはどこ?
  4. 単語埋め込み層を削除し、単語の埋め込み表現に one-hot ベクトルを使う • 語彙が小さいので sparse でよい • パラメータの削減になる •

    より多くのメモリー空間が必要になる Space complexity: その他の工夫 • one-hot embedding と output layer の 重みは sqrt(d) で初期化 • encoder input と decoder output で dropout は使わない One-hot embedding matrix 3. 技術や手法のキモはどこ?
  5. 実験設定 Dataset: IWSLT(TED talks のサブスクリプトと翻訳のデータ) 言語対: en-x and x-en (x

    = zh, es, ar, ru, de, ja, tr, vi, fa, he) ベースライン: 3 Transformer models (Fairseq, 6 layers, 4 heads, 512d, 1024d ffn) • BPE-based model (10k merge operations) • character-based model • byte-based model w/ embedding Training: Adam, 4k warmup steps, 5e-4 lr, (0.2 or 0.3 dropout?,) batch of 64k byte average top 5 checkpoints in 50k steps Evaluation: SacreBLEU (case-sensitive), use the raw text as the reference 4. どうやって有効だと検証した?
  6. 実験結果 • tokenization の違いによる性能差は相対的に小さい • Embed-less byte model は embed-based

    char/byte models より性能が良い 4. どうやって有効だと検証した?
  7. 議論 x-en だと BPE-based model の性能が最もよい • Moses tokenizer は英語には良いが、他の言語では良くないため

    Dropout of decoder input の効果 • Embed-less byte model に有効 • Validation データ 160 件のうち、 153 件で性能が向上した • Exposure bias が軽減されたため だと考えられる 5. 議論はある?