Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介

Atom
September 02, 2019
43

 文献紹介

Atom

September 02, 2019
Tweet

More Decks by Atom

Transcript

  1. Bayesian Compression
    for Natural Language Processing
    文献紹介
    2019/9/2
    長岡技術科学大学
    自然言語処理研究室 吉澤 亜斗武

    View Slide

  2. Abstract
    ・RNNのようなモデルは膨大なパラメータを必要とする.
    ・特に語彙の長さに比例してサイズが大きくなる埋め込み層に
    大部分のパラメータが集中している.
    ・RNNのベイジアンスパース化を提案した.
    ・また,不要な単語を削除すことで,さらにRNNを圧縮し,
    単語の選択について議論した.
    2
    Sparse VD

    View Slide

  3. 1. Introduction
    ・先行研究ではSparse Variational Dropout (Sparse VD) がある.
    ・RNNへの適用は調査されていない.
    ・自然言語処理のタスクでは語彙との関連がつよい最初の層
    (埋め込み層)にRNNの重みの大部分が集中する.
    ・一部のタスクでは不要な単語が存在する場合があり,
    フィルタリングが必要
    3

    View Slide

  4. 1. Introduction
    ・本論文では,Sparse VD をRNNに適合し,単語に重みをかけ,
    語彙をスパース化させた.
    ・Sparse VDが大幅な品質の低下をなしに,大きなスパース性を
    もたらすことを示した.
    ・語彙のスパース化では,分類タスクでは圧縮率を高めますが,
    言語モデルのタスクでは役に立たないことがわかった.
    4

    View Slide

  5. 2. Related Work
    5
    ・先行研究では各ニューロンに対応するグループごとにLSTMの
    重みを取り除くことを提案
    ・ベイジアンNNでは重みはランダム変数として表され,
    事前分布として表され,トレーニングで事後分布に変換される.
    ・ベイジアンスパース化はプルーニング手法と比較して,
    ハイパーパラメータの数が少なく,スパース性が高い.
    ・RNNの特徴を考慮してSparse VDを適応させる.

    View Slide

  6. 3.1 Notations
    6
    RNNについて

    View Slide

  7. 3.2 Sparse variational dropout for RNNs
    7

    View Slide

  8. 3.2 Sparse variational dropout for RNNs
    8

    View Slide

  9. 3.2 Sparse variational dropout for RNNs
    9
    reparametrization trick(積分を計算可能に)
    先行研究では,local reparametrization trickを用いているが,
    RNNでは時系列データを用いるため,厳密には使えない .

    View Slide

  10. 3.2 Sparse variational dropout for RNNs
    10
    reparametrization trick(積分を計算可能に)
    どのタイミングでサンプリングするかが問題になる.
    先行研究では,local reparametrization trickを用いているが,
    RNNでは時系列データを用いるため,厳密には使えない .

    View Slide

  11. 3.2 Sparse variational dropout for RNNs
    11
    ・トレーニングの手順(ミニバッチ)
    (1)全ての重みをサンプリングして,通常通りRNNに適用
    (2)Eq.(1)の勾配をθ,logσ,Bで計算.
    ・Eq.(2)より, θが極端に小さいものと,分散が大きいもの
    は0に近づき,スパース化される.

    View Slide

  12. 3.3 Multiplicative weights for vocabulary sparsification
    12
    ・ベイジアンスパース化の利点は,グループ(層)ごとの
    スパース化に拡張できる.
    ・入力のone-hot ベクトルに確率的重み ∈ をかける
    ・ はミニバッチごとに重み同様に因子分解された正規分布で近似
    ・トレーニング後, の要素が低いものをθとσの比率をもとに
    削除し,その語彙に対応する単語を使用せず,重み行列から
    該当する行を削除.

    View Slide

  13. 4 Experiments
    13
    ・テキスト分類のタスク
    ・IMDb:2値分類
    ・AGNews:4クラス分類
    頻度の高い20000語に両方のデータセットを揃える.
    ・言語モデリングのタスク
    ・Penn Treebankコーパス(Marcus et al、1993)
    文字レベル,単語レベル

    View Slide

  14. 4.1 Text Classification
    14
    ・品質を大幅に落とすことなく,圧縮率を高める
    ・分類には重要な単語のみを読めば良いことがわかる.

    View Slide

  15. 4.1 Text Classification
    15
    ・2値分類に重要そうな単語が残り,分類出来ている.

    View Slide

  16. 4.2 Language Modeling
    16
    ・文字は語彙数が少なく,すべて重要でありほとんど減らない
    ・単語においても,語彙数はスパース化しないほうが精度が高い.

    View Slide

  17. 5. Conclusions
    17
    ・Sparse VDをRNNに適用し,重みのθとσの比が一定以下の
    ものを重みを削除することで,品質を落とさずスパース化した
    ・分類タスクでは,かなり圧縮できたが,言語モデルのタスク
    では単語のほとんどが重要であり,語彙のスパース化はタスク
    を困難に品質の低下につながることがわかった.

    View Slide