【論文紹介】Automated Concatenation of Embeddings for Structured Prediction

Slide 1

Slide 1 text

Automated Concatenation of Embeddings for Structured Prediction Wang et al., ACL-IJCNLP 2021 Kaito Sugimoto Aizawa Lab. M1 2021/09/06 1 / 22

Slide 2

Slide 2 text

どんな論文？ • ACL-IJCNLP 2021 (long paper) • 脚注によると著者が Alibaba の R&D 部門にインターンした際に行われた研究らしい 2 / 22

Slide 3

Slide 3 text

どんな論文？ • Structured Prediction タスク（入力文のラベルや構造を予測するタスク）をより上手く解く研究 • Neural Architecture Search (NAS) のアイデアを活用し, 最適な Embedding の組み合わせ方を強化学習として学習する • NER や Dependency Parsing などの 6 つのタスクで SOTA 3 / 22

Slide 4

Slide 4 text

背景 • NER タスクなどにおいて, BERT の Embedding を単独で用いるよりも他のモデルの Embedding と連結して使う方が精度が良くなることが知られていた 1 1Strakova et al., Neural Architectures for Nested NER through Linearization (ACL 2019) 4 / 22

Slide 5

Slide 5 text

背景 • 沢山種類がある言語モデルの Embedding から最も良い組み合わせを考えることで性能を上げられないだろうか？ • しかし, L 種類の Embedding があった場合に, ありうる Embedding の連結の仕方は 2L − 1 通りあり, 全探索するのは困難 • タスクごとに効果的な Embedding の組み合わせが異なる可能性も十分考えられる 5 / 22

Slide 6

Slide 6 text

背景 • そこで本研究では Neural Architecture Search (NAS) の考え方を取り入れる • NAS においては通常, タスクごとにアーキテクチャ自体を探索する. NLP でもこれまでタスクに応じた RNN や Transformer のより良いアーキテクチャ探索の応用例がある • 今回は, モデルのアーキテクチャは探索しない（ラベル予測では BiLSTM-CRF で, 構造予測では BiLSTM-Biaﬃne で統一）. その代わり, モデルの入力である Embedding の組み合わせ方を探索する. 6 / 22

Slide 7

Slide 7 text

提案手法のコンセプト • モデルのアーキテクチャではなく, モデルに入力する Embedding の組み合わせ方を探索する • アーキテクチャ自体を探索するよりも GPU 時間の少ない効率的な方法だと主張している 7 / 22

Slide 8

Slide 8 text

手法 L を候補の Embedding の総数とする. a = ( a1 a2 ... aL ) をどの Embedding を使うか・使わないかの値とする（強化学習における「行動」）各 al は以下の 𝜽 = ( 𝜃1 𝜃2 ... 𝜃l ) をパラメータとする分布（強化学習における「方策（Policy）関数」）に従ってサンプリングされる PCtrl l (al ; 𝜃l ) = { 𝜎(𝜃l ) 1 − 𝜎(𝜃l ) 流れとしては, 前のステップで計算された 𝜽 をもとに a をサンプルし, モデルを訓練して accuracy を計算. その accuracy の結果をもとに 𝜽 を更新する. この繰り返し. 8 / 22

Slide 9

Slide 9 text

手法 accuracy の計算前のステップで計算された 𝜽 をもとに a をサンプルし, どの Embedding を使うかを決める（1 ステップ目は全部使う ∀l al = 1）. 以下の式のように, 使う Embedding 以外は 0 埋めされたベクトルが入力になる. これを入力としてモデル（BiLSTM-CRF または BiLSTM-Biaﬁine）を訓練し, evaluation データの accuracy を計算する. モデル自体は全ステップで同じものを使い続ける. 9 / 22

Slide 10

Slide 10 text

手法 𝜽 の更新モデルの Accuracy を報酬としたとき, Vanilla Policy Gradient という強化学習の手法 2 により, 𝜽 は前のステップから以下の分だけ更新すればよいと求まる（初期状態は 𝜽 = 0）. （b は, この更新値の分散を小さくするための項で, 具体的にはその時点までの accuracy の最高値を使えばよいとされる） 2『深層強化学習アルゴリズムまとめ』 https://qiita.com/shionhonda/items/ec05aade07b5bea78081 がわかりやすい 10 / 22

Slide 11

Slide 11 text

手法著者らはさらに, どの Embedding がより accuracy の向上に寄与したのかを報酬関数に明示した方がよいのではないか？と考え, 先程の式を以下のように修正（実際に ablation study した際に効果的だった）. 11 / 22

Slide 12

Slide 12 text

実験以下の 6 種類のタスクを行う • NER • POS Tagging（品詞タグ付け） • Chunking（"South Africa" のようなカタマリの抽出） • Aspect Extraction（品物のレビューなど, 意見や感情を含む文からそれに関連する用語を抽出するタスク） • Syntactic Dependency Parsing • Semantic Dependency Parsing 12 / 22

Slide 13

Slide 13 text

実験 1. ベースラインとの比較提案手法の探索がうまくいっているかを確かめるために, • 単純に全部の Embeddings を使った場合 • Random Search した場合（毎回ランダムに使う Embedding の組み合わせを試す場合）と比較 Embedding の候補としては ELMo, Flair, BERT, Glove, fastText, Multilingual-BERT など 11 種類（今回は ﬁne-tuning は行わずに Embedding を生成する） 13 / 22

Slide 14

Slide 14 text

実験（RANDOM も ALL を上回ることが多い） 14 / 22

Slide 15

Slide 15 text

実験ランダムに組み合わせを試すよりも効率的 15 / 22

Slide 16

Slide 16 text

実験 2. SOTA との比較実験 1. と異なり, モデルをタスクごとに ﬁne-tuning してから Embedding を作成し, その組み合わせ方を提案手法で学習する Embedding の候補としてさらに XLNet と RoBERTa を追加. 16 / 22

Slide 17

Slide 17 text

実験 17 / 22

Slide 18

Slide 18 text

実験 18 / 22

Slide 19

Slide 19 text

実験 Embedding Weighting, Ensemble との比較複数の Embedding の組み合わせ方は他にも考えられる • Embedding を選ぶか選ばないかを 0/1 で決めるのではなく, 連続値の weight として考える All + weight 手法（つまり, Policy 関数である Sigmoid 関数の値をそのまま渡す） • それぞれの Embedding による予測結果の多数決で決める Ensemble 手法（この場合強化学習そのものが不要）これらに対して提案手法は優っているのか？ 19 / 22

Slide 20

Slide 20 text

実験どれも僅差だが POS, AE で若干差が開いている Random も強いベースライン 20 / 22

Slide 21

Slide 21 text

実験結局, どのモデルの Embedding が役に立つのか？はっきりとした結論は出せなかった. タスクがラベル予測か構造予測か, あるいは文法的なタスクか意味的なタスクか, で若干の傾向の違いはありそう. 21 / 22

Slide 22

Slide 22 text

感想 • NAS の考え方を Embedding の組み合わせ方に応用するだけで, ここまで多くのタスクで SOTA を出せるのは面白い • 入力文の構造予測以外のタスクでも使えそうかどうかは気になる • 一方で, SOTA レベルのパフォーマンスを出すためには前提として沢山の ﬁne-tuning モデルが必要であり, 前準備が大変である. そこも含めて Huggingface のライブラリに組み込まれると便利そう 22 / 22