What Context Features Can Transformer Language Models Use?

What Context Features Can Transformer Language Models Use? Joe O’Connor
Jacob Andreas ACL 2021 発表者 : B4 木山朔発表日 : 6/15 1

概要 • Transformerベースの言語モデルは数百-千の前のトークンの文脈を使用 • どのような文脈情報がモデル予測に役立つか？ • 語彙や構造的な情報を削除し，有益な情報を測定 ◦ V-information[Xu+2020] を用いて分析
◦ 中距離，長距離の文脈で実験 ◦ 語順の入れ替え，名詞以外の単語の削除など ◦ ある破壊的操作では削除できる情報は 15%未満 • 長い文脈がlow perplexityにとって重要であると示唆 ◦ 詳細な構文や命題の内容よりも長い文脈の方が重要 2

手法 1/5 • V-information[Xu+2020] ◦ Vの任意の予測変数によって， XからYに関する余分な情報がどれだけ抽出されるかを表す ▪ Y
: ターゲット単語 ▪ X : 文脈 ▪ V : パラメトリックモデルのクラス ▪ p1 : Xにアクセスできないモデル ▪ p2 : Xにアクセスできるモデル 3

手法 2/5 • どの文脈のどのような情報がモデルに利用されているか？ ◦ 例：ターゲットトークンから 5トークン以上離れたところでは名詞しか抽出しない ▪ X_{i:j} :
i番目からj-1番目のトークン列 ▪ nouns : 名詞のみを抽出する関数 4

手法 3/5 • ablated context : ablation関数で処理されたcontext ◦ f :
アブレーション ◦ k : 整数のオフセット • ablated negative log-likelihood : ablateされた負の対数尤度関数 5

手法 4/5 • 各ablation (f) の使用可能な情報への影響を測定 ◦ 0に近いほど情報が削除されない ◦ 1に近いほど情報が削除される
◦ どれだけ情報が失われるかを測る • 直感的説明 ◦ k個のtokenに対してfを適応した情報を， fを適用していない情報で割る 6

手法 5/5 • (7)式を改良 ◦ ホールドアウトやバッチ処理に対応 ◦ この手法を用いて評価 ◦ |X|
: 文字列のデータセットサイズ ◦ f : アブレーション ◦ l : アブレーションを行う範囲 ◦ m,n : l+mからl+nまでの尤度計算の対象を選択 • ablationを適応しないとき ◦ L(θ,m ∼ n)で表現する． 7

実験設定 • モデル ◦ GPT-2モデル[Radford+2019] ◦ デフォルトのハイパーパラメータ [Wolf+2020] • 訓練データ
◦ WikiText-103データセット[Merity+2016] • 前処理 ◦ abletionのみ適応 • 品詞タグ付け ◦ spaCy[Honnibal+2020] 8

比較手法 • 訓練時の条件 ◦ no infomation ▪ L(θ,0 ∼ 512)を最小にするように学習
◦ full infomation ▪ L(θ,512 ∼ 1024)を最小にするように学習 ◦ ablation model ▪ L(θ,f,512 : 0 ∼ 512)を最小にするように学習 • 評価時の条件 ◦ 中距離の条件 : L(·,f, 512 : 0 ∼ 256) ◦ 長距離の条件 : L(·,f, 512 : 256 ∼ 512) • ablation ◦ 単語の順序と文の順序 ◦ 品詞の抽出と単語の頻度 9

全体の語順例 10 文章内で1-gramでshufle 文章内で3-gramでshuffle

全体の語順結果 • 表の読み方 ◦ x軸 : ablated likelihood ◦
error bar : 95%信頼区間 ◦ 小さい方が尤度が小さい • shuffle all ◦ 文章内で1-gramでshufle ◦ 中距離 : 41%の情報が削除 ◦ 長距離 : 84%の情報が削除 • shuffle trigrams globaly ◦ 文章内で3-gramでshuffle ◦ 中距離 : 31%の情報が削除 ◦ 長距離 : 50%の情報が削除 • 局所共起情報は有用な情報を含む 11

文中の語順例 12 文内で1-gramでshuffle 文内で3-gramでshuffle 3-gram内でshuffle

文中の語順結果 • shuffle within sentence ◦ 文内で1-gramでshuffle ◦ 中距離
: 26%の情報が削除 ◦ 長距離 : 55%の情報が削除 • shuffle within trigram ◦ 3-gram内でshuffle ◦ 中距離 : 14%の情報が削除 ◦ 長距離 : 41%の情報が削除 • shuffle trigram within sentence ◦ 文内で3-gramでshuffle ◦ 中距離 : 16%の情報が削除 ◦ 長距離 : 35%の情報が削除 • 局所共起情報や文内での単語の順番は有益な情報を含む 13

文/セクションの順序例 14 文単位でshuffle 入力をソース文章の直前 512tokenに置換

文/セクションの順序結果 • shuffle sentence ◦ 文単位でshuffle ◦ 中距離 :
17%の情報が削除 ◦ 長距離 : 14%の情報が削除 ◦ 細かい単語の順序，グローバルな位置は有益でない • replace with old ◦ 入力をソース文章の直前 512tokenに置換 ◦ 中距離 : 55%の情報が削除 ◦ 長距離 : 69%の情報が削除 ◦ 長期な文脈は単にトピックの情報源ではない ◦ 同じテーマに関する以前のテキストは情報がないこともある 15

品詞例 16

品詞 : 中距離 • 比較手法 ◦ 名詞のみ ◦ 名詞と動詞 ◦
名詞と動詞と形容詞 ◦ 内容語（名詞と動詞と形容詞と副詞） ◦ 機能語（内容語以外） ◦ （削除したものはパディングトークンへ） • 中距離 ◦ 名詞のみ : 20%しか削除されない ◦ 名詞と動詞のみ : 13%しか削除されない ◦ 名詞と動詞に有用な情報が存在する 17

品詞 : 長距離 • 長距離 ◦ 内容語のみを抽出 → full infoより予測値が向上
◦ 著者らの推測 ▪ ablationで意味内容が保持 → 過学習を防いだ？ 18

固有名詞と単語の頻度例 19

固有名詞と単語の頻度結果 • named entities ◦ 名詞以外の削除より性能が低下 ◦ 中/長距離共に3分の1程度の情報が削除 •
word frequency ◦ common/rare words どっちが重要？ ◦ 品詞と比べるとかなり削除されている ◦ commonの方が削除量が小さい ◦ common wordsが重要 20

拡張したデータでの評価 21 • test-time sensitivity ◦ L(θ, 512 ∼ 1024)を最小化するように学習
◦ train+evalでのablationとevalのみでのablation • 中距離 ◦ shuffle within trigramがablationしたなかで一番良い

情報ロス? 分布外入力? • ablationを実行するタイミングの比較 22

より良い言語モデルを作れるのか？ • 追加実験 ◦ 名詞と動詞のみをablateする実験を拡張 ◦ パディングトークンを，予測単語よりも後ろの名詞と動詞に置換 ◦ 置換前後と比べての性能 ◦
中距離 : + 0.2% ◦ 長距離 : - 0.6% ◦ 著者らの仮定と一致 ▪ 情報を削除すると過学習しなくなり情報を追加すると過学習する 23

まとめ • どのtransformerモデルが長距離文脈の構造/意味的情報に使えるか？ ◦ 内容語と局所的な順序（3-gram内のシャッフル）が使える ◦ 他の情報を除去してもモデルの予測精度にほとんど影響しない ◦ 文書を同定する情報や固有名詞の情報では，予測精度が大きく低下
• 削除された文脈に基づき学習/テストを行い評価 ◦ これまでは評価時の削除の影響で評価 ◦ 訓練時+評価時，評価時のみの削除を比較 ◦ 今後のモデル化研究の出発点 24

What Context Features Can Transformer Language ...

What Context Features Can Transformer Language Models Use?

hajime kiyama

More Decks by hajime kiyama

Featured

Transcript