Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
What Context Features Can Transformer Language Models Use?
Search
hajime kiyama
August 31, 2023
0
13
What Context Features Can Transformer Language Models Use?
Japanese explanation
hajime kiyama
August 31, 2023
Tweet
Share
More Decks by hajime kiyama
See All by hajime kiyama
意味変化分析に向けた単語埋め込みの時系列パターン分析
rudorudo11
0
16
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations
rudorudo11
0
160
Word Sense Extension
rudorudo11
0
26
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
rudorudo11
0
42
The Geometry of Multilingual Language Model Representations
rudorudo11
0
62
Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation
rudorudo11
0
21
How to Dissect a Muppet: The Structure of Transformer Embedding Spaces
rudorudo11
0
18
PromptBERT: Improving BERT Sentence Embeddings with Prompts
rudorudo11
0
62
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
176
21k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
20
1.8k
Thoughts on Productivity
jonyablonski
60
3.9k
GraphQLの誤解/rethinking-graphql
sonatard
56
9.3k
Fireside Chat
paigeccino
22
2.6k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
Atom: Resistance is Futile
akmur
260
25k
Product Roadmaps are Hard
iamctodd
45
9.8k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
15
1.6k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
352
28k
A better future with KSS
kneath
231
16k
Transcript
What Context Features Can Transformer Language Models Use? Joe O’Connor
Jacob Andreas ACL 2021 発表者 : B4 木山 朔 発表日 : 6/15 1
概要 • Transformerベースの言語モデルは数百-千の前のトークンの文脈を使用 • どのような文脈情報がモデル予測に役立つか? • 語彙や構造的な情報を削除し,有益な情報を測定 ◦ V-information[Xu+2020] を用いて分析
◦ 中距離,長距離の文脈で実験 ◦ 語順の入れ替え,名詞以外の単語の削除など ◦ ある破壊的操作では削除できる情報は 15%未満 • 長い文脈がlow perplexityにとって重要であると示唆 ◦ 詳細な構文や命題の内容よりも長い文脈の方が重要 2
手法 1/5 • V-information[Xu+2020] ◦ Vの任意の予測変数によって, XからYに関する余分な情報が どれだけ抽出されるかを表す ▪ Y
: ターゲット単語 ▪ X : 文脈 ▪ V : パラメトリックモデルのクラス ▪ p1 : Xにアクセスできないモデル ▪ p2 : Xにアクセスできるモデル 3
手法 2/5 • どの文脈のどのような情報がモデルに利用されているか? ◦ 例:ターゲットトークンから 5トークン以上離れたところでは名詞しか抽出しない ▪ X_{i:j} :
i番目からj-1番目のトークン列 ▪ nouns : 名詞のみを抽出する関数 4
手法 3/5 • ablated context : ablation関数で処理されたcontext ◦ f :
アブレーション ◦ k : 整数のオフセット • ablated negative log-likelihood : ablateされた負の対数尤度関数 5
手法 4/5 • 各ablation (f) の使用可能な情報への影響を測定 ◦ 0に近いほど情報が削除されない ◦ 1に近いほど情報が削除される
◦ どれだけ情報が失われるかを測る • 直感的説明 ◦ k個のtokenに対してfを適応した情報を, fを適用していない情報で割る 6
手法 5/5 • (7)式を改良 ◦ ホールドアウトやバッチ処理に対応 ◦ この手法を用いて評価 ◦ |X|
: 文字列のデータセットサイズ ◦ f : アブレーション ◦ l : アブレーションを行う範囲 ◦ m,n : l+mからl+nまでの 尤度計算の対象を選択 • ablationを適応しないとき ◦ L(θ,m ∼ n)で表現する. 7
実験設定 • モデル ◦ GPT-2モデル[Radford+2019] ◦ デフォルトのハイパーパラメータ [Wolf+2020] • 訓練データ
◦ WikiText-103データセット[Merity+2016] • 前処理 ◦ abletionのみ適応 • 品詞タグ付け ◦ spaCy[Honnibal+2020] 8
比較手法 • 訓練時の条件 ◦ no infomation ▪ L(θ,0 ∼ 512)を最小にするように学習
◦ full infomation ▪ L(θ,512 ∼ 1024)を最小にするように学習 ◦ ablation model ▪ L(θ,f,512 : 0 ∼ 512)を最小にするように学習 • 評価時の条件 ◦ 中距離の条件 : L(·,f, 512 : 0 ∼ 256) ◦ 長距離の条件 : L(·,f, 512 : 256 ∼ 512) • ablation ◦ 単語の順序と文の順序 ◦ 品詞の抽出と単語の頻度 9
全体の語順 例 10 文章内で1-gramでshufle 文章内で3-gramでshuffle
全体の語順 結果 • 表の読み方 ◦ x軸 : ablated likelihood ◦
error bar : 95%信頼区間 ◦ 小さい方が尤度が小さい • shuffle all ◦ 文章内で1-gramでshufle ◦ 中距離 : 41%の情報が削除 ◦ 長距離 : 84%の情報が削除 • shuffle trigrams globaly ◦ 文章内で3-gramでshuffle ◦ 中距離 : 31%の情報が削除 ◦ 長距離 : 50%の情報が削除 • 局所共起情報は有用な情報を含む 11
文中の語順 例 12 文内で1-gramでshuffle 文内で3-gramでshuffle 3-gram内でshuffle
文中の語順 結果 • shuffle within sentence ◦ 文内で1-gramでshuffle ◦ 中距離
: 26%の情報が削除 ◦ 長距離 : 55%の情報が削除 • shuffle within trigram ◦ 3-gram内でshuffle ◦ 中距離 : 14%の情報が削除 ◦ 長距離 : 41%の情報が削除 • shuffle trigram within sentence ◦ 文内で3-gramでshuffle ◦ 中距離 : 16%の情報が削除 ◦ 長距離 : 35%の情報が削除 • 局所共起情報や文内での単語の順番 は有益な情報を含む 13
文/セクションの順序 例 14 文単位でshuffle 入力をソース文章の直前 512tokenに置換
文/セクションの順序 結果 • shuffle sentence ◦ 文単位でshuffle ◦ 中距離 :
17%の情報が削除 ◦ 長距離 : 14%の情報が削除 ◦ 細かい単語の順序,グローバルな位置は 有益でない • replace with old ◦ 入力をソース文章の直前 512tokenに置換 ◦ 中距離 : 55%の情報が削除 ◦ 長距離 : 69%の情報が削除 ◦ 長期な文脈は単にトピックの情報源ではない ◦ 同じテーマに関する以前のテキストは 情報がないこともある 15
品詞 例 16
品詞 : 中距離 • 比較手法 ◦ 名詞のみ ◦ 名詞と動詞 ◦
名詞と動詞と形容詞 ◦ 内容語(名詞と動詞と形容詞と副詞) ◦ 機能語(内容語以外) ◦ (削除したものはパディングトークンへ) • 中距離 ◦ 名詞のみ : 20%しか削除されない ◦ 名詞と動詞のみ : 13%しか削除されない ◦ 名詞と動詞に有用な情報が存在する 17
品詞 : 長距離 • 長距離 ◦ 内容語のみを抽出 → full infoより予測値が向上
◦ 著者らの推測 ▪ ablationで意味内容が保持 → 過学習を防いだ? 18
固有名詞と単語の頻度 例 19
固有名詞と単語の頻度 結果 • named entities ◦ 名詞以外の削除より性能が低下 ◦ 中/長距離共に3分の1程度の情報が削除 •
word frequency ◦ common/rare words どっちが重要? ◦ 品詞と比べるとかなり削除されている ◦ commonの方が削除量が小さい ◦ common wordsが重要 20
拡張したデータでの評価 21 • test-time sensitivity ◦ L(θ, 512 ∼ 1024)を最小化するように学習
◦ train+evalでのablationとevalのみでのablation • 中距離 ◦ shuffle within trigramがablationしたなかで一番良い
情報ロス? 分布外入力? • ablationを実行するタイミングの比較 22
より良い言語モデルを作れるのか? • 追加実験 ◦ 名詞と動詞のみをablateする実験を拡張 ◦ パディングトークンを,予測単語よりも後ろの名詞と動詞に置換 ◦ 置換前後と比べての性能 ◦
中距離 : + 0.2% ◦ 長距離 : - 0.6% ◦ 著者らの仮定と一致 ▪ 情報を削除すると過学習しなくなり情報を追加すると過学習する 23
まとめ • どのtransformerモデルが長距離文脈の構造/意味的情報に使えるか? ◦ 内容語と局所的な順序 (3-gram内のシャッフル)が使える ◦ 他の情報を除去してもモデルの予測精度にほとんど影響しない ◦ 文書を同定する情報や固有名詞の情報では,予測精度が大きく低下
• 削除された文脈に基づき学習/テストを行い評価 ◦ これまでは評価時の削除の影響で評価 ◦ 訓練時+評価時,評価時のみの削除を比較 ◦ 今後のモデル化研究の出発点 24