【論文紹介】Assessing Phrasal Representation and Composition in Transformers

Assessing Phrasal Representation and Composition in Transformers Yu and Ettinger,
EMNLP 2020 Kaito Sugimoto Aizawa Lab. M1 2021/06/28 1 / 21

概要 • BERT などの Transformer ベース言語モデルが、フレーズ（特にこの論文では bi-gram, 2 語から成る表現）の意味表現を獲得でき
ているかを調べる • 特に、フレーズを構成する各単語の表面的な意味ではなく、フレーズ自体の意味を獲得できているかを調べるため、word overlap を制限しない場合とした場合で実験を行う • 2 種類の実験において、いずれのモデルも、word overlap を制限した場合にスコアが大きく下がり、モデルがフレーズ自体の意味を獲得していないことを示唆する結果が得られた 2 / 21

Background: Phrasal Representation • 複数の単語が組み合わさったフレーズを NLP でモデル化する難しさは昔から知られていた 1 •
いくつかの考えられる問題 2 • idiomaticity, non-compositionality の問題: kick the bucket (死ぬ), carry on (～し続ける) などを各単語の和で表現するのは難しい • non-substitutability の問題: panda car(パトカー (英)) は定型表現であり, bear automobile と言うことはできない • ambiguity の問題: bad apple は「腐ったリンゴ」でも「悪い人」でもあり得る 1Sag et al., Multiword Expressions: A Pain in the Neck for NLP (2002) 2Garcia et al., Probing for idiomaticity in vector space models (EACL 2021) 3 / 21

Background: Phrasal Representation • 古典的な対処方法: あらかじめフレーズは 1 単語とみなして前処理する (words-with-spaces)
• この流儀で Word2Vec を学習すると実際に効果的であることがわかっている 3 一方で, 問題もある • "look up" のような verb-particle の組み合わせは "look ... up" のような非連続なパターンでも登場するので, 取り扱えない • "take a walk, take a hike, take a trip, take a ﬂight..." のようなファミリーをいちいちパターンとして事前に列挙するのは一般性がなく, 扱いづらい 3Nandakumar et al., HowWell Do Embedding Models Capture Non-compositionality? A View from Multiword Expressions (RepEval 2019) 4 / 21

Background: Phrasal Representation • ELMo 以降の Contextualized Embeddings を活用すると文脈をモデルに取り込めるので,
ambiguity の解消などには一定の効果が期待できる • しかしながら, Contextualized Embeddings が従来の Static Embeddings よりも本当に良いフレーズ埋め込みを作れるのかはあまりはっきりとした結論が出ておらず, 研究が続いている 5 / 21

Transformer ベースモデルからの埋め込みの得方 (後述する) 実験において, CLS / Head-Word / Avg-Phrase /
Avg-All / SEP の埋め込みを, レイヤーごとに比較またモデルも BERT, RoBERTa, DistilBERT, XLM-RoBERTa, XLNet と色々比較 6 / 21

実験 1: Phrase similarity correlation • bigram の semantic relatedness
を人間が評価した BiRD データセット 4 を用いて, 人間の評価値と埋め込みのコサイン距離にどれほど相関があるかを調べる • BiRD データセットの特徴: AB-BA Examples というものが含まれており, これを使うことで word overlap を制限した条件下で評価を行うことができる 4Asaadi et al., Big bird: A large, ﬁne-grained, bigram relatedness dataset for examining semantic composition (NAACL-HLT 2019) 7 / 21

実験 1: Phrase similarity correlation 8 / 21

実験 1: Phrase similarity correlation • 実験においては ﬁne-tuning していない base
モデルを用いる • Context Available の設定においては, source phrase を含む文章を Wikipedia から抽出し, それと同じ context を target phrase の方にも埋め込む形で埋め込みを得る（この実験設定が context をきちんと活かしていると言えるのかはやや疑問...（target phrase を含む文章を別に抽出すべきだと感じた）） 9 / 21

実験 1: Phrase similarity correlation Context なし設定（下段は AB-BA Examples のみ）
10 / 21

実験 1: Phrase similarity correlation • いずれのモデルにおいても AB-BA Examples のみでは相関係数が
0 近辺に落ちてしまう→埋め込みは単語の情報は掴めているが, compositional な情報は掴めていなそう • 必ずしも一番上の出力層に近い layer で最も相関係数が高くなるわけではない • （理由は不明だが） DistilBERT の CLS トークンは AB-BA Examples であっても比較的良いスコアを発揮しており, 何かしら compositional なものを獲得できている可能性がある 11 / 21

実験 1: Phrase similarity correlation Context あり設定（下段は AB-BA Examples のみ）
12 / 21

実験 1: Phrase similarity correlation • Context なしの場合と異なり, スコアが後の方のレイヤーで落ちる傾向はあまり見られない
• 文脈を与えても AB-BA Examples ではスコアは大きく下がる →文脈を与えても, フレーズの埋め込みは単語自体の情報に大きく依存してしまう（ただ, 先ほども述べたように source と target で同一の文脈を与えているので, この結果は当たり前のような感じが...） 13 / 21

実験 2: Paraphrase classiﬁcation • PPDB（パラフレーズデータセット）から正解ラベルであるパラフレーズの (source, target) を抽出してから,
ランダムに negative sample (source, random) を作り, 正しいパラフレーズを区別できるかを調べる • データを訓練データとテストデータに split し, 訓練データで識別器（隠れ層 1 層の multi-layer perceptron）を学習してからテストする 14 / 21

実験 2: Paraphrase classiﬁcation 15 / 21

実験 2: Paraphrase classiﬁcation 16 / 21

実験 2: Paraphrase classiﬁcation 実験 1 と同じ傾向 • word overlap
に制限をかけた Controlled Examples では、50%（ランダム）よりも若干高い程度のスコアしか出ない • 文脈を与えてもスコアの改善はほとんど見られない 17 / 21

Qualitative analysis: sense disambiguation • これまでの 2 つの実験は「2 つのフレーズの近さ」を調べるものだったが,
語義曖昧性（フレーズと単語の近さ）の観点でも実験 • Kintsch (2001) (おそらく認知言語学系の論文?) によって提案されたテストを用いる 18 / 21

Qualitative analysis: sense disambiguation 19 / 21

Qualitative analysis: sense disambiguation • 語義曖昧性の観点では, Transformer ベースのモデルはうまくいっているように見える •
ただし, そもそも実験のサンプルデータ数が 16 と少ないこと, また先程の実験 1・2 と異なり word overlap のコントロールを行っていないことに留意すべきだとも述べている（つまり, "horse ran" というフレーズを見た時に, "horse" があるから "dissolve" よりも "gallop" の方が近いと判別することもでき, これは期待している「フレーズ自体の意味」をとらえたものではない） 20 / 21

感想など • さまざまなモデルに対して綿密に実験を行っているので面白い, また word overlap の制約をかけると思ったより大きくスコアが変わるのも面白い • 文脈の取り扱い方に改良の余地がありそう.
あるフレーズに対して, それを含むさまざまな例文の情報を使えればもっと良い埋め込みになりそう • タスクで ﬁne-tuning するとどうなるか？ →続編が出ていた: On the Interplay Between Fine-tuning and Composition in Transformers (https://arxiv.org/abs/2105.14668, ACL 2021 Findings) 21 / 21

【論文紹介】Assessing Phrasal Representation and Comp...

【論文紹介】Assessing Phrasal Representation and Composition in Transformers

Kaito Sugimoto

More Decks by Kaito Sugimoto

Other Decks in Research

Featured

Transcript

Assessing Phrasal Representation and Composition in Transformers Yu and Ettinger,

概要 • BERT などの Transformer ベース言語モデルが、フレーズ（特にこの論文では bi-gram, 2 語から成る表現）の意味表現を獲得でき

Background: Phrasal Representation • 複数の単語が組み合わさったフレーズを NLP でモデル化する難しさは昔から知られていた 1 •

Background: Phrasal Representation • 古典的な対処方法: あらかじめフレーズは 1 単語とみなして前処理する (words-with-spaces)

Background: Phrasal Representation • ELMo 以降の Contextualized Embeddings を活用すると文脈をモデルに取り込めるので,

Transformer ベースモデルからの埋め込みの得方 (後述する) 実験において, CLS / Head-Word / Avg-Phrase /

実験 1: Phrase similarity correlation • bigram の semantic relatedness

実験 1: Phrase similarity correlation 8 / 21

実験 1: Phrase similarity correlation • 実験においては ﬁne-tuning していない base

実験 1: Phrase similarity correlation Context なし設定（下段は AB-BA Examples のみ）

実験 1: Phrase similarity correlation • いずれのモデルにおいても AB-BA Examples のみでは相関係数が

実験 1: Phrase similarity correlation Context あり設定（下段は AB-BA Examples のみ）

実験 1: Phrase similarity correlation • Context なしの場合と異なり, スコアが後の方のレイヤーで落ちる傾向はあまり見られない

実験 2: Paraphrase classiﬁcation • PPDB（パラフレーズデータセット）から正解ラベルであるパラフレーズの (source, target) を抽出してから,

実験 2: Paraphrase classiﬁcation 15 / 21

実験 2: Paraphrase classiﬁcation 16 / 21

実験 2: Paraphrase classiﬁcation 実験 1 と同じ傾向 • word overlap

Qualitative analysis: sense disambiguation • これまでの 2 つの実験は「2 つのフレーズの近さ」を調べるものだったが,

Qualitative analysis: sense disambiguation 19 / 21

Qualitative analysis: sense disambiguation • 語義曖昧性の観点では, Transformer ベースのモデルはうまくいっているように見える •

感想など • さまざまなモデルに対して綿密に実験を行っているので面白い, また word overlap の制約をかけると思ったより大きくスコアが変わるのも面白い • 文脈の取り扱い方に改良の余地がありそう.