【論文紹介】Assessing Phrasal Representation and Composition in Transformers

Slide 1

Slide 1 text

Assessing Phrasal Representation and Composition in Transformers Yu and Ettinger, EMNLP 2020 Kaito Sugimoto Aizawa Lab. M1 2021/06/28 1 / 21

Slide 2

Slide 2 text

概要 • BERT などの Transformer ベース言語モデルが、フレーズ（特にこの論文では bi-gram, 2 語から成る表現）の意味表現を獲得できているかを調べる • 特に、フレーズを構成する各単語の表面的な意味ではなく、フレーズ自体の意味を獲得できているかを調べるため、word overlap を制限しない場合とした場合で実験を行う • 2 種類の実験において、いずれのモデルも、word overlap を制限した場合にスコアが大きく下がり、モデルがフレーズ自体の意味を獲得していないことを示唆する結果が得られた 2 / 21

Slide 3

Slide 3 text

Background: Phrasal Representation • 複数の単語が組み合わさったフレーズを NLP でモデル化する難しさは昔から知られていた 1 • いくつかの考えられる問題 2 • idiomaticity, non-compositionality の問題: kick the bucket (死ぬ), carry on (～し続ける) などを各単語の和で表現するのは難しい • non-substitutability の問題: panda car(パトカー (英)) は定型表現であり, bear automobile と言うことはできない • ambiguity の問題: bad apple は「腐ったリンゴ」でも「悪い人」でもあり得る 1Sag et al., Multiword Expressions: A Pain in the Neck for NLP (2002) 2Garcia et al., Probing for idiomaticity in vector space models (EACL 2021) 3 / 21

Slide 4

Slide 4 text

Background: Phrasal Representation • 古典的な対処方法: あらかじめフレーズは 1 単語とみなして前処理する (words-with-spaces) • この流儀で Word2Vec を学習すると実際に効果的であることがわかっている 3 一方で, 問題もある • "look up" のような verb-particle の組み合わせは "look ... up" のような非連続なパターンでも登場するので, 取り扱えない • "take a walk, take a hike, take a trip, take a ﬂight..." のようなファミリーをいちいちパターンとして事前に列挙するのは一般性がなく, 扱いづらい 3Nandakumar et al., HowWell Do Embedding Models Capture Non-compositionality? A View from Multiword Expressions (RepEval 2019) 4 / 21

Slide 5

Slide 5 text

Background: Phrasal Representation • ELMo 以降の Contextualized Embeddings を活用すると文脈をモデルに取り込めるので, ambiguity の解消などには一定の効果が期待できる • しかしながら, Contextualized Embeddings が従来の Static Embeddings よりも本当に良いフレーズ埋め込みを作れるのかはあまりはっきりとした結論が出ておらず, 研究が続いている 5 / 21

Slide 6

Slide 6 text

Transformer ベースモデルからの埋め込みの得方 (後述する) 実験において, CLS / Head-Word / Avg-Phrase / Avg-All / SEP の埋め込みを, レイヤーごとに比較またモデルも BERT, RoBERTa, DistilBERT, XLM-RoBERTa, XLNet と色々比較 6 / 21

Slide 7

Slide 7 text

実験 1: Phrase similarity correlation • bigram の semantic relatedness を人間が評価した BiRD データセット 4 を用いて, 人間の評価値と埋め込みのコサイン距離にどれほど相関があるかを調べる • BiRD データセットの特徴: AB-BA Examples というものが含まれており, これを使うことで word overlap を制限した条件下で評価を行うことができる 4Asaadi et al., Big bird: A large, ﬁne-grained, bigram relatedness dataset for examining semantic composition (NAACL-HLT 2019) 7 / 21

Slide 8

Slide 8 text

実験 1: Phrase similarity correlation 8 / 21

Slide 9

Slide 9 text

実験 1: Phrase similarity correlation • 実験においては ﬁne-tuning していない base モデルを用いる • Context Available の設定においては, source phrase を含む文章を Wikipedia から抽出し, それと同じ context を target phrase の方にも埋め込む形で埋め込みを得る（この実験設定が context をきちんと活かしていると言えるのかはやや疑問...（target phrase を含む文章を別に抽出すべきだと感じた）） 9 / 21

Slide 10

Slide 10 text

実験 1: Phrase similarity correlation Context なし設定（下段は AB-BA Examples のみ） 10 / 21

Slide 11

Slide 11 text

実験 1: Phrase similarity correlation • いずれのモデルにおいても AB-BA Examples のみでは相関係数が 0 近辺に落ちてしまう→埋め込みは単語の情報は掴めているが, compositional な情報は掴めていなそう • 必ずしも一番上の出力層に近い layer で最も相関係数が高くなるわけではない • （理由は不明だが） DistilBERT の CLS トークンは AB-BA Examples であっても比較的良いスコアを発揮しており, 何かしら compositional なものを獲得できている可能性がある 11 / 21

Slide 12

Slide 12 text

実験 1: Phrase similarity correlation Context あり設定（下段は AB-BA Examples のみ） 12 / 21

Slide 13

Slide 13 text

実験 1: Phrase similarity correlation • Context なしの場合と異なり, スコアが後の方のレイヤーで落ちる傾向はあまり見られない • 文脈を与えても AB-BA Examples ではスコアは大きく下がる →文脈を与えても, フレーズの埋め込みは単語自体の情報に大きく依存してしまう（ただ, 先ほども述べたように source と target で同一の文脈を与えているので, この結果は当たり前のような感じが...） 13 / 21

Slide 14

Slide 14 text

実験 2: Paraphrase classiﬁcation • PPDB（パラフレーズデータセット）から正解ラベルであるパラフレーズの (source, target) を抽出してから, ランダムに negative sample (source, random) を作り, 正しいパラフレーズを区別できるかを調べる • データを訓練データとテストデータに split し, 訓練データで識別器（隠れ層 1 層の multi-layer perceptron）を学習してからテストする 14 / 21

Slide 15

Slide 15 text

実験 2: Paraphrase classiﬁcation 15 / 21

Slide 16

Slide 16 text

実験 2: Paraphrase classiﬁcation 16 / 21

Slide 17

Slide 17 text

実験 2: Paraphrase classiﬁcation 実験 1 と同じ傾向 • word overlap に制限をかけた Controlled Examples では、50%（ランダム）よりも若干高い程度のスコアしか出ない • 文脈を与えてもスコアの改善はほとんど見られない 17 / 21

Slide 18

Slide 18 text

Qualitative analysis: sense disambiguation • これまでの 2 つの実験は「2 つのフレーズの近さ」を調べるものだったが, 語義曖昧性（フレーズと単語の近さ）の観点でも実験 • Kintsch (2001) (おそらく認知言語学系の論文?) によって提案されたテストを用いる 18 / 21

Slide 19

Slide 19 text

Qualitative analysis: sense disambiguation 19 / 21

Slide 20

Slide 20 text

Qualitative analysis: sense disambiguation • 語義曖昧性の観点では, Transformer ベースのモデルはうまくいっているように見える • ただし, そもそも実験のサンプルデータ数が 16 と少ないこと, また先程の実験 1・2 と異なり word overlap のコントロールを行っていないことに留意すべきだとも述べている（つまり, "horse ran" というフレーズを見た時に, "horse" があるから "dissolve" よりも "gallop" の方が近いと判別することもでき, これは期待している「フレーズ自体の意味」をとらえたものではない） 20 / 21

Slide 21

Slide 21 text

感想など • さまざまなモデルに対して綿密に実験を行っているので面白い, また word overlap の制約をかけると思ったより大きくスコアが変わるのも面白い • 文脈の取り扱い方に改良の余地がありそう. あるフレーズに対して, それを含むさまざまな例文の情報を使えればもっと良い埋め込みになりそう • タスクで ﬁne-tuning するとどうなるか？ →続編が出ていた: On the Interplay Between Fine-tuning and Composition in Transformers (https://arxiv.org/abs/2105.14668, ACL 2021 Findings) 21 / 21