Slide 1

Slide 1 text

Assessing Phrasal Representation and Composition in Transformers Yu and Ettinger, EMNLP 2020 Kaito Sugimoto Aizawa Lab. M1 2021/06/28 1 / 21

Slide 2

Slide 2 text

概要 • BERT などの Transformer ベース言語モデルが、フレーズ(特に この論文では bi-gram, 2 語から成る表現)の意味表現を獲得でき ているかを調べる • 特に、フレーズを構成する各単語の表面的な意味ではなく、フ レーズ自体の意味を獲得できているかを調べるため、word overlap を制限しない場合とした場合で実験を行う • 2 種類の実験において、いずれのモデルも、word overlap を制限 した場合にスコアが大きく下がり、モデルがフレーズ自体の意味 を獲得していないことを示唆する結果が得られた 2 / 21

Slide 3

Slide 3 text

Background: Phrasal Representation • 複数の単語が組み合わさったフレーズを NLP でモデル化する難 しさは昔から知られていた 1 • いくつかの考えられる問題 2 • idiomaticity, non-compositionality の問題: kick the bucket (死ぬ), carry on (~ し続ける) などを各単語の和で表現するのは難しい • non-substitutability の問題: panda car(パトカー (英)) は定型表現であり, bear automobile と言うことはできない • ambiguity の問題: bad apple は「腐ったリンゴ」でも「悪い人」でもあり 得る 1Sag et al., Multiword Expressions: A Pain in the Neck for NLP (2002) 2Garcia et al., Probing for idiomaticity in vector space models (EACL 2021) 3 / 21

Slide 4

Slide 4 text

Background: Phrasal Representation • 古典的な対処方法: あらかじめフレーズは 1 単語とみなして前処 理する (words-with-spaces) • この流儀で Word2Vec を学習すると実際に効果的であることがわ かっている 3 一方で, 問題もある • "look up" のような verb-particle の組み合わせは "look ... up" のような非連 続なパターンでも登場するので, 取り扱えない • "take a walk, take a hike, take a trip, take a flight..." のようなファミリーをい ちいちパターンとして事前に列挙するのは一般性がなく, 扱いづらい 3Nandakumar et al., HowWell Do Embedding Models Capture Non-compositionality? A View from Multiword Expressions (RepEval 2019) 4 / 21

Slide 5

Slide 5 text

Background: Phrasal Representation • ELMo 以降の Contextualized Embeddings を活用すると文脈をモデ ルに取り込めるので, ambiguity の解消などには一定の効果が期待 できる • しかしながら, Contextualized Embeddings が従来の Static Embeddings よりも本当に良いフレーズ埋め込みを作れるのかは あまりはっきりとした結論が出ておらず, 研究が続いている 5 / 21

Slide 6

Slide 6 text

Transformer ベースモデルからの埋め込みの得方 (後述する) 実験において, CLS / Head-Word / Avg-Phrase / Avg-All / SEP の埋め込みを, レイヤーごとに比較 またモデルも BERT, RoBERTa, DistilBERT, XLM-RoBERTa, XLNet と 色々比較 6 / 21

Slide 7

Slide 7 text

実験 1: Phrase similarity correlation • bigram の semantic relatedness を人間が評価した BiRD データ セット 4 を用いて, 人間の評価値と埋め込みのコサイン距離にど れほど相関があるかを調べる • BiRD データセットの特徴: AB-BA Examples というものが含まれ ており, これを使うことで word overlap を制限した条件下で評価 を行うことができる 4Asaadi et al., Big bird: A large, fine-grained, bigram relatedness dataset for examining semantic composition (NAACL-HLT 2019) 7 / 21

Slide 8

Slide 8 text

実験 1: Phrase similarity correlation 8 / 21

Slide 9

Slide 9 text

実験 1: Phrase similarity correlation • 実験においては fine-tuning していない base モデルを用いる • Context Available の設定においては, source phrase を含む文章を Wikipedia から抽出し, それと同じ context を target phrase の方に も埋め込む形で埋め込みを得る (この実験設定が context をきちんと活かしていると言えるのか はやや疑問...(target phrase を含む文章を別に抽出すべきだと感 じた) ) 9 / 21

Slide 10

Slide 10 text

実験 1: Phrase similarity correlation Context なし設定(下段は AB-BA Examples のみ) 10 / 21

Slide 11

Slide 11 text

実験 1: Phrase similarity correlation • いずれのモデルにおいても AB-BA Examples のみでは相関係数が 0 近辺に落ちてしまう→埋め込みは単語の情報は掴めているが, compositional な情報は掴めていなそう • 必ずしも一番上の出力層に近い layer で最も相関係数が高くなる わけではない • (理由は不明だが) DistilBERT の CLS トークンは AB-BA Examples であっても比較的良いスコアを発揮しており, 何かしら compositional なものを獲得できている可能性がある 11 / 21

Slide 12

Slide 12 text

実験 1: Phrase similarity correlation Context あり設定(下段は AB-BA Examples のみ) 12 / 21

Slide 13

Slide 13 text

実験 1: Phrase similarity correlation • Context なしの場合と異なり, スコアが後の方のレイヤーで落ち る傾向はあまり見られない • 文脈を与えても AB-BA Examples ではスコアは大きく下がる →文脈を与えても, フレーズの埋め込みは単語自体の情報に大き く依存してしまう (ただ, 先ほども述べたように source と target で同一の文脈を与 えているので, この結果は 当たり前のような感じが...) 13 / 21

Slide 14

Slide 14 text

実験 2: Paraphrase classification • PPDB(パラフレーズデータセット)から正解ラベルであるパラ フレーズの (source, target) を抽出してから, ランダムに negative sample (source, random) を作り, 正しいパラフレーズを区別でき るかを調べる • データを訓練データとテストデータに split し, 訓練データで識別 器(隠れ層 1 層の multi-layer perceptron)を学習してからテスト する 14 / 21

Slide 15

Slide 15 text

実験 2: Paraphrase classification 15 / 21

Slide 16

Slide 16 text

実験 2: Paraphrase classification 16 / 21

Slide 17

Slide 17 text

実験 2: Paraphrase classification 実験 1 と同じ傾向 • word overlap に制限をかけた Controlled Examples では、50%(ラ ンダム)よりも若干高い程度のスコアしか出ない • 文脈を与えてもスコアの改善はほとんど見られない 17 / 21

Slide 18

Slide 18 text

Qualitative analysis: sense disambiguation • これまでの 2 つの実験は「2 つのフレーズの近さ」を調べるもの だったが, 語義曖昧性(フレーズと単語の近さ)の観点でも実験 • Kintsch (2001) (おそらく認知言語学系の論文?) によって提案され たテストを用いる 18 / 21

Slide 19

Slide 19 text

Qualitative analysis: sense disambiguation 19 / 21

Slide 20

Slide 20 text

Qualitative analysis: sense disambiguation • 語義曖昧性の観点では, Transformer ベースのモデルはうまくいっ ているように見える • ただし, そもそも実験のサンプルデータ数が 16 と少ないこと, ま た先程の実験 1・2 と異なり word overlap のコントロールを行っ ていないことに留意すべきだとも述べている (つまり, "horse ran" というフレーズを見た時に, "horse" がある から "dissolve" よりも "gallop" の方が近いと判別することもでき, これは期待している「フレーズ自体の意味」をとらえたものでは ない) 20 / 21

Slide 21

Slide 21 text

感想など • さまざまなモデルに対して綿密に実験を行っているので面白い, また word overlap の制約をかけると思ったより大きくスコアが変 わるのも面白い • 文脈の取り扱い方に改良の余地がありそう. あるフレーズに対し て, それを含むさまざまな例文の情報を使えればもっと良い埋め 込みになりそう • タスクで fine-tuning するとどうなるか? →続編が出ていた: On the Interplay Between Fine-tuning and Composition in Transformers (https://arxiv.org/abs/2105.14668, ACL 2021 Findings) 21 / 21