Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Assessing Phrasal Representation and Composition in Transformers

Assessing Phrasal Representation and Composition in Transformers

研究室の日本語輪読会で発表したスライドです。

750d4d1ae846b2d342d99fced070db39?s=128

Kaito Sugimoto

June 28, 2021
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. Assessing Phrasal Representation and Composition in Transformers Yu and Ettinger,

    EMNLP 2020 Kaito Sugimoto Aizawa Lab. M1 2021/06/28 1 / 21
  2. 概要 • BERT などの Transformer ベース言語モデルが、フレーズ(特に この論文では bi-gram, 2 語から成る表現)の意味表現を獲得でき

    ているかを調べる • 特に、フレーズを構成する各単語の表面的な意味ではなく、フ レーズ自体の意味を獲得できているかを調べるため、word overlap を制限しない場合とした場合で実験を行う • 2 種類の実験において、いずれのモデルも、word overlap を制限 した場合にスコアが大きく下がり、モデルがフレーズ自体の意味 を獲得していないことを示唆する結果が得られた 2 / 21
  3. Background: Phrasal Representation • 複数の単語が組み合わさったフレーズを NLP でモデル化する難 しさは昔から知られていた 1 •

    いくつかの考えられる問題 2 • idiomaticity, non-compositionality の問題: kick the bucket (死ぬ), carry on (~ し続ける) などを各単語の和で表現するのは難しい • non-substitutability の問題: panda car(パトカー (英)) は定型表現であり, bear automobile と言うことはできない • ambiguity の問題: bad apple は「腐ったリンゴ」でも「悪い人」でもあり 得る 1Sag et al., Multiword Expressions: A Pain in the Neck for NLP (2002) 2Garcia et al., Probing for idiomaticity in vector space models (EACL 2021) 3 / 21
  4. Background: Phrasal Representation • 古典的な対処方法: あらかじめフレーズは 1 単語とみなして前処 理する (words-with-spaces)

    • この流儀で Word2Vec を学習すると実際に効果的であることがわ かっている 3 一方で, 問題もある • "look up" のような verb-particle の組み合わせは "look ... up" のような非連 続なパターンでも登場するので, 取り扱えない • "take a walk, take a hike, take a trip, take a flight..." のようなファミリーをい ちいちパターンとして事前に列挙するのは一般性がなく, 扱いづらい 3Nandakumar et al., HowWell Do Embedding Models Capture Non-compositionality? A View from Multiword Expressions (RepEval 2019) 4 / 21
  5. Background: Phrasal Representation • ELMo 以降の Contextualized Embeddings を活用すると文脈をモデ ルに取り込めるので,

    ambiguity の解消などには一定の効果が期待 できる • しかしながら, Contextualized Embeddings が従来の Static Embeddings よりも本当に良いフレーズ埋め込みを作れるのかは あまりはっきりとした結論が出ておらず, 研究が続いている 5 / 21
  6. Transformer ベースモデルからの埋め込みの得方 (後述する) 実験において, CLS / Head-Word / Avg-Phrase /

    Avg-All / SEP の埋め込みを, レイヤーごとに比較 またモデルも BERT, RoBERTa, DistilBERT, XLM-RoBERTa, XLNet と 色々比較 6 / 21
  7. 実験 1: Phrase similarity correlation • bigram の semantic relatedness

    を人間が評価した BiRD データ セット 4 を用いて, 人間の評価値と埋め込みのコサイン距離にど れほど相関があるかを調べる • BiRD データセットの特徴: AB-BA Examples というものが含まれ ており, これを使うことで word overlap を制限した条件下で評価 を行うことができる 4Asaadi et al., Big bird: A large, fine-grained, bigram relatedness dataset for examining semantic composition (NAACL-HLT 2019) 7 / 21
  8. 実験 1: Phrase similarity correlation 8 / 21

  9. 実験 1: Phrase similarity correlation • 実験においては fine-tuning していない base

    モデルを用いる • Context Available の設定においては, source phrase を含む文章を Wikipedia から抽出し, それと同じ context を target phrase の方に も埋め込む形で埋め込みを得る (この実験設定が context をきちんと活かしていると言えるのか はやや疑問...(target phrase を含む文章を別に抽出すべきだと感 じた) ) 9 / 21
  10. 実験 1: Phrase similarity correlation Context なし設定(下段は AB-BA Examples のみ)

    10 / 21
  11. 実験 1: Phrase similarity correlation • いずれのモデルにおいても AB-BA Examples のみでは相関係数が

    0 近辺に落ちてしまう→埋め込みは単語の情報は掴めているが, compositional な情報は掴めていなそう • 必ずしも一番上の出力層に近い layer で最も相関係数が高くなる わけではない • (理由は不明だが) DistilBERT の CLS トークンは AB-BA Examples であっても比較的良いスコアを発揮しており, 何かしら compositional なものを獲得できている可能性がある 11 / 21
  12. 実験 1: Phrase similarity correlation Context あり設定(下段は AB-BA Examples のみ)

    12 / 21
  13. 実験 1: Phrase similarity correlation • Context なしの場合と異なり, スコアが後の方のレイヤーで落ち る傾向はあまり見られない

    • 文脈を与えても AB-BA Examples ではスコアは大きく下がる →文脈を与えても, フレーズの埋め込みは単語自体の情報に大き く依存してしまう (ただ, 先ほども述べたように source と target で同一の文脈を与 えているので, この結果は 当たり前のような感じが...) 13 / 21
  14. 実験 2: Paraphrase classification • PPDB(パラフレーズデータセット)から正解ラベルであるパラ フレーズの (source, target) を抽出してから,

    ランダムに negative sample (source, random) を作り, 正しいパラフレーズを区別でき るかを調べる • データを訓練データとテストデータに split し, 訓練データで識別 器(隠れ層 1 層の multi-layer perceptron)を学習してからテスト する 14 / 21
  15. 実験 2: Paraphrase classification 15 / 21

  16. 実験 2: Paraphrase classification 16 / 21

  17. 実験 2: Paraphrase classification 実験 1 と同じ傾向 • word overlap

    に制限をかけた Controlled Examples では、50%(ラ ンダム)よりも若干高い程度のスコアしか出ない • 文脈を与えてもスコアの改善はほとんど見られない 17 / 21
  18. Qualitative analysis: sense disambiguation • これまでの 2 つの実験は「2 つのフレーズの近さ」を調べるもの だったが,

    語義曖昧性(フレーズと単語の近さ)の観点でも実験 • Kintsch (2001) (おそらく認知言語学系の論文?) によって提案され たテストを用いる 18 / 21
  19. Qualitative analysis: sense disambiguation 19 / 21

  20. Qualitative analysis: sense disambiguation • 語義曖昧性の観点では, Transformer ベースのモデルはうまくいっ ているように見える •

    ただし, そもそも実験のサンプルデータ数が 16 と少ないこと, ま た先程の実験 1・2 と異なり word overlap のコントロールを行っ ていないことに留意すべきだとも述べている (つまり, "horse ran" というフレーズを見た時に, "horse" がある から "dissolve" よりも "gallop" の方が近いと判別することもでき, これは期待している「フレーズ自体の意味」をとらえたものでは ない) 20 / 21
  21. 感想など • さまざまなモデルに対して綿密に実験を行っているので面白い, また word overlap の制約をかけると思ったより大きくスコアが変 わるのも面白い • 文脈の取り扱い方に改良の余地がありそう.

    あるフレーズに対し て, それを含むさまざまな例文の情報を使えればもっと良い埋め 込みになりそう • タスクで fine-tuning するとどうなるか? →続編が出ていた: On the Interplay Between Fine-tuning and Composition in Transformers (https://arxiv.org/abs/2105.14668, ACL 2021 Findings) 21 / 21