Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Assessing Phrasal Representation and Composition in Transformers

【論文紹介】Assessing Phrasal Representation and Composition in Transformers

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

June 28, 2021
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. Assessing Phrasal Representation and
    Composition in Transformers
    Yu and Ettinger, EMNLP 2020
    Kaito Sugimoto
    Aizawa Lab. M1
    2021/06/28
    1 / 21

    View Slide

  2. 概要
    • BERT などの Transformer ベース言語モデルが、フレーズ(特に
    この論文では bi-gram, 2 語から成る表現)の意味表現を獲得でき
    ているかを調べる
    • 特に、フレーズを構成する各単語の表面的な意味ではなく、フ
    レーズ自体の意味を獲得できているかを調べるため、word
    overlap を制限しない場合とした場合で実験を行う
    • 2 種類の実験において、いずれのモデルも、word overlap を制限
    した場合にスコアが大きく下がり、モデルがフレーズ自体の意味
    を獲得していないことを示唆する結果が得られた
    2 / 21

    View Slide

  3. Background: Phrasal Representation
    • 複数の単語が組み合わさったフレーズを NLP でモデル化する難
    しさは昔から知られていた 1
    • いくつかの考えられる問題 2
    • idiomaticity, non-compositionality の問題: kick the bucket (死ぬ), carry on (~
    し続ける) などを各単語の和で表現するのは難しい
    • non-substitutability の問題: panda car(パトカー (英)) は定型表現であり,
    bear automobile と言うことはできない
    • ambiguity の問題: bad apple は「腐ったリンゴ」でも「悪い人」でもあり
    得る
    1Sag et al., Multiword Expressions: A Pain in the Neck for NLP (2002)
    2Garcia et al., Probing for idiomaticity in vector space models (EACL 2021)
    3 / 21

    View Slide

  4. Background: Phrasal Representation
    • 古典的な対処方法: あらかじめフレーズは 1 単語とみなして前処
    理する (words-with-spaces)
    • この流儀で Word2Vec を学習すると実際に効果的であることがわ
    かっている 3 一方で, 問題もある
    • "look up" のような verb-particle の組み合わせは "look ... up" のような非連
    続なパターンでも登場するので, 取り扱えない
    • "take a walk, take a hike, take a trip, take a flight..." のようなファミリーをい
    ちいちパターンとして事前に列挙するのは一般性がなく, 扱いづらい
    3Nandakumar et al., HowWell Do Embedding Models Capture Non-compositionality? A View from
    Multiword Expressions (RepEval 2019)
    4 / 21

    View Slide

  5. Background: Phrasal Representation
    • ELMo 以降の Contextualized Embeddings を活用すると文脈をモデ
    ルに取り込めるので, ambiguity の解消などには一定の効果が期待
    できる
    • しかしながら, Contextualized Embeddings が従来の Static
    Embeddings よりも本当に良いフレーズ埋め込みを作れるのかは
    あまりはっきりとした結論が出ておらず, 研究が続いている
    5 / 21

    View Slide

  6. Transformer ベースモデルからの埋め込みの得方
    (後述する) 実験において, CLS / Head-Word / Avg-Phrase / Avg-All / SEP
    の埋め込みを, レイヤーごとに比較
    またモデルも BERT, RoBERTa, DistilBERT, XLM-RoBERTa, XLNet と
    色々比較
    6 / 21

    View Slide

  7. 実験 1: Phrase similarity correlation
    • bigram の semantic relatedness を人間が評価した BiRD データ
    セット 4 を用いて, 人間の評価値と埋め込みのコサイン距離にど
    れほど相関があるかを調べる
    • BiRD データセットの特徴: AB-BA Examples というものが含まれ
    ており, これを使うことで word overlap を制限した条件下で評価
    を行うことができる
    4Asaadi et al., Big bird: A large, fine-grained, bigram relatedness dataset for examining semantic
    composition (NAACL-HLT 2019)
    7 / 21

    View Slide

  8. 実験 1: Phrase similarity correlation
    8 / 21

    View Slide

  9. 実験 1: Phrase similarity correlation
    • 実験においては fine-tuning していない base モデルを用いる
    • Context Available の設定においては, source phrase を含む文章を
    Wikipedia から抽出し, それと同じ context を target phrase の方に
    も埋め込む形で埋め込みを得る
    (この実験設定が context をきちんと活かしていると言えるのか
    はやや疑問...(target phrase を含む文章を別に抽出すべきだと感
    じた)

    9 / 21

    View Slide

  10. 実験 1: Phrase similarity correlation
    Context なし設定(下段は AB-BA Examples のみ)
    10 / 21

    View Slide

  11. 実験 1: Phrase similarity correlation
    • いずれのモデルにおいても AB-BA Examples のみでは相関係数が
    0 近辺に落ちてしまう→埋め込みは単語の情報は掴めているが,
    compositional な情報は掴めていなそう
    • 必ずしも一番上の出力層に近い layer で最も相関係数が高くなる
    わけではない
    • (理由は不明だが) DistilBERT の CLS トークンは AB-BA
    Examples であっても比較的良いスコアを発揮しており, 何かしら
    compositional なものを獲得できている可能性がある
    11 / 21

    View Slide

  12. 実験 1: Phrase similarity correlation
    Context あり設定(下段は AB-BA Examples のみ)
    12 / 21

    View Slide

  13. 実験 1: Phrase similarity correlation
    • Context なしの場合と異なり, スコアが後の方のレイヤーで落ち
    る傾向はあまり見られない
    • 文脈を与えても AB-BA Examples ではスコアは大きく下がる
    →文脈を与えても, フレーズの埋め込みは単語自体の情報に大き
    く依存してしまう
    (ただ, 先ほども述べたように source と target で同一の文脈を与
    えているので, この結果は 当たり前のような感じが...)
    13 / 21

    View Slide

  14. 実験 2: Paraphrase classification
    • PPDB(パラフレーズデータセット)から正解ラベルであるパラ
    フレーズの (source, target) を抽出してから, ランダムに negative
    sample (source, random) を作り, 正しいパラフレーズを区別でき
    るかを調べる
    • データを訓練データとテストデータに split し, 訓練データで識別
    器(隠れ層 1 層の multi-layer perceptron)を学習してからテスト
    する
    14 / 21

    View Slide

  15. 実験 2: Paraphrase classification
    15 / 21

    View Slide

  16. 実験 2: Paraphrase classification
    16 / 21

    View Slide

  17. 実験 2: Paraphrase classification
    実験 1 と同じ傾向
    • word overlap に制限をかけた Controlled Examples では、50%(ラ
    ンダム)よりも若干高い程度のスコアしか出ない
    • 文脈を与えてもスコアの改善はほとんど見られない
    17 / 21

    View Slide

  18. Qualitative analysis: sense disambiguation
    • これまでの 2 つの実験は「2 つのフレーズの近さ」を調べるもの
    だったが, 語義曖昧性(フレーズと単語の近さ)の観点でも実験
    • Kintsch (2001) (おそらく認知言語学系の論文?) によって提案され
    たテストを用いる
    18 / 21

    View Slide

  19. Qualitative analysis: sense disambiguation
    19 / 21

    View Slide

  20. Qualitative analysis: sense disambiguation
    • 語義曖昧性の観点では, Transformer ベースのモデルはうまくいっ
    ているように見える
    • ただし, そもそも実験のサンプルデータ数が 16 と少ないこと, ま
    た先程の実験 1・2 と異なり word overlap のコントロールを行っ
    ていないことに留意すべきだとも述べている
    (つまり, "horse ran" というフレーズを見た時に, "horse" がある
    から "dissolve" よりも "gallop" の方が近いと判別することもでき,
    これは期待している「フレーズ自体の意味」をとらえたものでは
    ない)
    20 / 21

    View Slide

  21. 感想など
    • さまざまなモデルに対して綿密に実験を行っているので面白い,
    また word overlap の制約をかけると思ったより大きくスコアが変
    わるのも面白い
    • 文脈の取り扱い方に改良の余地がありそう. あるフレーズに対し
    て, それを含むさまざまな例文の情報を使えればもっと良い埋め
    込みになりそう
    • タスクで fine-tuning するとどうなるか?
    →続編が出ていた: On the Interplay Between Fine-tuning and
    Composition in Transformers
    (https://arxiv.org/abs/2105.14668, ACL 2021 Findings)
    21 / 21

    View Slide