$30 off During Our Annual Pro Sale. View Details »

文献紹介201904_Exploring Semantic Properties of Sentence Embeddings

T.Tada
April 04, 2019

文献紹介201904_Exploring Semantic Properties of Sentence Embeddings

T.Tada

April 04, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019/4/4 - Exploring Semantic Properties of Sentence Embeddings

    長岡技術科学大学 自然言語処理研究室 多田太郎
  2. About the paper 2 Authors: Conference:

  3. Abstract  ・分散表現は、NLPのすべてのサブフィールドにわたって使われている  ・単語ベクトルについては詳細に研究されてきた  ・文章埋め込みの性質についてはほとんど解明されていない    ・文の構文構造や意味論の変化が文章分散表現間の類似性にどのように影響するか  ・評価の為の文トリプレットを生成するフレームワークを提案 3

  4. Introduction  ・これまでのところ文埋め込みの特性についてはほとんどわかっていない  ・文埋め込みは、可変長入力文を固定長ベクトルに符号化しようと試みる  ・文の埋め込みは主に、それらのコサイン類似性が人間の意味的関連性の判断を   どれほどよく反映しているかという観点から評価されてきた 4

  5. Analysis ・分析を行うために、評価データセットを生成 →文のわずかな変更でさえも意味の著しい変化をもたらすかもしれないため 文SとS+の間の意味的関連性は、文Sと文S*の間よりも高いことが望ましい この方式を文トリプレットと呼ぶ 単純な変換に頼って、いくつかの異なる文のトリプレットを生成する 5 S - A

    rabbit is jumping over the fence S∗- A rabbit is not jumping over the fence S+- A rabbit is hopping over the fence.
  6. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 6 ・Passivization ・Argument Reordering ・Fixed Point Inversion
  7. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 7 ・Passivization ・Argument Reordering ・Fixed Point Inversion ・元の文Aの最初の動詞の前に否定マーカーを挿入 ・既に存在する場合は否定を削除します。 A: The young boy is climbing the wall made of rock. B: The young boy isn’t climbing the wall made of rock.
  8. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 8 ・Passivization ・Argument Reordering ・Fixed Point Inversion ・Aで始まる文の文頭にthere is noを追加 A: A girl is cutting butter into two pieces. B: There is no girl cutting butter into two pieces.
  9. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 9 ・Passivization ・Argument Reordering ・Fixed Point Inversion ・元の文の動詞を適切な同義語で置き換えて、新しい文Bを生成 A: The man is talking on the telephone. B: The man is chatting on the telephone.
  10. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 10 ・Passivization ・Argument Reordering ・Fixed Point Inversion ・以下のようなsayなどの動詞を含む文については、句を抽出する A: Octel said the purchase was expected. B: The purchase was expected.
  11. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 11 ・Passivization ・Argument Reordering ・Fixed Point Inversion ・能動態で表現されている文を受動態に A: Harley asked Abigail to bake some muffins. B: Abigail is asked to bake some muffins.
  12. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 12 ・Passivization ・Argument Reordering ・Fixed Point Inversion “<somebody> <verb> <somebody> to <do something>”という構造に一致す る文の場合、元の文Aの主語と目的語を入れ替えて、新しい文Bを生成 A: Matilda encouraged Sophia to compete in a match. B: Sophia encouraged Matilda to compete in a match.
  13. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 13 ・Passivization ・Argument Reordering ・Fixed Point Inversion ・文中の単語をピボットとして選択し、ピボットの前後で単語の順序を逆にする ・単語を共有しているが、意味が変化 A: A dog is running on concrete and is holding a blue ball B: concrete and is holding a blue ball a dog is running on.
  14. Analysis -Sentence Modification Schemes-  変更された文を生成するために適用する変換の種類  ・Not-Negation  ・Quantifier-Negation  ・Synonym Substitution  ・Embedded

    Clause Extraction 14 ・Passivization ・Argument Reordering ・Fixed Point Inversion
  15. Analysis -Sentence Triplet Generation-  ・Negation Detection  ・Negation Variants    ・Clause

    Relatedness    ・Argument Sensitivity    ・Fixed Point Reorder   15
  16. Analysis -Sentence Triplet Generation-  3つの文からなる5つの評価データセットを作成  ・Negation Detection  Original sentence, Synonym

    Substitution, Not-Negation  ・Negation Variants  Quantifier-Negation,Not-Negation, Original sentence  ・Clause Relatedness  Original sentence, Embedded Clause Extraction, Not-Negation  ・Argument Sensitivity  Original sentence, Passivization, Argument Reordering  ・Fixed Point Reorder  Original sentence, Semantically equivalent sentence, Fixed Point Inversion 16 ・このデータセットでは、同義語置換を対比する文として使用 ・文の埋め込みが類似した構造と反対の意味を持つ文をどの程度うまく区別できるか ・原文と否定された文の間の類似性<原文と同義語バージョンの間の類似性が望ましい
  17. Analysis -Sentence Triplet Generation-  3つの文からなる5つの評価データセットを作成  ・Negation Detection  Original sentence, Synonym

    Substitution, Not-Negation  ・Negation Variants  Quantifier-Negation,Not-Negation, Original sentence  ・Clause Relatedness  Original sentence, Embedded Clause Extraction, Not-Negation  ・Argument Sensitivity  Original sentence, Passivization, Argument Reordering  ・Fixed Point Reorder  Original sentence, Semantically equivalent sentence, Fixed Point Inversion 17 ・文の埋め込みが否定数量詞をどの程度反映しているかを調べることが目的 ・Quantifier-NegationとNot-Negation間の類似性は、 Not-NegationまたはQuantifier-Negationと原文との間の類似性よりも少し高くなるはず
  18. Analysis -Sentence Triplet Generation-  3つの文からなる5つの評価データセットを作成  ・Negation Detection  Original sentence, Synonym

    Substitution, Not-Negation  ・Negation Variants  Quantifier-Negation,Not-Negation, Original sentence  ・Clause Relatedness  Original sentence, Embedded Clause Extraction, Not-Negation  ・Argument Sensitivity  Original sentence, Passivization, Argument Reordering  ・Fixed Point Reorder  Original sentence, Semantically equivalent sentence, Fixed Point Inversion 18 ・原文とその文の主な部分を抽出したものの類似性が 原文とその否定の間の類似性よりも高いかどうか
  19. Analysis -Sentence Triplet Generation-  3つの文からなる5つの評価データセットを作成  ・Negation Detection  Original sentence, Synonym

    Substitution, Not-Negation  ・Negation Variants  Quantifier-Negation,Not-Negation, Original sentence  ・Clause Relatedness  Original sentence, Embedded Clause Extraction, Not-Negation  ・Argument Sensitivity  Original sentence, Passivization, Argument Reordering  ・Fixed Point Reorder  Original sentence, Semantically equivalent sentence, Fixed Point Inversion 19 ・文の埋め込みが意味情報と構造情報を区別するのに成功するかどうか S : Lilly loves Imogen. S+ : Imogen is loved by Lilly. S∗ : Imogen loves Lilly.
  20. Analysis -Sentence Triplet Generation-  3つの文からなる5つの評価データセットを作成  ・Negation Detection  Original sentence, Synonym

    Substitution, Not-Negation  ・Negation Variants  Quantifier-Negation,Not-Negation, Original sentence  ・Clause Relatedness  Original sentence, Embedded Clause Extraction, Not-Negation  ・Argument Sensitivity  Original sentence, Passivization, Argument Reordering  ・Fixed Point Reorder  Original sentence, Semantically equivalent sentence, Fixed Point Inversion 20 ・文章の埋め込みが共通する単語より意味の近さを得られるか ・SICKデータセットから意味的関連性スコアと含意ラベル付けに従い文のペアを取得 ・2文の間の構造的類似性を確実にするため編集距離が十分に大きい文の対を選ぶ
  21. Analysis -Sentence Triplet Generation-  ・Negation Detection  ・Negation Variants    ・Clause

    Relatedness    ・Argument Sensitivity    ・Fixed Point Reorder   21
  22. Experiments -Datasets- ・トリプレット生成法を使用して、評価データセットを作成 ・ソースセンテンスは以下コーパスから   SICK、Penn Treebank WSJ、MSR Paraphase ・文は自動で修正 →文法性と意味の確認のため人手によりチェック 残念ながら、すべての同義語が特定の文脈での置き換えに適しているわけではない

    22
  23. Experiments -Embedding Methods-  2つの単語ベクトルを用いる手法、3つの代表的な文の埋め込み手法を比較  ・GloVe Averaging (GloVe Avg.)  ・Concatenated P-Mean

    Embeddings (PMeans)  ・Sent2Vec  ・SkipThought  ・InferSent 23
  24. Experiments -Results and Discussion-  Negation Detection  S:Original sentence、S+:Synonym Substitution、S *:Not-Negation

    24
  25.  Negation Variants  S:Original sentence、S+:Not-Negation、S *:Quantifier-Negation 25 Experiments -Results and Discussion-

  26.  Clause Relatedness  S:Original sentence、S+:Embedded Clause Extraction、S *:Not-Negation 26 Experiments -Results

    and Discussion-
  27.  Argument Sensitivity S:Original sentence、S+:Passivization、S *:Argument Reordering 27 Experiments -Results and

    Discussion-
  28.  Fixed Point Reorder   S:Original sentence、S+:Semantically equivalent sentence、 S *:Fixed

    Point Inversion 28 Experiments -Results and Discussion-
  29. Conclusion ・分散表現手法の意味特性に関して評価する方法を提案 ・3つの代表的な文埋め込み方法について分析 ・ほとんどすべての場合において、文章埋込みは、単語埋込みの単純平均よりも性能高 29