Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK:構成的推論・類似度データセットSICK日本語版の紹介)

Hitomi Yanaka
October 31, 2022

Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK:構成的推論・類似度データセットSICK日本語版の紹介)

谷中瞳, Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK:構成的推論・類似度データセットSICK日本語版の紹介), NLPコロキウム, (2022.10).

Hitomi Yanaka

October 31, 2022
Tweet

More Decks by Hitomi Yanaka

Other Decks in Research

Transcript

  1. 2022/10/31 NLPコロキウム 谷中 瞳 東京大学、理化学研究所 論文:https://arxiv.org/pdf/2208.04826.pdf 1 Compositional Evaluation on Japanese Textual

    Entailment and Similarity JSICK: 構成的推論・類似度データセットSICK日本語版
  2. 自己紹介 2 • 東京大学大学院 情報理工学系研究科 コンピュータ科学専攻 谷中研究室  講師(卓越研究員) 大学院生(博士課程)募集 • 研究キーワード:自然言語推論、とくに 自然言語処理と理論言語学の融合、

    深層学習と記号論理の融合による推論技術 • 経歴:         2018-2021
 理化学研究所革新知能統合研究センター 特別研究員
 2015-2018
 東京大学大学院工学系研究科システム創成学専攻 博士(工学)
 2013-2015
 野村総合研究所にて特許検索システムの開発に従事
 2011-2013
 東京大学工学系研究科化学システム工学専攻 修士課程修了

  3. 汎用言語モデルによる言語理解 • 深層ニューラルネット(Deep Neural Networks)による事前 学習に基づく汎用言語モデルが活発に研究されている ◦ BERT[Devlin+ 18], T5[Raffel+

    19], GPT-3[Brown+ 20] • 高度な言語理解タスクの大規模ベンチマークにおいて高性能 を達成しつつある ◦ GLUE[Wang+ 18], SuperGLUE[Wang+ 19] 3 汎用言語モデルによる言語理解の可能性?
  4. 含意関係と類似性 計算機による言語理解に向けた、2つの自然言語処理タスク • 含意関係認識 (Recognizing Textual Entailment, RTE) 文1が真であるとき、常に文2が真となるか(含意関係) •

    文間類似度計算 (Semantic Textual Similarity, STS) 文1に対して文2はどれくらい意味が似ているか(類似度) 4 含意していないけど、類似度は高い例 文1 女性がクルマエビを調理している 文2 女性がエビをゆでている 中立(非含意), 4.0
  5. RTE・STSデータセットの関連研究 • 英語は多種多様なRTE・STSデータセットが存在 ◦ 言語学者による構築:FraCaS[Cooper 94] ◦ クラウドソーシングによる構築: SNLI[Bowman+ 15]、MultiNLI[Williams+

    18] SICK[Marelli+ 14], SemEval2012-2017 • 近年、多言語化が進む ◦ MultiNLI:XNLI(15ヶ国語)[Conneau+ 18], 韓国語[Ham+ 20] ◦ SICK:ポルトガル語[Real+ 18], オランダ語[Wijnholds+ 18] • その中で日本語も発展途上 ◦ JGLUE[Kurihara+ 22]: 日本語版GLUE(JNLI、JSTS含む) ◦ JSeM[Kawazoe+ 17]: 言語学者によるFraCaSの日本語版 ◦ JSNLI[吉越+ 20]: SNLIを機械翻訳+自動フィルタ+クラウド ◦ 旅行口コミを用いた根拠付RTEデータセット[Hayashibe 20] 5
  6. 構成的推論・類似度データセットSICK[Agirre+ 14] SICK (Sentences Involving Compositional Knowledge) : 人のように単語の意味と文の構造に従って、様々な文の意味を 構成的に理解しているか評価する目的で構築された、英語の

    RTE・STSデータセット キャプションを元に語彙的・統語的・意味的な言語現象を網羅 6 S1: A boy is playing a guitar S2: A kid is playing a guitar 含意, 4.8 S1: A girl is cutting butter into two pieces S2: Tofu is being sliced by a woman 中立, 2.4 S1: There is no biker jumping in the air S2: A lone biker is jumping in the air 矛盾, 4.1
  7. 日本語構成的推論データセットJSICKの構築 [Yanaka&Mineshima, TACL2022] • 英語のSICKデータセットを人手で翻訳してラベルを再付 与し、日本語のRTE・STSデータセットJSICKを構築 • 汎用言語モデルがどのくらい日本語の語彙知識や統語・ 意味的知識に基づいて構成的に推論できるのか分析 7

  8. 日本語構成的推論・類似度データセットJSICKの特徴 1. 英語SICKを人手で翻訳し正解ラベルを再付与 英語SICKの言語現象の多様性(否定・量化・受動態・能動態の 区別など)を維持するように設計 2. 言語現象タグの付与 形態素解析器を用いて重要な言語現象タグを自動付与 3. JSICKストレステストの構築

    項(名詞句)の語順を入れ替えても意味が変化しないといった 日本語の語順や助詞の性質を捉えているか分析できるストレス テストを構築 8
  9. 1. 翻訳とラベル付与 • 翻訳:言語現象の多様性(否定・量化・受動態・能動態 の区別など)を維持しつつ自然な日本語に翻訳するよう 専門家1名に依頼し、著者内で再チェック • ラベル付与:クラウドソーシングで1問あたり3人が付与 SICKインストラクションを踏襲+理解度テストを実施 9

    含意関係ラベル:3人中2人以上一致したラベルを採用 含意:S1が真である(正しい)ときS2が必ず真になる場合 矛盾:S1が真であるときS2が必ず偽になる場合 中立:S1が真であるとしてもS2の真偽はわからない場合 類似度ラベル:3 人のラベルの平均を採用 1: 完全に似ていない 〜 5: よく似ている の範囲の整数
  10. 構築したJSICKデータセットの統計情報 10 ラベル 学習 開発 テスト 合計 含意関係 含意 969

    122 1088 2179 (22.0%) 矛盾 743 80 797 1620 (16.3%) 中立 2788 298 3042 6128 (61.7%) 類似度 1-2 614 71 651 1336 (13.4%) 2-3 1164 111 1248 2523 (25.4%) 3-4 1373 155 1587 3115 (31.4%) 4-5 1349 163 1441 2955 (29.7%) 全体 4500 500 4927 9927 英語SICKとほぼ同じ分布(中立、類似度3-4のケースが多い)
  11. 2. 言語現象タグ付与 形態素解析器とパターンマッチで言語現象9種類を自動付与 タグ分布:既存データセットよりも言語現象を偏りなく網羅 11 言語現象 JSICK (4927) JSNLI (3916)

    JRTEC (3885) 連言 640 922 136 選言 428 168 65 否定 1140 66 291 量化 744 298 185 数量 1513 1030 47 とりたて 13 6 39 受身 695 226 89 照応 700 487 72 モーダル 69 103 11 一人[NUM]の男性と[CONJ]一人[NUM]の女性が心地 よさそう[MODAL]にベンチに座っている
  12. 構築したJSICKデータセットの例1 12 S1: 二人の女性が群衆の前でダンスをしながら歌っている Two women are dancing and singing

    in front of a crowd S2: 二人の女性が多くの人の前でダンスをしながら歌っている Two women are dancing and singing in front of many people 含意関係:含意、類似度:4.7、言語現象:量化・連言・数量 S1: 別の犬を追いかけているか、または口に棒きれをくわえている犬は一 匹もいない There is no dog chasing another or holding a stick in its mouth S2: 犬が別の犬を追いかけていて、口に棒きれをくわえている A dog is chasing another and is holding a stick in its mouth 含意関係:矛盾、類似度:3.9、言語現象:選言・否定・数量
  13. 構築したJSICKデータセットの例2 13 S1: その子供は幸せそうに雪の中で滑っている The kid is happily sliding in

    the snow S2: 雪で覆われた丘の上にいる男の子が赤いジャケットと黒い帽子を身に 着け、ひざまづいて滑っている A boy on a hill covered in snow is wearing a red jacket and a black hat and is sliding on his knees 含意関係:中立、類似度:2.5、言語現象:モーダル・連言・受身 S1: 女性が髪を櫛でとかしている A woman is combing her hair S2: 女性が髪を整えている A woman is arranging her hair 含意関係:含意、類似度:4.0
  14. ベースライン実験 • 複数の事前学習済み言語モデルの日本語版・多言語版を ベースラインとして評価 ◦ 東北大BERT, 早稲田RoBERTa, XLM-RoBERTa, 多言語BERT ◦

    本発表では主に日本語・多言語BERTの結果を紹介 • 実験設定 ◦ RTEは4条件の学習データで、含意・矛盾・中立の3値分類 タスクとしてファインチューニングし、正答率を評価 (a)JSICK, (b)JSICK仮説文のみ, (c)JSNLI, (d)JSICK+JSNLI ◦ STSはBERTの埋め込み表現を用いた教師なし文類似度計算 モデルbertscore[Zhang+ 20]の予測と、正解類似度との Pearson相関係数を評価 14
  15. 15 含意関係認識(RTE)のベースライン評価結果 • 日本語:早稲田RoBERTa-large、多言語:BERTが最高精度 • NLIでは多言語モデルも日本語モデルに匹敵か上回る精度 • JSNLIを学習データに追加することで正答率が向上

  16. • 日本語:BERT(文字ベース)、多言語:BERTが最高精度 • STSでは多言語BERTが日本語BERTを上回る精度 16 類似度計算(STS)のベースライン評価結果

  17. 17 言語現象ごとの評価結果 • 選言・とりたて・照応の正答率が比較的低い

  18. (小休憩)日本語敵対的推論データセットJaNLI [Yanaka&Mineshima, BlackboxNLP2021] 18 深層学習モデルがだまされやすいヒューリスティクスごとに、 日本語の言語現象に基づく推論テンプレートを設計し、推論 データセットを自動構築 subsequence 男の子 が

    眠っている 女の子 を 見ている 男の子 が 眠っている         非含意 constituent ひょっとしたら 子供 が 眠っている 子供 が 眠っている          非含意 full-overlap ライダー が サーファー を 助け出した ライダー を サーファー が 助け出した 非含意 order-preserving subset 学生 か 子供 が 遊んでいる 学生 が 遊んでいる          非含意 mixed-subset 子供 が 泳いでいる 学生 を 助け出した 子供 を 学生 が 助け出した      非含意 https://github.com/verypluming/JaNLI
  19. 3. JSICKストレステストの構築 • 日本語は項の順序が自由(スクランブリング) ⇒ 項の順序を変えても意味が変化しない ⇒ 含意ラベルは変わらない • JSICKストレステストを構築しモデルが語順や助詞を捉えているか分析

    • 前提文S1の語順が基本語順(XガYヲ: 1666件、XガYニ: 797件、XガY デ: 1006件)の文ペアについて、S1の構文をCCG構文解析器 depccg[Yoshikawa+ 17]+加工ツールtsurgeonで書き換えて作成 • 項の順番を入れ替えた文ペア (S1_order, S2):正解ラベルは同じ • 助詞だけ入れ替えた文ペア (S1_case, S2):正解ラベルは中立に 19 S1: 小さな女の子が コスチュームを着た女性を 見ている S1_order: コスチュームを着た女性を 小さな女の子が 見ている S1_case:小さな女の子を コスチュームを着た女性が 見ている S2: 幼い女の子がコスチュームを着た女性を見ている (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立
  20. JSICK-RTEストレステストによるモデル分析 20 XガYヲ(1666件) スクランブリングで項を入れ替えても、 予測ラベルが変わらず(96.4%同じ)、 正答率はあまり低下しない ⇒ スクランブリングが理解できている? S1: 小さな女の子が

    コスチュームを着た女性を 見ている S1_order: コスチュームを着た女性を 小さな女の子が 見ている S1_case:小さな女の子を コスチュームを着た女性が 見ている S2: 幼い女の子がコスチュームを着た女性を見ている (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立
  21. 21 XガYヲ(1666件) スクランブリングで項を入れ替えても、 予測ラベルが変わらず(96.4%同じ)、 正答率はあまり低下しない ⇒ スクランブリングが理解できている? ⇒ 助詞を入れ替えても予測ラベルが変わ らず(98.9%同じ)、よって元のラベル

    が含意・矛盾のケースの正答率が低下 JSICK-RTEストレステストによるモデル分析 S1: 小さな女の子が コスチュームを着た女性を 見ている S1_order: コスチュームを着た女性を 小さな女の子が 見ている S1_case:小さな女の子を コスチュームを着た女性が 見ている S2: 幼い女の子がコスチュームを着た女性を見ている (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立
  22. 22 XガYヲ(1666件) スクランブリングで項を入れ替えても、 予測ラベルが変わらず(96.4%同じ)、 正答率はあまり低下しない ⇒ スクランブリングが理解できている? ⇒ 助詞を入れ替えても予測ラベルが変わ らず(98.9%同じ)、よって元のラベル

    が含意・矛盾のケースの正答率が低下 ⇒ 語順・助詞を見ていない可能性 JSICK-RTEストレステストによるモデル分析 S1: 小さな女の子が コスチュームを着た女性を 見ている S1_order: コスチュームを着た女性を 小さな女の子が 見ている S1_case:小さな女の子を コスチュームを着た女性が 見ている S2: 幼い女の子がコスチュームを着た女性を見ている (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立
  23. JSICK-RTEストレステストによるモデル分析 23 XガYヲ(1666件) XガYニ(797件) XガYデ(1006件) • 他の助詞でも同じ傾向 • 他の日本語・多言語モデルでも同じ傾向 •

    STSでも同じ傾向 • 項入れ替え、助詞入れ替え、助詞削除で予測がほぼ変わらず、 モデルは語順も助詞も見ずにラベルを予測している可能性
  24. まとめ • モデルが日本語の語彙・統語・意味的知識に基づく構成 的推論をどれくらい正しく行うことができるか評価する ための含意関係認識・意味的類似度データセットJSICKと JSICKストレステストを構築 • 日本語・多言語汎用言語モデルを用いた含意関係認識・ 類似度計算モデルを評価した結果、選言・とりたて・照 応といった言語現象や、助詞の扱いにおいて、改善の余

    地があることが示唆された 24 JSICKは以下で公開中。ぜひご利用ください! https://github.com/verypluming/JSICK 谷中 瞳:[email protected]