Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK：構成的推論・類似度データセットSICK日本語版の紹介)

2022/10/31　NLPコロキウム谷中　瞳東京大学、理化学研究所論文：https://arxiv.org/pdf/2208.04826.pdf 1 Compositional Evaluation on Japanese Textual
Entailment and Similarity JSICK: 構成的推論・類似度データセットSICK日本語版

自己紹介 2 • 東京大学大学院　情報理工学系研究科コンピュータ科学専攻　谷中研究室　講師（卓越研究員）大学院生（博士課程）募集 • 研究キーワード：自然言語推論、とくに自然言語処理と理論言語学の融合、
深層学習と記号論理の融合による推論技術 • 経歴：　　　　 2018-2021  理化学研究所革新知能統合研究センター　特別研究員  2015-2018  東京大学大学院工学系研究科システム創成学専攻　博士(工学)  2013-2015  野村総合研究所にて特許検索システムの開発に従事  2011-2013  東京大学工学系研究科化学システム工学専攻　修士課程修了 

汎用言語モデルによる言語理解 • 深層ニューラルネット(Deep Neural Networks)による事前学習に基づく汎用言語モデルが活発に研究されている ◦ BERT[Devlin+ 18], T5[Raﬀel+
19], GPT-3[Brown+ 20] • 高度な言語理解タスクの大規模ベンチマークにおいて高性能を達成しつつある ◦ GLUE[Wang+ 18], SuperGLUE[Wang+ 19] 3 汎用言語モデルによる言語理解の可能性？

含意関係と類似性計算機による言語理解に向けた、2つの自然言語処理タスク • 含意関係認識 (Recognizing Textual Entailment, RTE) 文1が真であるとき、常に文2が真となるか（含意関係） •
文間類似度計算 (Semantic Textual Similarity, STS) 文1に対して文2はどれくらい意味が似ているか（類似度） 4 含意していないけど、類似度は高い例文1 女性がクルマエビを調理している文2 女性がエビをゆでている中立（非含意）, 4.0

RTE・STSデータセットの関連研究 • 英語は多種多様なRTE・STSデータセットが存在 ◦ 言語学者による構築：FraCaS[Cooper 94] ◦ クラウドソーシングによる構築： SNLI[Bowman+ 15]、MultiNLI[Williams+
18] SICK[Marelli+ 14], SemEval2012-2017 • 近年、多言語化が進む ◦ MultiNLI：XNLI(15ヶ国語)[Conneau+ 18], 韓国語[Ham+ 20] ◦ SICK：ポルトガル語[Real+ 18], オランダ語[Wijnholds+ 18] • その中で日本語も発展途上 ◦ JGLUE[Kurihara+ 22]: 日本語版GLUE（JNLI、JSTS含む） ◦ JSeM[Kawazoe+ 17]: 言語学者によるFraCaSの日本語版 ◦ JSNLI[吉越+ 20]: SNLIを機械翻訳+自動フィルタ+クラウド ◦ 旅行口コミを用いた根拠付RTEデータセット[Hayashibe 20] 5

構成的推論・類似度データセットSICK[Agirre+ 14] SICK (Sentences Involving Compositional Knowledge) ：人のように単語の意味と文の構造に従って、様々な文の意味を構成的に理解しているか評価する目的で構築された、英語の
RTE・STSデータセットキャプションを元に語彙的・統語的・意味的な言語現象を網羅 6 S1: A boy is playing a guitar S2: A kid is playing a guitar 含意, 4.8 S1: A girl is cutting butter into two pieces S2: Tofu is being sliced by a woman 中立, 2.4 S1: There is no biker jumping in the air S2: A lone biker is jumping in the air 矛盾, 4.1

日本語構成的推論データセットJSICKの構築 [Yanaka&Mineshima, TACL2022] • 英語のSICKデータセットを人手で翻訳してラベルを再付与し、日本語のRTE・STSデータセットJSICKを構築 • 汎用言語モデルがどのくらい日本語の語彙知識や統語・意味的知識に基づいて構成的に推論できるのか分析 7

日本語構成的推論・類似度データセットJSICKの特徴 1. 英語SICKを人手で翻訳し正解ラベルを再付与英語SICKの言語現象の多様性（否定・量化・受動態・能動態の区別など）を維持するように設計 2. 言語現象タグの付与形態素解析器を用いて重要な言語現象タグを自動付与 3. JSICKストレステストの構築
項（名詞句）の語順を入れ替えても意味が変化しないといった日本語の語順や助詞の性質を捉えているか分析できるストレステストを構築 8

1. 翻訳とラベル付与 • 翻訳：言語現象の多様性（否定・量化・受動態・能動態の区別など）を維持しつつ自然な日本語に翻訳するよう専門家1名に依頼し、著者内で再チェック • ラベル付与：クラウドソーシングで1問あたり3人が付与 SICKインストラクションを踏襲＋理解度テストを実施 9
含意関係ラベル：3人中2人以上一致したラベルを採用含意：S1が真である（正しい）ときS2が必ず真になる場合矛盾：S1が真であるときS2が必ず偽になる場合中立：S1が真であるとしてもS2の真偽はわからない場合類似度ラベル：3 人のラベルの平均を採用 1: 完全に似ていない〜 5: よく似ている　の範囲の整数

構築したJSICKデータセットの統計情報 10 ラベル学習開発テスト合計含意関係含意 969
122 1088 2179 (22.0%) 矛盾 743 80 797 1620 (16.3%) 中立 2788 298 3042 6128 (61.7%) 類似度 1-2 614 71 651 1336 (13.4%) 2-3 1164 111 1248 2523 (25.4%) 3-4 1373 155 1587 3115 (31.4%) 4-5 1349 163 1441 2955 (29.7%) 全体 4500 500 4927 9927 英語SICKとほぼ同じ分布（中立、類似度3-4のケースが多い）

2. 言語現象タグ付与形態素解析器とパターンマッチで言語現象9種類を自動付与タグ分布：既存データセットよりも言語現象を偏りなく網羅 11 言語現象 JSICK (4927) JSNLI (3916)
JRTEC (3885) 連言 640 922 136 選言 428 168 65 否定 1140 66 291 量化 744 298 185 数量 1513 1030 47 とりたて 13 6 39 受身 695 226 89 照応 700 487 72 モーダル 69 103 11 一人[NUM]の男性と[CONJ]一人[NUM]の女性が心地よさそう[MODAL]にベンチに座っている

構築したJSICKデータセットの例1 12 S1: 二人の女性が群衆の前でダンスをしながら歌っている Two women are dancing and singing
in front of a crowd S2: 二人の女性が多くの人の前でダンスをしながら歌っている Two women are dancing and singing in front of many people 含意関係：含意、類似度：4.7、言語現象：量化・連言・数量 S1: 別の犬を追いかけているか、または口に棒きれをくわえている犬は一匹もいない There is no dog chasing another or holding a stick in its mouth S2: 犬が別の犬を追いかけていて、口に棒きれをくわえている A dog is chasing another and is holding a stick in its mouth 含意関係：矛盾、類似度：3.9、言語現象：選言・否定・数量

構築したJSICKデータセットの例2 13 S1: その子供は幸せそうに雪の中で滑っている The kid is happily sliding in
the snow S2: 雪で覆われた丘の上にいる男の子が赤いジャケットと黒い帽子を身に着け、ひざまづいて滑っている A boy on a hill covered in snow is wearing a red jacket and a black hat and is sliding on his knees 含意関係：中立、類似度：2.5、言語現象：モーダル・連言・受身 S1: 女性が髪を櫛でとかしている A woman is combing her hair S2: 女性が髪を整えている A woman is arranging her hair 含意関係：含意、類似度：4.0

ベースライン実験 • 複数の事前学習済み言語モデルの日本語版・多言語版をベースラインとして評価 ◦ 東北大BERT, 早稲田RoBERTa, XLM-RoBERTa, 多言語BERT ◦
本発表では主に日本語・多言語BERTの結果を紹介 • 実験設定 ◦ RTEは4条件の学習データで、含意・矛盾・中立の3値分類タスクとしてファインチューニングし、正答率を評価 (a)JSICK, (b)JSICK仮説文のみ, (c)JSNLI, (d)JSICK+JSNLI ◦ STSはBERTの埋め込み表現を用いた教師なし文類似度計算モデルbertscore[Zhang+ 20]の予測と、正解類似度との Pearson相関係数を評価 14

15 含意関係認識(RTE)のベースライン評価結果 • 日本語：早稲田RoBERTa-large、多言語：BERTが最高精度 • NLIでは多言語モデルも日本語モデルに匹敵か上回る精度 • JSNLIを学習データに追加することで正答率が向上

• 日本語：BERT（文字ベース）、多言語：BERTが最高精度 • STSでは多言語BERTが日本語BERTを上回る精度 16 類似度計算(STS)のベースライン評価結果

17 言語現象ごとの評価結果 • 選言・とりたて・照応の正答率が比較的低い

（小休憩）日本語敵対的推論データセットJaNLI [Yanaka&Mineshima, BlackboxNLP2021] 18 深層学習モデルがだまされやすいヒューリスティクスごとに、日本語の言語現象に基づく推論テンプレートを設計し、推論データセットを自動構築 subsequence 男の子が
眠っている女の子を見ている男の子が眠っている　　　　　　　　非含意 constituent ひょっとしたら子供が眠っている子供が眠っている　　　　　　　　　非含意 full-overlap ライダーがサーファーを助け出したライダーをサーファーが助け出した　非含意 order-preserving subset 学生か子供が遊んでいる学生が遊んでいる　　　　　　　　　非含意 mixed-subset 子供が泳いでいる学生を助け出した子供を学生が助け出した　　　　　　非含意 https://github.com/verypluming/JaNLI

3. JSICKストレステストの構築 • 日本語は項の順序が自由（スクランブリング） ⇒ 項の順序を変えても意味が変化しない ⇒ 含意ラベルは変わらない • JSICKストレステストを構築しモデルが語順や助詞を捉えているか分析
• 前提文S1の語順が基本語順（XガYヲ: 1666件、XガYニ: 797件、XガY デ: 1006件）の文ペアについて、S1の構文をCCG構文解析器 depccg[Yoshikawa+ 17]＋加工ツールtsurgeonで書き換えて作成 • 項の順番を入れ替えた文ペア (S1_order, S2)：正解ラベルは同じ • 助詞だけ入れ替えた文ペア (S1_case, S2)：正解ラベルは中立に 19 S1: 小さな女の子がコスチュームを着た女性を見ている S1_order: コスチュームを着た女性を小さな女の子が見ている S1_case:小さな女の子をコスチュームを着た女性が見ている S2: 幼い女の子がコスチュームを着た女性を見ている (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立

JSICK-RTEストレステストによるモデル分析 20 XガYヲ(1666件) スクランブリングで項を入れ替えても、予測ラベルが変わらず（96.4%同じ）、正答率はあまり低下しない ⇒ スクランブリングが理解できている？ S1: 小さな女の子が
コスチュームを着た女性を見ている S1_order: コスチュームを着た女性を小さな女の子が見ている S1_case:小さな女の子をコスチュームを着た女性が見ている S2: 幼い女の子がコスチュームを着た女性を見ている (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立

21 XガYヲ(1666件) スクランブリングで項を入れ替えても、予測ラベルが変わらず（96.4%同じ）、正答率はあまり低下しない ⇒ スクランブリングが理解できている？ ⇒ 助詞を入れ替えても予測ラベルが変わらず（98.9%同じ）、よって元のラベル
が含意・矛盾のケースの正答率が低下 JSICK-RTEストレステストによるモデル分析 S1: 小さな女の子がコスチュームを着た女性を見ている S1_order: コスチュームを着た女性を小さな女の子が見ている S1_case:小さな女の子をコスチュームを着た女性が見ている S2: 幼い女の子がコスチュームを着た女性を見ている (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立

22 XガYヲ(1666件) スクランブリングで項を入れ替えても、予測ラベルが変わらず（96.4%同じ）、正答率はあまり低下しない ⇒ スクランブリングが理解できている？ ⇒ 助詞を入れ替えても予測ラベルが変わらず（98.9%同じ）、よって元のラベル
が含意・矛盾のケースの正答率が低下 ⇒ 語順・助詞を見ていない可能性 JSICK-RTEストレステストによるモデル分析 S1: 小さな女の子がコスチュームを着た女性を見ている S1_order: コスチュームを着た女性を小さな女の子が見ている S1_case:小さな女の子をコスチュームを着た女性が見ている S2: 幼い女の子がコスチュームを着た女性を見ている (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立

JSICK-RTEストレステストによるモデル分析 23 XガYヲ(1666件) XガYニ(797件) XガYデ(1006件) • 他の助詞でも同じ傾向 • 他の日本語・多言語モデルでも同じ傾向 •
STSでも同じ傾向 • 項入れ替え、助詞入れ替え、助詞削除で予測がほぼ変わらず、モデルは語順も助詞も見ずにラベルを予測している可能性

まとめ • モデルが日本語の語彙・統語・意味的知識に基づく構成的推論をどれくらい正しく行うことができるか評価するための含意関係認識・意味的類似度データセットJSICKと JSICKストレステストを構築 • 日本語・多言語汎用言語モデルを用いた含意関係認識・類似度計算モデルを評価した結果、選言・とりたて・照応といった言語現象や、助詞の扱いにおいて、改善の余
地があることが示唆された 24 JSICKは以下で公開中。ぜひご利用ください！ https://github.com/verypluming/JSICK 谷中　瞳：[email protected]　

Compositional Evaluation on Japanese Textual En...

Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK：構成的推論・類似度データセットSICK日本語版の紹介)

Hitomi Yanaka

More Decks by Hitomi Yanaka

Other Decks in Research

Featured

Transcript

2022/10/31　NLPコロキウム谷中　瞳東京大学、理化学研究所論文：https://arxiv.org/pdf/2208.04826.pdf 1 Compositional Evaluation on Japanese Textual

自己紹介 2 • 東京大学大学院　情報理工学系研究科コンピュータ科学専攻　谷中研究室　講師（卓越研究員）大学院生（博士課程）募集 • 研究キーワード：自然言語推論、とくに自然言語処理と理論言語学の融合、

汎用言語モデルによる言語理解 • 深層ニューラルネット(Deep Neural Networks)による事前学習に基づく汎用言語モデルが活発に研究されている ◦ BERT[Devlin+ 18], T5[Raﬀel+

含意関係と類似性計算機による言語理解に向けた、2つの自然言語処理タスク • 含意関係認識 (Recognizing Textual Entailment, RTE) 文1が真であるとき、常に文2が真となるか（含意関係） •

RTE・STSデータセットの関連研究 • 英語は多種多様なRTE・STSデータセットが存在 ◦ 言語学者による構築：FraCaS[Cooper 94] ◦ クラウドソーシングによる構築： SNLI[Bowman+ 15]、MultiNLI[Williams+

構成的推論・類似度データセットSICK[Agirre+ 14] SICK (Sentences Involving Compositional Knowledge) ：人のように単語の意味と文の構造に従って、様々な文の意味を構成的に理解しているか評価する目的で構築された、英語の

構築したJSICKデータセットの統計情報 10 ラベル学習開発テスト合計含意関係含意 969

2. 言語現象タグ付与形態素解析器とパターンマッチで言語現象9種類を自動付与タグ分布：既存データセットよりも言語現象を偏りなく網羅 11 言語現象 JSICK (4927) JSNLI (3916)

構築したJSICKデータセットの例1 12 S1: 二人の女性が群衆の前でダンスをしながら歌っている Two women are dancing and singing

構築したJSICKデータセットの例2 13 S1: その子供は幸せそうに雪の中で滑っている The kid is happily sliding in

ベースライン実験 • 複数の事前学習済み言語モデルの日本語版・多言語版をベースラインとして評価 ◦ 東北大BERT, 早稲田RoBERTa, XLM-RoBERTa, 多言語BERT ◦

15 含意関係認識(RTE)のベースライン評価結果 • 日本語：早稲田RoBERTa-large、多言語：BERTが最高精度 • NLIでは多言語モデルも日本語モデルに匹敵か上回る精度 • JSNLIを学習データに追加することで正答率が向上

• 日本語：BERT（文字ベース）、多言語：BERTが最高精度 • STSでは多言語BERTが日本語BERTを上回る精度 16 類似度計算(STS)のベースライン評価結果

17 言語現象ごとの評価結果 • 選言・とりたて・照応の正答率が比較的低い

3. JSICKストレステストの構築 • 日本語は項の順序が自由（スクランブリング） ⇒ 項の順序を変えても意味が変化しない ⇒ 含意ラベルは変わらない • JSICKストレステストを構築しモデルが語順や助詞を捉えているか分析

JSICK-RTEストレステストによるモデル分析 20 XガYヲ(1666件) スクランブリングで項を入れ替えても、予測ラベルが変わらず（96.4%同じ）、正答率はあまり低下しない ⇒ スクランブリングが理解できている？ S1: 小さな女の子が

JSICK-RTEストレステストによるモデル分析 23 XガYヲ(1666件) XガYニ(797件) XガYデ(1006件) • 他の助詞でも同じ傾向 • 他の日本語・多言語モデルでも同じ傾向 •