Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK:構成的推論・類似度データセットSICK日本語版の紹介)

Hitomi Yanaka
October 31, 2022

Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK:構成的推論・類似度データセットSICK日本語版の紹介)

谷中瞳, Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK:構成的推論・類似度データセットSICK日本語版の紹介), NLPコロキウム, (2022.10).

Hitomi Yanaka

October 31, 2022
Tweet

More Decks by Hitomi Yanaka

Other Decks in Research

Transcript

  1. 2022/10/31 NLPコロキウム
    谷中 瞳
    東京大学、理化学研究所
    論文:https://arxiv.org/pdf/2208.04826.pdf
    1
    Compositional Evaluation on
    Japanese Textual Entailment and Similarity
    JSICK: 構成的推論・類似度データセットSICK日本語版

    View Slide

  2. 自己紹介
    2
    ● 東京大学大学院 情報理工学系研究科
    コンピュータ科学専攻 谷中研究室 
    講師(卓越研究員)
    大学院生(博士課程)募集
    ● 研究キーワード:自然言語推論、とくに
    自然言語処理と理論言語学の融合、
    深層学習と記号論理の融合による推論技術
    ● 経歴:
     
     
     
     
    2018-2021
 理化学研究所革新知能統合研究センター 特別研究員

    2015-2018
 東京大学大学院工学系研究科システム創成学専攻 博士(工学)

    2013-2015
 野村総合研究所にて特許検索システムの開発に従事

    2011-2013
 東京大学工学系研究科化学システム工学専攻 修士課程修了


    View Slide

  3. 汎用言語モデルによる言語理解
    ● 深層ニューラルネット(Deep Neural Networks)による事前
    学習に基づく汎用言語モデルが活発に研究されている
    ○ BERT[Devlin+ 18], T5[Raffel+ 19], GPT-3[Brown+ 20]
    ● 高度な言語理解タスクの大規模ベンチマークにおいて高性能
    を達成しつつある
    ○ GLUE[Wang+ 18], SuperGLUE[Wang+ 19]
    3
    汎用言語モデルによる言語理解の可能性?

    View Slide

  4. 含意関係と類似性
    計算機による言語理解に向けた、2つの自然言語処理タスク
    ● 含意関係認識 (Recognizing Textual Entailment, RTE)
    文1が真であるとき、常に文2が真となるか(含意関係)
    ● 文間類似度計算 (Semantic Textual Similarity, STS)
    文1に対して文2はどれくらい意味が似ているか(類似度)
    4
    含意していないけど、類似度は高い例
    文1 女性がクルマエビを調理している
    文2 女性がエビをゆでている
    中立(非含意), 4.0

    View Slide

  5. RTE・STSデータセットの関連研究
    ● 英語は多種多様なRTE・STSデータセットが存在
    ○ 言語学者による構築:FraCaS[Cooper 94]
    ○ クラウドソーシングによる構築:
    SNLI[Bowman+ 15]、MultiNLI[Williams+ 18]
    SICK[Marelli+ 14], SemEval2012-2017
    ● 近年、多言語化が進む
    ○ MultiNLI:XNLI(15ヶ国語)[Conneau+ 18], 韓国語[Ham+ 20]
    ○ SICK:ポルトガル語[Real+ 18], オランダ語[Wijnholds+ 18]
    ● その中で日本語も発展途上
    ○ JGLUE[Kurihara+ 22]: 日本語版GLUE(JNLI、JSTS含む)
    ○ JSeM[Kawazoe+ 17]: 言語学者によるFraCaSの日本語版
    ○ JSNLI[吉越+ 20]: SNLIを機械翻訳+自動フィルタ+クラウド
    ○ 旅行口コミを用いた根拠付RTEデータセット[Hayashibe 20]
    5

    View Slide

  6. 構成的推論・類似度データセットSICK[Agirre+ 14]
    SICK (Sentences Involving Compositional Knowledge) :
    人のように単語の意味と文の構造に従って、様々な文の意味を
    構成的に理解しているか評価する目的で構築された、英語の
    RTE・STSデータセット
    キャプションを元に語彙的・統語的・意味的な言語現象を網羅
    6
    S1: A boy is playing a guitar
    S2: A kid is playing a guitar 含意, 4.8
    S1: A girl is cutting butter into two pieces
    S2: Tofu is being sliced by a woman 中立, 2.4
    S1: There is no biker jumping in the air
    S2: A lone biker is jumping in the air 矛盾, 4.1

    View Slide

  7. 日本語構成的推論データセットJSICKの構築
    [Yanaka&Mineshima, TACL2022]
    ● 英語のSICKデータセットを人手で翻訳してラベルを再付
    与し、日本語のRTE・STSデータセットJSICKを構築
    ● 汎用言語モデルがどのくらい日本語の語彙知識や統語・
    意味的知識に基づいて構成的に推論できるのか分析
    7

    View Slide

  8. 日本語構成的推論・類似度データセットJSICKの特徴
    1. 英語SICKを人手で翻訳し正解ラベルを再付与
    英語SICKの言語現象の多様性(否定・量化・受動態・能動態の
    区別など)を維持するように設計
    2. 言語現象タグの付与
    形態素解析器を用いて重要な言語現象タグを自動付与
    3. JSICKストレステストの構築
    項(名詞句)の語順を入れ替えても意味が変化しないといった
    日本語の語順や助詞の性質を捉えているか分析できるストレス
    テストを構築
    8

    View Slide

  9. 1. 翻訳とラベル付与
    ● 翻訳:言語現象の多様性(否定・量化・受動態・能動態
    の区別など)を維持しつつ自然な日本語に翻訳するよう
    専門家1名に依頼し、著者内で再チェック
    ● ラベル付与:クラウドソーシングで1問あたり3人が付与
    SICKインストラクションを踏襲+理解度テストを実施
    9
    含意関係ラベル:3人中2人以上一致したラベルを採用
    含意:S1が真である(正しい)ときS2が必ず真になる場合
    矛盾:S1が真であるときS2が必ず偽になる場合
    中立:S1が真であるとしてもS2の真偽はわからない場合
    類似度ラベル:3 人のラベルの平均を採用
    1: 完全に似ていない 〜 5: よく似ている の範囲の整数

    View Slide

  10. 構築したJSICKデータセットの統計情報
    10
    ラベル 学習 開発 テスト 合計
    含意関係
    含意 969 122 1088 2179 (22.0%)
    矛盾 743 80 797 1620 (16.3%)
    中立 2788 298 3042 6128 (61.7%)
    類似度
    1-2 614 71 651 1336 (13.4%)
    2-3 1164 111 1248 2523 (25.4%)
    3-4 1373 155 1587 3115 (31.4%)
    4-5 1349 163 1441 2955 (29.7%)
    全体 4500 500 4927 9927
    英語SICKとほぼ同じ分布(中立、類似度3-4のケースが多い)

    View Slide

  11. 2. 言語現象タグ付与
    形態素解析器とパターンマッチで言語現象9種類を自動付与
    タグ分布:既存データセットよりも言語現象を偏りなく網羅
    11
    言語現象 JSICK (4927) JSNLI (3916) JRTEC (3885)
    連言 640 922 136
    選言 428 168 65
    否定 1140 66 291
    量化 744 298 185
    数量 1513 1030 47
    とりたて 13 6 39
    受身 695 226 89
    照応 700 487 72
    モーダル 69 103 11
    一人[NUM]の男性と[CONJ]一人[NUM]の女性が心地
    よさそう[MODAL]にベンチに座っている

    View Slide

  12. 構築したJSICKデータセットの例1
    12
    S1: 二人の女性が群衆の前でダンスをしながら歌っている
    Two women are dancing and singing in front of a crowd
    S2: 二人の女性が多くの人の前でダンスをしながら歌っている
    Two women are dancing and singing in front of many people
    含意関係:含意、類似度:4.7、言語現象:量化・連言・数量
    S1: 別の犬を追いかけているか、または口に棒きれをくわえている犬は一
    匹もいない
    There is no dog chasing another or holding a stick in its mouth
    S2: 犬が別の犬を追いかけていて、口に棒きれをくわえている
    A dog is chasing another and is holding a stick in its mouth
    含意関係:矛盾、類似度:3.9、言語現象:選言・否定・数量

    View Slide

  13. 構築したJSICKデータセットの例2
    13
    S1: その子供は幸せそうに雪の中で滑っている
    The kid is happily sliding in the snow
    S2: 雪で覆われた丘の上にいる男の子が赤いジャケットと黒い帽子を身に
    着け、ひざまづいて滑っている
    A boy on a hill covered in snow is wearing a red jacket and a black hat
    and is sliding on his knees
    含意関係:中立、類似度:2.5、言語現象:モーダル・連言・受身
    S1: 女性が髪を櫛でとかしている
    A woman is combing her hair
    S2: 女性が髪を整えている
    A woman is arranging her hair
    含意関係:含意、類似度:4.0

    View Slide

  14. ベースライン実験
    ● 複数の事前学習済み言語モデルの日本語版・多言語版を
    ベースラインとして評価
    ○ 東北大BERT, 早稲田RoBERTa, XLM-RoBERTa, 多言語BERT
    ○ 本発表では主に日本語・多言語BERTの結果を紹介
    ● 実験設定
    ○ RTEは4条件の学習データで、含意・矛盾・中立の3値分類
    タスクとしてファインチューニングし、正答率を評価
    (a)JSICK, (b)JSICK仮説文のみ, (c)JSNLI, (d)JSICK+JSNLI
    ○ STSはBERTの埋め込み表現を用いた教師なし文類似度計算
    モデルbertscore[Zhang+ 20]の予測と、正解類似度との
    Pearson相関係数を評価
    14

    View Slide

  15. 15
    含意関係認識(RTE)のベースライン評価結果
    ● 日本語:早稲田RoBERTa-large、多言語:BERTが最高精度
    ● NLIでは多言語モデルも日本語モデルに匹敵か上回る精度
    ● JSNLIを学習データに追加することで正答率が向上

    View Slide

  16. ● 日本語:BERT(文字ベース)、多言語:BERTが最高精度
    ● STSでは多言語BERTが日本語BERTを上回る精度
    16
    類似度計算(STS)のベースライン評価結果

    View Slide

  17. 17
    言語現象ごとの評価結果
    ● 選言・とりたて・照応の正答率が比較的低い

    View Slide

  18. (小休憩)日本語敵対的推論データセットJaNLI
    [Yanaka&Mineshima, BlackboxNLP2021]
    18
    深層学習モデルがだまされやすいヒューリスティクスごとに、
    日本語の言語現象に基づく推論テンプレートを設計し、推論
    データセットを自動構築
    subsequence 男の子 が 眠っている 女の子 を 見ている
    男の子 が 眠っている         非含意
    constituent ひょっとしたら 子供 が 眠っている
    子供 が 眠っている          非含意
    full-overlap ライダー が サーファー を 助け出した
    ライダー を サーファー が 助け出した 非含意
    order-preserving
    subset
    学生 か 子供 が 遊んでいる
    学生 が 遊んでいる          非含意
    mixed-subset 子供 が 泳いでいる 学生 を 助け出した
    子供 を 学生 が 助け出した      非含意
    https://github.com/verypluming/JaNLI

    View Slide

  19. 3. JSICKストレステストの構築
    ● 日本語は項の順序が自由(スクランブリング)
    ⇒ 項の順序を変えても意味が変化しない ⇒ 含意ラベルは変わらない
    ● JSICKストレステストを構築しモデルが語順や助詞を捉えているか分析
    ● 前提文S1の語順が基本語順(XガYヲ: 1666件、XガYニ: 797件、XガY
    デ: 1006件)の文ペアについて、S1の構文をCCG構文解析器
    depccg[Yoshikawa+ 17]+加工ツールtsurgeonで書き換えて作成
    ● 項の順番を入れ替えた文ペア (S1_order, S2):正解ラベルは同じ
    ● 助詞だけ入れ替えた文ペア (S1_case, S2):正解ラベルは中立に
    19
    S1: 小さな女の子が コスチュームを着た女性を 見ている
    S1_order: コスチュームを着た女性を 小さな女の子が 見ている
    S1_case:小さな女の子を コスチュームを着た女性が 見ている
    S2: 幼い女の子がコスチュームを着た女性を見ている
    (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立

    View Slide

  20. JSICK-RTEストレステストによるモデル分析
    20
    XガYヲ(1666件)
    スクランブリングで項を入れ替えても、
    予測ラベルが変わらず(96.4%同じ)、
    正答率はあまり低下しない
    ⇒ スクランブリングが理解できている?
    S1: 小さな女の子が コスチュームを着た女性を 見ている
    S1_order: コスチュームを着た女性を 小さな女の子が 見ている
    S1_case:小さな女の子を コスチュームを着た女性が 見ている
    S2: 幼い女の子がコスチュームを着た女性を見ている
    (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立

    View Slide

  21. 21
    XガYヲ(1666件)
    スクランブリングで項を入れ替えても、
    予測ラベルが変わらず(96.4%同じ)、
    正答率はあまり低下しない
    ⇒ スクランブリングが理解できている?
    ⇒ 助詞を入れ替えても予測ラベルが変わ
    らず(98.9%同じ)、よって元のラベル
    が含意・矛盾のケースの正答率が低下
    JSICK-RTEストレステストによるモデル分析
    S1: 小さな女の子が コスチュームを着た女性を 見ている
    S1_order: コスチュームを着た女性を 小さな女の子が 見ている
    S1_case:小さな女の子を コスチュームを着た女性が 見ている
    S2: 幼い女の子がコスチュームを着た女性を見ている
    (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立

    View Slide

  22. 22
    XガYヲ(1666件)
    スクランブリングで項を入れ替えても、
    予測ラベルが変わらず(96.4%同じ)、
    正答率はあまり低下しない
    ⇒ スクランブリングが理解できている?
    ⇒ 助詞を入れ替えても予測ラベルが変わ
    らず(98.9%同じ)、よって元のラベル
    が含意・矛盾のケースの正答率が低下
    ⇒ 語順・助詞を見ていない可能性
    JSICK-RTEストレステストによるモデル分析
    S1: 小さな女の子が コスチュームを着た女性を 見ている
    S1_order: コスチュームを着た女性を 小さな女の子が 見ている
    S1_case:小さな女の子を コスチュームを着た女性が 見ている
    S2: 幼い女の子がコスチュームを着た女性を見ている
    (S1, S2): 含意、(S1_order, S2): 含意、(S1_case, S2): 中立

    View Slide

  23. JSICK-RTEストレステストによるモデル分析
    23
    XガYヲ(1666件) XガYニ(797件) XガYデ(1006件)
    ● 他の助詞でも同じ傾向
    ● 他の日本語・多言語モデルでも同じ傾向
    ● STSでも同じ傾向
    ● 項入れ替え、助詞入れ替え、助詞削除で予測がほぼ変わらず、
    モデルは語順も助詞も見ずにラベルを予測している可能性

    View Slide

  24. まとめ
    ● モデルが日本語の語彙・統語・意味的知識に基づく構成
    的推論をどれくらい正しく行うことができるか評価する
    ための含意関係認識・意味的類似度データセットJSICKと
    JSICKストレステストを構築
    ● 日本語・多言語汎用言語モデルを用いた含意関係認識・
    類似度計算モデルを評価した結果、選言・とりたて・照
    応といった言語現象や、助詞の扱いにおいて、改善の余
    地があることが示唆された
    24
    JSICKは以下で公開中。ぜひご利用ください!
    https://github.com/verypluming/JSICK
    谷中 瞳:[email protected] 

    View Slide