文章間類似性判定モデルの根拠の抽出

文章間類似性判定モデルの根拠の抽出兵庫県立大学中井香那子河田友香山本岳洋 1

日常生活での情報比較日常生活で情報を比較する機会は多い  例えばオンラインショッピングでは… 2 圧巻の重低音を再生する新規設計ドライバー．完全ワイヤレスで重要な装着感を追求しながら，圧巻の重低音を再生する大口径ドライバーを新規開発．高い密閉性により低音を逃しません．
高音域から低音域までバランスの良いクリアな音質．高音から低音までバランスが良く，特にボーカルや楽器の音を自然でクリアにお楽しみいただけます．低音重視高音から低音までのバランス重視イヤホンA イヤホンB

ブラックボックス問題と解決策 3 1.Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin.
“Why Should I Trust You”:Explaining the Predictions of Any Classifier. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, pp. 97–101, 2016. 関連する文章を比較するモデルが存在する  関連文書の検索やコピペチェッカーなど課題：ブラックボックス問題？なぜその結果が得られるのかわからない解決策：XAI（説明可能なAI）  BERT：Attentionの可視化やLIME1  問題点  トークン単位で抽出するため根拠として適切でない場合（例：が、です）  2文の関連性を考慮していない

目的類似性判定の根拠となる文節ペアの抽出 4 • 二階建てのバスが道路を走ってきます。 • 二階建てバスが停車しているところです。理想の抽出例

根拠の抽出のメリット 1. 判断の根拠は、モデルの性能の評価に使うことができる  誤分類→誤分類の原因を探すことができる  正分類→正しい根拠で判断できているのか評価できる 2. 根拠が可視化できれば、情報の比較の手助けになる 5
類似の根拠（共通点）非類似の根拠（差異）

関連研究：機械学習モデルの解釈手法による競合サービスと比較したレビュー分析1  目的：ホテルのレビューから違いを抽出  学習：LSTMによりどちらのホテルについてのレビューかを判断  実験  データ：2つのホテルのレビュー各5234件
①レビューがどちらのホテルか分類 ②SP-LIMEにより単語を抽出  結果  SP-LIMEにより各ホテルの特徴語を抽出できた 6 SP-LIMEによる抽出負：アパホテル正：コンフォートホテル 1.小野川稜之, 折原良平, 清雄一, 田原康之, 大須賀昭彦. 機械学習モデルの解釈手法による競合サービスと比較したレビュー分析. 日本ソフトウェア科学会大会論文集, Vol. 36, pp. 337–343, 2019.

1.小野川稜之, 折原良平, 清雄一, 田原康之, 大須賀昭彦. 機械学習モデルの解釈手法による競合サービスと比較したレビュー分析. 日本ソフトウェア科学会大会論文集, Vol. 36, pp.
337–343, 2019. 関連研究：機械学習モデルの解釈手法による競合サービスと比較したレビュー分析1  目的：ホテルのレビューから違いを抽出  学習：LSTMによりどちらのホテルについてのレビューかを判断  実験  データ：2つのホテルのレビュー各5234件 ①レビューがどちらのホテルか分類 ②SP-LIMEにより単語を抽出  結果  SP-LIMEにより各ホテルの特徴語を抽出できた 7 SP-LIMEによる抽出負：アパホテル正：コンフォートホテル関連研究では文章集合から各ホテルの特徴を抽出しているが、朝食は「和食」⇔「洋食」、大浴場は共通して「広い」「綺麗」など 2つのホテルに共通する話題からそれぞれの特徴は抽出していない文節ペアに注目し、ペア文から共通点や差異の抽出を行いたい

文節ペアに注目 8 対応する文節ペアに注目走る⇔停車する対になっているペア二階建てのバスが道路を走ってきます。
二階建てバスが停車しているところです。非類似の根拠  文節ペアに注目し根拠を抽出する

根拠の抽出 9 類似0.2，非類似0.8 BERT 二階建てのバスが道路を走ってきます。
二階建てバスが停車しているところです。 [SEP] マスク前文節ペアを隠した入力ともとの入力を比較し根拠を抽出

根拠の抽出類似0.7，非類似0.3 BERT 二階建てのバスが道路を [MASK] きます。二階建てバスが
[MASK] ところです。 [SEP] 類似0.2，非類似0.8 「走って」と「停車している」をマスクマスク前マスク前後で類似と非類似の確率が逆転 →非類似の根拠として抽出 10

提案手法：文節ペアを用いた根拠の抽出 11 ⑧ 根拠ペアの抽出
⑥ 類似確率の予測 ② 文節分割 ③ 文節類似度の計算 ④ 文節ペアの作成 ⑤ 文節ペアのマスク ⑥ 類似確率の予測 ① 入力文ペア ① 入力文ペア A. マスク前 B. マスク後 ⑦ A と B の類似確率の比較

入力文ペア  類似または非類似というラベルが与えられた2文のペア使用データ  早稲田大学とヤフー株式会社が構築したJGLUE内のJSTSデータセット1  JGLUEは日本語の言語理解モデル用のベンチマーク  JSTSデータセットには意味が完全に異なるものを0，意味が等価であるものを
5として0～5までの数字が2文の類似度として与えられている  訓練3,200件検証400件テスト400件（類似：非類似＝1：1） 13 1.栗原健太郎, 河原大輔, 柴田知秀. JGLUE: 日本語言語理解ベンチマーク. 言語処理学会第28回年次大会発表論文集, pp.2023–2028, 2022.

入力文ペア  類似：類似度3.8～5.0  非類似：類似度2.0～2.6 14 類似：2,290件非類似：2,208件類似度デ
ータ件数（件）

文節分割・文節類似度の計算 1. GiNZAによる文節分割 ① 二階建ての / バスが / 道路を /
走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較（文1の文節数×文2の文節数） 16 BERT BERT コサイン類似度二階建ての二階建てバスが Sentence-BERT

二・・・ます・・・です [SEP] [SEP] [CLS] BERT1とは 
Transformer Encoderによって構成される自然言語処理モデル  ファインチューニングにより分類や質問応答など様々なタスクにおいて高精度な処理を行うことができる 17 BERT CLSベクトルシグモイド関数類似、非類似 1.Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional trans- formers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1, pp. 4171–4186, 2019. 階建て二階建てバスところき

Sentence-BERT1とは  2つの文章をそれぞれ同じモデルに入力してベクトルを生成し、文章の関係性を判定する  大量の文章がある場合、高精度かつ高速に類似度を求めることができる  事前学習済みモデル（sonoisa/sentence-bert-base-ja-mean- tokens-v2）を使用
18 BERT BERT 予測ベクトル（類似度）文章A 文章B 平均ベクトル平均ベクトル共通のモデル 1.Nils Reimers and Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pp.3982–3992, 2019.

走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較（文1の文節数×文2の文節数） 19 BERT BERT コサイン類似度二階建ての二階建てバスが

走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較（文1の文節数×文2の文節数） 20 BERT BERT コサイン類似度二階建ての停車している

文節ペアの作成 3. 類似度の高いものからペアを作成 22 類似度の高い上位5件文1 文2 類似度バスが二階建てバスが
0.739 きます。ところです。 0.608 二階建ての二階建てバスが 0.473 走って停車している 0.341 走ってところです。 0.286 ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

0.739 きます。ところです。 0.608 二階建ての二階建てバスが 0.473 走って停車している 0.341 走ってところです。 0.286 文節ペア① ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

0.739 きます。ところです。 0.608 二階建ての二階建てバスが 0.473 走って停車している 0.341 走ってところです。 0.286 文節ペア① 文節ペア② ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

0.739 きます。ところです。 0.608 二階建ての二階建てバスが 0.473 走って停車している 0.341 走ってところです。 0.286 文節ペア③ 「二階建てバスが」が文節ペア①に含まれるためこのペアは省略文節ペア① 文節ペア② ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

文節ペアの作成 3. 類似度の高いものからペアを作成 26 文1が5文節、文2が3文節のため、文節ペア数は3とする文1の「二階建ての」と「道路を」という文節がペアを作れず対応なしとして扱う ① 二階建ての /
バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

文節ペアのマスク文節ペア「走って」と「停車している」の場合 ① 二階建てのバスが道路を[MASK]きます。 ② 二階建てバスが[MASK]ところです。 28 二階建てのバスが
道路を [MASK] きます。二階建てバスが [MASK] ところです。 [SEP] BERT

文節ペアのマスク対応なし「道路を」の場合 ① 二階建てのバスが[MASK]走ってきます。 ② 二階建てバスが停車しているところです。 29 二階建てのバスが
[MASK] 走ってきます。二階建てバスが停車しているところです。 [SEP] BERT

類似確率の予測  BERTモデルに2文を入力して類似性をはかるモデルを対象とする  東北大学の事前学習済みモデル（cl-tohoku/bert-base-japanese-v3） 31 類似確率，非類似確率 BERT 二階建ての
バスが道路を走ってきます。二階建てバスが停車しているところです。 [SEP]

根拠の抽出 33 類似0.2，非類似0.8 BERT 二階建てのバスが道路を走ってきます。
二階建てバスが停車しているところです。 [SEP] マスク前文節ペアを隠した入力ともとの入力を比較し根拠を抽出

根拠ペアの抽出類似0.7，非類似0.3 BERT 二階建てのバスが道路を [MASK] きます。二階建てバスが
[MASK] ところです。 [SEP] 類似0.2，非類似0.8 「走って」と「停車している」をマスクマスク前マスク前後で類似と非類似の判定が逆転 →非類似の根拠として抽出 34

根拠ペアの抽出類似0.3，非類似0.7 BERT 二階建ての [MASK] 道路を走ってきます。 [MASK]
停車しているところです。 [SEP] 類似0.2，非類似0.8 「バスが」と「二階建てバスが」をマスクマスク前マスク前後で類似と非類似の判定が変化せず →根拠の抽出なし 35

比較手法  比較手法：LIME  LIMEとは？ ① 学習したモデルに文章の一部をマスクした状態で入力する ② 一部をマスクした入力とそれに対して得られた出力のペアを作る ③
入力と出力のペアを用いて線形回帰を行う ④ 線形回帰の結果より、出力に影響を与えた単語を特徴語として抽出する  LIMEの設定  サンプルサイズ（線形回帰に使うペアの数）：5,000件  抽出語数：上位10件 36

非類似文ペアを入力した際の根拠の抽出 37 LIME （比較手法）二階建てのバスが道路を走ってきます。 [SEP]二階建てバスが停車しているところです。文節ペア（提案手法）二階建てのバスが道路を走ってきます。 [SEP]二階建てバスが停車しているところです。
〇「走って」⇔「停車している」という対応ペアと1文目のみに出現する「道路を」という文節を非類似の根拠として抽出できた

類似文ペアを入力した際の根拠の抽出 38 〇「ジャンプしている」＝「ジャンプしています。」という共通しているペアを類似の根拠として抽出できた文節ペア（提案手法） LIME （比較手法）スケートボードでジャンプしている男性がいます。 [SEP]男性がスケートボードでジャンプしています。
スケートボードでジャンプしている男性がいます。 [SEP]男性がスケートボードでジャンプしています。

非類似を類似と誤分類した際の根拠の抽出 39 共通する文節が類似という誤分類に影響を与えている「芝生の」と「道路の」という違いに注目していない芝生の真ん中に、消火栓が設置されています。 [SEP]道路の真ん中に、消火栓が設置されています。文節ペア（提案手法）

結果のまとめ うまくいった点  共通点、差異を表す根拠を対応する文節ペアで抽出することができた  文節を抽出の単位とすることで付属語が単体で抽出されず、根拠として理解しやすくなった うまくいかなかった点 
全ての共通点、差異を抽出できたわけではなかった  類似文から差異、非類似文から共通点をあらわすような文節ペアは抽出できなかった 40

課題 ① 類似文の中の差異、非類似文の中の共通語を抽出することができない原因 類似、非類似の判定が逆転するペアのみ根拠として抽出したため 正解ラベルに分類される確率が1に近い値だったため 41 現状
二階建てのバスが道路を走ってきます。 [SEP]二階建てバスが停車しているところです。

課題 ① 類似文の中の差異、非類似文の中の共通語を抽出することができない原因 類似、非類似の判定が逆転するペアのみ根拠として抽出したため 正解ラベルに分類される確率が1に近い値だったため 42 二階建てのバスが道路を走ってきます。
[SEP]二階建てバスが停車しているところです。理想

課題 ② 文節ペアによっては共通する部分を比較できない例えば「二階建ての/バスが」と「二階建てバスが」の場合 43 二階建てバスが停車しているところです。二階建てのバスが
道路を走ってきます。

課題 ② 文節ペアによっては共通する部分を比較できない例えば「二階建てバスが」と「二階建ての/バスが」の場合 44 二階建てバスが停車しているところです。二階建てのバスが
道路を走ってきます。二階建てのバスが道路を走ってきます。二階建てバスが停車しているところです。理想

課題 ③ 文章内の文節に対応がないと根拠が抽出できない 45 綺麗に掃除されたトイレがあります。茶系統のタイル張りの
部屋のトイレです。「トイレが」と「トイレです。」を除き、文節ペアに意味的な関連なし →文節ペアをマスクしても分類確率に変化なし

まとめ  工夫点：文節ペアによる抽出  結果  類似→共通点の抽出  非類似→差異の抽出 
誤分類→学習の不足部分の抽出  課題  課題  類似文中の差異、非類似文中の共通点の抽出  より適切なペアの作成方法の検討 46 類似性判定の根拠の抽出

文章間類似性判定モデルの 根拠の抽出

文章間類似性判定モデルの 根拠の抽出

More Decks by 兵庫県立大学 山本研究室

Featured

Transcript

文章間類似性判定モデルの根拠の抽出

文章間類似性判定モデルの根拠の抽出

More Decks by 兵庫県立大学山本研究室