Slide 1

Slide 1 text

文章間類似性判定モデルの 根拠の抽出 兵庫県立大学 中井香那子 河田友香 山本岳洋 1

Slide 2

Slide 2 text

日常生活での情報比較 日常生活で情報を比較する機会は多い  例えばオンラインショッピングでは… 2 圧巻の重低音を再生する新規設計ド ライバー.完全ワイヤレスで重要な装 着感を追求しながら,圧巻の重低音を 再生する大口径ドライバーを新規開発. 高い密閉性により低音を逃しません. 高音域から低音域までバランスの良 いクリアな音質.高音から低音までバ ランスが良く,特にボーカルや楽器の 音を自然でクリアにお楽しみいただけ ます. 低音重視 高音から低音までの バランス重視 イヤホンA イヤホンB

Slide 3

Slide 3 text

ブラックボックス問題と解決策 3 1.Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. “Why Should I Trust You”:Explaining the Predictions of Any Classifier. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, pp. 97–101, 2016. 関連する文章を比較するモデルが存在する  関連文書の検索やコピペチェッカーなど 課題:ブラックボックス問題 ?なぜその結果が得られるのかわからない 解決策:XAI(説明可能なAI)  BERT:Attentionの可視化やLIME1  問題点  トークン単位で抽出するため根拠として適切でない場合 (例:が、です)  2文の関連性を考慮していない

Slide 4

Slide 4 text

目的 類似性判定の根拠となる 文節ペアの抽出 4 • 二階建てのバスが道路を走ってきます。 • 二階建てバスが停車しているところです。 理想の抽出例

Slide 5

Slide 5 text

根拠の抽出のメリット 1. 判断の根拠は、モデルの性能の評価に使うことができる  誤分類→誤分類の原因を探すことができる  正分類→正しい根拠で判断できているのか評価できる 2. 根拠が可視化できれば、情報の比較の手助けになる 5 類似の根拠(共通点) 非類似の根拠(差異)

Slide 6

Slide 6 text

関連研究:機械学習モデルの解釈手法による 競合サービスと比較したレビュー分析1  目的:ホテルのレビューから違いを抽出  学習:LSTMによりどちらのホテルについてのレビューかを判断  実験  データ:2つのホテルのレビュー各5234件 ①レビューがどちらのホテルか分類 ②SP-LIMEにより単語を抽出  結果  SP-LIMEにより各ホテルの特徴語を抽出できた 6 SP-LIMEによる抽出 負:アパホテル 正:コンフォートホテル 1.小野川稜之, 折原良平, 清雄一, 田原康之, 大須賀昭彦. 機械学習モデルの解釈手法による競合サービスと比較したレビュー分析. 日本ソフトウェア科学会大会論文集, Vol. 36, pp. 337–343, 2019.

Slide 7

Slide 7 text

1.小野川稜之, 折原良平, 清雄一, 田原康之, 大須賀昭彦. 機械学習モデルの解釈手法による競合サービスと比較したレビュー分析. 日本ソフトウェア科学会大会論文集, Vol. 36, pp. 337–343, 2019. 関連研究:機械学習モデルの解釈手法による 競合サービスと比較したレビュー分析1  目的:ホテルのレビューから違いを抽出  学習:LSTMによりどちらのホテルについてのレビューかを判断  実験  データ:2つのホテルのレビュー各5234件 ①レビューがどちらのホテルか分類 ②SP-LIMEにより単語を抽出  結果  SP-LIMEにより各ホテルの特徴語を抽出できた 7 SP-LIMEによる抽出 負:アパホテル 正:コンフォートホテル 関連研究では文章集合から各ホテルの特徴を抽出しているが、 朝食は「和食」⇔「洋食」、大浴場は共通して「広い」「綺麗」など 2つのホテルに共通する話題からそれぞれの特徴は抽出していない 文節ペアに注目し、ペア文から共通点や差異の抽出を行いたい

Slide 8

Slide 8 text

文節ペアに注目 8 対応する文節ペアに注目 走る⇔停車する 対になっているペア 二階建ての バスが 道路を 走って きます。 二階建てバスが 停車している ところです。 非類似の根拠  文節ペアに注目し根拠を抽出する

Slide 9

Slide 9 text

根拠の抽出 9 類似0.2, 非類似0.8 BERT 二階建ての バスが 道路を 走って きます。 二階建てバスが 停車している ところです。 [SEP] マスク前 文節ペアを隠した入力ともとの入力を比較し根拠を抽出

Slide 10

Slide 10 text

根拠の抽出 類似0.7, 非類似0.3 BERT 二階建ての バスが 道路を [MASK] きます。 二階建てバスが [MASK] ところです。 [SEP] 類似0.2, 非類似0.8 「走って」と「停車している」をマスク マスク前 マスク前後で類似と非類似 の確率が逆転 →非類似の根拠として抽出 10

Slide 11

Slide 11 text

提案手法:文節ペアを用いた根拠の抽出 11 ⑧ 根 拠 ペ ア の 抽 出 ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較

Slide 12

Slide 12 text

提案手法:文節ペアを用いた根拠の抽出 12 ⑧ 根 拠 ペ ア の 抽 出 ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較

Slide 13

Slide 13 text

入力文ペア  類似または非類似というラベルが与えられた2文のペア 使用データ  早稲田大学とヤフー株式会社が構築したJGLUE内のJSTSデータセット1  JGLUEは日本語の言語理解モデル用のベンチマーク  JSTSデータセットには意味が完全に異なるものを0,意味が等価であるものを 5として0~5までの数字が2文の類似度として与えられている  訓練3,200件 検証400件 テスト400件(類似:非類似=1:1) 13 1.栗原健太郎, 河原大輔, 柴田知秀. JGLUE: 日本語言語理解ベンチマーク. 言語処理学会第28回年次大会発表論文集, pp.2023–2028, 2022.

Slide 14

Slide 14 text

入力文ペア  類似:類似度3.8~5.0  非類似:類似度2.0~2.6 14 類似:2,290件 非類似:2,208件 類似度 デ ー タ 件 数 ( 件 )

Slide 15

Slide 15 text

提案手法:文節ペアを用いた根拠の抽出 15 ⑧ 根 拠 ペ ア の 抽 出 ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較

Slide 16

Slide 16 text

文節分割・文節類似度の計算 1. GiNZAによる文節分割 ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較(文1の文節数×文2の文節数) 16 BERT BERT コサイン類似度 二階建ての 二階建てバスが Sentence-BERT

Slide 17

Slide 17 text

二 ・・・ ます ・・・ です [SEP] [SEP] [CLS] BERT1とは  Transformer Encoderによって構成される自然言語処理モデル  ファインチューニングにより分類や質問応答など様々なタスクに おいて高精度な処理を行うことができる 17 BERT CLSベクトル シグモイド関数 類似、非類似 1.Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional trans- formers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1, pp. 4171–4186, 2019. 階 建て 二 階 建て バス ところ き

Slide 18

Slide 18 text

Sentence-BERT1とは  2つの文章をそれぞれ同じモデルに入力してベクトルを生成し、文章 の関係性を判定する  大量の文章がある場合、高精度かつ高速に類似度を求めることが できる  事前学習済みモデル(sonoisa/sentence-bert-base-ja-mean- tokens-v2)を使用 18 BERT BERT 予測ベクトル(類似度) 文章A 文章B 平均ベクトル 平均ベクトル 共通のモデル 1.Nils Reimers and Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pp.3982–3992, 2019.

Slide 19

Slide 19 text

文節分割・文節類似度の計算 1. GiNZAによる文節分割 ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較(文1の文節数×文2の文節数) 19 BERT BERT コサイン類似度 二階建ての 二階建てバスが

Slide 20

Slide 20 text

文節分割・文節類似度の計算 1. GiNZAによる文節分割 ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較(文1の文節数×文2の文節数) 20 BERT BERT コサイン類似度 二階建ての 停車している

Slide 21

Slide 21 text

提案手法:文節ペアを用いた根拠の抽出 21 ⑧ 根 拠 ペ ア の 抽 出 ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較

Slide 22

Slide 22 text

文節ペアの作成 3. 類似度の高いものからペアを作成 22 類似度の高い上位5件 文1 文2 類似度 バスが 二階建てバスが 0.739 きます。 ところです。 0.608 二階建ての 二階建てバスが 0.473 走って 停車している 0.341 走って ところです。 0.286 ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

Slide 23

Slide 23 text

文節ペアの作成 3. 類似度の高いものからペアを作成 23 類似度の高い上位5件 文1 文2 類似度 バスが 二階建てバスが 0.739 きます。 ところです。 0.608 二階建ての 二階建てバスが 0.473 走って 停車している 0.341 走って ところです。 0.286 文節ペア① ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

Slide 24

Slide 24 text

文節ペアの作成 3. 類似度の高いものからペアを作成 24 類似度の高い上位5件 文1 文2 類似度 バスが 二階建てバスが 0.739 きます。 ところです。 0.608 二階建ての 二階建てバスが 0.473 走って 停車している 0.341 走って ところです。 0.286 文節ペア① 文節ペア② ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

Slide 25

Slide 25 text

文節ペアの作成 3. 類似度の高いものからペアを作成 25 類似度の高い上位5件 文1 文2 類似度 バスが 二階建てバスが 0.739 きます。 ところです。 0.608 二階建ての 二階建てバスが 0.473 走って 停車している 0.341 走って ところです。 0.286 文節ペア③ 「二階建てバスが」が 文節ペア①に含まれるため このペアは省略 文節ペア① 文節ペア② ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

Slide 26

Slide 26 text

文節ペアの作成 3. 類似度の高いものからペアを作成 26 文1が5文節、文2が3文節のため、文節ペア数は3とする 文1の「二階建ての」と「道路を」という文節がペアを作れず 対応なしとして扱う ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。

Slide 27

Slide 27 text

提案手法:文節ペアを用いた根拠の抽出 27 ⑧ 根 拠 ペ ア の 抽 出 ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較

Slide 28

Slide 28 text

文節ペアのマスク 文節ペア 「走って」と「停車している」の場合 ① 二階建てのバスが道路を[MASK]きます。 ② 二階建てバスが[MASK]ところです。 28 二階建ての バスが 道路を [MASK] きます。 二階建てバスが [MASK] ところです。 [SEP] BERT

Slide 29

Slide 29 text

文節ペアのマスク 対応なし 「道路を」の場合 ① 二階建てのバスが[MASK]走ってきます。 ② 二階建てバスが停車しているところです。 29 二階建ての バスが [MASK] 走って きます。 二階建てバスが 停車している ところです。 [SEP] BERT

Slide 30

Slide 30 text

提案手法:文節ペアを用いた根拠の抽出 30 ⑧ 根 拠 ペ ア の 抽 出 ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較

Slide 31

Slide 31 text

類似確率の予測  BERTモデルに2文を入力して類似性をはかるモデルを対象とする  東北大学の事前学習済みモデル(cl-tohoku/bert-base-japanese-v3) 31 類似確率, 非類似確率 BERT 二階建ての バスが 道路を 走って きます。 二階建てバスが 停車している ところです。 [SEP]

Slide 32

Slide 32 text

提案手法:文節ペアを用いた根拠の抽出 32 ⑧ 根 拠 ペ ア の 抽 出 ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較

Slide 33

Slide 33 text

根拠の抽出 33 類似0.2, 非類似0.8 BERT 二階建ての バスが 道路を 走って きます。 二階建てバスが 停車している ところです。 [SEP] マスク前 文節ペアを隠した入力ともとの入力を比較し根拠を抽出

Slide 34

Slide 34 text

根拠ペアの抽出 類似0.7, 非類似0.3 BERT 二階建ての バスが 道路を [MASK] きます。 二階建てバスが [MASK] ところです。 [SEP] 類似0.2, 非類似0.8 「走って」と「停車している」をマスク マスク前 マスク前後で類似と非類似 の判定が逆転 →非類似の根拠として抽出 34

Slide 35

Slide 35 text

根拠ペアの抽出 類似0.3, 非類似0.7 BERT 二階建ての [MASK] 道路を 走って きます。 [MASK] 停車している ところです。 [SEP] 類似0.2, 非類似0.8 「バスが」と「二階建てバスが」をマスク マスク前 マスク前後で類似と非類似 の判定が変化せず →根拠の抽出なし 35

Slide 36

Slide 36 text

比較手法  比較手法:LIME  LIMEとは? ① 学習したモデルに文章の一部をマスクした状態で入力する ② 一部をマスクした入力とそれに対して得られた出力のペアを作る ③ 入力と出力のペアを用いて線形回帰を行う ④ 線形回帰の結果より、出力に影響を与えた単語を特徴語として 抽出する  LIMEの設定  サンプルサイズ(線形回帰に使うペアの数):5,000件  抽出語数:上位10件 36

Slide 37

Slide 37 text

非類似文ペアを入力した際の根拠の抽出 37 LIME (比較手法) 二階建てのバスが道路を走ってきます。 [SEP]二階建てバスが停車しているところです。 文節ペア (提案手法) 二階建てのバスが道路を走ってきます。 [SEP]二階建てバスが停車しているところです。 〇「走って」⇔「停車している」という対応ペアと1文目のみに出 現する「道路を」という文節を非類似の根拠として抽出できた

Slide 38

Slide 38 text

類似文ペアを入力した際の根拠の抽出 38 〇「ジャンプしている」=「ジャンプしています。」という共通して いるペアを類似の根拠として抽出できた 文節ペア (提案手法) LIME (比較手法) スケートボードでジャンプしている男性がいます。 [SEP]男性がスケートボードでジャンプしています。 スケートボードでジャンプしている男性がいます。 [SEP]男性がスケートボードでジャンプしています。

Slide 39

Slide 39 text

非類似を類似と誤分類した際の根拠の抽出 39 共通する文節が類似という誤分類に影響を与えている 「芝生の」と「道路の」という違いに注目していない 芝生の真ん中に、消火栓が設置されています。 [SEP]道路の真ん中に、消火栓が設置されています。 文節ペア (提案手法)

Slide 40

Slide 40 text

結果のまとめ うまくいった点  共通点、差異を表す根拠を対応する文節ペアで抽出すること ができた  文節を抽出の単位とすることで付属語が単体で抽出されず、 根拠として理解しやすくなった うまくいかなかった点  全ての共通点、差異を抽出できたわけではなかった  類似文から差異、非類似文から共通点をあらわすような文節 ペアは抽出できなかった 40

Slide 41

Slide 41 text

課題 ① 類似文の中の差異、非類似文の中の共通語を抽出 することができない 原因 類似、非類似の判定が逆転するペアのみ根拠として 抽出したため 正解ラベルに分類される確率が1に近い値だったため 41 現状 二階建てのバスが道路を走ってきます。 [SEP]二階建てバスが停車しているところです。

Slide 42

Slide 42 text

課題 ① 類似文の中の差異、非類似文の中の共通語を抽出 することができない 原因 類似、非類似の判定が逆転するペアのみ根拠として 抽出したため 正解ラベルに分類される確率が1に近い値だったため 42 二階建てのバスが道路を走ってきます。 [SEP]二階建てバスが停車しているところです。 理想

Slide 43

Slide 43 text

課題 ② 文節ペアによっては共通する部分を比較できない 例えば「二階建ての/バスが」と「二階建てバスが」の場合 43 二階建てバスが 停車している ところです。 二階建ての バスが 道路を 走って きます。

Slide 44

Slide 44 text

課題 ② 文節ペアによっては共通する部分を比較できない 例えば「二階建てバスが」と「二階建ての/バスが」の場合 44 二階建てバスが 停車している ところです。 二階建ての バスが 道路を 走って きます。 二階建ての バスが 道路を 走って きます。 二階建てバスが 停車している ところです。 理想

Slide 45

Slide 45 text

課題 ③ 文章内の文節に対応がないと根拠が抽出できない 45 綺麗に 掃除された トイレが あります。 茶系統の タイル張りの 部屋の トイレです。 「トイレが」と「トイレです。」を除き、文節ペアに意味的な 関連なし →文節ペアをマスクしても分類確率に変化なし

Slide 46

Slide 46 text

まとめ  工夫点:文節ペアによる抽出  結果  類似→共通点の抽出  非類似→差異の抽出  誤分類→学習の不足部分の抽出  課題  課題  類似文中の差異、非類似文中の共通点の抽出  より適切なペアの作成方法の検討 46 類似性判定の根拠の抽出