Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文章間類似性判定モデルの 根拠の抽出

文章間類似性判定モデルの 根拠の抽出

More Decks by 兵庫県立大学 山本研究室

Transcript

  1. 日常生活での情報比較 日常生活で情報を比較する機会は多い  例えばオンラインショッピングでは… 2 圧巻の重低音を再生する新規設計ド ライバー.完全ワイヤレスで重要な装 着感を追求しながら,圧巻の重低音を 再生する大口径ドライバーを新規開発. 高い密閉性により低音を逃しません.

    高音域から低音域までバランスの良 いクリアな音質.高音から低音までバ ランスが良く,特にボーカルや楽器の 音を自然でクリアにお楽しみいただけ ます. 低音重視 高音から低音までの バランス重視 イヤホンA イヤホンB
  2. ブラックボックス問題と解決策 3 1.Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin.

    “Why Should I Trust You”:Explaining the Predictions of Any Classifier. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, pp. 97–101, 2016. 関連する文章を比較するモデルが存在する  関連文書の検索やコピペチェッカーなど 課題:ブラックボックス問題 ?なぜその結果が得られるのかわからない 解決策:XAI(説明可能なAI)  BERT:Attentionの可視化やLIME1  問題点  トークン単位で抽出するため根拠として適切でない場合 (例:が、です)  2文の関連性を考慮していない
  3. 関連研究:機械学習モデルの解釈手法による 競合サービスと比較したレビュー分析1  目的:ホテルのレビューから違いを抽出  学習:LSTMによりどちらのホテルについてのレビューかを判断  実験  データ:2つのホテルのレビュー各5234件

    ①レビューがどちらのホテルか分類 ②SP-LIMEにより単語を抽出  結果  SP-LIMEにより各ホテルの特徴語を抽出できた 6 SP-LIMEによる抽出 負:アパホテル 正:コンフォートホテル 1.小野川稜之, 折原良平, 清雄一, 田原康之, 大須賀昭彦. 機械学習モデルの解釈手法による競合サービスと比較したレビュー分析. 日本ソフトウェア科学会大会論文集, Vol. 36, pp. 337–343, 2019.
  4. 1.小野川稜之, 折原良平, 清雄一, 田原康之, 大須賀昭彦. 機械学習モデルの解釈手法による競合サービスと比較したレビュー分析. 日本ソフトウェア科学会大会論文集, Vol. 36, pp.

    337–343, 2019. 関連研究:機械学習モデルの解釈手法による 競合サービスと比較したレビュー分析1  目的:ホテルのレビューから違いを抽出  学習:LSTMによりどちらのホテルについてのレビューかを判断  実験  データ:2つのホテルのレビュー各5234件 ①レビューがどちらのホテルか分類 ②SP-LIMEにより単語を抽出  結果  SP-LIMEにより各ホテルの特徴語を抽出できた 7 SP-LIMEによる抽出 負:アパホテル 正:コンフォートホテル 関連研究では文章集合から各ホテルの特徴を抽出しているが、 朝食は「和食」⇔「洋食」、大浴場は共通して「広い」「綺麗」など 2つのホテルに共通する話題からそれぞれの特徴は抽出していない 文節ペアに注目し、ペア文から共通点や差異の抽出を行いたい
  5. 文節ペアに注目 8 対応する文節ペアに注目 走る⇔停車する 対になっているペア 二階建ての バスが 道路を 走って きます。

    二階建てバスが 停車している ところです。 非類似の根拠  文節ペアに注目し根拠を抽出する
  6. 根拠の抽出 9 類似0.2, 非類似0.8 BERT 二階建ての バスが 道路を 走って きます。

    二階建てバスが 停車している ところです。 [SEP] マスク前 文節ペアを隠した入力ともとの入力を比較し根拠を抽出
  7. 根拠の抽出 類似0.7, 非類似0.3 BERT 二階建ての バスが 道路を [MASK] きます。 二階建てバスが

    [MASK] ところです。 [SEP] 類似0.2, 非類似0.8 「走って」と「停車している」をマスク マスク前 マスク前後で類似と非類似 の確率が逆転 →非類似の根拠として抽出 10
  8. 提案手法:文節ペアを用いた根拠の抽出 11 ⑧ 根 拠 ペ ア の 抽 出

    ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較
  9. 提案手法:文節ペアを用いた根拠の抽出 12 ⑧ 根 拠 ペ ア の 抽 出

    ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較
  10. 入力文ペア  類似または非類似というラベルが与えられた2文のペア 使用データ  早稲田大学とヤフー株式会社が構築したJGLUE内のJSTSデータセット1  JGLUEは日本語の言語理解モデル用のベンチマーク  JSTSデータセットには意味が完全に異なるものを0,意味が等価であるものを

    5として0~5までの数字が2文の類似度として与えられている  訓練3,200件 検証400件 テスト400件(類似:非類似=1:1) 13 1.栗原健太郎, 河原大輔, 柴田知秀. JGLUE: 日本語言語理解ベンチマーク. 言語処理学会第28回年次大会発表論文集, pp.2023–2028, 2022.
  11. 提案手法:文節ペアを用いた根拠の抽出 15 ⑧ 根 拠 ペ ア の 抽 出

    ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較
  12. 文節分割・文節類似度の計算 1. GiNZAによる文節分割 ① 二階建ての / バスが / 道路を /

    走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較(文1の文節数×文2の文節数) 16 BERT BERT コサイン類似度 二階建ての 二階建てバスが Sentence-BERT
  13. 二 ・・・ ます ・・・ です [SEP] [SEP] [CLS] BERT1とは 

    Transformer Encoderによって構成される自然言語処理モデル  ファインチューニングにより分類や質問応答など様々なタスクに おいて高精度な処理を行うことができる 17 BERT CLSベクトル シグモイド関数 類似、非類似 1.Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional trans- formers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1, pp. 4171–4186, 2019. 階 建て 二 階 建て バス ところ き
  14. Sentence-BERT1とは  2つの文章をそれぞれ同じモデルに入力してベクトルを生成し、文章 の関係性を判定する  大量の文章がある場合、高精度かつ高速に類似度を求めることが できる  事前学習済みモデル(sonoisa/sentence-bert-base-ja-mean- tokens-v2)を使用

    18 BERT BERT 予測ベクトル(類似度) 文章A 文章B 平均ベクトル 平均ベクトル 共通のモデル 1.Nils Reimers and Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pp.3982–3992, 2019.
  15. 文節分割・文節類似度の計算 1. GiNZAによる文節分割 ① 二階建ての / バスが / 道路を /

    走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較(文1の文節数×文2の文節数) 19 BERT BERT コサイン類似度 二階建ての 二階建てバスが
  16. 文節分割・文節類似度の計算 1. GiNZAによる文節分割 ① 二階建ての / バスが / 道路を /

    走って / きます。 ② 二階建てバスが / 停車している / ところです。 2. Sentence-BERTによる類似度比較(文1の文節数×文2の文節数) 20 BERT BERT コサイン類似度 二階建ての 停車している
  17. 提案手法:文節ペアを用いた根拠の抽出 21 ⑧ 根 拠 ペ ア の 抽 出

    ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較
  18. 文節ペアの作成 3. 類似度の高いものからペアを作成 22 類似度の高い上位5件 文1 文2 類似度 バスが 二階建てバスが

    0.739 きます。 ところです。 0.608 二階建ての 二階建てバスが 0.473 走って 停車している 0.341 走って ところです。 0.286 ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。
  19. 文節ペアの作成 3. 類似度の高いものからペアを作成 23 類似度の高い上位5件 文1 文2 類似度 バスが 二階建てバスが

    0.739 きます。 ところです。 0.608 二階建ての 二階建てバスが 0.473 走って 停車している 0.341 走って ところです。 0.286 文節ペア① ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。
  20. 文節ペアの作成 3. 類似度の高いものからペアを作成 24 類似度の高い上位5件 文1 文2 類似度 バスが 二階建てバスが

    0.739 きます。 ところです。 0.608 二階建ての 二階建てバスが 0.473 走って 停車している 0.341 走って ところです。 0.286 文節ペア① 文節ペア② ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。
  21. 文節ペアの作成 3. 類似度の高いものからペアを作成 25 類似度の高い上位5件 文1 文2 類似度 バスが 二階建てバスが

    0.739 きます。 ところです。 0.608 二階建ての 二階建てバスが 0.473 走って 停車している 0.341 走って ところです。 0.286 文節ペア③ 「二階建てバスが」が 文節ペア①に含まれるため このペアは省略 文節ペア① 文節ペア② ① 二階建ての / バスが / 道路を / 走って / きます。 ② 二階建てバスが / 停車している / ところです。
  22. 提案手法:文節ペアを用いた根拠の抽出 27 ⑧ 根 拠 ペ ア の 抽 出

    ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較
  23. 提案手法:文節ペアを用いた根拠の抽出 30 ⑧ 根 拠 ペ ア の 抽 出

    ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較
  24. 提案手法:文節ペアを用いた根拠の抽出 32 ⑧ 根 拠 ペ ア の 抽 出

    ⑥ 類 似 確 率 の 予 測 ② 文 節 分 割 ③ 文 節 類 似 度 の 計 算 ④ 文 節 ペ ア の 作 成 ⑤ 文 節 ペ ア の マ ス ク ⑥ 類 似 確 率 の 予 測 ① 入 力 文 ペ ア ① 入 力 文 ペ ア A. マ ス ク 前 B. マ ス ク 後 ⑦ A と B の 類 似 確 率 の 比 較
  25. 根拠の抽出 33 類似0.2, 非類似0.8 BERT 二階建ての バスが 道路を 走って きます。

    二階建てバスが 停車している ところです。 [SEP] マスク前 文節ペアを隠した入力ともとの入力を比較し根拠を抽出
  26. 根拠ペアの抽出 類似0.7, 非類似0.3 BERT 二階建ての バスが 道路を [MASK] きます。 二階建てバスが

    [MASK] ところです。 [SEP] 類似0.2, 非類似0.8 「走って」と「停車している」をマスク マスク前 マスク前後で類似と非類似 の判定が逆転 →非類似の根拠として抽出 34
  27. 根拠ペアの抽出 類似0.3, 非類似0.7 BERT 二階建ての [MASK] 道路を 走って きます。 [MASK]

    停車している ところです。 [SEP] 類似0.2, 非類似0.8 「バスが」と「二階建てバスが」をマスク マスク前 マスク前後で類似と非類似 の判定が変化せず →根拠の抽出なし 35
  28. 比較手法  比較手法:LIME  LIMEとは? ① 学習したモデルに文章の一部をマスクした状態で入力する ② 一部をマスクした入力とそれに対して得られた出力のペアを作る ③

    入力と出力のペアを用いて線形回帰を行う ④ 線形回帰の結果より、出力に影響を与えた単語を特徴語として 抽出する  LIMEの設定  サンプルサイズ(線形回帰に使うペアの数):5,000件  抽出語数:上位10件 36
  29. 課題 ③ 文章内の文節に対応がないと根拠が抽出できない 45 綺麗に 掃除された トイレが あります。 茶系統の タイル張りの

    部屋の トイレです。 「トイレが」と「トイレです。」を除き、文節ペアに意味的な 関連なし →文節ペアをマスクしても分類確率に変化なし
  30. まとめ  工夫点:文節ペアによる抽出  結果  類似→共通点の抽出  非類似→差異の抽出 

    誤分類→学習の不足部分の抽出  課題  課題  類似文中の差異、非類似文中の共通点の抽出  より適切なペアの作成方法の検討 46 類似性判定の根拠の抽出