Upgrade to Pro — share decks privately, control downloads, hide ads and more …

行政対話システムにおける
検索エンジンTSUBAKIとBERT
を併用したFAQ検索の高度化...

行政対話システムにおける
検索エンジンTSUBAKIとBERT
を併用したFAQ検索の高度化 / Combining Search Engine TSUBAKI with BERT to Improve FAQ Retrieval in Local Government Dialogue System

言語処理学会第25回年次大会(NLP2019)における発表資料です。
発表者:坂田亘 (LINE), 柴田知秀, 田中リベカ, 黒橋禎夫 (京大)
http://www.anlp.jp/nlp2019/program.html#F5-1

LINE Developers

March 15, 2019
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. 背景:⾏政サービスの対話システム[⽥中+19] • 尼崎市、丹波市を対象に実証実験中 (NII, 兵庫県, 尼崎市, 丹波市, 京⼤, LINE共同) •

    ⾏政HPに存在するFAQを情報源とした応答 2 こんにちは こんにちは 転校⼿続きの⽅法は? 「引越しに伴う転校の⼿続きの ⽅法を知りたい。」について お答えします。転校の⼿続きは、… こんにちは。市内のイベントの ご案内です。… 場所はどこ? 柏原⼋幡宮横駐⾞場付近です。 道に⽳が空いています。 状況を確認しますので、 どちらの道路か教えてください。 雑談応答 ⾏政からの情報発信と質問応答 市⺠への個別対応 ⾏政 対話ボット •対話ログ確認 •FAQ更新 •情報発信 ユーザー (市⺠) ⼿続きが わからない 週末の イベントは? ⾃宅前の道路が 陥没していて困った FAQ応答
  2. q-Q 類似度 q-A 関連度 FAQ Q:ゴミの捨て⽅を教えて A:⽣活環境センターに電話して… Q:粗⼤ごみの捨て⽅は? A:センターに電話してください。 Q:蜂の巣を駆除してほしい

    A:⼀般家庭の住宅や敷地内にハチ の巣が… Q:郵送で税の証明書を取得したい A:証明書の郵送は… … … 提案⼿法 : q-Q類似度とq-A関連度の利⽤ 5 クエリq:ハチの巣の撤去はお願いできますか?
  3. q-Q 類似度 q-A 関連度 FAQ Q:ゴミの捨て⽅を教えて A:⽣活環境センターに電話して… Q:粗⼤ごみの捨て⽅は? A:センターに電話してください。 Q:蜂の巣を駆除してほしい

    A:⼀般家庭の住宅や敷地内にハチ の巣が… Q:郵送で税の証明書を取得したい A:証明書の郵送は… … … 提案⼿法 : q-Q類似度とq-A関連度の利⽤ 6 ユーザーのクエリqと QAのQが近い意味か クエリq:ハチの巣の撤去はお願いできますか? BM25をベースとした検索エンジ ンTSUBAKI[Shinzato+11]を利⽤
  4. q-Q 類似度 q-A 関連度 FAQ Q:ゴミの捨て⽅を教えて A:⽣活環境センターに電話して… Q:粗⼤ごみの捨て⽅は? A:センターに電話してください。 Q:蜂の巣を駆除してほしい

    A:⼀般家庭の住宅や敷地内にハチ の巣が… Q:郵送で税の証明書を取得したい A:証明書の郵送は… … … 提案⼿法 : q-Q類似度とq-A関連度の利⽤ 7 ユーザーのクエリqに 対してAが適切な回答 になっているか クエリq:ハチの巣の撤去はお願いできますか? • FAQを訓練データとしてQAペ アの関係の妥当性を学習 • 全国⾏政⾃治体のFAQページを 活⽤しQAペアを拡⼤ • BERT[Devlin+18]を利⽤し、学 習データが少ない場合でも質 問と回答の関連性を賢く学習 ユーザーのクエリqと QAのQが近い意味か BM25をベースとした検索エンジ ンTSUBAKI[Shinzato+11]を利⽤
  5. q-Q 類似度 q-A 関連度 FAQ Q:ゴミの捨て⽅を教えて A:⽣活環境センターに電話して… Q:粗⼤ごみの捨て⽅は? A:センターに電話してください。 Q:蜂の巣を駆除してほしい

    A:⼀般家庭の住宅や敷地内にハチ の巣が… Q:郵送で税の証明書を取得したい A:証明書の郵送は… … … 提案⼿法 : q-Q類似度とq-A関連度の利⽤ 8 クエリq:ハチの巣の撤去はお願いできますか? 両者の特徴を⽣かして統合し柔軟な検索を実現 ユーザーのクエリqに 対してAが適切な回答 になっているか ユーザーのクエリqと QAのQが近い意味か
  6. 10 Qa1: ⼤型ごみの出し⽅を教えて Qa2: ⼾籍謄本は郵送してもらえますか … Qb1: 粗⼤ごみの捨て⽅は? … …

    Qk1: 粗⼤ごみの出し⽅を教えてください Qk2: 郵送で税の証明書を取得したい … Aa1: ⽣活環境センターに電話して… Aa2: はい。証明書の要求は… … Ab1: センターに電話してください。 … … Ak1: センターに電話するか、… Ak2: 証明書の郵送は… q: ⼤型ごみを捨てたい Ak1: センターに電話するか、… Ak2: 証明書の郵送は… … 検索時 (k市) 0.92 0.01 0.02 全国⾃治体のQAペア 提案⼿法 : q-A関連度計算 訓練時 1 0 0
  7. 提案⼿法 : BERTによるq-A関連度計算 11 • BERT • ⼤規模コーパスでの事前学習とfine-tuningによって様々なタスクで 圧倒的精度改善 BERT

    E [CLS] E 1 E 2 C T 1 T 2 Single Sentence ... ... E [CLS] E 1 E [SEP] Class Label ... E N E 1 ’ ... E M ’ C T 1 T [SEP] ... T N T 1 ’ ... T M ’ Class Label BERT Tok 1 Tok 2 ... [CLS] Tok 1 [CLS] [CLS] Tok 1 [SEP] ... Tok N Tok 1 ... Tok M Sentence 1 Sentence 2 Q:⼤型ごみの出し⽅を教えて A:⽣活環境センターに電話して… 1 Qi : ⼤型ごみの出し⽅を教えて Ai : ⽣活環境センターに電話して… … Qj : 郵送で税の証明書を取得したい Aj :証明書の郵送は… …
  8. 提案⼿法 : BERTによるq-A関連度計算 12 • BERT • ⼤規模コーパスでの事前学習とfine-tuningによって様々なタスクで 圧倒的精度改善 BERT

    E [CLS] E 1 E 2 C T 1 T 2 Single Sentence ... ... E [CLS] E 1 E [SEP] Class Label ... E N E 1 ’ ... E M ’ C T 1 T [SEP] ... T N T 1 ’ ... T M ’ Class Label BERT Tok 1 Tok 2 ... [CLS] Tok 1 [CLS] [CLS] Tok 1 [SEP] ... Tok N Tok 1 ... Tok M Sentence 1 Sentence 2 Q:⼤型ごみの出し⽅を教えて A:証明書の郵送は… 0 Qi : ⼤型ごみの出し⽅を教えて Ai : ⽣活環境センターに電話して… … Qj : 郵送で税の証明書を取得したい Aj :証明書の郵送は… …
  9. 提案⼿法 : 統合モデル 13 • TSUBAKIのスコアが閾値以上のものは優先的に出⼒ • BERTの上位10件にTSUBAKIでのスコアを加算してリランキング • TSUBAKIによるq-Q類似度の計算

    • 利点 : スコアが⾼い時はprecision⾼ • ⽋点 : ⼤きな表現のズレには記号マッチングでは対処しきれない • BERTによるq-A関連度の計算 • 利点 : A部分を⾒ることでよりソフトなマッチングが可能 • ⽋点 : A部分がqの答えとして適切か判断しているだけなので関係ない ものも取得してしまう 統合モデル
  10. 実験設定 14 • 尼崎市FAQのQAを検索対象として実験(QA数 1780件) • BERT • ⽇本語 Wikipedia

    すべて (約 1,800 万⽂) でpretraining • 全国⾃治体21市のQA約2万ペアでfine-tuning • ⼊⼒⽂の前処理ではJuman++で単語分割 • 注意機構付BiLSTM [Ming+15]と⽐較
  11. 15 評価セット • クラウドソーシングで⾏政⾃治体への質問(q)を収集 ⼾籍謄本の発⾏をしていただきたいのですが代⾦はいく らかかかりますか? 新築住宅を購⼊したいのですが、減税措置について教えてほしいです センタープールのファン送迎バスはどの駅から出ていますか • クエリに対してTSUBAKI、BERTの出⼒QA上位5件の関連度を4段

    階で⼈⼿付与 • 関連している QA が⾒つからないqに対してはキーワードを変 え検索し直して正解QAを⾒つける • それでも関連QAが⾒つからないqは評価セットから除外 • 取得した784件のqを2:8に分割してdev, testセットとして利⽤
  12. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 TSUBAKI(q-Q) TSUBAKI(q-QA)

    BiLSTM BERT Proposed 実験結果 16 • BERTが既存⼿法(BiLSTM + attention)のスコアを上回る 0.50 0.62 0.56 0.50 0.35 TSUBAKI(q-Q) BiLSTM(q-A) TSUBAKI(q-QA) BERT(q-A) 統 合 モ デ ル 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 TSUBAKI(q-Q) TSUBAKI(q-QA) BiLSTM BERT Proposed 0.50 0.61 0.51 0.38 0.36 TSUBAKI(q-Q) BiLSTM(q-A) TSUBAKI(q-QA) BERT(q-A) nDCG • TSUBAKIとBERTでP@1はほぼ同じだがnDCGではBERT が上回っ ている→BERTは多くの候補を返せている • q-Q類似度とq-A関連度を併⽤することでどちらか⼀⽅のみを 利⽤するよりもスコア向上 P@1 (q-QA) 統 合 モ デ ル (q-QA)
  13. 分析 : スコアと正解率の関係 17 0 50 100 150 200 250

    300 350 400 450 (0.0,0.2) [0.2,0.4) [0.4,0.6) [0.6,0.8) [0.8,1.0) The number of correct or incorrect TOP1 Score TSUBAKI Correct Incorrect BERT Correct Incorrect スコアと各システムのTOP1出⼒の正解/不正解数の関係 • TSUBAKIが⾼いスコアである ときは⾼い確率で正解 • ⼀⽅、BERTはスコアと正解 率の相関が⼩さい →提案統合⼿法の有効性 を⽰している スコア 頻 度
  14. 結果例 18 ΫΤϦ TSUBAKI BERT ఏҊख๏ 職場のパワハラ 相談を受けてい る窓 ⼝はあり

    ますか? Q: キャリア相談を受けたいの ですが A: 相談場所。尼崎市⽵⾕町2 丁⽬183番地出屋敷リベル 3 階... Q: 仕事関係の問題で弁護⼠ に相談したい A: 賃⾦、解雇、労働災害な ど専⾨的かつ⾼度な労働問 題について... Q: 仕事関係の問題で弁護⼠ に相談したい A: 賃⾦、解雇、労働災害な ど専⾨的かつ⾼度な労働問 題について... 住⺠票が必要で すが、時間外と か⼟⽇に取るこ とは出来ます か? Q: 住⺠票は何処(どこ)で何時 (いつ)取れますか A: ... 住⺠票は平⽇と⼟曜⽇に 取得することができます... Q: マイナンバー付きの住⺠ 票 は代理⼈でも取得できま すか? A: マイナンバー付きの住⺠ 票は本⼈または... Q: 住⺠票は何処(どこ)で何 時(いつ)取れますか A: ... 住⺠票は平⽇と⼟曜⽇ に 取得することができま す... 楽器の練習に使 える場所はあり ませんか? Q: 期⽇前投票所の場所はどこ ですか A: 期⽇前投票所は市内に3カ 所あります... Q: 尼崎市少年⾳楽隊につい て教えて下さい A:「尼崎市少年⾳楽隊」に は、合唱隊、吹奏楽隊、... Q: 尼崎市少年⾳楽隊につい て教えて下さい A:「尼崎市少年⾳楽隊」に は、合唱隊、吹奏楽隊、... 正解として「Q : ⻘少年センター の館内施設の 案内・利⽤時間・休館⽇について 」が存在
  15. 背景:⾏政サービスの対話システム[⽥中+19] • 尼崎市、丹波市を対象に実証実験中 (NII, 兵庫県, 尼崎市, 丹波市, 京⼤, LINE共同) •

    ⾏政HPに存在するFAQを情報源とした応答 21 こんにちは こんにちは 転校⼿続きの⽅法は? 「引越しに伴う転校の⼿続きの ⽅法を知りたい。」について お答えします。転校の⼿続きは、… こんにちは。市内のイベントの ご案内です。… 場所はどこ? 柏原⼋幡宮横駐⾞場付近です。 道に⽳が空いています。 状況を確認しますので、 どちらの道路か教えてください。 雑談応答 ⾏政からの情報発信と質問応答 市⺠への個別対応 ⾏政 対話ボット • 対話ログ確認 • FAQ更新 • 情報発信 ユーザー (市⺠) ⼿続きが わからない 週末の イベントは? ⾃宅前の道路が 陥没していて困った FAQ応答
  16. 提案⼿法 • q-Q類似度の計算 • TSUBAKIを利⽤ • q-A関連度の計算 • 同ドメインの他のFAQページも横断 的に活⽤しQAペアを拡⼤

    • BERT[Devlin+ 18]を利⽤し、学習デー タが少ない場合でも質問と回答の関 連性を賢く学習 • 両者の特徴を⽣かして統合し柔軟 な検索を実現 22
  17. ⼿法 : BERTによるq-A関連度計算 23 • BERT • ⼤規模コーパスでの事前学習とfine- tuningによって様々なタスクで圧倒的精 度改善

    Q: ⼤型ごみの出し⽅を教えて。 Q: 粗⼤ごみの捨て⽅は。 Q:郵送で税の証明書を取得したい。 … A: ⽣活環境センターに電話して… A: センターに電話してください。 A:証明書の郵送は… … BERT E [CLS] E 1 E [SEP] ... E N E 1 ’ ... E M ’ C T 1 T [SEP] ... T N T 1 ’ ... T M ’ BERT E [CLS] E 1 C T 1 E [CLS] E 1 C T 1 O E [CLS] E 1 E [SEP] Class Label ... E N E 1 ’ ... E M ’ C T 1 T [SEP] ... T N T 1 ’ ... T M ’ Start/End Span Class Label Tok 1 [CLS] Tok 1 [CLS] [CLS] Tok 1 [SEP] ... Tok N Tok 1 ... Tok M Sentence 1 Sentence 2 • 多数の⾃治体のQAペアを収集し、QAペアの関係の妥当性を学習