Save 37% off PRO during our Black Friday Sale! »

質問応答に基づく対災害情報分析システム

F0374c992b2847f78a662cc964171343?s=47 nishi-k
April 22, 2016

 質問応答に基づく対災害情報分析システム

F0374c992b2847f78a662cc964171343?s=128

nishi-k

April 22, 2016
Tweet

Transcript

  1. 文献紹介 (2016/04/21) 質問応答に基づく対災害情報分析システム 長岡技術科学大学 学部4年 西山 浩気

  2. 参考文献 質問応答に基づく対災害情報分析システム,後 藤 淳, 大竹 清敬, Stijn De Saeger, 橋本

    力, J ulien Kloetzer, 川田 拓也, 鳥澤 健太郎, 自 然言語処理, (pp.367-404),2013
  3. 概要 ◦ 予め救援者側が用意した質問に対して被災 者側の情報がソーシャルメディア上から自動 的に通知できるシステムを構築 ◦ テストセット300個のうち回答が含まれる19 2問を評価  3001つの質問あたり605.8個程度回答

    再現率0.519, 適合率 0.608
  4. 背景 (1/2) 震災時には既存メディア(ラジオ・テレビ)では局 所的な情報を伝えきれない ◦ Twitterなどの個人が発信できるソーシャルメ ディアが情報を補完 しかし、 ◦ 被災地からの情報が政府や救援団体に届か

    ない ◦ 大量のデマに振り回される人が続出
  5. 背景 (2/2) 現地からの要望と支援とのミスマッチ ◦ マスメディア: 被災地で防寒着が不足 ◦ 現地: 防寒ズボン 平時では予想の困難な物資の不足

    ◦ 例: 向精神薬, 透析用器具, 手話通訳… ⇒ 想定街の質問も含めた多様な質問に対して、ソーシャルメディ ア上に書き込まれた膨大な情報から全体像を把握できる様に 情報を伝えることができる質問応答システムの構築を目指す
  6. 対災害情報システム システム構成 1. 回答インデックス作成モジュール - tweetから構文パターンを抽出 2. 含意パターン獲得モジュール - 回答検索時に使用する含意パターンデータベースを

    作成 3. 質問応答モジュール - 作成されたインデックスから回答を抽出 4. 入出力モジュール - 大量の質問を効果的に提示する
  7. 1. 回答インデックス作成モジュール(1/ 3) 大規模なtweetのデータから高速に質問応答を行うた めの回答インデックスを作成する 回答インデックスの役割  質問文から生成したクエリを用いて、高速に回答を習得する 回答インデックスの構成 ◦

    形態素解析(MeCab), 係り受け解析(J.DepP)を行ったTweet に対して, 2つのインデックスを作成  回答インデックス1  構文情報が十分に存在する文から抽出  回答インデックス2  構文情報が不十分な文から抽出
  8. 回答インデックス1 ◦ 名詞句2つとそれらをつなぐ分節係り受けの構文パターンを取得 ◦ 例: [震災後],[宮城県]で[透析用器具]が不足し    ています. ◦ ⇒

    構文パターン : X で Y が不足しています. ◦ X: [宮城県], Y: [透析用器具], [震災後] [不足] 回答インデックス2 ◦ 名詞句1つと動詞・名詞・形容詞のいずれかの係り受けの部分パ ターン ◦ 例: 宮城県です. 透析用器具が足りません ◦ ⇒ 部分パターン : X が足りません ◦ X: [宮城県] , [透析用器具] [状況] 1. 回答インデックス作成モジュール(2/3)
  9. 地名保管モジュール ◦ 書き込みで省略されやすい地名・場所名を回答イン デックスに補完するモジュール 作成手順 1. 地名辞書を作成  日本郵便が公開している郵便番号データ(都道府県/ 市区町村/

    町域)  [地名文字列- 住所] の対を5,129,162 作成 2. 場所辞書を作成  郵便番号では特定できないデータ  Wikipediaから「(自治体名) の (“施設” ”学校”など)」 3. 1,2から 場所・地名辞書を作成  曖昧性のある地名を取り除いた 2,726,944エントリを使用 1. 回答インデックス作成モジュール(3/ 3)
  10. 2. 含意パターン獲得モジュール(1/4) 大規模なコーパスから含意パターンを獲 得、データベース化 含意パターン ◦ 例: 「X から Y

    まで移動する] ◦ 「X から Y まで歩く」
  11. 2. 含意パターン獲得モジュール(2/4) 含意パターンの種類 1. クラス依存のパターン  例: Y のための X

     [Y:病名]のための[X: 薬品]  [X: 薬品] で [Y:病名]が治る  [X: 作業] のための [Y:道具]  [Y:道具]で[X:作業]する 2. クラス非依存パターン
  12. 2. 含意パターン獲得モジュール(3/4) 3. 部分パターン 非クラス依存のパターンを1つの名詞句を含む部分パターンに 分割  「X が Y

    で孤立する.」  X が孤立する.  Y で孤立する.  「Y では X に連絡できない.」  X に連絡できない  Y では連絡できない ◦ ([X が孤立する] , [X に連絡できない]) ◦ ([Yで孤立する] , [Yでは連絡できない])
  13. 3. 質問応答モジュール(1/2) ユーザーが入力した質問文から回答集 合を出力するモジュール モジュールの構成 ◦ 質問文解析モジュール  質問文から構文パターンを抽出 ◦

    回答検索モジュール  回答インデックスから回答を検索
  14. 3. 質問応答モジュール(2/2) ◦ 質問文解析モジュール  例: 「X(宮城県) で Y(何) が不足していますか?」

     ⇒ 「X で/では Yが不足している」  「Y が X で/では 不足している」  「X で不足している Y」 ◦ 回答検索モジュール  質問文解析モジュールで生成されたパターンから含 意パターンデータベースを引くことで、最大で1500個 の質問構文の含意パターンを生成  回答インデックスから回答を検索
  15. 4. 入出力モジュール 回答検索モジュールから出力される 質 問に対する複数の解答 を提示する. ◦ Webブラウザー上で動作 ◦ 意味マップモード 

    単語の意味クラスごとにまとめて表示 ◦ Google マップモード  回答を地図上に表示
  16. 意味マップモード ◦ 回答が意味クラスに色ごとに分けられる ◦ 意味クラス(Kazama and Torisawa 2008)に属さない 長い名詞は部分マッチで適用

  17. Google マップモード ◦ 質問の回答となる位置が地図上で表示 ◦ どちらのモードでも発信時刻による限定が可能

  18. システムの評価実験 評価項目 ◦ 提案システムの評価  質問応答性能 (再現率・適応率)

  19. 提案システムの評価(1/3) 評価セット ◦ 人手で回答を抽出した 192問の質問とその 正しい回答 17,524個のセット 回答インデックスの生成 ◦ 2億2千万Tweet

     災害に関連する345個のキーワードでフィ ルターした 5,400万のTweetを使用 ◦ 回答インデックス1:約1億2千万 ◦ 回答インデックス2:約7億6千万
  20. 提案システムの評価(2/3) 再現率 0.519 ◦ システムの解答に正答の部分文字列 ◦ システムの解答が正答の部分文字列          として含む場合を正解 ◦ 192問中、回答数が0のものが32問

     質問文を構成する名詞句が低頻度  例: 被災者相談窓口, 就学支援  対応策:複合語を分割 ⇒ 被災者 の 相談窓口      表現の置換え ⇒ 就学を支援する
  21. 提案システムの評価(3/3) 適合率 0.608 ◦ 全回答から質問と回答のペア250個をランダム に抽出 ◦ 3名の評価者で正解かどうかを多数決 ◦ 例:

    「何が汚染していますか?」  Y が汚染されてしまう  Y が汚染される  Y から検出される  「正門・ヘリ」などの「汚染」を含まないTweetからも回 答が得られている
  22. 展望 デマに対する対応 ◦ 回答に含まれる大量のデマ  ⇒ 言論マップと組み合わせることで回答に肯定的情 報・否定的情報を合わせて表示 地名補完処理の誤り ◦

    内容語から離れた位置を回答してしまう  ⇒ 省略, 照応解析を導入することで改善
  23. まとめ 災害時の情報を俯瞰的に把握するため のシステムの構築 ◦ リアルタイムでの回答の更新  デマに対処する枠組み ◦ 幅広い質問に対応 

    構文パターンの言い換え  地名の保管処理
  24. None
  25. 例: ◦ 質問文 : 宮城県のどこに避難していますか? ◦ Tweet文: ◦◦中学校に避難しています. ◦ 地名保管モジュール:

     宮城県/ △△市/ ◦◦中学校 ◦ ⇒ 回答: ◦◦中学校に避難しています.
  26. 2. 含意パターン獲得モジュール(4/4) 部分パターンのクリーニング 1. 活性不活性極性(Hashimoto et al. 2012)を用い て極性の異なる部分パターンは削除 ◦

    活性 ◦ [Xを引き起こす, Xを使う, Xを買う] ◦ 不活性 ◦ [Xを防ぐ, Xが不足する, Xを破壊する] 2. パターンを構成する動詞が同一だが、動詞と変数X の間の助詞が異なるものを削除  例: 「Xが不足する」,「Xに不足する」
  27. 部分活性のクリーニングの効果