Upgrade to Pro — share decks privately, control downloads, hide ads and more …

質問応答に基づく対災害情報分析システム

nishi-k
April 22, 2016

 質問応答に基づく対災害情報分析システム

nishi-k

April 22, 2016
Tweet

More Decks by nishi-k

Other Decks in Education

Transcript

  1. 参考文献 質問応答に基づく対災害情報分析システム,後 藤 淳, 大竹 清敬, Stijn De Saeger, 橋本

    力, J ulien Kloetzer, 川田 拓也, 鳥澤 健太郎, 自 然言語処理, (pp.367-404),2013
  2. 背景 (2/2) 現地からの要望と支援とのミスマッチ ◦ マスメディア: 被災地で防寒着が不足 ◦ 現地: 防寒ズボン 平時では予想の困難な物資の不足

    ◦ 例: 向精神薬, 透析用器具, 手話通訳… ⇒ 想定街の質問も含めた多様な質問に対して、ソーシャルメディ ア上に書き込まれた膨大な情報から全体像を把握できる様に 情報を伝えることができる質問応答システムの構築を目指す
  3. 対災害情報システム システム構成 1. 回答インデックス作成モジュール - tweetから構文パターンを抽出 2. 含意パターン獲得モジュール - 回答検索時に使用する含意パターンデータベースを

    作成 3. 質問応答モジュール - 作成されたインデックスから回答を抽出 4. 入出力モジュール - 大量の質問を効果的に提示する
  4. 1. 回答インデックス作成モジュール(1/ 3) 大規模なtweetのデータから高速に質問応答を行うた めの回答インデックスを作成する 回答インデックスの役割  質問文から生成したクエリを用いて、高速に回答を習得する 回答インデックスの構成 ◦

    形態素解析(MeCab), 係り受け解析(J.DepP)を行ったTweet に対して, 2つのインデックスを作成  回答インデックス1  構文情報が十分に存在する文から抽出  回答インデックス2  構文情報が不十分な文から抽出
  5. 回答インデックス1 ◦ 名詞句2つとそれらをつなぐ分節係り受けの構文パターンを取得 ◦ 例: [震災後],[宮城県]で[透析用器具]が不足し    ています. ◦ ⇒

    構文パターン : X で Y が不足しています. ◦ X: [宮城県], Y: [透析用器具], [震災後] [不足] 回答インデックス2 ◦ 名詞句1つと動詞・名詞・形容詞のいずれかの係り受けの部分パ ターン ◦ 例: 宮城県です. 透析用器具が足りません ◦ ⇒ 部分パターン : X が足りません ◦ X: [宮城県] , [透析用器具] [状況] 1. 回答インデックス作成モジュール(2/3)
  6. 地名保管モジュール ◦ 書き込みで省略されやすい地名・場所名を回答イン デックスに補完するモジュール 作成手順 1. 地名辞書を作成  日本郵便が公開している郵便番号データ(都道府県/ 市区町村/

    町域)  [地名文字列- 住所] の対を5,129,162 作成 2. 場所辞書を作成  郵便番号では特定できないデータ  Wikipediaから「(自治体名) の (“施設” ”学校”など)」 3. 1,2から 場所・地名辞書を作成  曖昧性のある地名を取り除いた 2,726,944エントリを使用 1. 回答インデックス作成モジュール(3/ 3)
  7. 2. 含意パターン獲得モジュール(2/4) 含意パターンの種類 1. クラス依存のパターン  例: Y のための X

     [Y:病名]のための[X: 薬品]  [X: 薬品] で [Y:病名]が治る  [X: 作業] のための [Y:道具]  [Y:道具]で[X:作業]する 2. クラス非依存パターン
  8. 2. 含意パターン獲得モジュール(3/4) 3. 部分パターン 非クラス依存のパターンを1つの名詞句を含む部分パターンに 分割  「X が Y

    で孤立する.」  X が孤立する.  Y で孤立する.  「Y では X に連絡できない.」  X に連絡できない  Y では連絡できない ◦ ([X が孤立する] , [X に連絡できない]) ◦ ([Yで孤立する] , [Yでは連絡できない])
  9. 3. 質問応答モジュール(2/2) ◦ 質問文解析モジュール  例: 「X(宮城県) で Y(何) が不足していますか?」

     ⇒ 「X で/では Yが不足している」  「Y が X で/では 不足している」  「X で不足している Y」 ◦ 回答検索モジュール  質問文解析モジュールで生成されたパターンから含 意パターンデータベースを引くことで、最大で1500個 の質問構文の含意パターンを生成  回答インデックスから回答を検索
  10. 提案システムの評価(1/3) 評価セット ◦ 人手で回答を抽出した 192問の質問とその 正しい回答 17,524個のセット 回答インデックスの生成 ◦ 2億2千万Tweet

     災害に関連する345個のキーワードでフィ ルターした 5,400万のTweetを使用 ◦ 回答インデックス1:約1億2千万 ◦ 回答インデックス2:約7億6千万
  11. 提案システムの評価(2/3) 再現率 0.519 ◦ システムの解答に正答の部分文字列 ◦ システムの解答が正答の部分文字列          として含む場合を正解 ◦ 192問中、回答数が0のものが32問

     質問文を構成する名詞句が低頻度  例: 被災者相談窓口, 就学支援  対応策:複合語を分割 ⇒ 被災者 の 相談窓口      表現の置換え ⇒ 就学を支援する
  12. 提案システムの評価(3/3) 適合率 0.608 ◦ 全回答から質問と回答のペア250個をランダム に抽出 ◦ 3名の評価者で正解かどうかを多数決 ◦ 例:

    「何が汚染していますか?」  Y が汚染されてしまう  Y が汚染される  Y から検出される  「正門・ヘリ」などの「汚染」を含まないTweetからも回 答が得られている
  13. 2. 含意パターン獲得モジュール(4/4) 部分パターンのクリーニング 1. 活性不活性極性(Hashimoto et al. 2012)を用い て極性の異なる部分パターンは削除 ◦

    活性 ◦ [Xを引き起こす, Xを使う, Xを買う] ◦ 不活性 ◦ [Xを防ぐ, Xが不足する, Xを破壊する] 2. パターンを構成する動詞が同一だが、動詞と変数X の間の助詞が異なるものを削除  例: 「Xが不足する」,「Xに不足する」