Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
質問応答に基づく対災害情報分析システム
Search
nishi-k
April 22, 2016
Education
0
210
質問応答に基づく対災害情報分析システム
nishi-k
April 22, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishiyama
0
300
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
1k
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
180
画像検索を用いた語義別画像付き辞書の構築
nishiyama
0
140
対話システム
nishiyama
0
240
動詞名詞換言辞書の構築と敬語の常体への換言
nishiyama
0
450
情報検索2
nishiyama
0
84
2016/02/17 情報検索
nishiyama
0
120
文脈の解析
nishiyama
0
330
Other Decks in Education
See All in Education
Web Architectures - Lecture 2 - Web Technologies (1019888BNR)
signer
PRO
0
2.7k
開発終了後こそ成長のチャンス!プロダクト運用を見送った先のアクションプラン
ohmori_yusuke
2
190
Image compression
hachama
0
180
The Task is not the End: The Role of Task Repetition and Sequencing In Language Teaching
uranoken
0
210
Repaso electricidade e electrónica
irocho
0
210
Tableau トレーニング【株式会社ニジボックス】
nbkouhou
0
22k
1216
cbtlibrary
0
220
Kindleストアで本を探すことの善悪 #Izumo Developers' Guild 第1回 LT大会
totodo713
0
150
Introduction - Lecture 1 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.8k
Chapitre_1_-__L_atmosphère_et_la_vie_-_Partie_1.pdf
bernhardsvt
0
230
Ch2_-_Partie_3.pdf
bernhardsvt
0
110
Human Perception and Cognition - Lecture 4 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
750
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
22
1.2k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
BBQ
matthewcrist
85
9.4k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Designing for humans not robots
tammielis
250
25k
Building Applications with DynamoDB
mza
91
6.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Practical Orchestrator
shlominoach
186
10k
Transcript
文献紹介 (2016/04/21) 質問応答に基づく対災害情報分析システム 長岡技術科学大学 学部4年 西山 浩気
参考文献 質問応答に基づく対災害情報分析システム,後 藤 淳, 大竹 清敬, Stijn De Saeger, 橋本
力, J ulien Kloetzer, 川田 拓也, 鳥澤 健太郎, 自 然言語処理, (pp.367-404),2013
概要 ◦ 予め救援者側が用意した質問に対して被災 者側の情報がソーシャルメディア上から自動 的に通知できるシステムを構築 ◦ テストセット300個のうち回答が含まれる19 2問を評価 3001つの質問あたり605.8個程度回答
再現率0.519, 適合率 0.608
背景 (1/2) 震災時には既存メディア(ラジオ・テレビ)では局 所的な情報を伝えきれない ◦ Twitterなどの個人が発信できるソーシャルメ ディアが情報を補完 しかし、 ◦ 被災地からの情報が政府や救援団体に届か
ない ◦ 大量のデマに振り回される人が続出
背景 (2/2) 現地からの要望と支援とのミスマッチ ◦ マスメディア: 被災地で防寒着が不足 ◦ 現地: 防寒ズボン 平時では予想の困難な物資の不足
◦ 例: 向精神薬, 透析用器具, 手話通訳… ⇒ 想定街の質問も含めた多様な質問に対して、ソーシャルメディ ア上に書き込まれた膨大な情報から全体像を把握できる様に 情報を伝えることができる質問応答システムの構築を目指す
対災害情報システム システム構成 1. 回答インデックス作成モジュール - tweetから構文パターンを抽出 2. 含意パターン獲得モジュール - 回答検索時に使用する含意パターンデータベースを
作成 3. 質問応答モジュール - 作成されたインデックスから回答を抽出 4. 入出力モジュール - 大量の質問を効果的に提示する
1. 回答インデックス作成モジュール(1/ 3) 大規模なtweetのデータから高速に質問応答を行うた めの回答インデックスを作成する 回答インデックスの役割 質問文から生成したクエリを用いて、高速に回答を習得する 回答インデックスの構成 ◦
形態素解析(MeCab), 係り受け解析(J.DepP)を行ったTweet に対して, 2つのインデックスを作成 回答インデックス1 構文情報が十分に存在する文から抽出 回答インデックス2 構文情報が不十分な文から抽出
回答インデックス1 ◦ 名詞句2つとそれらをつなぐ分節係り受けの構文パターンを取得 ◦ 例: [震災後],[宮城県]で[透析用器具]が不足し ています. ◦ ⇒
構文パターン : X で Y が不足しています. ◦ X: [宮城県], Y: [透析用器具], [震災後] [不足] 回答インデックス2 ◦ 名詞句1つと動詞・名詞・形容詞のいずれかの係り受けの部分パ ターン ◦ 例: 宮城県です. 透析用器具が足りません ◦ ⇒ 部分パターン : X が足りません ◦ X: [宮城県] , [透析用器具] [状況] 1. 回答インデックス作成モジュール(2/3)
地名保管モジュール ◦ 書き込みで省略されやすい地名・場所名を回答イン デックスに補完するモジュール 作成手順 1. 地名辞書を作成 日本郵便が公開している郵便番号データ(都道府県/ 市区町村/
町域) [地名文字列- 住所] の対を5,129,162 作成 2. 場所辞書を作成 郵便番号では特定できないデータ Wikipediaから「(自治体名) の (“施設” ”学校”など)」 3. 1,2から 場所・地名辞書を作成 曖昧性のある地名を取り除いた 2,726,944エントリを使用 1. 回答インデックス作成モジュール(3/ 3)
2. 含意パターン獲得モジュール(1/4) 大規模なコーパスから含意パターンを獲 得、データベース化 含意パターン ◦ 例: 「X から Y
まで移動する] ◦ 「X から Y まで歩く」
2. 含意パターン獲得モジュール(2/4) 含意パターンの種類 1. クラス依存のパターン 例: Y のための X
[Y:病名]のための[X: 薬品] [X: 薬品] で [Y:病名]が治る [X: 作業] のための [Y:道具] [Y:道具]で[X:作業]する 2. クラス非依存パターン
2. 含意パターン獲得モジュール(3/4) 3. 部分パターン 非クラス依存のパターンを1つの名詞句を含む部分パターンに 分割 「X が Y
で孤立する.」 X が孤立する. Y で孤立する. 「Y では X に連絡できない.」 X に連絡できない Y では連絡できない ◦ ([X が孤立する] , [X に連絡できない]) ◦ ([Yで孤立する] , [Yでは連絡できない])
3. 質問応答モジュール(1/2) ユーザーが入力した質問文から回答集 合を出力するモジュール モジュールの構成 ◦ 質問文解析モジュール 質問文から構文パターンを抽出 ◦
回答検索モジュール 回答インデックスから回答を検索
3. 質問応答モジュール(2/2) ◦ 質問文解析モジュール 例: 「X(宮城県) で Y(何) が不足していますか?」
⇒ 「X で/では Yが不足している」 「Y が X で/では 不足している」 「X で不足している Y」 ◦ 回答検索モジュール 質問文解析モジュールで生成されたパターンから含 意パターンデータベースを引くことで、最大で1500個 の質問構文の含意パターンを生成 回答インデックスから回答を検索
4. 入出力モジュール 回答検索モジュールから出力される 質 問に対する複数の解答 を提示する. ◦ Webブラウザー上で動作 ◦ 意味マップモード
単語の意味クラスごとにまとめて表示 ◦ Google マップモード 回答を地図上に表示
意味マップモード ◦ 回答が意味クラスに色ごとに分けられる ◦ 意味クラス(Kazama and Torisawa 2008)に属さない 長い名詞は部分マッチで適用
Google マップモード ◦ 質問の回答となる位置が地図上で表示 ◦ どちらのモードでも発信時刻による限定が可能
システムの評価実験 評価項目 ◦ 提案システムの評価 質問応答性能 (再現率・適応率)
提案システムの評価(1/3) 評価セット ◦ 人手で回答を抽出した 192問の質問とその 正しい回答 17,524個のセット 回答インデックスの生成 ◦ 2億2千万Tweet
災害に関連する345個のキーワードでフィ ルターした 5,400万のTweetを使用 ◦ 回答インデックス1:約1億2千万 ◦ 回答インデックス2:約7億6千万
提案システムの評価(2/3) 再現率 0.519 ◦ システムの解答に正答の部分文字列 ◦ システムの解答が正答の部分文字列 として含む場合を正解 ◦ 192問中、回答数が0のものが32問
質問文を構成する名詞句が低頻度 例: 被災者相談窓口, 就学支援 対応策:複合語を分割 ⇒ 被災者 の 相談窓口 表現の置換え ⇒ 就学を支援する
提案システムの評価(3/3) 適合率 0.608 ◦ 全回答から質問と回答のペア250個をランダム に抽出 ◦ 3名の評価者で正解かどうかを多数決 ◦ 例:
「何が汚染していますか?」 Y が汚染されてしまう Y が汚染される Y から検出される 「正門・ヘリ」などの「汚染」を含まないTweetからも回 答が得られている
展望 デマに対する対応 ◦ 回答に含まれる大量のデマ ⇒ 言論マップと組み合わせることで回答に肯定的情 報・否定的情報を合わせて表示 地名補完処理の誤り ◦
内容語から離れた位置を回答してしまう ⇒ 省略, 照応解析を導入することで改善
まとめ 災害時の情報を俯瞰的に把握するため のシステムの構築 ◦ リアルタイムでの回答の更新 デマに対処する枠組み ◦ 幅広い質問に対応
構文パターンの言い換え 地名の保管処理
None
例: ◦ 質問文 : 宮城県のどこに避難していますか? ◦ Tweet文: ◦◦中学校に避難しています. ◦ 地名保管モジュール:
宮城県/ △△市/ ◦◦中学校 ◦ ⇒ 回答: ◦◦中学校に避難しています.
2. 含意パターン獲得モジュール(4/4) 部分パターンのクリーニング 1. 活性不活性極性(Hashimoto et al. 2012)を用い て極性の異なる部分パターンは削除 ◦
活性 ◦ [Xを引き起こす, Xを使う, Xを買う] ◦ 不活性 ◦ [Xを防ぐ, Xが不足する, Xを破壊する] 2. パターンを構成する動詞が同一だが、動詞と変数X の間の助詞が異なるものを削除 例: 「Xが不足する」,「Xに不足する」
部分活性のクリーニングの効果