Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
質問応答に基づく対災害情報分析システム
nishi-k
April 22, 2016
Education
0
180
質問応答に基づく対災害情報分析システム
nishi-k
April 22, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishiyama
0
170
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
650
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
120
画像検索を用いた語義別画像付き辞書の構築
nishiyama
0
110
対話システム
nishiyama
0
200
動詞名詞換言辞書の構築と敬語の常体への換言
nishiyama
0
310
情報検索2
nishiyama
0
61
2016/02/17 情報検索
nishiyama
0
93
文脈の解析
nishiyama
0
150
Other Decks in Education
See All in Education
Life is Tech ! Lesson Product Snapshot
lifeistech
0
400
From the Great War to the Good War
oripsolob
0
240
WindowsコンテナDojo 全体スケジュールのご案内
utsukibm
0
370
Classi_会社紹介資料
classijp
8
36k
Metzitli
marieffs
0
140
How learning Chinese made me a better Python instructor
reuven
0
310
研究発表のためのパワポスライド作成例(桃太郎の村会議でのプレゼン)
hisashiishihara
0
5k
The Adventure of Kotlin and Compose Through The Multiplatform World
cmota
2
200
東京大学深層学習(Deep Learning基礎講座2022)深層学習と自然言語処理
verypluming
25
18k
【3分でわかるNCS総合研究所】サービス概要
kojiyamamura222
0
110
Baparekraf Developer Day 2022 - Blockchain (Asih Karnengsih)
dicodingevent
0
530
Острые кишечные инфекции
msalavei
0
370
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
506
37k
Optimizing for Happiness
mojombo
365
63k
The Pragmatic Product Professional
lauravandoore
19
3k
Git: the NoSQL Database
bkeepers
PRO
415
59k
Docker and Python
trallard
27
1.6k
Music & Morning Musume
bryan
35
4.2k
Why You Should Never Use an ORM
jnunemaker
PRO
47
7.6k
Art Directing for the Web. Five minutes with CSS Template Areas
malarkey
196
9.4k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
11
4.7k
Creatively Recalculating Your Daily Design Routine
revolveconf
207
10k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
498
130k
Statistics for Hackers
jakevdp
781
210k
Transcript
文献紹介 (2016/04/21) 質問応答に基づく対災害情報分析システム 長岡技術科学大学 学部4年 西山 浩気
参考文献 質問応答に基づく対災害情報分析システム,後 藤 淳, 大竹 清敬, Stijn De Saeger, 橋本
力, J ulien Kloetzer, 川田 拓也, 鳥澤 健太郎, 自 然言語処理, (pp.367-404),2013
概要 ◦ 予め救援者側が用意した質問に対して被災 者側の情報がソーシャルメディア上から自動 的に通知できるシステムを構築 ◦ テストセット300個のうち回答が含まれる19 2問を評価 3001つの質問あたり605.8個程度回答
再現率0.519, 適合率 0.608
背景 (1/2) 震災時には既存メディア(ラジオ・テレビ)では局 所的な情報を伝えきれない ◦ Twitterなどの個人が発信できるソーシャルメ ディアが情報を補完 しかし、 ◦ 被災地からの情報が政府や救援団体に届か
ない ◦ 大量のデマに振り回される人が続出
背景 (2/2) 現地からの要望と支援とのミスマッチ ◦ マスメディア: 被災地で防寒着が不足 ◦ 現地: 防寒ズボン 平時では予想の困難な物資の不足
◦ 例: 向精神薬, 透析用器具, 手話通訳… ⇒ 想定街の質問も含めた多様な質問に対して、ソーシャルメディ ア上に書き込まれた膨大な情報から全体像を把握できる様に 情報を伝えることができる質問応答システムの構築を目指す
対災害情報システム システム構成 1. 回答インデックス作成モジュール - tweetから構文パターンを抽出 2. 含意パターン獲得モジュール - 回答検索時に使用する含意パターンデータベースを
作成 3. 質問応答モジュール - 作成されたインデックスから回答を抽出 4. 入出力モジュール - 大量の質問を効果的に提示する
1. 回答インデックス作成モジュール(1/ 3) 大規模なtweetのデータから高速に質問応答を行うた めの回答インデックスを作成する 回答インデックスの役割 質問文から生成したクエリを用いて、高速に回答を習得する 回答インデックスの構成 ◦
形態素解析(MeCab), 係り受け解析(J.DepP)を行ったTweet に対して, 2つのインデックスを作成 回答インデックス1 構文情報が十分に存在する文から抽出 回答インデックス2 構文情報が不十分な文から抽出
回答インデックス1 ◦ 名詞句2つとそれらをつなぐ分節係り受けの構文パターンを取得 ◦ 例: [震災後],[宮城県]で[透析用器具]が不足し ています. ◦ ⇒
構文パターン : X で Y が不足しています. ◦ X: [宮城県], Y: [透析用器具], [震災後] [不足] 回答インデックス2 ◦ 名詞句1つと動詞・名詞・形容詞のいずれかの係り受けの部分パ ターン ◦ 例: 宮城県です. 透析用器具が足りません ◦ ⇒ 部分パターン : X が足りません ◦ X: [宮城県] , [透析用器具] [状況] 1. 回答インデックス作成モジュール(2/3)
地名保管モジュール ◦ 書き込みで省略されやすい地名・場所名を回答イン デックスに補完するモジュール 作成手順 1. 地名辞書を作成 日本郵便が公開している郵便番号データ(都道府県/ 市区町村/
町域) [地名文字列- 住所] の対を5,129,162 作成 2. 場所辞書を作成 郵便番号では特定できないデータ Wikipediaから「(自治体名) の (“施設” ”学校”など)」 3. 1,2から 場所・地名辞書を作成 曖昧性のある地名を取り除いた 2,726,944エントリを使用 1. 回答インデックス作成モジュール(3/ 3)
2. 含意パターン獲得モジュール(1/4) 大規模なコーパスから含意パターンを獲 得、データベース化 含意パターン ◦ 例: 「X から Y
まで移動する] ◦ 「X から Y まで歩く」
2. 含意パターン獲得モジュール(2/4) 含意パターンの種類 1. クラス依存のパターン 例: Y のための X
[Y:病名]のための[X: 薬品] [X: 薬品] で [Y:病名]が治る [X: 作業] のための [Y:道具] [Y:道具]で[X:作業]する 2. クラス非依存パターン
2. 含意パターン獲得モジュール(3/4) 3. 部分パターン 非クラス依存のパターンを1つの名詞句を含む部分パターンに 分割 「X が Y
で孤立する.」 X が孤立する. Y で孤立する. 「Y では X に連絡できない.」 X に連絡できない Y では連絡できない ◦ ([X が孤立する] , [X に連絡できない]) ◦ ([Yで孤立する] , [Yでは連絡できない])
3. 質問応答モジュール(1/2) ユーザーが入力した質問文から回答集 合を出力するモジュール モジュールの構成 ◦ 質問文解析モジュール 質問文から構文パターンを抽出 ◦
回答検索モジュール 回答インデックスから回答を検索
3. 質問応答モジュール(2/2) ◦ 質問文解析モジュール 例: 「X(宮城県) で Y(何) が不足していますか?」
⇒ 「X で/では Yが不足している」 「Y が X で/では 不足している」 「X で不足している Y」 ◦ 回答検索モジュール 質問文解析モジュールで生成されたパターンから含 意パターンデータベースを引くことで、最大で1500個 の質問構文の含意パターンを生成 回答インデックスから回答を検索
4. 入出力モジュール 回答検索モジュールから出力される 質 問に対する複数の解答 を提示する. ◦ Webブラウザー上で動作 ◦ 意味マップモード
単語の意味クラスごとにまとめて表示 ◦ Google マップモード 回答を地図上に表示
意味マップモード ◦ 回答が意味クラスに色ごとに分けられる ◦ 意味クラス(Kazama and Torisawa 2008)に属さない 長い名詞は部分マッチで適用
Google マップモード ◦ 質問の回答となる位置が地図上で表示 ◦ どちらのモードでも発信時刻による限定が可能
システムの評価実験 評価項目 ◦ 提案システムの評価 質問応答性能 (再現率・適応率)
提案システムの評価(1/3) 評価セット ◦ 人手で回答を抽出した 192問の質問とその 正しい回答 17,524個のセット 回答インデックスの生成 ◦ 2億2千万Tweet
災害に関連する345個のキーワードでフィ ルターした 5,400万のTweetを使用 ◦ 回答インデックス1:約1億2千万 ◦ 回答インデックス2:約7億6千万
提案システムの評価(2/3) 再現率 0.519 ◦ システムの解答に正答の部分文字列 ◦ システムの解答が正答の部分文字列 として含む場合を正解 ◦ 192問中、回答数が0のものが32問
質問文を構成する名詞句が低頻度 例: 被災者相談窓口, 就学支援 対応策:複合語を分割 ⇒ 被災者 の 相談窓口 表現の置換え ⇒ 就学を支援する
提案システムの評価(3/3) 適合率 0.608 ◦ 全回答から質問と回答のペア250個をランダム に抽出 ◦ 3名の評価者で正解かどうかを多数決 ◦ 例:
「何が汚染していますか?」 Y が汚染されてしまう Y が汚染される Y から検出される 「正門・ヘリ」などの「汚染」を含まないTweetからも回 答が得られている
展望 デマに対する対応 ◦ 回答に含まれる大量のデマ ⇒ 言論マップと組み合わせることで回答に肯定的情 報・否定的情報を合わせて表示 地名補完処理の誤り ◦
内容語から離れた位置を回答してしまう ⇒ 省略, 照応解析を導入することで改善
まとめ 災害時の情報を俯瞰的に把握するため のシステムの構築 ◦ リアルタイムでの回答の更新 デマに対処する枠組み ◦ 幅広い質問に対応
構文パターンの言い換え 地名の保管処理
None
例: ◦ 質問文 : 宮城県のどこに避難していますか? ◦ Tweet文: ◦◦中学校に避難しています. ◦ 地名保管モジュール:
宮城県/ △△市/ ◦◦中学校 ◦ ⇒ 回答: ◦◦中学校に避難しています.
2. 含意パターン獲得モジュール(4/4) 部分パターンのクリーニング 1. 活性不活性極性(Hashimoto et al. 2012)を用い て極性の異なる部分パターンは削除 ◦
活性 ◦ [Xを引き起こす, Xを使う, Xを買う] ◦ 不活性 ◦ [Xを防ぐ, Xが不足する, Xを破壊する] 2. パターンを構成する動詞が同一だが、動詞と変数X の間の助詞が異なるものを削除 例: 「Xが不足する」,「Xに不足する」
部分活性のクリーニングの効果