Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up
for free
20150216 発表資料
Yuta
February 16, 2015
Education
0
120
20150216 発表資料
Yuta
February 16, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
sudo
0
130
sudo
0
150
sudo
0
170
sudo
0
160
sudo
0
110
sudo
0
120
sudo
0
120
sudo
0
140
sudo
0
140
Other Decks in Education
See All in Education
event2020
0
120
learnenergy
0
250
youknowcast
0
140
studyplus_edx
0
120
kaityo256
5
2.6k
matleenalaakso
3
4.2k
atp
0
140
yasslab
PRO
0
270
tibbelit
0
390
shoin
0
220
soobrosa
1
220
matleenalaakso
1
10k
Featured
See All Featured
dougneiner
119
7.8k
trallard
13
650
rmw
11
740
paulrobertlloyd
71
3.6k
colly
65
3k
revolveconf
200
9.6k
nonsquared
81
3.3k
phodgson
87
3.9k
lara
16
2.6k
addyosmani
311
21k
eileencodes
113
25k
lara
590
61k
Transcript
情報抽出 自然言語処理研究室 B3 須戸悠太 1
情報抽出とは • あらかじめ指定されたテンプレートを埋める形 で、テキストから指定された情報を抽出する。 • 「あるテキスト」 ▫ →「出来事」「日付」「場所」などを抽出 2
例:自然災害 • テキスト ▫ フィリピン政府によると、台風6号の影響で2008 年6月21日、同国中部と南部の各地で河川の氾濫 や地滑りが発生、少なくとも17人が死亡、数人が 行方不明となった。数万人が一時、避難した。 3
例:自然災害 • テンプレート 4 スロット 情報 出来事 台風6号 日付 2008年6月21日
場所 フィリピン中部と南部の各地 損害 河川の氾濫、地滑り 死者数 少なくとも17人 行方不明者数 数人
テンプレートから • 対象とするテキストのトピックにおいて重要か つ不可欠な内容であるということを表現。 • テキストの内容によってテンプレートのスロッ トは変化。 ▫ 例:「企業の新製品情報」 ▫
→「企業名」「商品名」「価格」「スペック」 「発売日」など 5
要素技術の分割 • 1. 固有名抽出 • 2. 属性抽出 • 3. 関係抽出
• 4. シナリオの認識 6
処理の流れ 7 テ キ ス ト 形 態 素 解
析 固 有 名 抽 出 構 文 解 析 属 性 ・ 関 係 抽 出 シ ナ リ オ の 認 識 照 応 解 析 推 論 抽 出 さ れ た テ ン プ レ ー ト
各種解析法では • 形態素解析 ▫ 単語への分割、品詞の付与 • 構文解析 ▫ 名詞句、動詞句などの句の抽出 •
照応解析 ▫ 代名詞の対象や省略要素の同定 8
固有名抽出 種類 例 人名 イチロー、徳川家康、… 地名 渋谷、大阪府、… 組織名 東京工業大学、東芝、… 人工物名
iPhone、PSP、… 時間表現 午前9時、正午、… 単位表現 kg、cm、… 9
固有名抽出の手法 • 知識ベースの手法 ▫ パターンを人手で記述 ▫ 構築のコストの大きさが問題 • 統計的な手法 ▫
訓練データを、機械学習アルゴリズムに与えるこ とで、抽出規則を自動的に学習する。 10
属性・関係抽出 • 属性抽出:固有名のもつ属性を抽出 ▫ 例:人名→性別、年齢など • 関係抽出:固有名間の関係の同定 ▫ 例:人名と組織名→従業員 11
シナリオの認識 • テキスト中に記述されたイベントをパターンに より抽出。 • パターンはあらかじめ用意しておき、テキスト と照合することで該当箇所を抽出。 12
余談 • Webページを対象とした情報抽出器 ▫ →ラッパと呼び、ビジネスなどに用いられる。 • 応用例 ▫ Twitterへの投稿から抽出 ▫
→ある商品に対する消費者の反応など 13