Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150216 発表資料
Search
Yuta
February 16, 2015
Education
0
150
20150216 発表資料
Yuta
February 16, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
Other Decks in Education
See All in Education
(キラキラ)人事教育担当のつらみ~教育担当として知っておくポイント~
masakiokuda
0
110
20250611_なんでもCopilot1年続いたぞ~
ponponmikankan
0
120
AIの時代こそ、考える知的学習術
yum3
2
180
View Manipulation and Reduction - Lecture 9 - Information Visualisation (4019538FNR)
signer
PRO
1
2.1k
2025年度春学期 統計学 第6回 データの関係を知る(1)ー相関関係 (2025. 5. 15)
akiraasano
PRO
0
110
小さなチャレンジが生んだチームの大きな変化 -私のふりかえり探求の原点
callas1900
0
570
人になにかを教えるときに考えていること(2025-05版 / VRC-LT #18)
sksat
4
1k
より良い学振申請書(DC)を作ろう 2025
luiyoshida
1
3.3k
ARアプリを活用した防災まち歩きデータ作成ハンズオン
nro2daisuke
0
120
Gaps in Therapy in IBD - IBDInnovate 2025 CCF
higgi13425
0
500
新卒交流ワークショップ
pokotyamu
0
460
OpenSourceSummitJapanを運営してみた話
kujiraitakahiro
0
730
Featured
See All Featured
Bash Introduction
62gerente
613
210k
We Have a Design System, Now What?
morganepeng
53
7.7k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
Music & Morning Musume
bryan
46
6.7k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
Testing 201, or: Great Expectations
jmmastey
43
7.6k
GraphQLとの向き合い方2022年版
quramy
49
14k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
For a Future-Friendly Web
brad_frost
179
9.8k
Writing Fast Ruby
sferik
628
62k
Git: the NoSQL Database
bkeepers
PRO
430
65k
Transcript
情報抽出 自然言語処理研究室 B3 須戸悠太 1
情報抽出とは • あらかじめ指定されたテンプレートを埋める形 で、テキストから指定された情報を抽出する。 • 「あるテキスト」 ▫ →「出来事」「日付」「場所」などを抽出 2
例:自然災害 • テキスト ▫ フィリピン政府によると、台風6号の影響で2008 年6月21日、同国中部と南部の各地で河川の氾濫 や地滑りが発生、少なくとも17人が死亡、数人が 行方不明となった。数万人が一時、避難した。 3
例:自然災害 • テンプレート 4 スロット 情報 出来事 台風6号 日付 2008年6月21日
場所 フィリピン中部と南部の各地 損害 河川の氾濫、地滑り 死者数 少なくとも17人 行方不明者数 数人
テンプレートから • 対象とするテキストのトピックにおいて重要か つ不可欠な内容であるということを表現。 • テキストの内容によってテンプレートのスロッ トは変化。 ▫ 例:「企業の新製品情報」 ▫
→「企業名」「商品名」「価格」「スペック」 「発売日」など 5
要素技術の分割 • 1. 固有名抽出 • 2. 属性抽出 • 3. 関係抽出
• 4. シナリオの認識 6
処理の流れ 7 テ キ ス ト 形 態 素 解
析 固 有 名 抽 出 構 文 解 析 属 性 ・ 関 係 抽 出 シ ナ リ オ の 認 識 照 応 解 析 推 論 抽 出 さ れ た テ ン プ レ ー ト
各種解析法では • 形態素解析 ▫ 単語への分割、品詞の付与 • 構文解析 ▫ 名詞句、動詞句などの句の抽出 •
照応解析 ▫ 代名詞の対象や省略要素の同定 8
固有名抽出 種類 例 人名 イチロー、徳川家康、… 地名 渋谷、大阪府、… 組織名 東京工業大学、東芝、… 人工物名
iPhone、PSP、… 時間表現 午前9時、正午、… 単位表現 kg、cm、… 9
固有名抽出の手法 • 知識ベースの手法 ▫ パターンを人手で記述 ▫ 構築のコストの大きさが問題 • 統計的な手法 ▫
訓練データを、機械学習アルゴリズムに与えるこ とで、抽出規則を自動的に学習する。 10
属性・関係抽出 • 属性抽出:固有名のもつ属性を抽出 ▫ 例:人名→性別、年齢など • 関係抽出:固有名間の関係の同定 ▫ 例:人名と組織名→従業員 11
シナリオの認識 • テキスト中に記述されたイベントをパターンに より抽出。 • パターンはあらかじめ用意しておき、テキスト と照合することで該当箇所を抽出。 12
余談 • Webページを対象とした情報抽出器 ▫ →ラッパと呼び、ビジネスなどに用いられる。 • 応用例 ▫ Twitterへの投稿から抽出 ▫
→ある商品に対する消費者の反応など 13