Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 勉強会 第六回
Search
gumigumi7
February 10, 2016
Education
0
220
B3 勉強会 第六回
gumigumi7
February 10, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
230
文献紹介 11月7日
gumigumi7
0
120
文献紹介 10月3日
gumigumi7
0
320
文献紹介 9月3日
gumigumi7
0
250
文献紹介 8月10日
gumigumi7
0
120
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
180
文献紹介 4月18日
gumigumi7
0
140
Other Decks in Education
See All in Education
生成AIを活用できる大学教職員になる-基本と実践-
gmoriki
0
290
Поступление в ТОГУ 2024
pnuslide
0
36k
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.2k
全員参加型で会社を強くしていく活動を考えてみる
ikefukurou777
0
200
Tips for the Presentation - Lecture 2 - Advanced Topics in Big Data (4023256FNR)
signer
PRO
0
130
WordPressを教える人のための視点と考え方
crebowinfo
0
230
Introduction - Lecture 1 - Information Visualisation (4019538FNR)
signer
PRO
0
3.5k
保育とふりかえりをコネクト! / connect childcare and retrospectives!
psj59129
1
150
Dolce and Gabbana Light Blue Perfume
vicjon
0
390
Introduction - Lecture 1 - Advanced Topics in Big Data (4023256FNR)
signer
PRO
1
1.1k
Data Representation - Lecture 3 - Information Visualisation (4019538FNR)
signer
PRO
1
1.7k
Interactive Tabletops and Surfaces - Lecture 7 - Next Generation User Interfaces (4018166FNR)
signer
PRO
1
1.2k
Featured
See All Featured
Being A Developer After 40
akosma
56
580k
Side Projects
sachag
451
41k
Git: the NoSQL Database
bkeepers
PRO
422
63k
Design by the Numbers
sachag
274
18k
Embracing the Ebb and Flow
colly
79
4.1k
Robots, Beer and Maslow
schacon
PRO
155
7.9k
Atom: Resistance is Futile
akmur
258
25k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
220
21k
Designing Experiences People Love
moore
136
23k
Statistics for Hackers
jakevdp
789
220k
Navigating Team Friction
lara
177
13k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
240
1.2M
Transcript
B3 勉強会 第六回 (2016/02/10) 長岡技術科学大学 B3 桾澤 優希 情報抽出と知識獲得
情報抽出と知識獲得 ▪ 構造化されていないテキストから情報または知識を自動 的に取り出すこと ▪ 情報抽出では固有名や特定のイベントに関する情報を 知識獲得ではより一般的な知識を扱う ▪ 同義・類義語や格フレームだけでなく、事態間の関係やス クリプトと呼ばれる知識について考える
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 A電気(京都市)の田中一郎社長は18日,来月から新たな PCである、PC X120の発売を開始すると発表した。 表現パターン 〈会社〉(〈所在地〉)
〈会社〉の〈社長〉社 長 会社 社長 所在地 A電気 田中一郎 京都市 B商事 山田太郎 大阪市 ︙ ︙ ︙
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 A電気(京都市)の田中一郎社長は18日,来月から新たな PCである、PC X120の発売を開始すると発表した。 〈メーカ〉*〈製品〉 の販売を開始
製品 メーカ 価格 PC X100 A電気 10万円 PC X120 A電気 13万円 ︙ ︙ ︙
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 東南アジアでデング熱の感染が広がっている。 政府は… 〈場所〉で〈病名〉の 感染が広がる 病名
場所 時期 鳥インフル アジア 2003年冬 デング熱 東南アジア 2007年夏 ︙ ︙ ︙
情報抽出 ▪ 最初期では ・ 「〈製品〉,〈メーカ〉,〈値段〉」 ・ 「《感染症流行》:〈病名〉, 〈場所〉, 〈時期〉」 のような抽出すべき情報のテンプレートと
・ 「〈買収先〉が*〈買収元〉を買収する」 ・ 「〈メーカ〉*〈製品〉を発売」 などのような情報抽出のためのパターンを人手で用意 ▪ コストがかかる上拡張性もない ▪ 表現パターン、テンプレートの自動学習
表現パターンの自動学習 ▪ “X such as Y and Z” のような文章からXが上位語、 Y、Zが下位語という関係を取り出すことは可能
▪ 通常の関係を表現するパターンは多数あり、人手での用 意は容易ではない ▪ ある関係を持つ具体的なペア(インスタンス)の小さな集合 から共起するパターンを獲得し、そこからインスタンスを獲 得、これらの処理を繰り返し情報抽出を行う → ブートストラップ
表現パターンの自動学習 ▪ 例) 〈会社〉と〈所在地〉の関係 ▪ I1 : A 電気 –
京都市, B 商事 – 大阪市 ▪ P1 : 〈会社〉は〈所在地〉にある、 〈会社〉の所在地は〈所在地〉、・・・ ▪ I2 : C 自動車 – 大津市, D 電気 – 大阪市 ▪ P2 : 〈所在地〉にある〈会社〉、 〈所在地〉の〈会社〉、・・・ ▪ Espressoと呼ばれる手法
表現パターンの自動学習 ▪ 良いパターンは良いインスタンスを、良いインスタンスは良い パターンによって取り出されると仮定 ▪ パターン、インスタンスの信用度rp, riを計算 () = ∈
{ (, ) × () } || () = ∈ { (, ) × () } || (, ) = |, | || × ||
テンプレートの自動学習 ▪ トピックのイベントにどのような重要な項目があるかを含めて 情報抽出を行う ▪ あるトピックに関する文章を大量に収集、 類似する文章の対応付けを行う ▪ 例) デング熱が東南アジアで大流行している
東南アジアでデング熱の感染が広がっている ▪ 「XがYで大流行している」と「YでXの感染が広がっている」が同義表 現パターンであることが獲得できる ▪ このパターンが文章中で高頻度であれば、X,Yを重要な項目と判断 し「《感染症流行》:〈病名〉,〈場所〉」というテンプレートを学習できる。
知識獲得 ▪ 事態間の関係 ▪ 同義・類義の関係 ▪ 意味の解析(1)にて紹介した分布類似度にて計算可能 ▪ 用言では重要な項を加えた句として計算する ▪
例) 「景気が冷え込む」と「景気が落ち込む」 ▪ 文体が異なる同義表現では情報抽出にて説明した方法で関係を調べる ことで獲得が可能 ▪ 同じ用語の複数の定義分野、 同じ原文の複数の翻訳などに用いることも可能
知識獲得 ▪ 因果関係・時間経過の関係 ▪ 因果関係 : 「ころぶ → 骨折する」 ▪
時間経過の関係 : 「朝起きる → 顔を洗う」 ▪ コーパスにおいてよく共起することを手がかりとして抽出 ▪ 事態間に項の共有があり、これを正確に抽出して初めて 事態間知識といえる
知識獲得 ▪ 例) ▪ The police arrested John and charged
him. ▪ HimがJohnに照応することがわかれば 「X arrest Y → X charge Y」という事態間知識が得られる。 ▪ 日本語の場合項の多くが省略される a. 彼が財布を拾って警察に届けた b. 財布を拾ったので警察に届けた c. ドライバーが財布を拾って届けた まず「財布を拾う → 届ける」という強く共起する部分を抽出 「拾う」の格フレームと「届ける」の格フレームの項の対応付けを行い、 「Xが財布を拾う → Xが財布を警察に届ける」を得る
スクリプト ▪ ある状況において典型的に起こる一連の出来事を 記述した知識 ▪ 例) レストランでの食事 ▪ 「レストランに入る」 ▪
「席につく」 ▪ 「注文をする」 ▪ 「料理を食べる」 ▪ 「支払いをする」 ▪ 「レストランを出る」 ▪ このような知識を人手で与えることは不可能 → 大規模コーパスからスクリプトを自動学習
参考文献 ▪ 黒橋 禎夫, 自然言語処理, 放送大学教育振興会 (2015.3.20) pp.106-115