Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 勉強会 第六回
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
gumigumi7
February 10, 2016
Education
0
230
B3 勉強会 第六回
gumigumi7
February 10, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
250
文献紹介 11月7日
gumigumi7
0
140
文献紹介 10月3日
gumigumi7
0
330
文献紹介 9月3日
gumigumi7
0
270
文献紹介 8月10日
gumigumi7
0
130
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
190
文献紹介 4月18日
gumigumi7
0
150
Other Decks in Education
See All in Education
Postcards
gabrielramirezv
0
120
子どもが自立した学習者となるデジタルの活用について
naokikato
PRO
0
190
NUTMEG紹介スライド
mugiiicha
0
930
東大1年生にJulia教えてみた
matsui_528
7
12k
1021
cbtlibrary
0
400
TinyGoをWebブラウザで動かすための方法+アルファ_20260201
masakiokuda
2
230
Use Cases and Course Review - Lecture 8 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.4k
HCI Research Methods - Lecture 7 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.3k
Leveraging LLMs for student feedback in introductory data science courses (Stats Up AI)
minecr
1
180
悩める リーダー達に 届けたい書籍|レジリエントマネジメント 書籍イントロダクション-260126
mimoza60
0
320
Activité_5_-_Les_indicateurs_du_climat_global.pdf
bernhardsvt
0
150
都市の形成要因と 「都市の余白」のあり方
sakamon
0
160
Featured
See All Featured
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.4k
Designing for humans not robots
tammielis
254
26k
A Soul's Torment
seathinner
5
2.3k
Building an army of robots
kneath
306
46k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Rails Girls Zürich Keynote
gr2m
96
14k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
110
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
150
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
200
Art, The Web, and Tiny UX
lynnandtonic
304
21k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
110
Transcript
B3 勉強会 第六回 (2016/02/10) 長岡技術科学大学 B3 桾澤 優希 情報抽出と知識獲得
情報抽出と知識獲得 ▪ 構造化されていないテキストから情報または知識を自動 的に取り出すこと ▪ 情報抽出では固有名や特定のイベントに関する情報を 知識獲得ではより一般的な知識を扱う ▪ 同義・類義語や格フレームだけでなく、事態間の関係やス クリプトと呼ばれる知識について考える
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 A電気(京都市)の田中一郎社長は18日,来月から新たな PCである、PC X120の発売を開始すると発表した。 表現パターン 〈会社〉(〈所在地〉)
〈会社〉の〈社長〉社 長 会社 社長 所在地 A電気 田中一郎 京都市 B商事 山田太郎 大阪市 ︙ ︙ ︙
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 A電気(京都市)の田中一郎社長は18日,来月から新たな PCである、PC X120の発売を開始すると発表した。 〈メーカ〉*〈製品〉 の販売を開始
製品 メーカ 価格 PC X100 A電気 10万円 PC X120 A電気 13万円 ︙ ︙ ︙
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 東南アジアでデング熱の感染が広がっている。 政府は… 〈場所〉で〈病名〉の 感染が広がる 病名
場所 時期 鳥インフル アジア 2003年冬 デング熱 東南アジア 2007年夏 ︙ ︙ ︙
情報抽出 ▪ 最初期では ・ 「〈製品〉,〈メーカ〉,〈値段〉」 ・ 「《感染症流行》:〈病名〉, 〈場所〉, 〈時期〉」 のような抽出すべき情報のテンプレートと
・ 「〈買収先〉が*〈買収元〉を買収する」 ・ 「〈メーカ〉*〈製品〉を発売」 などのような情報抽出のためのパターンを人手で用意 ▪ コストがかかる上拡張性もない ▪ 表現パターン、テンプレートの自動学習
表現パターンの自動学習 ▪ “X such as Y and Z” のような文章からXが上位語、 Y、Zが下位語という関係を取り出すことは可能
▪ 通常の関係を表現するパターンは多数あり、人手での用 意は容易ではない ▪ ある関係を持つ具体的なペア(インスタンス)の小さな集合 から共起するパターンを獲得し、そこからインスタンスを獲 得、これらの処理を繰り返し情報抽出を行う → ブートストラップ
表現パターンの自動学習 ▪ 例) 〈会社〉と〈所在地〉の関係 ▪ I1 : A 電気 –
京都市, B 商事 – 大阪市 ▪ P1 : 〈会社〉は〈所在地〉にある、 〈会社〉の所在地は〈所在地〉、・・・ ▪ I2 : C 自動車 – 大津市, D 電気 – 大阪市 ▪ P2 : 〈所在地〉にある〈会社〉、 〈所在地〉の〈会社〉、・・・ ▪ Espressoと呼ばれる手法
表現パターンの自動学習 ▪ 良いパターンは良いインスタンスを、良いインスタンスは良い パターンによって取り出されると仮定 ▪ パターン、インスタンスの信用度rp, riを計算 () = ∈
{ (, ) × () } || () = ∈ { (, ) × () } || (, ) = |, | || × ||
テンプレートの自動学習 ▪ トピックのイベントにどのような重要な項目があるかを含めて 情報抽出を行う ▪ あるトピックに関する文章を大量に収集、 類似する文章の対応付けを行う ▪ 例) デング熱が東南アジアで大流行している
東南アジアでデング熱の感染が広がっている ▪ 「XがYで大流行している」と「YでXの感染が広がっている」が同義表 現パターンであることが獲得できる ▪ このパターンが文章中で高頻度であれば、X,Yを重要な項目と判断 し「《感染症流行》:〈病名〉,〈場所〉」というテンプレートを学習できる。
知識獲得 ▪ 事態間の関係 ▪ 同義・類義の関係 ▪ 意味の解析(1)にて紹介した分布類似度にて計算可能 ▪ 用言では重要な項を加えた句として計算する ▪
例) 「景気が冷え込む」と「景気が落ち込む」 ▪ 文体が異なる同義表現では情報抽出にて説明した方法で関係を調べる ことで獲得が可能 ▪ 同じ用語の複数の定義分野、 同じ原文の複数の翻訳などに用いることも可能
知識獲得 ▪ 因果関係・時間経過の関係 ▪ 因果関係 : 「ころぶ → 骨折する」 ▪
時間経過の関係 : 「朝起きる → 顔を洗う」 ▪ コーパスにおいてよく共起することを手がかりとして抽出 ▪ 事態間に項の共有があり、これを正確に抽出して初めて 事態間知識といえる
知識獲得 ▪ 例) ▪ The police arrested John and charged
him. ▪ HimがJohnに照応することがわかれば 「X arrest Y → X charge Y」という事態間知識が得られる。 ▪ 日本語の場合項の多くが省略される a. 彼が財布を拾って警察に届けた b. 財布を拾ったので警察に届けた c. ドライバーが財布を拾って届けた まず「財布を拾う → 届ける」という強く共起する部分を抽出 「拾う」の格フレームと「届ける」の格フレームの項の対応付けを行い、 「Xが財布を拾う → Xが財布を警察に届ける」を得る
スクリプト ▪ ある状況において典型的に起こる一連の出来事を 記述した知識 ▪ 例) レストランでの食事 ▪ 「レストランに入る」 ▪
「席につく」 ▪ 「注文をする」 ▪ 「料理を食べる」 ▪ 「支払いをする」 ▪ 「レストランを出る」 ▪ このような知識を人手で与えることは不可能 → 大規模コーパスからスクリプトを自動学習
参考文献 ▪ 黒橋 禎夫, 自然言語処理, 放送大学教育振興会 (2015.3.20) pp.106-115