Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3 勉強会 第六回
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
gumigumi7
February 10, 2016
Education
0
230
B3 勉強会 第六回
gumigumi7
February 10, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
250
文献紹介 11月7日
gumigumi7
0
140
文献紹介 10月3日
gumigumi7
0
330
文献紹介 9月3日
gumigumi7
0
270
文献紹介 8月10日
gumigumi7
0
130
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
190
文献紹介 4月18日
gumigumi7
0
150
Other Decks in Education
See All in Education
子どもが自立した学習者となるデジタルの活用について
naokikato
PRO
0
190
2025-12-11 nakanoshima.dev LT
takesection
0
110
多様なメンター、多様な基準
yasulab
PRO
5
19k
心理学を学び活用することで偉大なスクラムマスターを目指す − 大学とコミュニティを組み合わせた学びの循環 / Becoming a great Scrum Master by learning and using psychology
psj59129
1
1.7k
都市の形成要因と 「都市の余白」のあり方
sakamon
0
160
SJRC 2526
cbtlibrary
0
200
Node-REDで広がるプログラミング教育の可能性
ueponx
1
270
滑空スポーツ講習会2025(実技講習)EMFT学科講習資料/JSA EMFT 2025
jsaseminar
0
230
✅ レポート採点基準 / How Your Reports Are Assessed
yasslab
PRO
0
280
Use Cases and Course Review - Lecture 8 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.4k
国際卓越研究大学計画|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
47k
Leveraging LLMs for student feedback in introductory data science courses (Stats Up AI)
minecr
1
180
Featured
See All Featured
Facilitating Awesome Meetings
lara
57
6.8k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Building the Perfect Custom Keyboard
takai
2
690
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Automating Front-end Workflow
addyosmani
1371
200k
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
3.9k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
160
Everyday Curiosity
cassininazir
0
130
Paper Plane
katiecoart
PRO
0
46k
Transcript
B3 勉強会 第六回 (2016/02/10) 長岡技術科学大学 B3 桾澤 優希 情報抽出と知識獲得
情報抽出と知識獲得 ▪ 構造化されていないテキストから情報または知識を自動 的に取り出すこと ▪ 情報抽出では固有名や特定のイベントに関する情報を 知識獲得ではより一般的な知識を扱う ▪ 同義・類義語や格フレームだけでなく、事態間の関係やス クリプトと呼ばれる知識について考える
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 A電気(京都市)の田中一郎社長は18日,来月から新たな PCである、PC X120の発売を開始すると発表した。 表現パターン 〈会社〉(〈所在地〉)
〈会社〉の〈社長〉社 長 会社 社長 所在地 A電気 田中一郎 京都市 B商事 山田太郎 大阪市 ︙ ︙ ︙
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 A電気(京都市)の田中一郎社長は18日,来月から新たな PCである、PC X120の発売を開始すると発表した。 〈メーカ〉*〈製品〉 の販売を開始
製品 メーカ 価格 PC X100 A電気 10万円 PC X120 A電気 13万円 ︙ ︙ ︙
情報抽出 ▪ 構造化されていない非定型のテキストから固有名に関す る属性や、特定イベントの主要な項目を抽出し、表の形 に整理する処理 東南アジアでデング熱の感染が広がっている。 政府は… 〈場所〉で〈病名〉の 感染が広がる 病名
場所 時期 鳥インフル アジア 2003年冬 デング熱 東南アジア 2007年夏 ︙ ︙ ︙
情報抽出 ▪ 最初期では ・ 「〈製品〉,〈メーカ〉,〈値段〉」 ・ 「《感染症流行》:〈病名〉, 〈場所〉, 〈時期〉」 のような抽出すべき情報のテンプレートと
・ 「〈買収先〉が*〈買収元〉を買収する」 ・ 「〈メーカ〉*〈製品〉を発売」 などのような情報抽出のためのパターンを人手で用意 ▪ コストがかかる上拡張性もない ▪ 表現パターン、テンプレートの自動学習
表現パターンの自動学習 ▪ “X such as Y and Z” のような文章からXが上位語、 Y、Zが下位語という関係を取り出すことは可能
▪ 通常の関係を表現するパターンは多数あり、人手での用 意は容易ではない ▪ ある関係を持つ具体的なペア(インスタンス)の小さな集合 から共起するパターンを獲得し、そこからインスタンスを獲 得、これらの処理を繰り返し情報抽出を行う → ブートストラップ
表現パターンの自動学習 ▪ 例) 〈会社〉と〈所在地〉の関係 ▪ I1 : A 電気 –
京都市, B 商事 – 大阪市 ▪ P1 : 〈会社〉は〈所在地〉にある、 〈会社〉の所在地は〈所在地〉、・・・ ▪ I2 : C 自動車 – 大津市, D 電気 – 大阪市 ▪ P2 : 〈所在地〉にある〈会社〉、 〈所在地〉の〈会社〉、・・・ ▪ Espressoと呼ばれる手法
表現パターンの自動学習 ▪ 良いパターンは良いインスタンスを、良いインスタンスは良い パターンによって取り出されると仮定 ▪ パターン、インスタンスの信用度rp, riを計算 () = ∈
{ (, ) × () } || () = ∈ { (, ) × () } || (, ) = |, | || × ||
テンプレートの自動学習 ▪ トピックのイベントにどのような重要な項目があるかを含めて 情報抽出を行う ▪ あるトピックに関する文章を大量に収集、 類似する文章の対応付けを行う ▪ 例) デング熱が東南アジアで大流行している
東南アジアでデング熱の感染が広がっている ▪ 「XがYで大流行している」と「YでXの感染が広がっている」が同義表 現パターンであることが獲得できる ▪ このパターンが文章中で高頻度であれば、X,Yを重要な項目と判断 し「《感染症流行》:〈病名〉,〈場所〉」というテンプレートを学習できる。
知識獲得 ▪ 事態間の関係 ▪ 同義・類義の関係 ▪ 意味の解析(1)にて紹介した分布類似度にて計算可能 ▪ 用言では重要な項を加えた句として計算する ▪
例) 「景気が冷え込む」と「景気が落ち込む」 ▪ 文体が異なる同義表現では情報抽出にて説明した方法で関係を調べる ことで獲得が可能 ▪ 同じ用語の複数の定義分野、 同じ原文の複数の翻訳などに用いることも可能
知識獲得 ▪ 因果関係・時間経過の関係 ▪ 因果関係 : 「ころぶ → 骨折する」 ▪
時間経過の関係 : 「朝起きる → 顔を洗う」 ▪ コーパスにおいてよく共起することを手がかりとして抽出 ▪ 事態間に項の共有があり、これを正確に抽出して初めて 事態間知識といえる
知識獲得 ▪ 例) ▪ The police arrested John and charged
him. ▪ HimがJohnに照応することがわかれば 「X arrest Y → X charge Y」という事態間知識が得られる。 ▪ 日本語の場合項の多くが省略される a. 彼が財布を拾って警察に届けた b. 財布を拾ったので警察に届けた c. ドライバーが財布を拾って届けた まず「財布を拾う → 届ける」という強く共起する部分を抽出 「拾う」の格フレームと「届ける」の格フレームの項の対応付けを行い、 「Xが財布を拾う → Xが財布を警察に届ける」を得る
スクリプト ▪ ある状況において典型的に起こる一連の出来事を 記述した知識 ▪ 例) レストランでの食事 ▪ 「レストランに入る」 ▪
「席につく」 ▪ 「注文をする」 ▪ 「料理を食べる」 ▪ 「支払いをする」 ▪ 「レストランを出る」 ▪ このような知識を人手で与えることは不可能 → 大規模コーパスからスクリプトを自動学習
参考文献 ▪ 黒橋 禎夫, 自然言語処理, 放送大学教育振興会 (2015.3.20) pp.106-115