Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報抽出、知識獲得について
Search
masaya82
January 30, 2018
0
210
情報抽出、知識獲得について
masaya82
January 30, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
110
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
71
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
98
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
81
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
96
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
100
Featured
See All Featured
Scaling GitHub
holman
458
140k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
500
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.2k
Designing for humans not robots
tammielis
250
25k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Bash Introduction
62gerente
608
210k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
900
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Fireside Chat
paigeccino
34
3.1k
Building Better People: How to give real-time feedback that sticks.
wjessup
365
19k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5k
Transcript
情報抽出、 知識獲得について 自然言語処理研究室 B3 福嶋 真也
参考文献 黒橋 禎夫 著 「自然言語処理」 2015年 一般財団法人 放送大学教育振興会
概要 構造化されていないテキストから情報や知識を自動的に取り出 す技術 情報抽出 →固有名や特定のイベント(出来事)になどついて扱う 知識獲得 →一般的な知識を扱う
情報抽出 ・関係抽出 固有名の属性からそれらの関係性を取得 例 A電気(京都市)の田中一郎社長は18日、来月から新たな 新たなるパーソナルコンピュータ、PC X120の販売を開始 すると発表した。・・・ <会社> <社長>
<所在地> A電気 田中一郎 京都市 B商事 山田太郎 大阪市 … 《会社》 表現パターン <会社>の<社長>社長 <会社>(<所在地>) →A電気と田中一郎は「会社の社長」という関係を持つ
情報抽出 ・イベント情報抽出 あるイベントについて関連する重要な項目を取り出す 例 東南アジアでデング熱の感染が広がっている。・・・ <病名> <場所> <時期> 鳥インフルエ ンザ
アジア 2003年冬 デング熱 東南アジア 2007年夏 … 《感染症流行》 表現パターン <場所>で<病名>の 感染が広がる
情報抽出 情報抽出の利点 ・表にまとめられている情報であるから閲覧しやすい ・検索に活用できる 例:「B商事の商品を探したい」→〈メーカ〉がB商事となってい る製品を提示 しかし… テンプレートと表現のパターンを人手で作成するのはコストがか かる →テンプレートと表現のパターンを自動学習させる。
情報抽出 ・表現パターンの自動抽出 まず最初に、ある関係を持つ具体的なペア(インスタンス)の小 さな集合(種,seed)を用意 コーパスでよく共起する表現パターンを獲得 獲得した表現パターンから新たなインスタンスを獲得 新たなインスタンスを用いてよく共起する表現パターンを獲得 繰り返し ブートストラップという
情報抽出 例:インスタンスをI、パターンをPとする 1:A電気-京都市、B商事-大阪市 1 :<会社>は<所在地>にある、 <会社>の所在地は<所在地>、… 2:C自動車-大津市、D電気-大阪市、… 2 :<所在地>にある<会社>、 <所在地>の<会社>
、…
情報抽出 ・Espresso 関係抽出の手法。 よいパターンはよいインスタンスを取り出し、よいインスタンスは よいパターンによって取り出されると仮定。 そこからパターンの信頼度パターンとインスタンスの信頼度 インスタンスを計算する。 算出した信頼度から抽出するパターン及びインスタンスを決定 ※インスタンスの初期値は1
情報抽出 パターン() = { , ×インスタンス()} ∈ インスタンス() = {
, ×パターン()} ∈ , = log , × : pmi(i, p)の最大値 , :それぞれの要素数 , :それぞれのコーパス内での頻度 , :コーパス内での共起の頻度
情報抽出 • テンプレートの自動学習 あるトピックに関する文書を大量に収集し、特に類似する文書 の対応付けをすることで同義表現パターンを獲得 そのトピックの文書で表現パターンが高頻出なら重要な項目で あると判断しテンプレートに追加 例:トピック・・・感染症流行 ・デング熱が東南アジアで大流行している ・東南アジアでデング熱の感染が広がっている
→{《感染症流行》:〈病名〉、〈場所〉}
知識獲得 文で表現される出来事や状態(以下事態と呼ぶ)を単位として、 事態間の関係を考える ・関係が同義、類義のとき 文体が似ているなら・・・ 句として考え出現文脈の類似度から同義性、類似性を求める 例:「落ち込む」と「冷え込む」(景気) 文体が似ていないなら・・・ 同じ事態を表現している文、文章から関係性を調べる。
知識獲得 ・関係が因果関係、時間経過の関係のとき よく共起されることを利用する 例 転ぶ→骨折する 朝起きる→顔を洗う 日本語で事態間知識を獲得するには省略の頻出する文集合を 対象にする必要がある 例:彼が財布を拾って、警察に届けた 財布を拾ったので、警察に届けた
ドライバーが財布を拾って、届けた Xが財布を拾う →Xが財布を警察に 届ける
知識獲得 ・スクリプト ある状況で典型的に起こる一連の出来事を記述した知識のこ と 例:レストランでの食事 レストランに入る→席につく→注文をする→料理を食べる →支払いをする→レストランを出る 前述のように2つの事態間の関係を抽出し、項の類似度を考慮 しつつ関連するものを統合することでスクリプト的な知識を自動 学習で獲得することが可能
今回の発表内容 ・情報抽出 ・関係抽出とイベント情報抽出 ・表現パターンとテンプレートの自動学習 ・知識獲得 ・2つの事態間の関係抽出 ・スクリプト