Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報抽出、知識獲得について
Search
masaya82
January 30, 2018
0
52
情報抽出、 知識獲得について
masaya82
January 30, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
110
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
71
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
98
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
81
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
96
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
100
Featured
See All Featured
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
YesSQL, Process and Tooling at Scale
rocio
169
14k
RailsConf 2023
tenderlove
29
930
For a Future-Friendly Web
brad_frost
175
9.4k
Site-Speed That Sticks
csswizardry
1
170
GitHub's CSS Performance
jonrohan
1030
460k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Documentation Writing (for coders)
carmenintech
65
4.5k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
1
150
Product Roadmaps are Hard
iamctodd
PRO
49
11k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
2
270
Transcript
情報抽出、 知識獲得について 自然言語処理研究室 B3 福嶋 真也
参考文献 黒橋 禎夫 著 「自然言語処理」 2015年 一般財団法人 放送大学教育振興会
概要 構造化されていないテキストから情報や知識を自動的に取り出 す技術 情報抽出 →固有名や特定のイベント(出来事)になどついて扱う 知識獲得 →一般的な知識を扱う
情報抽出 ・関係抽出 固有名の属性からそれらの関係性を取得 例 A電気(京都市)の田中一郎社長は18日、来月から新たな 新たなるパーソナルコンピュータ、PC X120の販売を開始 すると発表した。・・・ <会社> <社長>
<所在地> A電気 田中一郎 京都市 B商事 山田太郎 大阪市 … 《会社》 表現パターン <会社>の<社長>社長 <会社>(<所在地>) →A電気と田中一郎は「会社の社長」という関係を持つ
情報抽出 ・イベント情報抽出 あるイベントについて関連する重要な項目を取り出す 例 東南アジアでデング熱の感染が広がっている。・・・ <病名> <場所> <時期> 鳥インフルエ ンザ
アジア 2003年冬 デング熱 東南アジア 2007年夏 … 《感染症流行》 表現パターン <場所>で<病名>の 感染が広がる
情報抽出 情報抽出の利点 ・表にまとめられている情報であるから閲覧しやすい ・検索に活用できる 例:「B商事の商品を探したい」→〈メーカ〉がB商事となってい る製品を提示 しかし… テンプレートと表現のパターンを人手で作成するのはコストがか かる →テンプレートと表現のパターンを自動学習させる。
情報抽出 ・表現パターンの自動抽出 まず最初に、ある関係を持つ具体的なペア(インスタンス)の小 さな集合(種,seed)を用意 コーパスでよく共起する表現パターンを獲得 獲得した表現パターンから新たなインスタンスを獲得 新たなインスタンスを用いてよく共起する表現パターンを獲得 繰り返し ブートストラップという
情報抽出 例:インスタンスをI、パターンをPとする 1:A電気-京都市、B商事-大阪市 1 :<会社>は<所在地>にある、 <会社>の所在地は<所在地>、… 2:C自動車-大津市、D電気-大阪市、… 2 :<所在地>にある<会社>、 <所在地>の<会社>
、…
情報抽出 ・Espresso 関係抽出の手法。 よいパターンはよいインスタンスを取り出し、よいインスタンスは よいパターンによって取り出されると仮定。 そこからパターンの信頼度パターンとインスタンスの信頼度 インスタンスを計算する。 算出した信頼度から抽出するパターン及びインスタンスを決定 ※インスタンスの初期値は1
情報抽出 パターン() = { , ×インスタンス()} ∈ インスタンス() = {
, ×パターン()} ∈ , = log , × : pmi(i, p)の最大値 , :それぞれの要素数 , :それぞれのコーパス内での頻度 , :コーパス内での共起の頻度
情報抽出 • テンプレートの自動学習 あるトピックに関する文書を大量に収集し、特に類似する文書 の対応付けをすることで同義表現パターンを獲得 そのトピックの文書で表現パターンが高頻出なら重要な項目で あると判断しテンプレートに追加 例:トピック・・・感染症流行 ・デング熱が東南アジアで大流行している ・東南アジアでデング熱の感染が広がっている
→{《感染症流行》:〈病名〉、〈場所〉}
知識獲得 文で表現される出来事や状態(以下事態と呼ぶ)を単位として、 事態間の関係を考える ・関係が同義、類義のとき 文体が似ているなら・・・ 句として考え出現文脈の類似度から同義性、類似性を求める 例:「落ち込む」と「冷え込む」(景気) 文体が似ていないなら・・・ 同じ事態を表現している文、文章から関係性を調べる。
知識獲得 ・関係が因果関係、時間経過の関係のとき よく共起されることを利用する 例 転ぶ→骨折する 朝起きる→顔を洗う 日本語で事態間知識を獲得するには省略の頻出する文集合を 対象にする必要がある 例:彼が財布を拾って、警察に届けた 財布を拾ったので、警察に届けた
ドライバーが財布を拾って、届けた Xが財布を拾う →Xが財布を警察に 届ける
知識獲得 ・スクリプト ある状況で典型的に起こる一連の出来事を記述した知識のこ と 例:レストランでの食事 レストランに入る→席につく→注文をする→料理を食べる →支払いをする→レストランを出る 前述のように2つの事態間の関係を抽出し、項の類似度を考慮 しつつ関連するものを統合することでスクリプト的な知識を自動 学習で獲得することが可能
今回の発表内容 ・情報抽出 ・関係抽出とイベント情報抽出 ・表現パターンとテンプレートの自動学習 ・知識獲得 ・2つの事態間の関係抽出 ・スクリプト