Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報抽出、知識獲得について
Search
masaya82
January 30, 2018
0
210
情報抽出、知識獲得について
masaya82
January 30, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
110
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
120
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
69
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
96
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
79
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
93
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
100
Featured
See All Featured
Designing on Purpose - Digital PM Summit 2013
jponch
115
7k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
93
16k
How to train your dragon (web standard)
notwaldorf
88
5.7k
The Language of Interfaces
destraynor
154
24k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
400
Adopting Sorbet at Scale
ufuk
73
9.1k
Why Our Code Smells
bkeepers
PRO
334
57k
Side Projects
sachag
452
42k
Writing Fast Ruby
sferik
627
61k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.2k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Transcript
情報抽出、 知識獲得について 自然言語処理研究室 B3 福嶋 真也
参考文献 黒橋 禎夫 著 「自然言語処理」 2015年 一般財団法人 放送大学教育振興会
概要 構造化されていないテキストから情報や知識を自動的に取り出 す技術 情報抽出 →固有名や特定のイベント(出来事)になどついて扱う 知識獲得 →一般的な知識を扱う
情報抽出 ・関係抽出 固有名の属性からそれらの関係性を取得 例 A電気(京都市)の田中一郎社長は18日、来月から新たな 新たなるパーソナルコンピュータ、PC X120の販売を開始 すると発表した。・・・ <会社> <社長>
<所在地> A電気 田中一郎 京都市 B商事 山田太郎 大阪市 … 《会社》 表現パターン <会社>の<社長>社長 <会社>(<所在地>) →A電気と田中一郎は「会社の社長」という関係を持つ
情報抽出 ・イベント情報抽出 あるイベントについて関連する重要な項目を取り出す 例 東南アジアでデング熱の感染が広がっている。・・・ <病名> <場所> <時期> 鳥インフルエ ンザ
アジア 2003年冬 デング熱 東南アジア 2007年夏 … 《感染症流行》 表現パターン <場所>で<病名>の 感染が広がる
情報抽出 情報抽出の利点 ・表にまとめられている情報であるから閲覧しやすい ・検索に活用できる 例:「B商事の商品を探したい」→〈メーカ〉がB商事となってい る製品を提示 しかし… テンプレートと表現のパターンを人手で作成するのはコストがか かる →テンプレートと表現のパターンを自動学習させる。
情報抽出 ・表現パターンの自動抽出 まず最初に、ある関係を持つ具体的なペア(インスタンス)の小 さな集合(種,seed)を用意 コーパスでよく共起する表現パターンを獲得 獲得した表現パターンから新たなインスタンスを獲得 新たなインスタンスを用いてよく共起する表現パターンを獲得 繰り返し ブートストラップという
情報抽出 例:インスタンスをI、パターンをPとする 1:A電気-京都市、B商事-大阪市 1 :<会社>は<所在地>にある、 <会社>の所在地は<所在地>、… 2:C自動車-大津市、D電気-大阪市、… 2 :<所在地>にある<会社>、 <所在地>の<会社>
、…
情報抽出 ・Espresso 関係抽出の手法。 よいパターンはよいインスタンスを取り出し、よいインスタンスは よいパターンによって取り出されると仮定。 そこからパターンの信頼度パターンとインスタンスの信頼度 インスタンスを計算する。 算出した信頼度から抽出するパターン及びインスタンスを決定 ※インスタンスの初期値は1
情報抽出 パターン() = { , ×インスタンス()} ∈ インスタンス() = {
, ×パターン()} ∈ , = log , × : pmi(i, p)の最大値 , :それぞれの要素数 , :それぞれのコーパス内での頻度 , :コーパス内での共起の頻度
情報抽出 • テンプレートの自動学習 あるトピックに関する文書を大量に収集し、特に類似する文書 の対応付けをすることで同義表現パターンを獲得 そのトピックの文書で表現パターンが高頻出なら重要な項目で あると判断しテンプレートに追加 例:トピック・・・感染症流行 ・デング熱が東南アジアで大流行している ・東南アジアでデング熱の感染が広がっている
→{《感染症流行》:〈病名〉、〈場所〉}
知識獲得 文で表現される出来事や状態(以下事態と呼ぶ)を単位として、 事態間の関係を考える ・関係が同義、類義のとき 文体が似ているなら・・・ 句として考え出現文脈の類似度から同義性、類似性を求める 例:「落ち込む」と「冷え込む」(景気) 文体が似ていないなら・・・ 同じ事態を表現している文、文章から関係性を調べる。
知識獲得 ・関係が因果関係、時間経過の関係のとき よく共起されることを利用する 例 転ぶ→骨折する 朝起きる→顔を洗う 日本語で事態間知識を獲得するには省略の頻出する文集合を 対象にする必要がある 例:彼が財布を拾って、警察に届けた 財布を拾ったので、警察に届けた
ドライバーが財布を拾って、届けた Xが財布を拾う →Xが財布を警察に 届ける
知識獲得 ・スクリプト ある状況で典型的に起こる一連の出来事を記述した知識のこ と 例:レストランでの食事 レストランに入る→席につく→注文をする→料理を食べる →支払いをする→レストランを出る 前述のように2つの事態間の関係を抽出し、項の類似度を考慮 しつつ関連するものを統合することでスクリプト的な知識を自動 学習で獲得することが可能
今回の発表内容 ・情報抽出 ・関係抽出とイベント情報抽出 ・表現パターンとテンプレートの自動学習 ・知識獲得 ・2つの事態間の関係抽出 ・スクリプト