情報抽出、知識獲得について

029be5ac1ce0db70c46dcd7152308e2e?s=47 masaya82
January 30, 2018
95

 情報抽出、知識獲得について

029be5ac1ce0db70c46dcd7152308e2e?s=128

masaya82

January 30, 2018
Tweet

Transcript

  1. 情報抽出、 知識獲得について 自然言語処理研究室 B3 福嶋 真也

  2. 参考文献 黒橋 禎夫 著 「自然言語処理」 2015年 一般財団法人 放送大学教育振興会

  3. 概要 構造化されていないテキストから情報や知識を自動的に取り出 す技術 情報抽出 →固有名や特定のイベント(出来事)になどついて扱う 知識獲得 →一般的な知識を扱う

  4. 情報抽出 ・関係抽出 固有名の属性からそれらの関係性を取得 例 A電気(京都市)の田中一郎社長は18日、来月から新たな 新たなるパーソナルコンピュータ、PC X120の販売を開始 すると発表した。・・・ <会社> <社長>

    <所在地> A電気 田中一郎 京都市 B商事 山田太郎 大阪市 … 《会社》 表現パターン <会社>の<社長>社長 <会社>(<所在地>) →A電気と田中一郎は「会社の社長」という関係を持つ
  5. 情報抽出 ・イベント情報抽出 あるイベントについて関連する重要な項目を取り出す 例 東南アジアでデング熱の感染が広がっている。・・・ <病名> <場所> <時期> 鳥インフルエ ンザ

    アジア 2003年冬 デング熱 東南アジア 2007年夏 … 《感染症流行》 表現パターン <場所>で<病名>の 感染が広がる
  6. 情報抽出 情報抽出の利点 ・表にまとめられている情報であるから閲覧しやすい ・検索に活用できる 例:「B商事の商品を探したい」→〈メーカ〉がB商事となってい る製品を提示 しかし… テンプレートと表現のパターンを人手で作成するのはコストがか かる →テンプレートと表現のパターンを自動学習させる。

  7. 情報抽出 ・表現パターンの自動抽出 まず最初に、ある関係を持つ具体的なペア(インスタンス)の小 さな集合(種,seed)を用意 コーパスでよく共起する表現パターンを獲得 獲得した表現パターンから新たなインスタンスを獲得 新たなインスタンスを用いてよく共起する表現パターンを獲得 繰り返し ブートストラップという

  8. 情報抽出 例:インスタンスをI、パターンをPとする 1:A電気-京都市、B商事-大阪市 1 :<会社>は<所在地>にある、 <会社>の所在地は<所在地>、… 2:C自動車-大津市、D電気-大阪市、… 2 :<所在地>にある<会社>、 <所在地>の<会社>

    、…
  9. 情報抽出 ・Espresso 関係抽出の手法。 よいパターンはよいインスタンスを取り出し、よいインスタンスは よいパターンによって取り出されると仮定。 そこからパターンの信頼度パターンとインスタンスの信頼度 インスタンスを計算する。 算出した信頼度から抽出するパターン及びインスタンスを決定 ※インスタンスの初期値は1

  10. 情報抽出 パターン() = { , ×インスタンス()} ∈ インスタンス() = {

    , ×パターン()} ∈ , = log , × : pmi(i, p)の最大値 , :それぞれの要素数 , :それぞれのコーパス内での頻度 , :コーパス内での共起の頻度
  11. 情報抽出 • テンプレートの自動学習 あるトピックに関する文書を大量に収集し、特に類似する文書 の対応付けをすることで同義表現パターンを獲得 そのトピックの文書で表現パターンが高頻出なら重要な項目で あると判断しテンプレートに追加 例:トピック・・・感染症流行 ・デング熱が東南アジアで大流行している ・東南アジアでデング熱の感染が広がっている

    →{《感染症流行》:〈病名〉、〈場所〉}
  12. 知識獲得 文で表現される出来事や状態(以下事態と呼ぶ)を単位として、 事態間の関係を考える ・関係が同義、類義のとき 文体が似ているなら・・・ 句として考え出現文脈の類似度から同義性、類似性を求める 例:「落ち込む」と「冷え込む」(景気) 文体が似ていないなら・・・ 同じ事態を表現している文、文章から関係性を調べる。

  13. 知識獲得 ・関係が因果関係、時間経過の関係のとき よく共起されることを利用する 例 転ぶ→骨折する 朝起きる→顔を洗う 日本語で事態間知識を獲得するには省略の頻出する文集合を 対象にする必要がある 例:彼が財布を拾って、警察に届けた 財布を拾ったので、警察に届けた

    ドライバーが財布を拾って、届けた Xが財布を拾う →Xが財布を警察に 届ける
  14. 知識獲得 ・スクリプト ある状況で典型的に起こる一連の出来事を記述した知識のこ と 例:レストランでの食事 レストランに入る→席につく→注文をする→料理を食べる →支払いをする→レストランを出る 前述のように2つの事態間の関係を抽出し、項の類似度を考慮 しつつ関連するものを統合することでスクリプト的な知識を自動 学習で獲得することが可能

  15. 今回の発表内容 ・情報抽出 ・関係抽出とイベント情報抽出 ・表現パターンとテンプレートの自動学習 ・知識獲得 ・2つの事態間の関係抽出 ・スクリプト