Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3 勉強会 第六回

gumigumi7
February 10, 2016

B3 勉強会 第六回

gumigumi7

February 10, 2016
Tweet

More Decks by gumigumi7

Other Decks in Education

Transcript

  1. 情報抽出 ▪ 最初期では ・ 「〈製品〉,〈メーカ〉,〈値段〉」 ・ 「《感染症流行》:〈病名〉, 〈場所〉, 〈時期〉」 のような抽出すべき情報のテンプレートと

    ・ 「〈買収先〉が*〈買収元〉を買収する」 ・ 「〈メーカ〉*〈製品〉を発売」 などのような情報抽出のためのパターンを人手で用意 ▪ コストがかかる上拡張性もない ▪ 表現パターン、テンプレートの自動学習
  2. 表現パターンの自動学習 ▪ “X such as Y and Z” のような文章からXが上位語、 Y、Zが下位語という関係を取り出すことは可能

    ▪ 通常の関係を表現するパターンは多数あり、人手での用 意は容易ではない ▪ ある関係を持つ具体的なペア(インスタンス)の小さな集合 から共起するパターンを獲得し、そこからインスタンスを獲 得、これらの処理を繰り返し情報抽出を行う → ブートストラップ
  3. 表現パターンの自動学習 ▪ 例) 〈会社〉と〈所在地〉の関係 ▪ I1 : A 電気 –

    京都市, B 商事 – 大阪市 ▪ P1 : 〈会社〉は〈所在地〉にある、 〈会社〉の所在地は〈所在地〉、・・・ ▪ I2 : C 自動車 – 大津市, D 電気 – 大阪市 ▪ P2 : 〈所在地〉にある〈会社〉、 〈所在地〉の〈会社〉、・・・ ▪ Espressoと呼ばれる手法
  4. テンプレートの自動学習 ▪ トピックのイベントにどのような重要な項目があるかを含めて 情報抽出を行う ▪ あるトピックに関する文章を大量に収集、 類似する文章の対応付けを行う ▪ 例) デング熱が東南アジアで大流行している

    東南アジアでデング熱の感染が広がっている ▪ 「XがYで大流行している」と「YでXの感染が広がっている」が同義表 現パターンであることが獲得できる ▪ このパターンが文章中で高頻度であれば、X,Yを重要な項目と判断 し「《感染症流行》:〈病名〉,〈場所〉」というテンプレートを学習できる。
  5. 知識獲得 ▪ 事態間の関係 ▪ 同義・類義の関係 ▪ 意味の解析(1)にて紹介した分布類似度にて計算可能 ▪ 用言では重要な項を加えた句として計算する ▪

    例) 「景気が冷え込む」と「景気が落ち込む」 ▪ 文体が異なる同義表現では情報抽出にて説明した方法で関係を調べる ことで獲得が可能 ▪ 同じ用語の複数の定義分野、 同じ原文の複数の翻訳などに用いることも可能
  6. 知識獲得 ▪ 因果関係・時間経過の関係 ▪ 因果関係 : 「ころぶ → 骨折する」 ▪

    時間経過の関係 : 「朝起きる → 顔を洗う」 ▪ コーパスにおいてよく共起することを手がかりとして抽出 ▪ 事態間に項の共有があり、これを正確に抽出して初めて 事態間知識といえる
  7. 知識獲得 ▪ 例) ▪ The police arrested John and charged

    him. ▪ HimがJohnに照応することがわかれば 「X arrest Y → X charge Y」という事態間知識が得られる。 ▪ 日本語の場合項の多くが省略される a. 彼が財布を拾って警察に届けた b. 財布を拾ったので警察に届けた c. ドライバーが財布を拾って届けた まず「財布を拾う → 届ける」という強く共起する部分を抽出 「拾う」の格フレームと「届ける」の格フレームの項の対応付けを行い、 「Xが財布を拾う → Xが財布を警察に届ける」を得る
  8. スクリプト ▪ ある状況において典型的に起こる一連の出来事を 記述した知識 ▪ 例) レストランでの食事 ▪ 「レストランに入る」 ▪

    「席につく」 ▪ 「注文をする」 ▪ 「料理を食べる」 ▪ 「支払いをする」 ▪ 「レストランを出る」 ▪ このような知識を人手で与えることは不可能 → 大規模コーパスからスクリプトを自動学習