Upgrade to Pro — share decks privately, control downloads, hide ads and more …

情報抽出⼊⾨ 〜非構造化データを構造化させる技術〜 @PFIセミナー

情報抽出⼊⾨ 〜非構造化データを構造化させる技術〜 @PFIセミナー

Yuya Unno

May 16, 2013
Tweet

More Decks by Yuya Unno

Other Decks in Technology

Transcript

  1. ⾃自⼰己紹介 l  海野 裕也 (@unnonouno) l  Jubatusチームリーダー l  分散オンライン機械学習基盤 l 

    2011年年4⽉月からPFIにJOIN 専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング
  2. あらゆる⾮非構造化データに同じ問題が潜んでいる 10 画像 ⼈人 ⽝犬 音声 行動ログ P F I

    18:03 カメラのサイト 18:04 レンズのサイト 18:05 カメラのサイト 18:06 価格情報サイト 18:09 ニュースサイト 製品⽐比較中
  3. 情報抽出の3要素 20 2013年年5⽉月8⽇日〜~10⽇日 東京 ビックサイトにて⾏行行われる第 4回クラウドコンピューティ ングEXPOにおいて、ネオジャ パン様のブースをお借りし Sedue for

    BigDataを出展致し ます。 2013/5/8 2013/5/10 東京ビックサイト 第4回クラウド・コン ピューティングEXPO 項⽬目名 項⽬目 開始⽇日 2013/5/8 終了了⽇日 2013/5/10 場所 東京ビックサイト イベント 名 第4回クラウドコン ピューティングEXPO 1. 情報の抜き出し 2. 情報の正規化 3. 関係整理理 ※同時に解いても良いし、この順に解かな ければならないわけではない
  4. 分類と抽出はここが違う l  分類 l  ⼊入⼒力力は⽂文書,画像,⾳音声など任意 l  出⼒力力はラベル l  抽出 l 

    ⼊入⼒力力は⽂文(シーケンス) l  出⼒力力は⽂文中の区間と付加情報 スパム? ⼈人名 評判
  5. 分類と抽出はここが同じ l  ⽂文書の解析という意味では同じ l  ⼊入⼒力力は⽂文書データ、出⼒力力は解析結果 l  結果だけ⾒見見れば同じように⾒見見える l  機械学習やルールを使うという意味では同じ l 

    ルールベースも機械学習も使う⽅方法はある l  問題設定としては、前者は分類問題、後者はシーケンシャルラ ベリングなどを応⽤用するのが⼀一般的
  6. BIO法 l  NER問題を系列列ラベリング問題に変換する⽅方法 l  抽出対象の系列列に対して部分列列のどの部分かでラベルを 割り当てる l  部分列列の開始点をB (Begin) l 

    部分列列の開始点以外をI (Internal) l  部分列列以外をO (Other) l  BIOのタグを推定して、BIIII… の部分が⽬目的の部分列列と 判断する 24 今 ⽇日 は 1 6 ⽇日 だ B I I O O O O
  7. 隠れマルコフモデル (Hidden Markov Model; HMM) l  隠れ状態の列列と観測列列に分けてモデル化する l  隠れ状態は左隣隣の隠れ状態のみに依存する(マルコフ性) l 

    観測列列は隠れ状態のみに依存する l  系列列ラベリングの⽂文脈では隠れ状態列列が出⼒力力列列 27 ⼈人 ⼈人 ⼈人 ⼈人 ⼈人 男 男 ⼥女女 ⼥女女 男 こちらを当てたい こちらが入力 隠れ状態列 観測列 P(男|男) P(女|男)
  8. 条件付き確率率率場 (Conditional Random Field; CRF) [Lafferty2001] l  ラベルの同時確率率率を直接モデル化する l  P(y|x)

    ∝ exp(∑ i f(i)・w) l  特に⼊入⼒力力が系列列の時をlinear chain CRFと呼ぶ l  ⾃自然⾔言語処理理の⽂文脈で出てくるとほとんどがこれのこと 28 ⼈人 ⼈人 ⼈人 ⼈人 ⼈人 男 男 ⼥女女 ⼥女女 男 隣接ラベルのみに特徴関数fi が設定されている
  9. 同義表現の⽣生成仮定で複数存在する 1.  表記揺れ 2.  略略語 3.  翻字 4.  修飾 5. 

    表現の異異なり 30 スペリングの問題 本質的な意味の問題 これは私による整理理で、 もっと他の現象もあるかも
  10. SimString [岡崎 10] l  閾値 t 以上の類似疎ベクトルを⾼高速に探索索するアルゴリズム l  疎ベクトルの類似度度が t

    以上になるためには、t に応じた個数以上 の共通⾮非ゼロ要素がなければならない l  この性質を使って候補を絞り込む 注意:⼀一般の類似ベクトル検索索に使おうとすると、閾値を設定できな い(ふうつうは上位N件)ため、うまく使えなさそう 32 $ simstring -u -d web1tja/unigrams.db -t 0.7 -s cosine スパゲッティー スパゲッティ スパゲッテー スパゲティー スパッティー …
  11. 翻字 (Transliteration) l  例例 l  岩⽥田 vs Iwata l  中国語の翻字は意味としても通じるように作るのがオ

    シャレらしい 33 ຋ࣈʢ΄Μ͡ɺӳUSBOTMJUFSBUJPOʣͱ͸ɺݴޠֶʹ ͓͍ͯಛఆͷݴޠΛهͨ͠จࣈදهΛผͷจࣈʹΑ ΔදهʹҠ͢͜ͱΛ͍͏ɻ຋ࣈ͸ҹ࡮෺ͷൃߦ͢Δ ࡍͳͲʹٕज़తͳ໰୊΍ಡऀͷศٓͷͨΊʹߦΘΕ Δɻ
  12. 略略語 (Abbreviation) l  ⻑⾧長い単語を、アルファベット上の規則で省省略略した単語 l  略略語の⽣生成仮定でも複数の種類がある l  頭字語 (Acronym): 頭⽂文字をつなげて別の単語を作る

    l  ASEAN, APEC, LINUX l  複数の単語の⼀一部を結合 l  パソコン、ブログ、キムタク l  単⼀一の単語を省省略略 l  チョコ、ブクロ 36
  13. 修飾 l  無視してもよい様な修飾表現を排除したい l  修飾されている以上、何かしら意味の変化がある l  同⼀一視したい基準は、アプリケーションやお客さん依存 l  例例 l 

    岩⽥田 vs 岩⽥田さん l  例例えばこの例例でも、丁寧に話される場合とそうでない場 合の差を⾒見見ようとすると、「さん」の有無が重要な要素 になってしまう 37
  14. まとめ l  情報抽出は⾮非構造のデータを整理理する技術 l  ほとんどの⾮非構造データに類似の問題が有る l  ⼀一般的にはテキストデータに対する処理理 l  情報抽出の3つの処理理がある l 

    情報を抜き出す l  情報を正規化する l  情報間の関係を整理理する l  コア以外の技術で考えないといけないことが多数 l  情報抽出を応⽤用したアプリケーション l  正解データを作るためのUI 50
  15. 参考⽂文献 l  S. Sarawagi. Information Extraction. Foundations and Treands in

    Databases, Vol. 1, No. 3 (2007) pp. 261-377, 2008. l  J. Lafferty, A. McCallum, F . Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. ICML2001. l  岡崎直観, 辻井潤⼀一. ⾼高速な類似⽂文字列列検索索アルゴリズム. 情報処理理学会創⽴立立50周年年記念念全国⼤大会, 1C-1, 2010. l  V. Pervouchine, H. Li, B. Lin. Transliteration Alignment. ACL&IJCNLP 2009, pp. 136-144, 2009. 51