Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介2015年4月

miyanishi
April 01, 2015
320

 文献紹介2015年4月

miyanishi

April 01, 2015
Tweet

Transcript

  1. 文献情報  CFILT: Resource Conscious Approaches for All-Words Domain Specific

    WSD  著者:Anup Kulkarni et. al. (Indian Institute of Technology Bombay)  Proceedings of the 5th International Workshop on Semantic Evaluation (ACL 2010)
  2. 概要  SemEval シェアードタスク提出システム  「All-words WSD on a Specific

    Domain」に提出  知識ベースシステム  弱教師あり学習システム  弱教師あり学習システムで1位を獲得  精度0.570, 再現率0.555
  3. IWSD(反復型WSD)  All-words WSD用のアルゴリズム (Khapra et al.,2010)†  手順 

    文中の単一語義の語にタグ付け  文中の他の語にタグ付け(多義性が高い順)  語義を与える際のスコアリング関数は以下の式 †Mitesh Khapra, Sapan Shah, Piyus Kedia, and Pushpak Bhattacharyya. 2010. “Domain-specific word sense disambiguation corpus based and wordnet based parameters”, GWC2010
  4. スコア関数について  i ∈ WNから取得したsynset  J = 曖昧性解消後の単語集合 

    Θi = Si(主要な概念への所属性)  Vi =  Wij = Wijはコーパスの情報とWNからの情報を利用 ※コーパスにはSemCorコーパスを使用
  5. 平文コーパス(環境分野)  知識ベース,弱教師あり学習の両方で使用  環境分野の15記事を含むコーパス  単語数は22,000語  WEBサイト(WWF, ECNC)からDL

     Climate Change(気候変動)  Deforestation(森林伐採)  Species Extinction(種の絶滅)  Marine Life and Ecology(海の生命と生態学)
  6. 知識ベースシステム  意味関係をまとめたグラフ(WNから)を使用  手順  平文コーパスから専門用語を抽出  専門用語:コーパス内で一回以上出現した内容語 

    専門分野を含まないsynsetは枝切り  グラフ内を幅優先探索※ここはなくてもいい  包摂関係にある枝以外は破棄  Top-5の巨大なsynsetのみを取得 ---①  IWSDを使って曖昧性解消  WNの情報として考慮するのは①のみ
  7. 弱教師あり学習システム  IWSDを一部変更  単一語義の語→平文コーパス内の高頻度語  平文コーパス内の高頻度語にはタグ付済み ※平文コーパス内の高頻度語リスト=高頻度語リスト  手順

     高頻度語リストにある語の曖昧性解消  P( Si | word )を用いる  反復的に他の語も曖昧性解消  P( Si | word )を使う場合  SemCor+曖昧性解消後の語を利用
  8. 実験  SemEval All-words WSDタスク(2010)  提出システム  知識ベースシステム(KB)…1種類 

    弱教師あり学習システム(WS)…2種類  高頻度語リスト(80語)  高頻度語リスト(200語)  比較手法  PPR:Personalized PageRankアプローチ(2009)  MFS,Random
  9. まとめ  「All-words WSD on a Specific Domain」に提出  知識ベースシステム1種類

     弱教師あり学習システム2種類 (リストの語数を変更)  弱教師あり学習システムでタスク1位を獲得  精度0.570, 再現率0.555