Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介2015年4月

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
April 01, 2015
340

 文献紹介2015年4月

Avatar for miyanishi

miyanishi

April 01, 2015
Tweet

Transcript

  1. 文献情報  CFILT: Resource Conscious Approaches for All-Words Domain Specific

    WSD  著者:Anup Kulkarni et. al. (Indian Institute of Technology Bombay)  Proceedings of the 5th International Workshop on Semantic Evaluation (ACL 2010)
  2. 概要  SemEval シェアードタスク提出システム  「All-words WSD on a Specific

    Domain」に提出  知識ベースシステム  弱教師あり学習システム  弱教師あり学習システムで1位を獲得  精度0.570, 再現率0.555
  3. IWSD(反復型WSD)  All-words WSD用のアルゴリズム (Khapra et al.,2010)†  手順 

    文中の単一語義の語にタグ付け  文中の他の語にタグ付け(多義性が高い順)  語義を与える際のスコアリング関数は以下の式 †Mitesh Khapra, Sapan Shah, Piyus Kedia, and Pushpak Bhattacharyya. 2010. “Domain-specific word sense disambiguation corpus based and wordnet based parameters”, GWC2010
  4. スコア関数について  i ∈ WNから取得したsynset  J = 曖昧性解消後の単語集合 

    Θi = Si(主要な概念への所属性)  Vi =  Wij = Wijはコーパスの情報とWNからの情報を利用 ※コーパスにはSemCorコーパスを使用
  5. 平文コーパス(環境分野)  知識ベース,弱教師あり学習の両方で使用  環境分野の15記事を含むコーパス  単語数は22,000語  WEBサイト(WWF, ECNC)からDL

     Climate Change(気候変動)  Deforestation(森林伐採)  Species Extinction(種の絶滅)  Marine Life and Ecology(海の生命と生態学)
  6. 知識ベースシステム  意味関係をまとめたグラフ(WNから)を使用  手順  平文コーパスから専門用語を抽出  専門用語:コーパス内で一回以上出現した内容語 

    専門分野を含まないsynsetは枝切り  グラフ内を幅優先探索※ここはなくてもいい  包摂関係にある枝以外は破棄  Top-5の巨大なsynsetのみを取得 ---①  IWSDを使って曖昧性解消  WNの情報として考慮するのは①のみ
  7. 弱教師あり学習システム  IWSDを一部変更  単一語義の語→平文コーパス内の高頻度語  平文コーパス内の高頻度語にはタグ付済み ※平文コーパス内の高頻度語リスト=高頻度語リスト  手順

     高頻度語リストにある語の曖昧性解消  P( Si | word )を用いる  反復的に他の語も曖昧性解消  P( Si | word )を使う場合  SemCor+曖昧性解消後の語を利用
  8. 実験  SemEval All-words WSDタスク(2010)  提出システム  知識ベースシステム(KB)…1種類 

    弱教師あり学習システム(WS)…2種類  高頻度語リスト(80語)  高頻度語リスト(200語)  比較手法  PPR:Personalized PageRankアプローチ(2009)  MFS,Random
  9. まとめ  「All-words WSD on a Specific Domain」に提出  知識ベースシステム1種類

     弱教師あり学習システム2種類 (リストの語数を変更)  弱教師あり学習システムでタスク1位を獲得  精度0.570, 再現率0.555