Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation

masaya82
May 28, 2018
52

Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation

masaya82

May 28, 2018
Tweet

More Decks by masaya82

Transcript

  1. Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation Alexander

    Panchenko , Stefano Faralli , Simone Paolo Ponzetto , and Chris Biemann 2018 5/29 文献紹介 ※例文、図、表は本論文より引用 長岡技術科学大学 自然言語処理研究室 福嶋 真也 Proceeding of the 1st Workshop on Sense, Concept and Entity Representations and their Applications,pages 72-78,Valencia, Spain, April 4 2017.
  2. 3 introduction • WSDのタスクにおいて様々なアプローチがなされている ・graph-based distributional approach ・word sense embeddings

    ・conbination of both ・hybrid approach • このペーパーではハイブリッドな単語の意味表現の有用性 を調査
  3. 4 introduction • 教師なし知識ベースの新しい手法を紹介 (WSD based on the Hybrid Aligned

    Resource(HAR)) • HARではまばらな語彙の表現を用いている →意味表現を読めるようにし、かつWSDに使いやすいよう に する • 象徴的な分散意味表現と語彙資源をリンクさせることで 意味の表現を改善
  4. 5 Relation Work • Conbined distributional information and lexical resource

    • Word embeddings • Skip-gram model • Sense embeddings etc...
  5. 6 Unsupervised Knowledge-based WSD using Hybrid Aligned Resource • HARの構築

    ・コーパスベースの部分 PCZ ID,Related Terms,Hypernyms,Context Clue ・知識ベースの部分 WordNet ID
  6. 7 Unsupervised Knowledge-based WSD using Hybrid Aligned Resource • PCZの構築手法(Faralli

    et al.,2016) ・分布シソーラスの構築 ・語義の誘導 ・上位語と共に語の意味をラベリング ・関連語と上位語の曖昧さ回避 ・文脈の手がかりを検索
  7. 8 HAR Dataset • News(100 million sentences) ・Gigaword(Parker et al.,2011)

    ・LCC(Richter et al.,2006) Average sense nunber:2.3 per word • Wikipedia (35 million sentences) Average sense nunber:1.8 per word
  8. 9 Experimental conditions • WordNet • WordNet+Related(news) • WordNet+Related(news)+Context(news) •

    WordNet+Related(news)+Context(wiki) ただし、下2つのContextは1つの単語の意味に対し、 context cluesは5000個まで
  9. 11 Evaluation • WSDにおけるHARの影響を調査 • 評価に用いるデータセット ・Senseval-3(Mihalcea et al.,2004) ・SemEval-2007

    Task 17(Pradhan et al.,2007) 前者は粗いアノテーションときめ細かいアノテーションが存在 後者はきめ細かいもののみ存在 • 全ての実験において the official task’s evaluator を使用 recall,precision,F-scoreを計算
  10. 13 Results • SoTAとの比較 ・KnowNet(Cuadros and Rigau, 2008) ・BabelNet(Navigli and

    Ponzetto, 2012) ・WN+XWN(Cuadros and Rigau, 2007) ・NASARI(Camacho-Collados et al., 2015a) 基本的にオリジナルのスコアを使用 ただしNASARIは新たに意味表現を獲得したもので評価