Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sentence Hedge Detection without Cue Annotation...

takegue
April 16, 2014

Sentence Hedge Detection without Cue Annotation: Aheuristic Cue Selection Approch

takegue

April 16, 2014
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. 自然言語処理研究室 文献紹介ゼミ 2014年度 第3週 文献紹介 Sentence Hedge Detection without Cue

    Annotation: Heuristic Cue Selection Approch 長岡技術科学大学 B4 竹野 峻輔
  2. Horie, A. K. & Tanaka-Ishii, K. Sentence Hedge Detection without

    Cue Annotation : A Heuristic Cue Selection Approach. J. Nat. Lang. Process. 21, 27–40 (2014). 概要(*引用): This paper present a simple yet effective approch to sentence- level uncertainty detection which does not rewuire cue word annotation. Unlike previous works, the proposed method focuses on cue selection, decoupling it from disambiguation and by optimizing it over sentence hedgin error rate. High perfomance for the task is achieved in experiments, even for settings with poor disambiguation, without cue annotaion and with otherwise unreliable corpora from a machine learning point-of-view. キーワード:Hedge Detection, Text Mining 文献紹介:Sentence Hedge Detection without Cue Annotation: Aheuristic Cue Selection Approch 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  3. • Hedge Detection CoNNL-2010 Shared Task (Task 1: Detecting uncertain

    information) 当てにならない・不確かさを含む文を検出する • Hedge : 著者の予想などの曖昧さ ex.) He may be there uncertainity, weales Hedge Detection について 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  4. • 従来手法 – 2-step model と 1-step model – 手がかり語(cue)と曖昧性判定が同時(2-step

    model) • 手がかり語 = 学習器の素性 • 提案手法 – タスクを分割 • 曖昧性解消 → 手がかり語の列挙 → Hedge Detection • 他のタスクの研究成果が活かせる – 手がかり語の付与なしにHedge detection • 慎重な手がかり語の選択アリゴリズムの提案 – 従来手法と比べ、平均2.68ポイントの向上. 提案手法と従来研究の比較のおよびその貢献 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  5. 1. Introduction Disambigation Identifying cues (cue selection) Evaluating sentence- uncertainty

    Disambiagion and Identifying cues Evaluating sentence- uncertainty Disambigation Identifying cues Evaluating sentence- uncertainty 提案手法 2-step model 1-step model 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  6. 1. Introduction Disambigation Identifying cues (cue selection) Evaluating sentence- uncertainty

    提案手法 WSD Task の手法が転用できる. ◦ He may be there × You may enter 手がかり語(cues)の アノテーションが必要ない Hedge以外の分類にも利用できる (Volition, Obligation 等) コーパス依存の分布に対応できる Cue selectionの調整がしやすい 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  7. • CoNLL-2010 STで利用されるドメイン: Biological articles: uncertainty(不確かな言葉の)検出タスク Mild bladder wall thickening

    raises the question of cystitis. Wikipedia articles: weasel(濁した言葉) の検出 Some people calim that this results in a better taste than that of other diet colas. *ただし文脈によってweaselかは変わる 2. Datasets and baselines for the hedging detection task 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  8. • Word sences disambiguation – A~Fまでの6種類のWSDタスクを用意 • ex.) B:lemmatizer +

    POS tagger – uni-gram, bi-gram, tri-gram etc • Cue Selection – 有効なcueの組み合わせを取得する • Sentence-level hedge detection – 手がかり語が含まれるか否かだけで判断 3. Process overview 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  9. • Word sences disambiguation – A~Fまでの6種類のWSDタスクを用意 • ex.) B:lemmatizer +

    POS tagger – uni-gram, bi-gram, tri-gram etc • Cue Selection – 有効なcueの組み合わせを取得する • Sentence-level hedge detection – 手がかり語が含まれるか否かだけで判断 3. Process overview 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  10. • Cue Selection – 非手がかり語の雑音 1. 高頻度-曖昧性なしの手がかり語 2. 高頻度-曖昧性ありの手がかり語 3.

    低頻度-曖昧性なしの手がかり語 4. 低頻度-曖昧性ありの手がかり語 5. 高頻度-手がかり語と共起高い非手がかり語 6. 低頻度-手がかり語と共起高い非手がかり語 7. 手がかりごと共起しない非手がかり語 - False positivieによる手がかり語の選択圧 - Selection equivalence (選択等価性?) overlapped equivalence 3. Process overview 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  11. 最大被覆問題と同じようなアプローチ: 適合率も再現率も高くなる 手がかり語の組み合わせを見つける. 1.慎重な選択を行うようなアルゴリズム設計 1ループで1つの手がかり語を候補から外す/に加える 2. と 1 の2種類の基準を組み合わせて使う •

    候補の単語(w∈W) について 逐次的に手がかり語にするかしないかを判定する • F値が上がるように選択圧をかける 4. Proposed method for cue selection 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  12. 5. Experiments Biological articles (uncertainity task) Wikipedia articles (weasels task)

    平均 P R F P R F Fave 提案手法* 89.06 81.39 85.05 68.26 56.22 61.66 73.39 ベースライン 42 98 59 45 86 59 - 従来手法* 85.03 87.72 86.36 67.97 46.49 60.17 70.29 *それぞれのtaskで最良の結果のみ表示 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ
  13. • 汎用性の高いアルゴリズムで Hedge detectionを行った – 手がかり語のアノテーションがいらない • 慎重な手がかり語選択を行う提案手法の 有効性を示した。 –

    WikipediaではCoNNL2010のどの手法よりも高い – 緩いDisambigationでもよい成果が出やすい手法 – 従来手法と比べ、平均2.68ポイントの向上. 5. Experiments 2014/4/17 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介ゼミ