Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Extracting Opinion Expression with semi-Ma...

文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields

Shohei Okada

June 05, 2014
Tweet

More Decks by Shohei Okada

Other Decks in Research

Transcript

  1. 文献情報 Bishan Yang and Claire Cardie. Extracting Opinion Expressions with

    semi- Markov Conditional Random Fields. In Proceedings of the 2012 Joint Conference on EMNLP and CoNLL, pp. 1335-1345. (2012) 2014/6/5 文献紹介 2 ※本スライド中の数式,図表はすべて文献より引用
  2. 背景 | 意見抽出 • 2種類の意見表現のラベリング問題として – direct subjective expressions (DSEs)

    • 個人の状態の明確な言及や発話事象 – expressive subjective expressions (ESEs) • 感情等を示す表現するが,明確には伝えていない 表現 2014/6/5 文献紹介 5
  3. 背景 | 意見抽出 • The International Committee of the Red

    Cross, [as usual][ESE] , [has refused to make any statements][DSE] . • The Chief Minister [said][DSE] that [the demon they have reared will eat up their own vitals][ESE] . 2014/6/5 文献紹介 6
  4. 背景 | semi-CRFs • semi-CRFs (Sarawagi and Cohen, 2004) –

    segment level でラベリングが行われる – 固有表現抽出で効果あり – 意見抽出には適用されてない Sunita Sarawagi and William W. Cohen. Semi-Markov Conditional Random Fields for Information Extraction. In Proceedings of NIPS 2004. (2004) 2014/6/5 文献紹介 8
  5. Semi-CRFs 文 は連続するsegmentsで表現される = 1 , ⋯ , = (

    , , ) • , : segmentの始端・終端位置(1 ≤ − + 1 ≤ ) • : ラベル • :コーパス中で観測された最大の長さ 2014/6/5 文献紹介 11
  6. Semi-CRFs • 素性はsegment levelで生成される – 素性関数は(, , ) – ,

    , , , −1 とも書ける(first-order Markovian assumptionによる) = 1 exp � � (, , ) 2014/6/5 文献紹介 12
  7. 提案手法 | 概説 • を固定しない – 文全体が意見表現になることもあるため 構文解析の情報を利用 – segment

    unitを構文木に基づいて決定 – leaf phrase 又は leaf word がunitになり得る 2014/6/5 文献紹介 14
  8. 提案手法 | segmentation • 訓練データ各文に対して正しい segmentationを得る 2014/6/5 文献紹介 18 (The

    Chief Minister,NONE),(said,DSE), (that,NONE),(the demon they have reared will eat up their own vitals,ESE),(.,NONE) 例
  9. 提案手法 | 素性 • CRF-style features (token-level) – その単語の文字列,POS,辞書に基づく素性 •

    segment-level features – segmentの位置,構文に基づく素性 2014/6/5 文献紹介 20
  10. 提案手法 | 素性 • 辞書に基づく素性 – subjectivity lexicon (Wilson et

    al. 2005) – strong/weak cues to subjectivity として働き得 る単語集合 – token-level is 𝑔 →segment level contains 𝑔 2014/6/5 文献紹介 21 Theresa Wilson, Janyce Wiebe, and Paul Hoffmann. Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of HLT ‘05. (2005)
  11. 提案手法 | 素性 • VPcluster: verb-cluster structureかどうか • VPpred: predicate

    • VParg: argument • VPsubj: subjective lexiconのentryを含むか 2014/6/5 文献紹介 28
  12. 実験 | 設定 • MPQA 1.2 corpus – ニュース 535記事,11,114文

    – phrase levelでアノテート済み • 135記事をdevelopment setとして使用 • 残り400記事で10分割交差検定による評価 2014/6/5 文献紹介 30
  13. 実験 | 評価尺度 • precision, recall, F-measure – 意見表現の境界線は明確ではない 

    Binary-Overlap (Breck et al. 2007)  Proportional-Overlap (Johansson and Moschitti 2010) 2014/6/5 文献紹介 31 Eric Breck, Yejin Choi, and Claire Cardie. Identifying expressions of opinion in context. IJCAI ’07. (2007) Richard Johansson and Alessandro Moschitti. Syntactic and semantic structure for opinion expression detection. In Proceedings of CoNLL ’10. (2010)
  14. 実験 | Baselines • CRF: token-level CRF-based approach • segment-CRF:

    parsingの結果をsegmentとして利用 • syntactic-CRF: token-level CRFにsegment-level の 構文情報を素性として利用 • semi-CRF: Sarawagi and Corhenのmodel 2014/6/5 文献紹介 32
  15. 実験 | 考察 • semi-CRF(-new)のprecisionがCRFより低い – CRFは正解データの半分程度しか抽出していないため • 事実を述べるときの“said”や”told”をDSEsとして抽出して しまう

    – 素性の追加によって改善が期待できる • “enjoy a relative advantage”をESEとして抽出してしまう – 主語(この場合”products”)を考慮することで改善 2014/6/5 文献紹介 36