Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Web 情報からの罹患検出を対象とした事実性解析・主体解析の誤り分析

Web 情報からの罹患検出を対象とした事実性解析・主体解析の誤り分析

文献紹介
長岡技術科学大学 自然言語処理研究室
勝田哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

March 23, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介: Web 情報からの罹患検出を対象とした 事実性解析・主体解析の誤り分析 叶内 晨, 北川 善彬, 荒牧 英治,岡崎

    直観, 小町 守 自然言語処理 Vol. 22 (2015) No. 5 p.363-395 長岡技術科学大学 自然言語処理研究室 学部3年 勝田哲弘 図、表などは論文中から引用しています。 1 2017/3/24
  2. 概要 • NLPによるソーシャルリスニングの問題点 ▫ ツイートからインフルエンザや風邪などの疾患・ 症状を認識 • 正例と負例の分類は事実性解析と主体解析をう まく組み合わせると精度を向上させることがで きることが分かった。

    2
  3. コーパス • 2008年から2010年にかけてTwitter API を用いて30億発言を収集 • 「インフルエンザ」や「風邪」といったキー ワードを含む発言を抽出 3

  4. コーパス • 負例の判断 ▫ 居住地が正確でない発言 ▫ 24時間以内の疾患についての発言でない ▫ 否定の表現、疑問や不確かな発言 4

  5. コーパス • インフルエンザの具体例 5

  6. 分類器の誤り分析 • SVMにて構築し、その誤りを人手で分類 6

  7. 分類器の誤り分析 • 事実性(時制、モダリティ、否定) • 主体性(非当事者、一般論) • 比喩 7

  8. 事実性解析 事実をもつかもたないかの2値分類 • つつじによる素性 ▫ 同じような意味の機能表現をまとめた • Zundaによる素性 ▫ 仮想性の解析

    8
  9. インフルエンザ感染の2値分類 • 評価 ▫ 5分割交差検定 ▫ 適合率、再現率、F1-スコア • ツール ▫

    Classias(ver.1.1) ▫ MeCab(ver.0.996)、IPA-Dic(ver.2.7.0) 9
  10. インフルエンザ感染の2値分類 • インフルエンザを中心に前後3つの形態素を Bag of Words(BoW)の素性とし、モダリティ以 外の素性を加えたものをベースラインの分類器 として作成 10

  11. インフルエンザ感染の2値分類 • 結果 11

  12. 主体解析 • 疾患・症状毎に500件、合計3000件に誰 が主体になっているかのラベル付けをした 12

  13. 主体解析 • ラベルの種類 13

  14. 主体解析 • 正負の割合(対象が複数の場合は除く) • 主体が認識できれば 14

  15. 主体ラベル推定器 • 「風邪」や「頭痛」などの疾患・症状を保有し ている主体ラベルを推定する • 「物体」「主体なし」については主たる対象で はないので統合する • 分類器にClassias 1.1を使い、L2正則化ロジス

    ティック回帰モデルを学習 15
  16. 主体ラベル推定器 16

  17. 主体ラベル推定器 • 精度 5分割交差検定 17

  18. 主体ラベル推定器 18

  19. 罹患検出 • 推定した主体ラベル、付与した正解の主体ラベ ルを素性として用いた結果 19

  20. 事実性解析と主体解析 • 主体ラベルを推定するときはそれぞれの発言を ランダムに500件抽出し正解ラベルを付与し 学習 • 5分割交差検定 20

  21. 事実性解析と主体解析 • 事実性解析はインフルエンザにおいて大幅に上 昇した ▫ 返信先が疾患に罹っている場合や比喩的な問題が あるため風邪では精度が上がらなかった • 事実性と主体を組み合わせると主体問題が多少 解決するため全体的に向上した

    21
  22. まとめ • 事実性の解析、状態を保有する主体の判定が罹 患検出に貢献する • 実験によって実際に制度が向上していることを 確認した 22