Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Identifying and Categorizing Disaster-Related Tweets

66cc992074ab4522374e429c11fef225?s=47 youichiro
September 27, 2017

Identifying and Categorizing Disaster-Related Tweets

文献紹介(2017年9月28日)
長岡技術科学大学
自然言語処理研究室

66cc992074ab4522374e429c11fef225?s=128

youichiro

September 27, 2017
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Identifying and Categorizing Disaster-Related Tweets Kevin Stowe, Michael Paul, Martha

    Palmer, Leysia Palen, and Ken Anderson Proceedings of The Fourth International Workshop on Natural Language Processing for Social Media, pages 1–6, 2016. 文献紹介(2017/09/28) 自然言語処理研究室 小川 耀一朗 1
  2. 概要 l 災害時やその前後の期間に呟かれたツイートに着⽬ Ø 災害に関連するツイートを特定する Ø さらに細かい6つのカテゴリ分類を⾏う Ø 様々な特徴量を付与した時の効果を検証 2

    / 9
  3. 導入 l 2012年にハリケーンが発⽣し、⼤きな被害を受けた l ソーシャルメディアの情報は被害を抑えるために重要 3 / 9 対策 避難状況

    被害状況 Twitter ⾏動 など 災害時:救助や危機管理などの適切な⾏動 災害後:⾏動分析による情報共有
  4. 導入 4 / 9 n [Verma et al.] l 災害時の⼤量のツイートから、状況認識に貢献する情

    報を特定 l 状況認識: 避難状況や被害の範囲などの情報 l 本研究では⼈々の⾏動や意思決定、情報源など、災害に 関連するあらゆるツイートを抽出することを⽬指す
  5. 導入 1. 災害に関連するツイートを特定 2. さらに以下の6つのカテゴリに分類 l Sentiment: 感情を表す l Action:

    物理的な⾏動を表す l Preparation: ハリケーン対策の計画を表す l Reporting:天気や周囲の環境、社会的状況の報告を表す l Information: 他者からの情報の共有や要求を表す l Movement: 避難や滞在、帰還の⾏動を表す 5 / 9
  6. データセット 6 / 9 l ツイートを収集 l 収集期間:2012年10⽉23⽇〜2012年11⽉10⽇ l ハリケーン上陸(24⽇)までに被災地域でツイートをしたユーザ

    (92.2M)のうち Ø 期間中のツイートが50回以上 Ø 強制避難区域でのツイートが3回以上 の条件に該当する約8,000ユーザをピックアップ l 約8,000ユーザの中からランダムに100ユーザを選んだ l 英語以外でのツイートを除き、93ユーザ7,490ツイートを収集
  7. アノテーション 7 / 9 l 2⼈のアノテータがツイートを各カテゴリにラベル付け

  8. 分類 8 / 9 l SVMを⽤いてカテゴリ分類 l ユニグラムだけの情報に加え以下の10個の特徴量を付与 n Key

    Terms: 各カテゴリとのPMIが最も⾼い単語 n Bigrams: バイグラム n Time: ⽇/時間を表す one-hot ベクトル n RTs: リツイートであるかどうか n URL: ツイート中のURL n Context: 前の2つのつぶやきのユニグラム n POS: 品詞タグ n NER: ツイッターベースの固有名詞タグ
  9. 分類 9 / 9 n Word Embeddings: l ハリケーンに関するキーワードを含むツイートを収集 hurricanesandy,

    superstorm, cleanup, etc. (14 keywords) l 収集期間:2012/10/23~2013/4/5 l 22.2Mのツイートで訓練 n Verma Feature: l [Verma et al.]状況認識の分類で指標になるラベルを付与 l formal/informal, subjective/objective, personal/impersonal, situational awareness/not
  10. 結果 10 / 9 l Baseline: ユニグラムのみを使⽤ l それぞれの特徴量を⽤いた時のF値の違い l

  11. 結果 11 / 9 特に効果あり:Time, Context, Word Embedding

  12. 結果 12 / 9 l Baseline: ユニグラムのみ l All Feature:

    全ての特徴を使⽤ l Best Features: 特に効果のあった特徴を使⽤
  13. 結果 13 / 9 l Reporting: “wind”や”trees”など、天候や環境に関係する単語が多 く含まれパターン化 l Movement,

    Preparation, Action: データ不⾜
  14. まとめ 14 / 9 l 災害に関連するツイートを⾼い精度で特定 l 従来⼿法よりも災害に関連するあらゆるツイートを網羅 l 細かなカテゴリ分類は難しく、適切な特徴量の選択やア

    ノテートされたデータの追加が必要