Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Identifying and Categorizing Disaster-Related Tweets

youichiro
September 27, 2017

Identifying and Categorizing Disaster-Related Tweets

文献紹介(2017年9月28日)
長岡技術科学大学
自然言語処理研究室

youichiro

September 27, 2017
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Identifying and Categorizing Disaster-Related Tweets Kevin Stowe, Michael Paul, Martha

    Palmer, Leysia Palen, and Ken Anderson Proceedings of The Fourth International Workshop on Natural Language Processing for Social Media, pages 1–6, 2016. 文献紹介(2017/09/28) 自然言語処理研究室 小川 耀一朗 1
  2. 導入 l 2012年にハリケーンが発⽣し、⼤きな被害を受けた l ソーシャルメディアの情報は被害を抑えるために重要 3 / 9 対策 避難状況

    被害状況 Twitter ⾏動 など 災害時:救助や危機管理などの適切な⾏動 災害後:⾏動分析による情報共有
  3. 導入 4 / 9 n [Verma et al.] l 災害時の⼤量のツイートから、状況認識に貢献する情

    報を特定 l 状況認識: 避難状況や被害の範囲などの情報 l 本研究では⼈々の⾏動や意思決定、情報源など、災害に 関連するあらゆるツイートを抽出することを⽬指す
  4. 導入 1. 災害に関連するツイートを特定 2. さらに以下の6つのカテゴリに分類 l Sentiment: 感情を表す l Action:

    物理的な⾏動を表す l Preparation: ハリケーン対策の計画を表す l Reporting:天気や周囲の環境、社会的状況の報告を表す l Information: 他者からの情報の共有や要求を表す l Movement: 避難や滞在、帰還の⾏動を表す 5 / 9
  5. データセット 6 / 9 l ツイートを収集 l 収集期間:2012年10⽉23⽇〜2012年11⽉10⽇ l ハリケーン上陸(24⽇)までに被災地域でツイートをしたユーザ

    (92.2M)のうち Ø 期間中のツイートが50回以上 Ø 強制避難区域でのツイートが3回以上 の条件に該当する約8,000ユーザをピックアップ l 約8,000ユーザの中からランダムに100ユーザを選んだ l 英語以外でのツイートを除き、93ユーザ7,490ツイートを収集
  6. 分類 8 / 9 l SVMを⽤いてカテゴリ分類 l ユニグラムだけの情報に加え以下の10個の特徴量を付与 n Key

    Terms: 各カテゴリとのPMIが最も⾼い単語 n Bigrams: バイグラム n Time: ⽇/時間を表す one-hot ベクトル n RTs: リツイートであるかどうか n URL: ツイート中のURL n Context: 前の2つのつぶやきのユニグラム n POS: 品詞タグ n NER: ツイッターベースの固有名詞タグ
  7. 分類 9 / 9 n Word Embeddings: l ハリケーンに関するキーワードを含むツイートを収集 hurricanesandy,

    superstorm, cleanup, etc. (14 keywords) l 収集期間:2012/10/23~2013/4/5 l 22.2Mのツイートで訓練 n Verma Feature: l [Verma et al.]状況認識の分類で指標になるラベルを付与 l formal/informal, subjective/objective, personal/impersonal, situational awareness/not
  8. 結果 12 / 9 l Baseline: ユニグラムのみ l All Feature:

    全ての特徴を使⽤ l Best Features: 特に効果のあった特徴を使⽤