Identifying and Categorizing Disaster-Related Tweets Kevin Stowe, Michael Paul, Martha Palmer, Leysia Palen, and Ken Anderson Proceedings of The Fourth International Workshop on Natural Language Processing for Social Media, pages 1–6, 2016. 文献紹介(2017/09/28) 自然言語処理研究室 小川 耀一朗 1
導入 1. 災害に関連するツイートを特定 2. さらに以下の6つのカテゴリに分類 l Sentiment: 感情を表す l Action: 物理的な⾏動を表す l Preparation: ハリケーン対策の計画を表す l Reporting:天気や周囲の環境、社会的状況の報告を表す l Information: 他者からの情報の共有や要求を表す l Movement: 避難や滞在、帰還の⾏動を表す 5 / 9
データセット 6 / 9 l ツイートを収集 l 収集期間:2012年10⽉23⽇〜2012年11⽉10⽇ l ハリケーン上陸(24⽇)までに被災地域でツイートをしたユーザ (92.2M)のうち Ø 期間中のツイートが50回以上 Ø 強制避難区域でのツイートが3回以上 の条件に該当する約8,000ユーザをピックアップ l 約8,000ユーザの中からランダムに100ユーザを選んだ l 英語以外でのツイートを除き、93ユーザ7,490ツイートを収集
分類 8 / 9 l SVMを⽤いてカテゴリ分類 l ユニグラムだけの情報に加え以下の10個の特徴量を付与 n Key Terms: 各カテゴリとのPMIが最も⾼い単語 n Bigrams: バイグラム n Time: ⽇/時間を表す one-hot ベクトル n RTs: リツイートであるかどうか n URL: ツイート中のURL n Context: 前の2つのつぶやきのユニグラム n POS: 品詞タグ n NER: ツイッターベースの固有名詞タグ
分類 9 / 9 n Word Embeddings: l ハリケーンに関するキーワードを含むツイートを収集 hurricanesandy, superstorm, cleanup, etc. (14 keywords) l 収集期間:2012/10/23~2013/4/5 l 22.2Mのツイートで訓練 n Verma Feature: l [Verma et al.]状況認識の分類で指標になるラベルを付与 l formal/informal, subjective/objective, personal/impersonal, situational awareness/not