Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Identifying and Categorizing Disaster-Related Tweets

youichiro
September 27, 2017

Identifying and Categorizing Disaster-Related Tweets

文献紹介(2017年9月28日)
長岡技術科学大学
自然言語処理研究室

youichiro

September 27, 2017
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Identifying and Categorizing Disaster-Related Tweets
    Kevin Stowe, Michael Paul, Martha Palmer, Leysia Palen, and Ken Anderson
    Proceedings of The Fourth International Workshop on
    Natural Language Processing for Social Media, pages 1–6, 2016.
    文献紹介(2017/09/28)
    自然言語処理研究室 小川 耀一朗
    1

    View Slide

  2. 概要
    l 災害時やその前後の期間に呟かれたツイートに着⽬
    Ø 災害に関連するツイートを特定する
    Ø さらに細かい6つのカテゴリ分類を⾏う
    Ø 様々な特徴量を付与した時の効果を検証
    2 / 9

    View Slide

  3. 導入
    l 2012年にハリケーンが発⽣し、⼤きな被害を受けた
    l ソーシャルメディアの情報は被害を抑えるために重要
    3 / 9
    対策 避難状況
    被害状況
    Twitter
    ⾏動 など
    災害時:救助や危機管理などの適切な⾏動
    災害後:⾏動分析による情報共有

    View Slide

  4. 導入
    4 / 9
    n [Verma et al.]
    l 災害時の⼤量のツイートから、状況認識に貢献する情
    報を特定
    l 状況認識: 避難状況や被害の範囲などの情報
    l 本研究では⼈々の⾏動や意思決定、情報源など、災害に
    関連するあらゆるツイートを抽出することを⽬指す

    View Slide

  5. 導入
    1. 災害に関連するツイートを特定
    2. さらに以下の6つのカテゴリに分類
    l Sentiment: 感情を表す
    l Action: 物理的な⾏動を表す
    l Preparation: ハリケーン対策の計画を表す
    l Reporting:天気や周囲の環境、社会的状況の報告を表す
    l Information: 他者からの情報の共有や要求を表す
    l Movement: 避難や滞在、帰還の⾏動を表す
    5 / 9

    View Slide

  6. データセット
    6 / 9
    l ツイートを収集
    l 収集期間:2012年10⽉23⽇〜2012年11⽉10⽇
    l ハリケーン上陸(24⽇)までに被災地域でツイートをしたユーザ
    (92.2M)のうち
    Ø 期間中のツイートが50回以上
    Ø 強制避難区域でのツイートが3回以上
    の条件に該当する約8,000ユーザをピックアップ
    l 約8,000ユーザの中からランダムに100ユーザを選んだ
    l 英語以外でのツイートを除き、93ユーザ7,490ツイートを収集

    View Slide

  7. アノテーション
    7 / 9
    l 2⼈のアノテータがツイートを各カテゴリにラベル付け

    View Slide

  8. 分類
    8 / 9
    l SVMを⽤いてカテゴリ分類
    l ユニグラムだけの情報に加え以下の10個の特徴量を付与
    n Key Terms: 各カテゴリとのPMIが最も⾼い単語
    n Bigrams: バイグラム
    n Time: ⽇/時間を表す one-hot ベクトル
    n RTs: リツイートであるかどうか
    n URL: ツイート中のURL
    n Context: 前の2つのつぶやきのユニグラム
    n POS: 品詞タグ
    n NER: ツイッターベースの固有名詞タグ

    View Slide

  9. 分類
    9 / 9
    n Word Embeddings:
    l ハリケーンに関するキーワードを含むツイートを収集
    hurricanesandy, superstorm, cleanup, etc. (14 keywords)
    l 収集期間:2012/10/23~2013/4/5
    l 22.2Mのツイートで訓練
    n Verma Feature:
    l [Verma et al.]状況認識の分類で指標になるラベルを付与
    l formal/informal, subjective/objective,
    personal/impersonal, situational awareness/not

    View Slide

  10. 結果
    10 / 9
    l Baseline: ユニグラムのみを使⽤
    l それぞれの特徴量を⽤いた時のF値の違い
    l `

    View Slide

  11. 結果
    11 / 9
    特に効果あり:Time, Context, Word Embedding

    View Slide

  12. 結果
    12 / 9
    l Baseline: ユニグラムのみ
    l All Feature: 全ての特徴を使⽤
    l Best Features: 特に効果のあった特徴を使⽤

    View Slide

  13. 結果
    13 / 9
    l Reporting: “wind”や”trees”など、天候や環境に関係する単語が多
    く含まれパターン化
    l Movement, Preparation, Action: データ不⾜

    View Slide

  14. まとめ
    14 / 9
    l 災害に関連するツイートを⾼い精度で特定
    l 従来⼿法よりも災害に関連するあらゆるツイートを網羅
    l 細かなカテゴリ分類は難しく、適切な特徴量の選択やア
    ノテートされたデータの追加が必要

    View Slide