Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介 9月21日

Avatar for gumigumi7 gumigumi7
September 21, 2016
110

文献紹介 9月21日

Avatar for gumigumi7

gumigumi7

September 21, 2016
Tweet

Transcript

  1. 文献 ▪ 論文 ▪ 大和田 裕亮, 水野 淳太, 岡崎 直観,

    乾 健太郎, 石塚 満 返信・非公式リツイートに基づくツイート空間の論述構造解析. 自然言語処理, Vol. 20 (2013) No. 3 p. 423-459 ▪ キーワード ▪ Twitter, 態度推定, 教師あり学習, ネットワーク構造, 含意関係認識 2
  2. 導入 ▪ Twitterではリアルタイムな情報交換が行われている ▪ 誤った情報や噂が広まってしまう場合がある ▪ 例) 「コスモ石油の火災に伴い有害物質の雨が降る」 「ひまわりは土壌の放射性セシウムの除去に効果がある」 ▪

    Twitter上の情報の信憑性を判断する必要がある ▪ 情報の信憑性は人間にもわからない事が多く、コンピュータによる 実用的な推定手法は確立されていない ▪ ツイートに対して同意する意見や反対する意見を用いることで、 ツイートの信憑性や追加情報を得ることができる 4
  3. 理論 ▪ ツイートの種類 ▪ 返信 : @で始まる投稿、特定のツイートに対する返信 どのツイートに対する返信かは記録されている ▪ 公式リツイート

    : 投稿をそのままフォロワーに拡散すること ▪ 非公式リツイート : ある投稿に対してコメントを更かして投稿、拡散すること 「(コメント) RT: @(返信元アカウント名) (返信元の投稿)」 といったような投稿 6
  4. 理論 7 ▪ 返信には様々な意図のツイートが存在 ▪ 発言に同調、反発するツイート ▪ 相手や周囲に疑問を投げかけるツイート ▪ 返信で表明される態度を4クラスに分類

    ▪ 同意 : 主張の支持、感情的な同調 ▪ 例) コスモ石油が否定 「火災で有害物質降る」のメール連鎖 http://... → デマです。みんな冷静になろう。 ▪ 反論 : 主張を否定、感情的な反発 ▪ 例) 日本政府は事故の重大性をまったく認識していない。今すぐに多国 籍軍を総動員して封じ込めないとチェルノブイリ以上の被害が出る → 馬鹿左翼、煽るな。
  5. 理論 8 ▪ 疑問 : 返信先に対して情報を要求しているもの、疑問の吐露 ▪ 例) コスモ石油の爆発により有害物質が雲などに付着し、雨などといっしょ に降るので…コピペとかして皆さんに知らせてください!!

    → NHK のニュースでは今のところ有毒物質が発生することはないと言って いますが、あなたのツイートのソースは何ですか?反論 : 主張を否定、 感情的な反発 ▪ その他 : 上記のどれにも分類できないもの ▪ 例) 千葉県、近隣圏に在住の方に有害物質が雨などと一緒に飛散する という虚偽のチェーンメールが送られています。 → そうであったとしても、雨カッパとかは持ってた方が良いよね。 ▪ 「同意」「反論」を設定することで、ツイート空間を同じ態度を表明す るツイートクラスタの集合として整理できる
  6. 理論 9 ▪ 返信ツイートのアノテーション ▪ 2011年の3-11から3-29までのツイートが対象 ▪ 「#tsunami」や「#jishin」 などの地震に関連するハッシュタグや キーワードが含まれるツイートが対象

    ▪ 約100万ユーザ、約二億一千万ツイート ▪ 非公式リツイートの引用元は情報として付与されていないため、 ツイート本文を用いて復元 ▪ 20個のトピックに関してアノテーション ▪ 各トピックごとに返信や引用を100ツイート、計4000ツイートを集める ▪ 以下データセットA ▪ これらに対して3人のアノテーターにより4クラスのラベル付け ▪ 3人のアノテーションが一致したツイートを2690ツイートをデータセットBとする
  7. 理論 11 ▪ 分類手法 ▪ ツイート内容に関する素性、ツイート間の素性、 ユーザー間の素性を使用 ▪ ツイート内容の素性 ▪

    単語ユニグラム、単語バイグラム、URL数、ハッシュタグ数、 デマ否定単語の有無、反論表現との一致度 ▪ 返信先のツイートとの間の関係に関する素性 ▪ ツイートのタイプ、空文、単語バイグラムのコサイン類似度 ▪ ユーザー間の素性 ▪ 返信の回数、返信の方向性、RTの回数、RTの方向性、 共通のツイートをRTした回数、共通のURLをツイートに含んだ回数、 共通のツイートに返信した回数