Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介 9月21日
Search
gumigumi7
September 21, 2016
0
110
文献紹介 9月21日
gumigumi7
September 21, 2016
Tweet
Share
More Decks by gumigumi7
See All by gumigumi7
文献紹介 1月24日
gumigumi7
0
250
文献紹介 11月7日
gumigumi7
0
140
文献紹介 10月3日
gumigumi7
0
330
文献紹介 9月3日
gumigumi7
0
270
文献紹介 8月10日
gumigumi7
0
130
文献紹介 7月16日
gumigumi7
0
260
文献紹介 6月12日
gumigumi7
0
330
文献紹介 5月16日
gumigumi7
0
190
文献紹介 4月18日
gumigumi7
0
150
Featured
See All Featured
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.9k
The Invisible Side of Design
smashingmag
302
51k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
410
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
GraphQLとの向き合い方2022年版
quramy
50
14k
Rails Girls Zürich Keynote
gr2m
96
14k
From π to Pie charts
rasagy
0
130
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
170
Making Projects Easy
brettharned
120
6.6k
A designer walks into a library…
pauljervisheath
210
24k
Designing for humans not robots
tammielis
254
26k
Transcript
文献紹介(2016/05/16) 長岡技術科学大学 B4 桾澤 優希 返信・非公式リツイートに基づくツイート空間の論述構造解析
文献 ▪ 論文 ▪ 大和田 裕亮, 水野 淳太, 岡崎 直観,
乾 健太郎, 石塚 満 返信・非公式リツイートに基づくツイート空間の論述構造解析. 自然言語処理, Vol. 20 (2013) No. 3 p. 423-459 ▪ キーワード ▪ Twitter, 態度推定, 教師あり学習, ネットワーク構造, 含意関係認識 2
概要 ▪ ツイッターにおける返信や非公式リツイートを用いて、ツイー ト間の論述的関係を認識 ▪ 投稿者の「同意」「反論」「疑問」などの態度を推定する 分類機を作成 ▪ 4クラスへの分類に対して正答率0.751という性能を得ら れた
3
導入 ▪ Twitterではリアルタイムな情報交換が行われている ▪ 誤った情報や噂が広まってしまう場合がある ▪ 例) 「コスモ石油の火災に伴い有害物質の雨が降る」 「ひまわりは土壌の放射性セシウムの除去に効果がある」 ▪
Twitter上の情報の信憑性を判断する必要がある ▪ 情報の信憑性は人間にもわからない事が多く、コンピュータによる 実用的な推定手法は確立されていない ▪ ツイートに対して同意する意見や反対する意見を用いることで、 ツイートの信憑性や追加情報を得ることができる 4
導入 ▪ Twitterではツイート間に返信や非公式リツイートなどの 形式を取った投稿が存在する ▪ このようなツイートに着目して、これらの態度を推定する分類機を 教師あり学習で構築する 5
理論 ▪ ツイートの種類 ▪ 返信 : @で始まる投稿、特定のツイートに対する返信 どのツイートに対する返信かは記録されている ▪ 公式リツイート
: 投稿をそのままフォロワーに拡散すること ▪ 非公式リツイート : ある投稿に対してコメントを更かして投稿、拡散すること 「(コメント) RT: @(返信元アカウント名) (返信元の投稿)」 といったような投稿 6
理論 7 ▪ 返信には様々な意図のツイートが存在 ▪ 発言に同調、反発するツイート ▪ 相手や周囲に疑問を投げかけるツイート ▪ 返信で表明される態度を4クラスに分類
▪ 同意 : 主張の支持、感情的な同調 ▪ 例) コスモ石油が否定 「火災で有害物質降る」のメール連鎖 http://... → デマです。みんな冷静になろう。 ▪ 反論 : 主張を否定、感情的な反発 ▪ 例) 日本政府は事故の重大性をまったく認識していない。今すぐに多国 籍軍を総動員して封じ込めないとチェルノブイリ以上の被害が出る → 馬鹿左翼、煽るな。
理論 8 ▪ 疑問 : 返信先に対して情報を要求しているもの、疑問の吐露 ▪ 例) コスモ石油の爆発により有害物質が雲などに付着し、雨などといっしょ に降るので…コピペとかして皆さんに知らせてください!!
→ NHK のニュースでは今のところ有毒物質が発生することはないと言って いますが、あなたのツイートのソースは何ですか?反論 : 主張を否定、 感情的な反発 ▪ その他 : 上記のどれにも分類できないもの ▪ 例) 千葉県、近隣圏に在住の方に有害物質が雨などと一緒に飛散する という虚偽のチェーンメールが送られています。 → そうであったとしても、雨カッパとかは持ってた方が良いよね。 ▪ 「同意」「反論」を設定することで、ツイート空間を同じ態度を表明す るツイートクラスタの集合として整理できる
理論 9 ▪ 返信ツイートのアノテーション ▪ 2011年の3-11から3-29までのツイートが対象 ▪ 「#tsunami」や「#jishin」 などの地震に関連するハッシュタグや キーワードが含まれるツイートが対象
▪ 約100万ユーザ、約二億一千万ツイート ▪ 非公式リツイートの引用元は情報として付与されていないため、 ツイート本文を用いて復元 ▪ 20個のトピックに関してアノテーション ▪ 各トピックごとに返信や引用を100ツイート、計4000ツイートを集める ▪ 以下データセットA ▪ これらに対して3人のアノテーターにより4クラスのラベル付け ▪ 3人のアノテーションが一致したツイートを2690ツイートをデータセットBとする
理論 10
理論 11 ▪ 分類手法 ▪ ツイート内容に関する素性、ツイート間の素性、 ユーザー間の素性を使用 ▪ ツイート内容の素性 ▪
単語ユニグラム、単語バイグラム、URL数、ハッシュタグ数、 デマ否定単語の有無、反論表現との一致度 ▪ 返信先のツイートとの間の関係に関する素性 ▪ ツイートのタイプ、空文、単語バイグラムのコサイン類似度 ▪ ユーザー間の素性 ▪ 返信の回数、返信の方向性、RTの回数、RTの方向性、 共通のツイートをRTした回数、共通のURLをツイートに含んだ回数、 共通のツイートに返信した回数
結果 12
結果 ▪ 素性のクラスに対する特定性の指標 ▪ 値が0.333を上回るほど有効な素性 13
結果 14
結果 15