Slide 1

Slide 1 text

COLING 2022 2022.12.12 M1 凌 志棟

Slide 2

Slide 2 text

概要 ● Tweetのトピック分類のためのデータセットTweetTopicを作成 ○ 初の人手アノテーションした  SNSテキスト分類 大規模なデータセット ○ Multi-label & Single-label 対応 ● Tweetのトピック分類をTopic classification taskと設定 ● 既存のLMを用いた手法を評価

Slide 3

Slide 3 text

背景 SNS上のテキストを分類し、カテゴリごとにユーザ・コミュニティの行為を分析し知見を得 られる SNSのテキストはノイズが多い & 多様な文面があるため、分類が難しい

Slide 4

Slide 4 text

既存の分類手法 ● Topic Modeling ● Topic Classification

Slide 5

Slide 5 text

既存の分類手法 ● Topic Modeling ○ LDA(Latent Dirichlet Allocation)が代表とした教師なし手法は多く使用される ○ 短い・構造化されていない・常に変化しているテキストに対する処理が苦手 ○ 分類結果の解釈性も問題 ● Topic Classification

Slide 6

Slide 6 text

既存の分類手法 ● Topic Modeling ● Topic Classification ○ 事前に決めたカテゴリの分類タスク ○ 人手で付けた正解ラベルが必要 ○ Twitterの #hashtag をカテゴリラベルとする先行研究 [Dhingra et al., 2016]. ■ カテゴリがSparseになる ■ 一定時間後使われなくなる ● SportsやArtなどの大分類をラベルとして使用することが望ましい ○ このようなデータセットは主に新聞記事・科学 (arXiv)・医学分野(Ohsumed)にある ● 本研究はソーシャルメディアの人手アノテーションデータセットを作成

Slide 7

Slide 7 text

データセットの構築 ● Tweet collection ● Data filtering ● Annotation ● Settings & Temporal split

Slide 8

Slide 8 text

データセットの構築 ● Tweet collection ○ Twitter API経由 50 Tweets per keyword/ 2時間 ○ 収集期間 2019.9 ~ 2021.8 ○ KeywordはSnapchatの毎週のtrending topicから収集 ■ TwitterのTrendはAPIから公開されていない ○ retweet / reply / quote / media付きのTweetを除外 ○ 英語OnlyのTweet約126万件のraw tweets収集 ● Data filtering ● Annotation ● Settings & Temporal split

Slide 9

Slide 9 text

データセットの構築 ● Tweet collection ● Data filtering ○ Tweet filtering ■ pre-filtering ● 非英語tweetの除去・短い文の除去 ■ near-dedupulication ● emoji & URL削除や小文字変換などの前処理 ● 重複削除 ○ Trend filtering ■ 毎週Top15のtrend topicのtweetをraw tweetsから抽出 ○ 残ったtweetは28573件 ● Annotation ● Settings & Temporal split

Slide 10

Slide 10 text

データセットの構築 ● Tweet collection ● Data filtering ● Annotation ○ フィルタリングされたデータから 11374件をサンプリングしてアノテーションを行う ○ ラベルはSnapchat社の提供した19個のトピックを使用 ○ 1tweetあたり5人のアノテータ(Amazon Mechanical Turk)がラベルを付ける ○ 2人以上のアノテータに付けられたラベルをその tweetのラベルとする ○ アノテーションの品質評価 ■ Krippendorff’s α : 0.35 vs. 0 (random annotation) ■ アノテータ間のpercent agreement : 0.87 vs. 0.62 (random annotation) ● Settings & Temporal split

Slide 11

Slide 11 text

データセットの構築 ● Settings & Temporal split ○ データの分割:2019.9~2020.8を訓練データ、2020.9~2021.8をテストデータ ○ Multi-label以外Single-labelの ■ Overlapの多いカテゴリを合併 →Multi-labelの19種類を6種類に

Slide 12

Slide 12 text

評価実験 ● タスク:Tweet のMulti-label分類とSingle-label分類 ● 比較するモデル ○ Baseline ■ Random、Majority(訓練データで一番多いラベルを付ける)、 SVM、FastText ○ 言語モデル ■ BERT base & large, RoBERTa base & large ■ BERTweet ● 2012.1~2019.8 845MのTweet を0から学習したRoBERTa-base ■ TimeLM-19 ● Roberta-baseを2018~2019 95MのTweet を追加学習 ■ TimeLM-21 ● Roberta-baseを2018~2021 125MのTweet を追加学習 ● 学習データはテストセットと重なるため直接比較しない

Slide 13

Slide 13 text

結果 ● Tweetを学習した言語モデルは一般のモデル を上回る ● Multi-labelではほとんど同じ結果 ● Tweetを追加学習したTimeLM-19は一番いい 性能 ● TimeLM-21はテストデータを一部学習したた め、TimeLM-19を少し上回った

Slide 14

Slide 14 text

時間的分析(temporal analysis) ● TimeLM-21はTimeLM-19より性能がいいということ は訓練データをアップデートすることが重要 ● 時間順の訓練データ・テストデータ  vs  ランダム順の訓練データ・テストデータ ● 全体的に時間順のほうの性能が悪い ○ Arts&Cultureでは単語使用の変化が早いため性能の悪化 が激しい

Slide 15

Slide 15 text

誤り分析 ● Arts&CultureをDaily lifeと判断 Happy Day of the Dead 2020! #GoogleDoodle” or “Gifts of love are the ingredients of a #MerryChristmas Give your loved ones a physical/virtual crypto gift card within the {{USERNAME}} app ○ 宗教・文化関連だが、宗教活動は日常生活でもある ○ データセットの分類は完璧ではない ● science & technologyの40%を誤って判断 Bill Gates-Funded Company Releases Genetically Modified Mosquitoes in US ○ business & entrepreneursと誤分類 ● Multi-label分類ではcelebrity & pop cultureの誤りが 多い ○ モデルは言及された人が有名人かどうかは知らない

Slide 16

Slide 16 text

まとめ ● 初のTweetトピック分類の評価データセットを作成 ○ 教師あり分類器の訓練で利用できる ● 既存の言語モデルの評価実験を行った ○ 最新のデータを更新しつつモデルを追加学習する必要がある