Slide 12
Slide 12 text
評価実験
● タスク:Tweet のMulti-label分類とSingle-label分類
● 比較するモデル
○ Baseline
■ Random、Majority(訓練データで一番多いラベルを付ける)、 SVM、FastText
○ 言語モデル
■ BERT base & large, RoBERTa base & large
■ BERTweet
● 2012.1~2019.8 845MのTweet を0から学習したRoBERTa-base
■ TimeLM-19
● Roberta-baseを2018~2019 95MのTweet を追加学習
■ TimeLM-21
● Roberta-baseを2018~2021 125MのTweet を追加学習
● 学習データはテストセットと重なるため直接比較しない