銅_NLPコンペ_202212_nishika_ヘイトスピーチの検出

Slide 1

Slide 1 text

サマリー • 参加コンペ： – Nishika - ヘイトスピーチ検出 • 参加者： – 618人 • 順位： – 79位（銅） • 概要： – 5chのデータからヘイトスピーチ or NOTを判定 • アプローチ： – BERTによる２クラス分類問題 • 所感： – 様々な取り組みをしたが銅止まり。。。 • 5chの別データを利用した疑似ラベル、5ch別データを用いた事前学習、交差検証、複数モデルアンサンブル、Tokenizerに単語追加、、、などの取りくみは実施 – 敗因は、コンペ終了約2・3週間前にリリースされたluke-japanese-large という最強のモデルの存在に気が付かなかったこと、、、 • LukeでLate submitをしたら余裕の銀圏内、、、 • studio-ousia/luke-japanese-large · Hugging Face – 常日頃から最新情報をキャッチできるようにしておかなきゃいけないなぁと反省するコンペでした。 • Petfinderのコンペでもコンペ終了数日前にResNeXtが出て、上位陣はそれを取り込んでいたのを思い出しました、、、参考データ

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text