Slide 1
Slide 1 text
サマリー
• 参加コンペ:
– Nishika - ヘイトスピーチ検出
• 参加者:
– 618人
• 順位:
– 79位(銅)
• 概要:
– 5chのデータからヘイトスピーチ or NOTを判定
• アプローチ:
– BERTによる2クラス分類問題
• 所感:
– 様々な取り組みをしたが銅止まり。。。
• 5chの別データを利用した疑似ラベル、5ch別データを用いた事前
学習、交差検証、複数モデルアンサンブル、Tokenizerに単語追
加、、、などの取りくみは実施
– 敗因は、コンペ終了約2・3週間前にリリースされたluke-japanese-large
という最強のモデルの存在に気が付かなかったこと、、、
• LukeでLate submitをしたら余裕の銀圏内、、、
• studio-ousia/luke-japanese-large · Hugging Face
– 常日頃から最新情報をキャッチできるようにしておかなきゃいけないなぁと
反省するコンペでした。
• Petfinderのコンペでもコンペ終了数日前にResNeXtが出て、上位陣はそ
れを取り込んでいたのを思い出しました、、、
参考データ