Slide 1
Slide 1 text
特に意味が変化していた単語
● Nikkei: 感染,感染拡大,コロナ,ワ
クチン,ウイルス,マスク,感染者,
北朝鮮,接種,流行
● NOW: king, scott, de, virus, masks,
wear, mask, pi, q, wearing
[Q9-24J] Semantic Shift Stability:
学習コーパス内の単語の意味変化を用いた事前学習済みモデル
の時系列性能劣化の監査
RQ: 事前学習済みモデルの時系列性能劣化を,実際に事前学習・ファインチューニ
ング・推論する前に,学習コーパス内の単語の意味変化から監査できないか?
● 2 期間の word2vec から軽量に計算できる指標を定義し,監査の仕組みを提案.
● 実際に 11 の日本語 RoBERTa を構築し,時系列性能劣化の存在を明らかにした上で,
設計した監査の枠組みの有用性を検証・議論.
石原祥太郎 (日本経済新聞社),高橋寛武,白井穂乃
監査の枠組み Semantic Shift Stability の算出方法
時系列性能劣化 (年の異なる評価セットに対する PPPL の値の前年比の劣化幅)
2016, 2020 年の評価セット
で,PPPL (穴埋めの性能) が
大きく劣化.
Semantic Shift Stability は 2016, 2020 年に
日本語 (Nikkei) と英語 (NOW) の両者で小さく
なり,学習コーパス内の意味変化が大きい.
-0.7775 と大きな
相関関係を確認
初めて日本で大きく流行した 2020 年 2~4 月
にかけ,小さく (意味変化が大きく) なった.
月単位での Semantic Shift Stability
自然言語処理, 31巻, 4号
https://doi.org/10.5715/jnlp.31.1563