意味変化分析に向けた単語埋め込みの時系列パターン分析

ҙຯมԽ෼ੳʹ޲͚ͨ ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳ ◦⽊⼭朔1 相⽥太⼀1 ⼩町守2 ⼩⽊曽智信3 ⾼村⼤也4 松井秀俊5 持橋⼤地6 1東京都⽴⼤学
2⼀橋⼤学 3国⽴国語研究所 4産業技術総合研究所 5滋賀⼤学 6統計数理研究所⾔語処理学会第30回年次⼤会 2024年3⽉14⽇ @ 神⼾ E9:テーマセッション６：深層学習時代の⾔語学と⾃然⾔語処理(2) E9-2

ݚڀ֓ཁ 研究⽬標 n 通時的な意味変化の分析に向けた時系列パターンの分析本研究の貢献 n 単語埋め込みの時系列パターン分析⼿法の提案 n 毎⽇新聞コーパスにおいて単語群の時系列パターンを発⾒ 1

ݚڀഎܠɿ௨࣌తͳҙຯมԽ n 通時的な意味変化とは時代により単語の意味が変化する事象 n 意味変化の検出は⾔語学的、⼯学的に役に⽴つ n ⾔語学的：新たに意味変化する単語の発⾒ n ⼯学的：意味変化した単語の追加訓練でLLMの性能低下を防ぐ 2
[Hamilton+, 2016] より引⽤ [Cook and Stevenson, 2010] [Lazaridou+, 2021] [Su+, 2022]

ݚڀഎܠɿ࣌ܥྻύλʔϯ n 意味変化のモデル化 n 意味変化のパターンの理解 n 時系列のパターンの理解 n 時系列パターンの分析⼿法の提案 3
意味変化のしやすさは多義性や頻度に関連 [Hamilton+, 2016] 意味競争や意味協⼒といった語義パターン [Giulianelli+, 2020] 今回の研究はココ！

ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏ 4 今回の研究はココ！

ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏ 5 単語埋め込みの学習は時期ごとに実施時期ごとに空間の対応が取れる SGNS init と PPMI-SVD joint を採⽤

6 時系列分析に向けて、単語ごとに埋め込みを時系列に並べた⾏列を⽤意 ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏

ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏ 7 特異値分解 (SVD) や独⽴成分分析 (ICA) を⽤いて、軸を取り直すこれにより軸に従って分析が可能

ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏ 8 特定の次元を取り出して時系列分析を⾏う埋め込みの時系列分析には関数クラスタリングを使⽤

ֶशख๏ɿ4(/4JOJU n 単語埋め込みの学習⼿法 [Mikolov+, 2014] n Skip-Gram：中⼼の単語から周辺単語の予測 n Negative Sampling：負例をサンプルし負例から遠ざける
n 初期化⼿法 [Kim+, 2014] n 時期 t+1 の学習に時期 t の埋め込みを初期値として利⽤する 9 時期 t の埋め込み時期 t+1 の埋め込み初期値としてSGNS

ֶशख๏ɿ11.*47%KPJOU n 単語埋め込みの学習⼿法 n PPMI-SVD を使⽤ [Levy and Goldberg, 2014]
n Positive PMI ⾏列を特異値分解で圧縮 n 同時に圧縮 n ⽂脈語を共有し同時に圧縮 [相⽥他, 2023] 10 [相⽥他, 2023]より引⽤単語の共起関係の⾏列

࣮ݧઃఆ n データセット n 毎⽇新聞コーパス n 2003-2020年の計18年 n 対象単語 n
各年で100回以上出現した動詞、形容詞、形状詞 n 前処理 n 補助記号と20単語未満の⽂を除外、uniq で重複を取り除く n ⽂脈窓の⼤きさ n 前後10単語 n 次元圧縮⼿法 n SVD、ICA 11 狭義の意味変化する単語を分析する⽬的で設定名詞のような急激な変化よりも緩やかな変化を獲得したい ICA は歪度の絶対値が⼤きい順に並び替え [Yamagiwa+, 2023]

࣮ݧ݁Ռ n 時系列のパターン n 学習がうまくいき、埋め込みが時期によらず似ているかを確認 n 3次元での可視化 n 時間によって埋め込みが変化するのかを確認 n
単語群の時系列パターンの分析 n 単語群の動きを分析 12

֬ೝɿ࣌ܥྻͷύλʔϯ 11.*47%KPJOU 14 (a) 怠る + SVD (b) 怠る +
ICA (c) 引き受ける + SVD (d) 引き受ける + ICA n 縦軸が似た⾊になり時期によらず似た埋め込みとなる n SVD より ICA の⽅がコントラストが⼤きい n 他の学習⼿法、圧縮⼿法でも同じ傾向が⾒られた

֬ೝɿ࣍ݩͰͷՄࢹԽ 16 n 3次元空間上での時系列の変化を確認 n ⾊が暗い⽅が古い年代⾊が明るい⽅が新しい年代を表す n 圧縮された次元ごとに対し分散が⾼い上位次元で可視化
x, y, zの順に上位に並べる n 他の学習⼿法、圧縮⼿法でも確認 n PPMI-SVD でも埋め込みが似て変化が検出できそう「⾃在」 PPMI-SVD + SVD 2, 3, 5次元⽬この⽅向に動いている

ؔ਺σʔλղੳ <3BNTBZBOE4JMWFSNBO > n 系列データを関数として表現し分析を⾏う⼿法 n 関数単位での分析 →観測誤差の除去やデータの次元の削減が可能 n 関数データに対してクラスタリングを⾏う
→関数データのパターンを分析 18 [松井秀俊, 2020] より引⽤

ؔ਺ΫϥελϦϯά 19 n 次元圧縮した特定の次元を時系列に並べる n ⼀つの軌跡が⼀つの単語 n 今回は変換した値を使⽤ n
K-means ユークリッド距離 n クラスタ数は5とする n ⽬視で選定埋め込み⼿法 + 圧縮⼿法 dim N

෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 20 n 可視化：線形区分関数を使⽤ n 基本的には横ばいに変化 n 時期によって値が変化しない n 時系列変化が⾒えない
SGNS init + SVD dim 1

෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 21 n 時期が新しくなるにつれ値が⼩さくなるクラスタ4 n クラスタに含まれる単語がどのような傾向を⽰すかわからない n
付録に単語リストを記載 SGNS init + SVD dim 12

෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 22 n 2011年で急激に⼤きくなるクラスタ0、2 n 東⽇本⼤震災により新聞の内容が変化したことが⽰唆 PPMI-SVD
+ ICA dim 14 単語リスト（クラスタ2）みたい、割る、稀、割れる、向く、頷く、空く、⾜掻く

෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 23 n 2006年と2012年の期間で極端に値が⼩さくなるクラスタ1、4 n スポーツ関連のクラスタであることが⽰唆 PPMI-SVD
+ ICA dim 29 単語リスト（クラスタ4）突く、消す、打つ、詰める、逃げる、攻める、繰り出す、利く、打ち込む、仕掛ける、ぶつける、不味い、寄る、⼿厚い、躱す、有⼒、差す、引く

͓ΘΓʹ まとめ n 単語埋め込みの時系列パターン分析⼿法を提案 n 毎⽇新聞コーパスにおいて単語群の時系列パターンを発⾒今後の展望 n 対象単語に名詞を含んだ分析 n
擬似データや別コーパスでの分析 n 埋め込みに BERT や GPT を⽤いた分析 n 関数クラスタリングの詳細な分析 24

ิ଍ɿ࣌ܥྻͷύλʔϯ 4(/4JOJU 25

ิ଍ɿ࣍ݩͰͷՄࢹԽ 26

ิ଍ɿؔ਺ΫϥελϦϯάͷΫϥελ 27

ࢀߟจݙϦετ n [Cook and Stevenson, 2010] n Automatically Identifying Changes
in the Semantic Orientation of Words. LREC 2010. n [Lazaridou+, 2021] n Mind the Gap: Assessing Temporal Generalization in Neural Language Models. NeurIPS 2021. n [Su+, 2022] n Improving Temporal Generalization of Pre-trained Language Models with Lexical Semantic Change. EMNLP 2022. n [Hamilton+, 2016] n Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. ACL 2016. 28

ࢀߟจݙϦετ n [Giulianelli+, 2020] n Analysing Lexical Semantic Change with
Contextualised Word Representations. ACL 2020. n [Mikolov+, 2014] n Distributed Representations of Words and Phrases and their Compositionality. NeurIPS 2013. n [Kim+, 2014] n Temporal Analysis of Language through Neural Language Models. ACL 2014 workshop. n [Levy and Goldberg, 2014] n Neural Word Embedding as Implicit Matrix Factorization. NeurIPS 2014. 29

ࢀߟจݙϦετ n [相⽥他, 2023] n 異なる時期での意味の違いを捉える単語分散表現の結合学習. ⾃然⾔語処理, vol. 30, No
2. 2023. n [Yamagiwa+, 2023] n Discovering Universal Geometry in Embeddings with ICA. EMNLP2023. n [松井秀俊, 2020] n 関数データ解析の概要とその⽅法. Speaker Deck, 2020. 30

意味変化分析に向けた単語埋め込みの時系列パターン分析

意味変化分析に向けた単語埋め込みの時系列パターン分析

hajime kiyama

More Decks by hajime kiyama

Featured

Transcript

ҙຯมԽ෼ੳʹ޲͚ͨ ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳ ◦⽊⼭朔1 相⽥太⼀1 ⼩町守2 ⼩⽊曽智信3 ⾼村⼤也4 松井秀俊5 持橋⼤地6 1東京都⽴⼤学

ݚڀ֓ཁ 研究⽬標 n 通時的な意味変化の分析に向けた時系列パターンの分析本研究の貢献 n 単語埋め込みの時系列パターン分析⼿法の提案 n 毎⽇新聞コーパスにおいて単語群の時系列パターンを発⾒ 1

ݚڀഎܠɿ࣌ܥྻύλʔϯ n 意味変化のモデル化 n 意味変化のパターンの理解 n 時系列のパターンの理解 n 時系列パターンの分析⼿法の提案 3

ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏ 4 今回の研究はココ！

ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏ 5 単語埋め込みの学習は時期ごとに実施時期ごとに空間の対応が取れる SGNS init と PPMI-SVD joint を採⽤

6 時系列分析に向けて、単語ごとに埋め込みを時系列に並べた⾏列を⽤意 ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏

ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏ 7 特異値分解 (SVD) や独⽴成分分析 (ICA) を⽤いて、軸を取り直すこれにより軸に従って分析が可能

ఏҊख๏ɿ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳख๏ 8 特定の次元を取り出して時系列分析を⾏う埋め込みの時系列分析には関数クラスタリングを使⽤

ֶशख๏ɿ4(/4JOJU n 単語埋め込みの学習⼿法 [Mikolov+, 2014] n Skip-Gram：中⼼の単語から周辺単語の予測 n Negative Sampling：負例をサンプルし負例から遠ざける

ֶशख๏ɿ11.*47%KPJOU n 単語埋め込みの学習⼿法 n PPMI-SVD を使⽤ [Levy and Goldberg, 2014]

࣮ݧઃఆ n データセット n 毎⽇新聞コーパス n 2003-2020年の計18年 n 対象単語 n

࣮ݧ݁Ռ n 時系列のパターン n 学習がうまくいき、埋め込みが時期によらず似ているかを確認 n 3次元での可視化 n 時間によって埋め込みが変化するのかを確認 n

࣮ݧ݁Ռ n 時系列のパターン n 学習がうまくいき、埋め込みが時期によらず似ているかを確認 n 3次元での可視化 n 時間によって埋め込みが変化するのかを確認 n

֬ೝɿ࣌ܥྻͷύλʔϯ 11.*47%KPJOU 14 (a) 怠る + SVD (b) 怠る +

࣮ݧ݁Ռ n 時系列のパターン n 学習がうまくいき、埋め込みが時期によらず似ているかを確認 n 3次元での可視化 n 時間によって埋め込みが変化するのかを確認 n

֬ೝɿ࣍ݩͰͷՄࢹԽ 16 n 3次元空間上での時系列の変化を確認 n ⾊が暗い⽅が古い年代⾊が明るい⽅が新しい年代を表す n 圧縮された次元ごとに対し分散が⾼い上位次元で可視化

࣮ݧ݁Ռ n 時系列のパターン n 学習がうまくいき、埋め込みが時期によらず似ているかを確認 n 3次元での可視化 n 時間によって埋め込みが変化するのかを確認 n

ؔ਺σʔλղੳ <3BNTBZBOE4JMWFSNBO > n 系列データを関数として表現し分析を⾏う⼿法 n 関数単位での分析 →観測誤差の除去やデータの次元の削減が可能 n 関数データに対してクラスタリングを⾏う

ؔ਺ΫϥελϦϯά 19 n 次元圧縮した特定の次元を時系列に並べる n ⼀つの軌跡が⼀つの単語 n 今回は変換した値を使⽤ n

෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 20 n 可視化：線形区分関数を使⽤ n 基本的には横ばいに変化 n 時期によって値が変化しない n 時系列変化が⾒えない

෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 21 n 時期が新しくなるにつれ値が⼩さくなるクラスタ4 n クラスタに含まれる単語がどのような傾向を⽰すかわからない n

෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 22 n 2011年で急激に⼤きくなるクラスタ0、2 n 東⽇本⼤震災により新聞の内容が変化したことが⽰唆 PPMI-SVD

෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 23 n 2006年と2012年の期間で極端に値が⼩さくなるクラスタ1、4 n スポーツ関連のクラスタであることが⽰唆 PPMI-SVD

͓ΘΓʹ まとめ n 単語埋め込みの時系列パターン分析⼿法を提案 n 毎⽇新聞コーパスにおいて単語群の時系列パターンを発⾒今後の展望 n 対象単語に名詞を含んだ分析 n

ิ଍ɿ࣌ܥྻͷύλʔϯ 4(/4JOJU 25

ิ଍ɿ࣍ݩͰͷՄࢹԽ 26

ิ଍ɿؔ਺ΫϥελϦϯάͷΫϥελ 27

ࢀߟจݙϦετ n [Cook and Stevenson, 2010] n Automatically Identifying Changes

ࢀߟจݙϦετ n [Giulianelli+, 2020] n Analysing Lexical Semantic Change with

ࢀߟจݙϦετ n [相⽥他, 2023] n 異なる時期での意味の違いを捉える単語分散表現の結合学習. ⾃然⾔語処理, vol. 30, No