Upgrade to Pro — share decks privately, control downloads, hide ads and more …

意味変化分析に向けた単語埋め込みの時系列パターン分析

Avatar for hajime kiyama hajime kiyama
March 16, 2024
97

 意味変化分析に向けた単語埋め込みの時系列パターン分析

NLP2024にて発表した内容です

Avatar for hajime kiyama

hajime kiyama

March 16, 2024
Tweet

More Decks by hajime kiyama

Transcript

  1. ҙຯมԽ෼ੳʹ޲͚ͨ ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳ ◦⽊⼭朔1 相⽥太⼀1 ⼩町守2 ⼩⽊曽智信3 ⾼村⼤也4 松井秀俊5 持橋⼤地6 1東京都⽴⼤学

    2⼀橋⼤学 3国⽴国語研究所 4産業技術総合研究所 5滋賀⼤学 6統計数理研究所 ⾔語処理学会第30回年次⼤会 2024年3⽉14⽇ @ 神⼾ E9:テーマセッション6:深層学習時代の⾔語学と⾃然⾔語処理(2) E9-2
  2. ݚڀഎܠɿ࣌ܥྻύλʔϯ n 意味変化のモデル化 n 意味変化のパターンの理解 n 時系列のパターンの理解 n 時系列パターンの分析⼿法の提案 3

    意味変化のしやすさは多義性や頻度に関連 [Hamilton+, 2016] 意味競争や意味協⼒といった語義パターン [Giulianelli+, 2020] 今回の研究はココ!
  3. ֶशख๏ɿ4(/4JOJU n 単語埋め込みの学習⼿法 [Mikolov+, 2014] n Skip-Gram:中⼼の単語から周辺単語の予測 n Negative Sampling:負例をサンプルし負例から遠ざける

    n 初期化⼿法 [Kim+, 2014] n 時期 t+1 の学習に時期 t の埋め込みを初期値として利⽤する 9 時期 t の埋め込み 時期 t+1 の埋め込み 初期値としてSGNS
  4. ֶशख๏ɿ11.*47%KPJOU n 単語埋め込みの学習⼿法 n PPMI-SVD を使⽤ [Levy and Goldberg, 2014]

    n Positive PMI ⾏列を特異値分解で圧縮 n 同時に圧縮 n ⽂脈語を共有し同時に圧縮 [相⽥他, 2023] 10 [相⽥他, 2023]より引⽤ 単語の共起関係の⾏列
  5. ࣮ݧઃఆ n データセット n 毎⽇新聞コーパス n 2003-2020年の計18年 n 対象単語 n

    各年で100回以上出現した動詞、形容詞、形状詞 n 前処理 n 補助記号と20単語未満の⽂を除外、uniq で重複を取り除く n ⽂脈窓の⼤きさ n 前後10単語 n 次元圧縮⼿法 n SVD、ICA 11 狭義の意味変化する単語を分析する⽬的で設定 名詞のような急激な変化よりも緩やかな変化を獲得したい ICA は歪度の絶対値が⼤きい順に並び替え [Yamagiwa+, 2023]
  6. ֬ೝɿ࣌ܥྻͷύλʔϯ 11.*47%KPJOU 14 (a) 怠る + SVD (b) 怠る +

    ICA (c) 引き受ける + SVD (d) 引き受ける + ICA n 縦軸が似た⾊になり時期によらず似た埋め込みとなる n SVD より ICA の⽅がコントラストが⼤きい n 他の学習⼿法、圧縮⼿法でも同じ傾向が⾒られた
  7. ֬ೝɿ࣍ݩͰͷՄࢹԽ 16 n 3次元空間上での時系列の変化を確認 n ⾊が暗い⽅が古い年代 ⾊が明るい⽅が新しい年代を表す n 圧縮された次元ごとに対し 分散が⾼い上位次元で可視化

    x, y, zの順に上位に並べる n 他の学習⼿法、圧縮⼿法でも確認 n PPMI-SVD でも埋め込みが似て 変化が検出できそう 「⾃在」 PPMI-SVD + SVD 2, 3, 5次元⽬ この⽅向に 動いている
  8. ؔ਺ΫϥελϦϯά 19 n 次元圧縮した特定の次元を 時系列に並べる n ⼀つの軌跡が⼀つの単語 n 今回は変換した値を使⽤ n

    K-means ユークリッド距離 n クラスタ数は5とする n ⽬視で選定 埋め込み⼿法 + 圧縮⼿法 dim N
  9. ෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 22 n 2011年で急激に⼤きくな るクラスタ0、2 n 東⽇本⼤震災により新聞 の内容が変化したことが ⽰唆 PPMI-SVD

    + ICA dim 14 単語リスト(クラスタ2) みたい、割る、稀、割れる、 向く、頷く、空く、⾜掻く
  10. ෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 23 n 2006年と2012年の期間 で極端に値が⼩さくなる クラスタ1、4 n スポーツ関連のクラスタ であることが⽰唆 PPMI-SVD

    + ICA dim 29 単語リスト(クラスタ4) 突く、消す、打つ、詰める、 逃げる、攻める、繰り出す、 利く、 打ち込む、仕掛ける、 ぶつける、不味い、 寄る、 ⼿厚い、躱す、有⼒、差す、引く
  11. ࢀߟจݙϦετ n [Cook and Stevenson, 2010] n Automatically Identifying Changes

    in the Semantic Orientation of Words. LREC 2010. n [Lazaridou+, 2021] n Mind the Gap: Assessing Temporal Generalization in Neural Language Models. NeurIPS 2021. n [Su+, 2022] n Improving Temporal Generalization of Pre-trained Language Models with Lexical Semantic Change. EMNLP 2022. n [Hamilton+, 2016] n Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. ACL 2016. 28
  12. ࢀߟจݙϦετ n [Giulianelli+, 2020] n Analysing Lexical Semantic Change with

    Contextualised Word Representations. ACL 2020. n [Mikolov+, 2014] n Distributed Representations of Words and Phrases and their Compositionality. NeurIPS 2013. n [Kim+, 2014] n Temporal Analysis of Language through Neural Language Models. ACL 2014 workshop. n [Levy and Goldberg, 2014] n Neural Word Embedding as Implicit Matrix Factorization. NeurIPS 2014. 29
  13. ࢀߟจݙϦετ n [相⽥他, 2023] n 異なる時期での意味の違いを捉える単語分散表現の結合学習. ⾃然⾔語処理, vol. 30, No

    2. 2023. n [Yamagiwa+, 2023] n Discovering Universal Geometry in Embeddings with ICA. EMNLP2023. n [松井秀俊, 2020] n 関数データ解析の概要とその⽅法. Speaker Deck, 2020. 30