Upgrade to Pro — share decks privately, control downloads, hide ads and more …

意味変化分析に向けた単語埋め込みの時系列パターン分析

hajime kiyama
March 16, 2024
20

 意味変化分析に向けた単語埋め込みの時系列パターン分析

NLP2024にて発表した内容です

hajime kiyama

March 16, 2024
Tweet

Transcript

  1. ҙຯมԽ෼ੳʹ޲͚ͨ ୯ޠຒΊࠐΈͷ࣌ܥྻύλʔϯ෼ੳ ◦⽊⼭朔1 相⽥太⼀1 ⼩町守2 ⼩⽊曽智信3 ⾼村⼤也4 松井秀俊5 持橋⼤地6 1東京都⽴⼤学

    2⼀橋⼤学 3国⽴国語研究所 4産業技術総合研究所 5滋賀⼤学 6統計数理研究所 ⾔語処理学会第30回年次⼤会 2024年3⽉14⽇ @ 神⼾ E9:テーマセッション6:深層学習時代の⾔語学と⾃然⾔語処理(2) E9-2
  2. ݚڀഎܠɿ࣌ܥྻύλʔϯ n 意味変化のモデル化 n 意味変化のパターンの理解 n 時系列のパターンの理解 n 時系列パターンの分析⼿法の提案 3

    意味変化のしやすさは多義性や頻度に関連 [Hamilton+, 2016] 意味競争や意味協⼒といった語義パターン [Giulianelli+, 2020] 今回の研究はココ!
  3. ֶशख๏ɿ4(/4JOJU n 単語埋め込みの学習⼿法 [Mikolov+, 2014] n Skip-Gram:中⼼の単語から周辺単語の予測 n Negative Sampling:負例をサンプルし負例から遠ざける

    n 初期化⼿法 [Kim+, 2014] n 時期 t+1 の学習に時期 t の埋め込みを初期値として利⽤する 9 時期 t の埋め込み 時期 t+1 の埋め込み 初期値としてSGNS
  4. ֶशख๏ɿ11.*47%KPJOU n 単語埋め込みの学習⼿法 n PPMI-SVD を使⽤ [Levy and Goldberg, 2014]

    n Positive PMI ⾏列を特異値分解で圧縮 n 同時に圧縮 n ⽂脈語を共有し同時に圧縮 [相⽥他, 2023] 10 [相⽥他, 2023]より引⽤ 単語の共起関係の⾏列
  5. ࣮ݧઃఆ n データセット n 毎⽇新聞コーパス n 2003-2020年の計18年 n 対象単語 n

    各年で100回以上出現した動詞、形容詞、形状詞 n 前処理 n 補助記号と20単語未満の⽂を除外、uniq で重複を取り除く n ⽂脈窓の⼤きさ n 前後10単語 n 次元圧縮⼿法 n SVD、ICA 11 狭義の意味変化する単語を分析する⽬的で設定 名詞のような急激な変化よりも緩やかな変化を獲得したい ICA は歪度の絶対値が⼤きい順に並び替え [Yamagiwa+, 2023]
  6. ֬ೝɿ࣌ܥྻͷύλʔϯ 11.*47%KPJOU 14 (a) 怠る + SVD (b) 怠る +

    ICA (c) 引き受ける + SVD (d) 引き受ける + ICA n 縦軸が似た⾊になり時期によらず似た埋め込みとなる n SVD より ICA の⽅がコントラストが⼤きい n 他の学習⼿法、圧縮⼿法でも同じ傾向が⾒られた
  7. ֬ೝɿ࣍ݩͰͷՄࢹԽ 16 n 3次元空間上での時系列の変化を確認 n ⾊が暗い⽅が古い年代 ⾊が明るい⽅が新しい年代を表す n 圧縮された次元ごとに対し 分散が⾼い上位次元で可視化

    x, y, zの順に上位に並べる n 他の学習⼿法、圧縮⼿法でも確認 n PPMI-SVD でも埋め込みが似て 変化が検出できそう 「⾃在」 PPMI-SVD + SVD 2, 3, 5次元⽬ この⽅向に 動いている
  8. ؔ਺ΫϥελϦϯά 19 n 次元圧縮した特定の次元を 時系列に並べる n ⼀つの軌跡が⼀つの単語 n 今回は変換した値を使⽤ n

    K-means ユークリッド距離 n クラスタ数は5とする n ⽬視で選定 埋め込み⼿法 + 圧縮⼿法 dim N
  9. ෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 22 n 2011年で急激に⼤きくな るクラスタ0、2 n 東⽇本⼤震災により新聞 の内容が変化したことが ⽰唆 PPMI-SVD

    + ICA dim 14 単語リスト(クラスタ2) みたい、割る、稀、割れる、 向く、頷く、空く、⾜掻く
  10. ෼ੳ݁Ռɿؔ਺ΫϥελϦϯά 23 n 2006年と2012年の期間 で極端に値が⼩さくなる クラスタ1、4 n スポーツ関連のクラスタ であることが⽰唆 PPMI-SVD

    + ICA dim 29 単語リスト(クラスタ4) 突く、消す、打つ、詰める、 逃げる、攻める、繰り出す、 利く、 打ち込む、仕掛ける、 ぶつける、不味い、 寄る、 ⼿厚い、躱す、有⼒、差す、引く
  11. ࢀߟจݙϦετ n [Cook and Stevenson, 2010] n Automatically Identifying Changes

    in the Semantic Orientation of Words. LREC 2010. n [Lazaridou+, 2021] n Mind the Gap: Assessing Temporal Generalization in Neural Language Models. NeurIPS 2021. n [Su+, 2022] n Improving Temporal Generalization of Pre-trained Language Models with Lexical Semantic Change. EMNLP 2022. n [Hamilton+, 2016] n Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. ACL 2016. 28
  12. ࢀߟจݙϦετ n [Giulianelli+, 2020] n Analysing Lexical Semantic Change with

    Contextualised Word Representations. ACL 2020. n [Mikolov+, 2014] n Distributed Representations of Words and Phrases and their Compositionality. NeurIPS 2013. n [Kim+, 2014] n Temporal Analysis of Language through Neural Language Models. ACL 2014 workshop. n [Levy and Goldberg, 2014] n Neural Word Embedding as Implicit Matrix Factorization. NeurIPS 2014. 29
  13. ࢀߟจݙϦετ n [相⽥他, 2023] n 異なる時期での意味の違いを捉える単語分散表現の結合学習. ⾃然⾔語処理, vol. 30, No

    2. 2023. n [Yamagiwa+, 2023] n Discovering Universal Geometry in Embeddings with ICA. EMNLP2023. n [松井秀俊, 2020] n 関数データ解析の概要とその⽅法. Speaker Deck, 2020. 30