Upgrade to Pro — share decks privately, control downloads, hide ads and more …

意味を表すベクトル表現を用いたテキスト分析

Avatar for Taichi Aida Taichi Aida
September 08, 2025

 意味を表すベクトル表現を用いたテキスト分析

Avatar for Taichi Aida

Taichi Aida

September 08, 2025
Tweet

More Decks by Taichi Aida

Other Decks in Research

Transcript

  1. 自己紹介 - 氏名:相田太一(あいだたいち) - 所属: - 東京都立大学 客員研究員 - 研究テーマ:

    - 単語の通時的な意味変化の検出・分析 (論文誌4+1本、国際会議9+1本、国内会議10本) 2
  2. 研究紹介:単語の通時的な意味変化の検出・分析 - 単語の意味は時間で変化することがある - どのように(自動で)検出するか? - 時期間で単語の意味を比較 - 2つの時期で同時に計算する [自然言語処理’23],

    データ構築 [自然言語処理’24] - 広がりを考慮 [Findings of ACL’23], 入れ替え [Findings of EMNLP’23], 意味ラベルを使う [Findings of EMNLP’23], 意味に特化 [Findings of ACL’24] - どのように(自動で)分析するか? - 時期間で単語の意味の変わり方を調査 - 単語を絞った分析 [自然言語処理’23, デジタル・ヒューマニティーズ’25] - 網羅的な分析 [COLING’25], 意味変化に関連する特徴 [COLING’25] 4
  3. 研究紹介:単語の通時的な意味変化の検出・分析 - 単語の意味は時間で変化することがある - どのように(自動で)検出するか? - 時期間で単語の意味を比較 - 2つの時期で同時に計算する [自然言語処理’23],

    データ構築 [自然言語処理’24] - 広がりを考慮 [Findings of ACL’23], 入れ替え検定 [Findings of EMNLP’23], 意味ラベルを使う [Findings of EMNLP’23], 意味に特化 [Findings of ACL’24] - どのように(自動で)分析するか? - 時期間で単語の意味の変わり方を調査 - 単語を絞った分析 [自然言語処理’23, デジタル・ヒューマニティーズ’25] - 網羅的な分析 [COLING’25], 意味変化に関連する特徴 [COLING’25] - 性能と解釈性のトレードオフに対処 [Findings of EMNLP’25] 5
  4. 単語ベクトルの作り方(1/4) - 対象の単語集合(語彙)を決める - 例1:頻度 X 回以上出現する単語 - 例2:品詞が 名詞、動詞、形容詞、副詞

    である単語 - +自分が調べたい単語(重要) - 調査対象コーパスの異なり語数が数千〜数万 →対象単語数が数百〜数千程度になる 10
  5. ハンズオン(Google Colab) - 意味を表すベクトル表現を用いたテキスト分 析.ipynb - 「0. 設定」 - 必要なパッケージの取得

    - 使用するコーパスの読み込み・前処理 - 「1. 単語ベクトル」 - 共起→PMI→単語ベクトルの作成まで 21
  6. 文の意味を表すベクトル - これまで:文書から単語のベクトルを1つ得る - 例:SGNS ✅ 軽量、高速 ❌ 大雑把な表現(多義性があっても1つのベクトル) -

    ここから:文(用例)からベクトルを得る - 例:BERT ❌ 容量が必要、少し遅い ✅ 用例単位の細かい表現(多義性も表現可能) 22
  7. 2. 重みを計算 a. パラメータ a と単語の出現確率 p(w) からなる b. 頻出する単語(p(w)↑)は重みが小さく、

    レアな単語(p(w)↓)は重みが大きくなる 単語ベクトル→文ベクトル [Arora+17] 34
  8. 文の意味を表すベクトル - どうしたら良いのか? ❌ 解決策1:目的のデータで訓練 ✅ 解決策2:単語ベクトルから文ベクトルに変換 🤔 解決策3:OpenAI のベクトルを使う

    [近藤 2023]→高性能だが、従量課金制なので注意 40 1M トークン あたりの価格 [OpenAI] 一見すると安いかも...? →実験が1回で完了することは少ない! (ベクトルの保存ミス・設計変更...) →本チュートリアルなら、自分で対象 コーパス特化の文ベクトルを作れる・ 自由に調整できる👍
  9. おわりに - 理論:単語の意味を表現する→単語ベクトル - 文書から1つの単語ベクトルを獲得 - 文(用例)から1つの単語ベクトルを獲得 - 実践:Colab で手を動かす

    - 細かい部分が見えてくる(パラメータ探索、保存) - 数式を覚える << それぞれの良いところを把握する - 発展:更なる改善へ - 前処理、学習時、後処理 それぞれで存在 - 「統計的テキストモデル」 42