Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介_LSC-Eval: A General Framework to Evaluate ...
Search
ShitoRyo
October 21, 2025
Research
0
12
論文紹介_LSC-Eval: A General Framework to Evaluate Methods for Assessing Dimensions of Lexical Semantic Change Using LLM-Generated Synthetic Data
ShitoRyo
October 21, 2025
Tweet
Share
More Decks by ShitoRyo
See All by ShitoRyo
Tutorial of Coding Environment for Research by Docker
lexusd
0
26
Computational Approaches for Diachronic Semantic Change Detection_2024_8
lexusd
0
45
論文紹介_Learning Dynamic Contextualised Word Embeddings via Template-based Temporal Adptation
lexusd
0
130
論文紹介_Are Embedded Potatoes Still Vegetables_ On the Limitation of WordNet Embeddings for Lexical Semantics
lexusd
0
140
論文紹介_Interpretable Word Sense Representations via Definition Generation_ The Case of Semantic Change Analysis
lexusd
0
120
論文紹介_Twitter Topic Classification
lexusd
0
100
論文紹介_What is Done is Done_ an Incremental Approach to Semantic Shift Detection
lexusd
0
120
Demoの作り方_研究会チュートリアル
lexusd
0
160
論文紹介_Ruddit_Norms of Offensiveness for English Readdit Comments
lexusd
0
56
Other Decks in Research
See All in Research
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
410
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
1
210
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
3.2k
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
850
LLMアプリケーションの透明性について
fufufukakaka
0
180
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
520
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
230
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
170
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
160
Grounding Text Complexity Control in Defined Linguistic Difficulty [Keynote@*SEM2025]
yukiar
0
120
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
310
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
530
Featured
See All Featured
A Tale of Four Properties
chriscoyier
162
24k
Thoughts on Productivity
jonyablonski
75
5.1k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
The Limits of Empathy - UXLibs8
cassininazir
1
240
Measuring & Analyzing Core Web Vitals
bluesmoon
9
770
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
260
AI: The stuff that nobody shows you
jnunemaker
PRO
3
350
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Designing Experiences People Love
moore
143
24k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
30 Presentation Tips
portentint
PRO
1
250
Navigating Team Friction
lara
192
16k
Transcript
Paper Link | 相田さんの紹介資料 ACL 2025 Findings 論文読み会 D1 凌 志棟
概要 • 問題:意味変化の種類を予測したいがデータが不足・言語横断できる評価方法が ない • 提案手法:意味変化の次元ごとに、変化データを合成し擬似的な変化を作る ◦ Sentiment:感情・価値的にネガティブ⇔ポジティブ ◦ Intensity:感情的に弱い(落ち着いている)⇔強い →メリハリ?
◦ Breadth:意味的に似ていない⇔似ている • 実験: ◦ 人工データは次元ごとに変化を反映できるか? →YES ◦ どの手法が一番変化を検出できるか? →次元ごとに違う
<Gay> and its Synonyms in English. [Hamilton+, 2016] gay (1900s)
gay (1990s) 意味変化検出 gay (1950s) flaunting tasteful daft witty bright bisexual lesbian sweet cheerful 結構 (1820s) 結構 (2000s) 布置 (Layout) 構造 (Structure) 充分 · 良好 (splendid) 割と (quite) <結構 (kekko)> and its Synonyms in Japanese. [Ling+, 2023] 3 単語の意味は時代とともに変わることがある タスク:大規模データから意味が変わった単語を検出(基本的に教師なし)
タスク自体の変化 今までの意味変化検出: 単語の意味が変化したのか? = 0 or 1 単語の意味がどれぐらい変化したのか? = [0,
1] 最近の意味変化検出[Aida2024]:意味の種類(変わり方)について、種類を知りたい 本タスクのチャレンジ: • 意味変化の種類をどのように定義 するか • 定義した意味変化の種類をどのように予測・評価 するか
今まで評価が直面する問題点 • 通時コーパス由来のベンチマーク不足 →手法の妥当性が定まらない • 単語の意味のなにが変わったのか 、次元ごとの評価が難しい 先行研究: • [Schlechtweg+2020]
単語がどれぐらい変わったかをアノテーションで算出 ◦ SemEval-2020 Task 1:パターン情報そもそもなかった;データ作成のコストが 高い • [Loureiro+2022] TempoWiC:通時的なWord-in-Context in SNS data ◦ Word-in-Context:単語の2つの用例で、対象単語の意味が同じなのかを判断するタスク • [Cassotti+2024] 単語の(旧語義,新語義)のペアで変化パターンを分類 ◦ Wordnetの語義関係を[Blank, 1997]の変化パターンにマッピング、 メタファーや意味の漂流を扱 わ なかった • [Baes+2024] Sentiment / Intensity / Breadth 三軸で意味変化を分類 ◦ 同著者による理論、今回の手法もこの理論によって設計された
本研究の提案:LSC-Eval 合成データを使用するLanguage Independentな評価フレームワーク • ベンチマーク不足 → LLM (ICL)+辞書で人工データ を作ろう •
次元ごとの評価が難しい → 人工データを既存手法の次元 で評価、適合性を示す Research Question: • 人工データを用いた評価方法は妥当なのか?(ちゃんと変化を起こせるか) • 検出手法の中にどれが一番人工データの変化を検出できるか?
SIBling Framework [Baes+2024] 複数次元での評価尺度で意味変化を区別 • Sentiment:感情・価値的にネガティブ⇔ポジティブ • Intensity:感情的に弱い(落ち着いている)⇔強い • Breadth:意味的に似ていない⇔似ている
3軸でたくさんの変化類型を表示できるはず↓
SIBling Framework 複数次元での評価尺度で意味変化を区別 • Sentiment:感情・価値的にネガティブ⇔ポジティブ ◦ 感情辞書を使用 ◦ Valence∊[1,9] ;
extremely unhappy → extremely happy ◦ 対象単語と共起単語の感情ラベルの平均値 • Intensity:感情的に落ち着いている⇔興奮 ◦ 辞書を使用 ◦ Arousal∊[1,9] ; extremely calm → extremely agitated ◦ Sentimentと同じように算出 • Breadth:意味的に似ていない⇔似ている ◦ 時期内用例文の文ベクトルの Average Pairwise Cosine Distance ◦ なぜ文ベクトルを使うのか …?
LSC-Eval Framework Stage 1 SIBlingの次元にしたがってデータ生成 via ICL/Dic • 対象単語に対して、コーパスから変化次元が中性 (Neutral)となる用例
を抽出しPromptに与える ◦ 後ほどNeutralに変化を注入 • Sentiment/Intensity: 「与えられた用例の中の対 象単語をよりポジティブ / ネガティブ|落ち着く/ 興 奮するに使う用例を生成して」とLLMに聞く • Breadth: 対象単語と同じ上位語(wordnet参考)を 持つ複数の単語の用例から、その単語を対象単語 で置換 ◦ →他の単語の用例を自分にすることで語義を拡張(語義 が多くなる)
Stage 1 Sentiment / Intensity 使用されたPrompt
Stage 1 Sentiment / Intensity Generated Examples 文脈が確かに変わったが、対象単語の語義自体がそこまで変わっていない …? →意味変化の途中状態をモデリングできた?
人間がはっきりわかる|感じる意味変化の境界は?と思ったりした
Breadth 単語置換の例
LSC-Eval Framework Stage 1 1. {Neutral | 人工}データから用例をランダムサン プリング •
Bootstrap Sampling ◦ 全データから50文(重複可)×100回 • Five-year Interval Sampling ◦ 5年分のデータごとに 50文抽出(重複不可)×10回 ◦ 50年分のデータがあるので Time binが10個 2. 人工データ注入割合 Injection Level • 毎回サンプリングした 50文の中にx%が人工 データ x∊[0,20,40,60,80,100] • Stage 2 でモデルのsensitivityを評価
LSC-Eval Framework Stage 1 合成データ統計量 • 心理学関連のコーパス[Vylomova+2019]のみ使 用→ドメインによる変化を除外できる • コーパス時期:1970〜2019;5年区切り •
対象単語:心理学用語 6つ ◦ abuse, anxiety, depression, mental health, mental illness, trauma ◦ 事前に変化ありとわかった単語集から選んだ ◦ →変化を注入するのであれば変化なし単語でもい けるはず?
LSC-Eval Framework Stage 2 Neutral+人工のデータで変化次元ごとに定量化 • Sentiment (0-1): 時期ごとに対象単語と共起単語の値 の平均をとる(正規化される)
• Intensity (0-1): Sentimentと同じく • Breadth (0-1): 時期ごとに、その時期の用例集合に対 して、文ベクトルの Average Pairwise Cosine Distance (APD) を算出(正規化される) ◦ 0=変化なし(時期内の語義が近い); ◦ 1=大きく変化(時期内の語義がバラバラ)
LSC-Eval Framework Stage 2 実験設定 • 次元ごとに比較 ◦ Sentiment: ▪
ABSA (Aspect Based Sentiment Analysis):DeBERTaベースの感情推定モデル ▪ 対象単語の感情を0−1で出力 ◦ Intensity: 当面は比較できる手法がないという( Baselineのみ) ◦ Breadth: ▪ XL-LEXEME (XLL):意味変化検出での最強 Encoderモデル? ▪ MPNet:BERT+XL-NetのSentence Transformer ▪ 文ベクトルを取ってAPDを算出 • Baseline: ◦ SIBlingのスコア(Valence; Arousal; Breadth) ◦ LSC-score: XL-LEXEMEを2つの時期間で算出した意味変化度合
LSC-Eval Framework Stage 3 検出手法の評価基準 • 人工的に作られた変化をどれぐらい捉えられる か • Neutralと合成データでの変化度合の差
相対変化 Rel. Change Δ% ◦ 人工データ注入割合が 0%と100%の時の次元を比較 ◦ 値が大きいほど変化に Sensitive=うまく検出できる
Results RQ1: 人工データは妥当なの? →SIBlingの評価では妥当である 導入した変化は次元ごとにちゃんと 反映される (Injection Level比較するときは時 期間で平均をとる)
Results RQ2: 一番人工データの変化を検出できる手法は? →次元ごとに異なる • Sentiment: ABSA > Valence (baseline)
• Intensity: 2つの時期間の変化度合には無理 • Breadth: XLL > MPNet > LSC-score LSC-scoreはBreadthの変化しか捉えられない →既存の変化度合は特定の変化しか反映できない 木山さんの連続時期の類似度行列 がより精緻な分析 手法なので新の可能性をもたらすかもと言及
Limitation • Breadthの複雑性 ◦ 本研究は語義の拡張(≒一般化)のみモデリング ◦ どの語義がどう拡張されたかは不明 • Intensityに対する研究は不足 ◦
Intensityに関連するMeiosis(抑言)・Hyperbole(誇張)に言及はない • Metaphor(隠喩)とMetonymy(換喩)を表現できていない
Conclusion・まとめ • 本研究はLSC-Evalという意味変化検出のための評価フレームワークを提案 • LLM+辞書で合成データを生成し、その妥当性を実験で示した • 既存の検出手法を合成データで検証し、限界を示した • 一番の貢献としては:ラベル付き意味変化の正解データの不足を解消 Future
Work • 今後は異なるドメインのコーパスに提案手法を適用 • 特に社会学の研究に適用することが面白そう