Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:A Multidimensional Framework for Evaluatin...
Search
Taichi Aida
September 16, 2024
Research
0
7
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
https://aclanthology.org/2024.acl-long.76/
Taichi Aida
September 16, 2024
Tweet
Share
More Decks by Taichi Aida
See All by Taichi Aida
YANS2024:目指せ国際会議!「ネットワーキングの極意(国際会議編)」
a1da4
0
64
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
190
新入生向けチュートリアル:文献のサーベイv2
a1da4
10
8k
文献紹介:Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models
a1da4
0
98
文献紹介:WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings
a1da4
1
130
文献紹介:On the Transformation of Latent Space in Fine-Tuned NLP Models
a1da4
0
45
新入生向けチュートリアル:文献のサーベイ
a1da4
0
340
文献紹介:Temporal Attention for Language Models
a1da4
0
250
文献紹介:Dynamic Contextualized Word Embeddings
a1da4
2
330
Other Decks in Research
See All in Research
Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
sosk
1
800
大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】
kentosasaki
2
420
SSII2024 [OS3] 基盤モデル(オープニング)
ssii
PRO
0
320
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
6
1k
医療分野におけるLLMの現状と応用可能性について
kento1109
11
3k
【論文解説】KAN: Kolmogorov-Arnold Networks
tamoharu
1
180
ニューラルネットワークの損失地形
joisino
PRO
24
9.3k
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
2
520
Introducing Research Units of Matsuo-Iwasawa Laboratory
matsuolab
0
100
スモールデータ勉強会発表資料
natsutan
0
590
Weekly AI Agents News! 7月号 論文のアーカイブ
masatoto
1
160
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.2k
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
230
130k
How GitHub Uses GitHub to Build GitHub
holman
472
290k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
For a Future-Friendly Web
brad_frost
174
9.3k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
109
6.9k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
103
48k
Optimising Largest Contentful Paint
csswizardry
30
2.8k
KATA
mclloyd
27
13k
Web development in the modern age
philhawksworth
205
10k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.3k
Visualization
eitanlees
142
15k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
227
52k
Transcript
論文紹介 A Multidimensional Framework for Evaluating Lexical Semantic Change with
Social Science Applications Naomi Baes, Nick Haslam, Ekaterina Vylomova ACL2024
概要 2 • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている
◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた
• 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 背景:単語の意味変化 3
背景:単語の意味変化 4 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • 目的1:時代で意味が変わる単語を自動で検出したい!
◦ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ◦ 本タスクの難しい点:文書間で時間も意味も変わる!
背景:単語の意味変化 5 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • 目的1:時代で意味が変わる単語を自動で検出したい!
◦ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ◦ 本タスクの難しい点:文書間で時間も意味も変わる! ◦ 単語ベクトルを使用して検出 1. word2vec > BERT [Schlechtweg+20] 2. word2vec << 時間を考慮した BERT [Rosin+22] 3. 時間を考慮した BERT << 意味を考慮した XLM-R [Cassotti+23] < 意味を考慮した XLM-R + 意味を考慮した距離関数 [Aida+24] ◦ ある程度できるようになった👍(人手相関が 0.6 → 0.8)
背景:単語の意味変化 6 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点: ◦ 意味変化の種類をどのように定義するか? ◦ 定義した意味変化の種類をどのように予測・評価するか? 技術革新 技術革新 比喩的な拡張
背景:単語の意味変化 7 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ wordnet を使って 発生/統合/分離/死滅 を評価 [Mitra+14] ◦ 7種類の(意味)変化を擬似的に再現 [Shoemark+19] ◦ 文単位で 一般化/特殊化/比喩 を予測 [Cassotti+24] ◦ まだまだ難しい…🧐 技術革新 技術革新 比喩的な拡張
提案:意味変化を評価する尺度 • ✅目的1:時代で意味が変わる単語を自動で検出したい! • 🎯目的2:意味の変わり方について、種類を知りたい! • 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦
breadth:(意味的に)似ていない⇔似ている ◦ intensity:(感情的に)落ち着いている⇔緊張状態 8
提案:意味変化を評価する尺度 • ✅目的1:時代で意味が変わる単語を自動で検出したい! • 🎯目的2:意味の変わり方について、種類を知りたい! • 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦
breadth:(意味的に)似ていない⇔似ている ◦ intensity:(感情的に)落ち着いている⇔緊張状態 • 🎯先行研究と比べてここがすごい!: ◦ ニューラルの分類器 [Cassotti+24] とは 異なり、直交する複数の要素で評価 →説明性◎(各要素から種類を説明できる?) ◦ 事前に種類を定義 [Mitra+14] せず、 種類を区別するための指標を提案 →応用性◎(未知の種類にも対応可能?) 9
• 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ 9段階でラベルづけされた辞書を使用 ◦ 対象単語と共起した単語について、感情ラベルの平均値を算出 ◦ 今回:前後5単語で共起する、辞書に含まれている単語を使用
◦ 教師情報が必要 ◦ breadth:(意味的に)似ていない⇔似ている ◦ average pairwise cosine distance を使用 ◦ 教師情報なしでOK ◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ 9段階でラベルづけされた辞書を使用 ◦ sentiment と同様の算出 ◦ 教師情報が必要 提案:意味変化を評価する尺度 10
• 提案:複数次元での評価尺度で意味変化を区別 ◦ 補助的な軸も2つ提案 →社会的な要因、特定の分野の変化はこれでわかるかも? ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦
今回:分野は心理学/社会学、前後5単語以内にあるかどうか ◦ 教師情報が必要 ◦ [sub] salience:相対的な頻度情報 ◦ 教師情報なしでOK 提案:意味変化を評価する尺度 11
実験 • 心理学/社会学の分野の用語を使用 ◦ 危害に関する用語が意味的に拡張する(concept creep) ◦ 例)trauma:外傷→心理的 • 調査:「心理的な用語の変化(concept
creep)」と 「それ以外」を区別できるか? ◦ 心理的・より広義になった単語:“mental health” ◦ 心理的・より専門的な意味になった単語:“mental illness” ◦ 中立的な単語:“perceptron” 12
結果:主要な3つの軸で調査 • sentiment 軸:心理的な単語は減少(=ネガティブ) • breadth 軸:どの単語も緩やかに増加(=意味の拡張) 13 illness はより
専門的になった はずでは…?🧐
結果:主要な3つの軸で調査 • intensity 軸:心理的な単語は変動が激しく(左)、 大幅に増加傾向にある(らしい)(右) 14
結果:補助的な2つの軸で調査 15 health < illness →さらに 専門的に なった • thematic
concept 軸:心理的な単語は有意に共起する • salience 軸:(心理的な文書で)mental health が急増
結果:複数軸での評価でわかること 16 • 通常の単語(perception)と比較して、 心理的な単語(mental health, mental illness)は…? • sentiment,
intensity 軸: ◦ 通常のコーパスだとポジティブ・落ち着いた状態に移行するが、 ◦ 心理的なコーパスだとネガティブ・緊張状態に移行 • breadth 軸: ◦ 通常のコーパスだと意味が近いようにみえるが、 ◦ 心理的なコーパスだと意味の幅が広い • [sub] thematic concept, salience 軸: ◦ 指定した分野の用語と有意に共起 ◦ mental illness の頻度はほぼ一定だが、mental health の頻度は 急増する(→関心の高まり?)
まとめ 17 • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている
◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた
まとめ • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている ◦
intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 →これらの要素は本当に直交しているのか?必要十分か? • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた →各要素を教師情報なしで算出するにはどうしたらいいか? (参考:感情分析+意味変化 [Goworek+24]) ◦ とはいえ、難しい課題を簡潔に評価する試みはとても良い! 18