Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:A Multidimensional Framework for Evaluatin...
Search
Taichi Aida
September 16, 2024
Research
400
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
https://aclanthology.org/2024.acl-long.76/
Taichi Aida
September 16, 2024
More Decks by Taichi Aida
See All by Taichi Aida
意味を表すベクトル表現を用いたテキスト分析
a1da4
0
130
スウェーデン滞在報告
a1da4
0
31
PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection
a1da4
1
300
YANS2024:目指せ国際会議!「ネットワーキングの極意(国際会議編)」
a1da4
0
330
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
450
新入生向けチュートリアル:文献のサーベイv2
a1da4
18
12k
文献紹介:Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models
a1da4
0
240
文献紹介:WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings
a1da4
1
390
文献紹介:On the Transformation of Latent Space in Fine-Tuned NLP Models
a1da4
0
140
Other Decks in Research
See All in Research
AY 2026 Guide to Academic Writing Using Generative AI - Workshop
ks91
PRO
0
120
重要だけど測れていないもの:高齢者ケアの見えない課題
theoriatec2024
0
320
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
Using our influence and power for patient safety
helenbevan
0
360
存立危機事態の再検討
jimboken
0
290
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
310
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
500
LLMアプリケーションの透明性について
fufufukakaka
0
230
適応的スパムフィルタのための軽量な類似メッセージカウンタ / jsai2026-adaptive-spam-filter
monochromegane
0
660
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
340
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
200
Featured
See All Featured
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
200
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
The Curse of the Amulet
leimatthew05
1
13k
Thoughts on Productivity
jonyablonski
76
5.2k
Facilitating Awesome Meetings
lara
57
6.9k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
201
75k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
240
Crafting Experiences
bethany
1
170
New Earth Scene 8
popppiees
3
2.3k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
150
Transcript
論文紹介 A Multidimensional Framework for Evaluating Lexical Semantic Change with
Social Science Applications Naomi Baes, Nick Haslam, Ekaterina Vylomova ACL2024
概要 2 • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている
◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた
• 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 背景:単語の意味変化 3
背景:単語の意味変化 4 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • 目的1:時代で意味が変わる単語を自動で検出したい!
◦ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ◦ 本タスクの難しい点:文書間で時間も意味も変わる!
背景:単語の意味変化 5 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • 目的1:時代で意味が変わる単語を自動で検出したい!
◦ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ◦ 本タスクの難しい点:文書間で時間も意味も変わる! ◦ 単語ベクトルを使用して検出 1. word2vec > BERT [Schlechtweg+20] 2. word2vec << 時間を考慮した BERT [Rosin+22] 3. 時間を考慮した BERT << 意味を考慮した XLM-R [Cassotti+23] < 意味を考慮した XLM-R + 意味を考慮した距離関数 [Aida+24] ◦ ある程度できるようになった👍(人手相関が 0.6 → 0.8)
背景:単語の意味変化 6 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点(その1): ◦ 意味変化の種類をどのように定義するか? ◦ 定義した意味変化の種類をどのように予測・評価するか? 技術革新 技術革新 拡張
背景:単語の意味変化 7 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点(その2):意味変化の種類は結構ある! ◦ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩🐶) ◦ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ◦ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ◦ 良化:knight(男の子👦→騎士💂) ◦ 悪化:knave(男の子👦→悪党) ◦ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張
背景:単語の意味変化 8 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ wordnet を使って 発生/統合/分離/死滅 を評価 [Mitra+14] ◦ 7種類の(意味)変化を擬似的に再現 [Shoemark+19] ◦ 文単位で 一般化/特殊化/比喩 を予測 [Cassotti+24] ◦ まだまだ難しい…🧐 技術革新 技術革新 拡張
提案:意味変化を評価する尺度 • ✅目的1:時代で意味が変わる単語を自動で検出したい! • 🎯目的2:意味の変わり方について、種類を知りたい! • 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦
breadth:(意味的に)似ていない⇔似ている ◦ intensity:(感情的に)落ち着いている⇔緊張状態 9
提案:意味変化を評価する尺度 • ✅目的1:時代で意味が変わる単語を自動で検出したい! • 🎯目的2:意味の変わり方について、種類を知りたい! • 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦
breadth:(意味的に)似ていない⇔似ている ◦ intensity:(感情的に)落ち着いている⇔緊張状態 • 🎯先行研究と比べてここがすごい!: ◦ ニューラルの分類器 [Cassotti+24] とは 異なり、直交する複数の要素で評価 →説明性◎(各要素から種類を説明できる?) ◦ 事前に種類を定義 [Mitra+14] せず、 種類を区別するための指標を提案 →応用性◎(未知の種類にも対応可能?) 10
• 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ 9段階でラベルづけされた辞書を使用 ◦ 対象単語と共起した単語について、感情ラベルの平均値を算出 ◦ 今回:前後5単語で共起する、辞書に含まれている単語を使用
◦ 教師情報が必要 ◦ breadth:(意味的に)似ていない⇔似ている ◦ average pairwise cosine distance を使用 ◦ 教師情報なしでOK ◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ 9段階でラベルづけされた辞書を使用 ◦ sentiment と同様の算出 ◦ 教師情報が必要 提案:意味変化を評価する尺度 11
• 提案:複数次元での評価尺度で意味変化を区別 ◦ 補助的な軸も2つ提案 →社会的な要因、特定の分野の変化はこれでわかるかも? ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦
今回:分野は心理学/社会学、前後5単語以内にあるかどうか ◦ 教師情報が必要 ◦ [sub] salience:相対的な頻度情報 ◦ 教師情報なしでOK 提案:意味変化を評価する尺度 12
(再掲)背景:単語の意味変化 13 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点(その2):意味変化の種類は結構ある! ◦ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩🐶) ◦ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ◦ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ◦ 良化:knight(男の子👦→騎士💂) ◦ 悪化:knave(男の子👦→悪党) ◦ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張
(再掲)背景:単語の意味変化 14 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点(その2):意味変化の種類は結構ある! ◦ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩🐶) ◦ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ◦ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ◦ 良化:knight(男の子👦→騎士💂) ◦ 悪化:knave(男の子👦→悪党) ◦ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張 提案された 3つの尺度 は 下記のような意味変化を分類できる?
提案:意味変化を評価する尺度 15 提案された 3つの尺度 は 下記のような意味変化を分類できる? →各尺度の上昇・下降で表現できる!
実験 • 心理学/社会学の分野の用語を使用 ◦ 危害に関する用語が意味的に拡張する(concept creep) ◦ 例)trauma:外傷→心理的 • 調査:「心理的な用語の変化(concept
creep)」と 「それ以外」を区別できるか? ◦ 心理的・より広義になった単語:“mental health” ◦ 心理的・より専門的な意味になった単語:“mental illness” ◦ 中立的な単語:“perceptron” 16 心理関係 コーパス 一般的な コーパス
結果:主要な3つの軸で調査 • sentiment 軸:心理的な単語は減少(=ネガティブ) • breadth 軸:どの単語も緩やかに増加(=意味の拡張) 17 illness はより
専門的になった はずでは…? 🧐 (下降すべき)
結果:主要な3つの軸で調査 • intensity 軸:心理的な単語は変動が激しく(左)、 大幅に増加傾向にある(らしい)(右) 18
結果:補助的な2つの軸で調査 19 health < illness →さらに 専門的に なった • thematic
concept 軸:心理的な単語は有意に共起する • salience 軸:(心理的な文書で)mental health が急増
結果:複数軸での評価でわかること 20 • 通常の単語(perception)と比較して、 心理的な単語(mental health, mental illness)は…? • sentiment,
intensity 軸: ◦ 通常のコーパスだとポジティブ・落ち着いた状態に移行するが、 ◦ 心理的なコーパスだとネガティブ・緊張状態に移行 • breadth 軸: ◦ 「専門性⇔意味の広がり」を捉える重要な軸 ◦ 通常のコーパスだと意味が近いようにみえるが、 ◦ 心理的なコーパスだと意味の幅が広い → mental illness は専門性↑なので、狭まって欲しかった… • [sub] thematic concept, salience 軸: ◦ 指定した分野の用語と有意に共起 ◦ mental illness の頻度はほぼ一定だが、mental health の頻度は 急増する(→関心の高まり?)
まとめ 21 • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている
◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた
まとめ • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている ◦
intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 →これらの要素は本当に直交しているのか?必要十分か? • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた →各要素を教師情報なしで算出するにはどうしたらいいか? (参考:感情分析+意味変化 [Goworek+24]、 LLMで置き換えるための単語を生成 [Periti+24]) ◦ とはいえ、難しい課題を簡潔に評価する試みはとても良い! 22