Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:A Multidimensional Framework for Evaluatin...
Search
Taichi Aida
September 16, 2024
Research
400
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
https://aclanthology.org/2024.acl-long.76/
Taichi Aida
September 16, 2024
More Decks by Taichi Aida
See All by Taichi Aida
意味を表すベクトル表現を用いたテキスト分析
a1da4
0
140
スウェーデン滞在報告
a1da4
0
32
PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection
a1da4
1
310
YANS2024:目指せ国際会議!「ネットワーキングの極意(国際会議編)」
a1da4
0
330
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
450
新入生向けチュートリアル:文献のサーベイv2
a1da4
18
12k
文献紹介:Isotropic Representation Can Improve Zero-Shot Cross-Lingual Transfer on Multilingual Language Models
a1da4
0
250
文献紹介:WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings
a1da4
1
390
文献紹介:On the Transformation of Latent Space in Fine-Tuned NLP Models
a1da4
0
150
Other Decks in Research
See All in Research
LLM の Attention 機構まとめ — 数式・計算量・メモリ
puwaer
8
2.2k
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
310
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
550
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
e869120_sub
7
3.5k
長時間動画QAにおけるマルチエージェント推論 ・SVAgent: Storyline-Guided Long Video Understanding via Cross-Modal Multi-Agent Collaboration
murakawatakuya
1
150
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
460
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
200
シングルチャネルマルチトーカー音声認識の進展
ryomasumura
0
140
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.7k
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
650
Apache Gravitinoで実現する Icebergカタログ統合とアクセスの一元化
matsumooon
0
300
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
250
Featured
See All Featured
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
230
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
Done Done
chrislema
186
16k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.8k
Paper Plane
katiecoart
PRO
1
52k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
3
1.1k
Bash Introduction
62gerente
615
220k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
550
Transcript
論文紹介 A Multidimensional Framework for Evaluating Lexical Semantic Change with
Social Science Applications Naomi Baes, Nick Haslam, Ekaterina Vylomova ACL2024
概要 2 • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている
◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた
• 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 背景:単語の意味変化 3
背景:単語の意味変化 4 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • 目的1:時代で意味が変わる単語を自動で検出したい!
◦ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ◦ 本タスクの難しい点:文書間で時間も意味も変わる!
背景:単語の意味変化 5 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • 目的1:時代で意味が変わる単語を自動で検出したい!
◦ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ◦ 本タスクの難しい点:文書間で時間も意味も変わる! ◦ 単語ベクトルを使用して検出 1. word2vec > BERT [Schlechtweg+20] 2. word2vec << 時間を考慮した BERT [Rosin+22] 3. 時間を考慮した BERT << 意味を考慮した XLM-R [Cassotti+23] < 意味を考慮した XLM-R + 意味を考慮した距離関数 [Aida+24] ◦ ある程度できるようになった👍(人手相関が 0.6 → 0.8)
背景:単語の意味変化 6 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点(その1): ◦ 意味変化の種類をどのように定義するか? ◦ 定義した意味変化の種類をどのように予測・評価するか? 技術革新 技術革新 拡張
背景:単語の意味変化 7 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点(その2):意味変化の種類は結構ある! ◦ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩🐶) ◦ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ◦ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ◦ 良化:knight(男の子👦→騎士💂) ◦ 悪化:knave(男の子👦→悪党) ◦ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張
背景:単語の意味変化 8 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ wordnet を使って 発生/統合/分離/死滅 を評価 [Mitra+14] ◦ 7種類の(意味)変化を擬似的に再現 [Shoemark+19] ◦ 文単位で 一般化/特殊化/比喩 を予測 [Cassotti+24] ◦ まだまだ難しい…🧐 技術革新 技術革新 拡張
提案:意味変化を評価する尺度 • ✅目的1:時代で意味が変わる単語を自動で検出したい! • 🎯目的2:意味の変わり方について、種類を知りたい! • 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦
breadth:(意味的に)似ていない⇔似ている ◦ intensity:(感情的に)落ち着いている⇔緊張状態 9
提案:意味変化を評価する尺度 • ✅目的1:時代で意味が変わる単語を自動で検出したい! • 🎯目的2:意味の変わり方について、種類を知りたい! • 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦
breadth:(意味的に)似ていない⇔似ている ◦ intensity:(感情的に)落ち着いている⇔緊張状態 • 🎯先行研究と比べてここがすごい!: ◦ ニューラルの分類器 [Cassotti+24] とは 異なり、直交する複数の要素で評価 →説明性◎(各要素から種類を説明できる?) ◦ 事前に種類を定義 [Mitra+14] せず、 種類を区別するための指標を提案 →応用性◎(未知の種類にも対応可能?) 10
• 提案:複数次元での評価尺度で意味変化を区別 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ 9段階でラベルづけされた辞書を使用 ◦ 対象単語と共起した単語について、感情ラベルの平均値を算出 ◦ 今回:前後5単語で共起する、辞書に含まれている単語を使用
◦ 教師情報が必要 ◦ breadth:(意味的に)似ていない⇔似ている ◦ average pairwise cosine distance を使用 ◦ 教師情報なしでOK ◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ 9段階でラベルづけされた辞書を使用 ◦ sentiment と同様の算出 ◦ 教師情報が必要 提案:意味変化を評価する尺度 11
• 提案:複数次元での評価尺度で意味変化を区別 ◦ 補助的な軸も2つ提案 →社会的な要因、特定の分野の変化はこれでわかるかも? ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦
今回:分野は心理学/社会学、前後5単語以内にあるかどうか ◦ 教師情報が必要 ◦ [sub] salience:相対的な頻度情報 ◦ 教師情報なしでOK 提案:意味変化を評価する尺度 12
(再掲)背景:単語の意味変化 13 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点(その2):意味変化の種類は結構ある! ◦ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩🐶) ◦ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ◦ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ◦ 良化:knight(男の子👦→騎士💂) ◦ 悪化:knave(男の子👦→悪党) ◦ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張
(再掲)背景:単語の意味変化 14 • 単語の意味は時代とともに変わる(ことがある) ◦ plane:平面🔲→平面🔲、飛行機✈ ◦ record:記録📝→記録📝、大会記録🎖、レコード🎵 • ✅目的1:時代で意味が変わる単語を自動で検出したい!
• 目的2:意味の変わり方について、種類を知りたい! ◦ 意味変化した単語は、「どのような変化」であるか? ◦ 本タスクの難しい点(その2):意味変化の種類は結構ある! ◦ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩🐶) ◦ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ◦ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ◦ 良化:knight(男の子👦→騎士💂) ◦ 悪化:knave(男の子👦→悪党) ◦ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張 提案された 3つの尺度 は 下記のような意味変化を分類できる?
提案:意味変化を評価する尺度 15 提案された 3つの尺度 は 下記のような意味変化を分類できる? →各尺度の上昇・下降で表現できる!
実験 • 心理学/社会学の分野の用語を使用 ◦ 危害に関する用語が意味的に拡張する(concept creep) ◦ 例)trauma:外傷→心理的 • 調査:「心理的な用語の変化(concept
creep)」と 「それ以外」を区別できるか? ◦ 心理的・より広義になった単語:“mental health” ◦ 心理的・より専門的な意味になった単語:“mental illness” ◦ 中立的な単語:“perceptron” 16 心理関係 コーパス 一般的な コーパス
結果:主要な3つの軸で調査 • sentiment 軸:心理的な単語は減少(=ネガティブ) • breadth 軸:どの単語も緩やかに増加(=意味の拡張) 17 illness はより
専門的になった はずでは…? 🧐 (下降すべき)
結果:主要な3つの軸で調査 • intensity 軸:心理的な単語は変動が激しく(左)、 大幅に増加傾向にある(らしい)(右) 18
結果:補助的な2つの軸で調査 19 health < illness →さらに 専門的に なった • thematic
concept 軸:心理的な単語は有意に共起する • salience 軸:(心理的な文書で)mental health が急増
結果:複数軸での評価でわかること 20 • 通常の単語(perception)と比較して、 心理的な単語(mental health, mental illness)は…? • sentiment,
intensity 軸: ◦ 通常のコーパスだとポジティブ・落ち着いた状態に移行するが、 ◦ 心理的なコーパスだとネガティブ・緊張状態に移行 • breadth 軸: ◦ 「専門性⇔意味の広がり」を捉える重要な軸 ◦ 通常のコーパスだと意味が近いようにみえるが、 ◦ 心理的なコーパスだと意味の幅が広い → mental illness は専門性↑なので、狭まって欲しかった… • [sub] thematic concept, salience 軸: ◦ 指定した分野の用語と有意に共起 ◦ mental illness の頻度はほぼ一定だが、mental health の頻度は 急増する(→関心の高まり?)
まとめ 21 • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている
◦ intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた
まとめ • 問題:意味変化の有無は算出できるが、種類は複雑 • 提案:単語の意味変化の種類を評価する3+2つの尺度 ◦ sentiment:(感情的に)ネガティブ⇔ポジティブ ◦ breadth:(意味的に)似ていない⇔似ている ◦
intensity:(感情的に)落ち着いている⇔緊張状態 ◦ [sub] thematic concept:任意の分野の用語との共起頻度 ◦ [sub] salience:相対的な頻度情報 →これらの要素は本当に直交しているのか?必要十分か? • 実験:心理学/社会学における分析で有用性を調査 ◦ 心理的に意味が変化した用語、そうでない単語を区別できた →各要素を教師情報なしで算出するにはどうしたらいいか? (参考:感情分析+意味変化 [Goworek+24]、 LLMで置き換えるための単語を生成 [Periti+24]) ◦ とはいえ、難しい課題を簡潔に評価する試みはとても良い! 22