Slide 1

Slide 1 text

論文紹介 A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications Naomi Baes, Nick Haslam, Ekaterina Vylomova ACL2024

Slide 2

Slide 2 text

概要 2 ● 問題:意味変化の有無は算出できるが、種類は複雑 ● 提案:単語の意味変化の種類を評価する3+2つの尺度 ○ sentiment:(感情的に)ネガティブ⇔ポジティブ ○ breadth:(意味的に)似ていない⇔似ている ○ intensity:(感情的に)落ち着いている⇔緊張状態 ○ [sub] thematic concept:任意の分野の用語との共起頻度 ○ [sub] salience:相対的な頻度情報 ● 実験:心理学/社会学における分析で有用性を調査 ○ 心理的に意味が変化した用語、そうでない単語を区別できた

Slide 3

Slide 3 text

● 単語の意味は時代とともに変わる(ことがある) ○ plane:平面🔲→平面🔲、飛行機✈ ○ record:記録📝→記録📝、大会記録🎖、レコード🎵 背景:単語の意味変化 3

Slide 4

Slide 4 text

背景:単語の意味変化 4 ● 単語の意味は時代とともに変わる(ことがある) ○ plane:平面🔲→平面🔲、飛行機✈ ○ record:記録📝→記録📝、大会記録🎖、レコード🎵 ● 目的1:時代で意味が変わる単語を自動で検出したい! ○ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ○ 本タスクの難しい点:文書間で時間も意味も変わる!

Slide 5

Slide 5 text

背景:単語の意味変化 5 ● 単語の意味は時代とともに変わる(ことがある) ○ plane:平面🔲→平面🔲、飛行機✈ ○ record:記録📝→記録📝、大会記録🎖、レコード🎵 ● 目的1:時代で意味が変わる単語を自動で検出したい! ○ 時代の異なる文書(大抵2つ、19世紀vs20世紀など) ○ 本タスクの難しい点:文書間で時間も意味も変わる! ○ 単語ベクトルを使用して検出 1. word2vec > BERT [Schlechtweg+20] 2. word2vec << 時間を考慮した BERT [Rosin+22] 3. 時間を考慮した BERT << 意味を考慮した XLM-R [Cassotti+23] < 意味を考慮した XLM-R + 意味を考慮した距離関数 [Aida+24] ○ ある程度できるようになった👍(人手相関が 0.6 → 0.8)

Slide 6

Slide 6 text

背景:単語の意味変化 6 ● 単語の意味は時代とともに変わる(ことがある) ○ plane:平面🔲→平面🔲、飛行機✈ ○ record:記録📝→記録📝、大会記録🎖、レコード🎵 ● ✅目的1:時代で意味が変わる単語を自動で検出したい! ● 目的2:意味の変わり方について、種類を知りたい! ○ 意味変化した単語は、「どのような変化」であるか? ○ 本タスクの難しい点(その1): ○ 意味変化の種類をどのように定義するか? ○ 定義した意味変化の種類をどのように予測・評価するか? 技術革新 技術革新 拡張

Slide 7

Slide 7 text

背景:単語の意味変化 7 ● 単語の意味は時代とともに変わる(ことがある) ○ plane:平面🔲→平面🔲、飛行機✈ ○ record:記録📝→記録📝、大会記録🎖、レコード🎵 ● ✅目的1:時代で意味が変わる単語を自動で検出したい! ● 目的2:意味の変わり方について、種類を知りたい! ○ 意味変化した単語は、「どのような変化」であるか? ○ 本タスクの難しい点(その2):意味変化の種類は結構ある! ○ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩󰯬🐶) ○ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ○ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ○ 良化:knight(男の子👦→騎士💂) ○ 悪化:knave(男の子👦→悪党󰬸) ○ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張

Slide 8

Slide 8 text

背景:単語の意味変化 8 ● 単語の意味は時代とともに変わる(ことがある) ○ plane:平面🔲→平面🔲、飛行機✈ ○ record:記録📝→記録📝、大会記録🎖、レコード🎵 ● ✅目的1:時代で意味が変わる単語を自動で検出したい! ● 目的2:意味の変わり方について、種類を知りたい! ○ 意味変化した単語は、「どのような変化」であるか? ○ wordnet を使って 発生/統合/分離/死滅 を評価 [Mitra+14] ○ 7種類の(意味)変化を擬似的に再現 [Shoemark+19] ○ 文単位で 一般化/特殊化/比喩 を予測 [Cassotti+24] ○ まだまだ難しい…🧐 技術革新 技術革新 拡張

Slide 9

Slide 9 text

提案:意味変化を評価する尺度 ● ✅目的1:時代で意味が変わる単語を自動で検出したい! ● 🎯目的2:意味の変わり方について、種類を知りたい! ● 提案:複数次元での評価尺度で意味変化を区別 ○ sentiment:(感情的に)ネガティブ⇔ポジティブ ○ breadth:(意味的に)似ていない⇔似ている ○ intensity:(感情的に)落ち着いている⇔緊張状態 9

Slide 10

Slide 10 text

提案:意味変化を評価する尺度 ● ✅目的1:時代で意味が変わる単語を自動で検出したい! ● 🎯目的2:意味の変わり方について、種類を知りたい! ● 提案:複数次元での評価尺度で意味変化を区別 ○ sentiment:(感情的に)ネガティブ⇔ポジティブ ○ breadth:(意味的に)似ていない⇔似ている ○ intensity:(感情的に)落ち着いている⇔緊張状態 ● 🎯先行研究と比べてここがすごい!: ○ ニューラルの分類器 [Cassotti+24] とは 異なり、直交する複数の要素で評価 →説明性◎(各要素から種類を説明できる?) ○ 事前に種類を定義 [Mitra+14] せず、 種類を区別するための指標を提案 →応用性◎(未知の種類にも対応可能?) 10

Slide 11

Slide 11 text

● 提案:複数次元での評価尺度で意味変化を区別 ○ sentiment:(感情的に)ネガティブ⇔ポジティブ ○ 9段階でラベルづけされた辞書を使用 ○ 対象単語と共起した単語について、感情ラベルの平均値を算出 ○ 今回:前後5単語で共起する、辞書に含まれている単語を使用 ○ 教師情報が必要 ○ breadth:(意味的に)似ていない⇔似ている ○ average pairwise cosine distance を使用 ○ 教師情報なしでOK ○ intensity:(感情的に)落ち着いている⇔緊張状態 ○ 9段階でラベルづけされた辞書を使用 ○ sentiment と同様の算出 ○ 教師情報が必要 提案:意味変化を評価する尺度 11

Slide 12

Slide 12 text

● 提案:複数次元での評価尺度で意味変化を区別 ○ 補助的な軸も2つ提案 →社会的な要因、特定の分野の変化はこれでわかるかも? ○ [sub] thematic concept:任意の分野の用語との共起頻度 ○ 今回:分野は心理学/社会学、前後5単語以内にあるかどうか ○ 教師情報が必要 ○ [sub] salience:相対的な頻度情報 ○ 教師情報なしでOK 提案:意味変化を評価する尺度 12

Slide 13

Slide 13 text

(再掲)背景:単語の意味変化 13 ● 単語の意味は時代とともに変わる(ことがある) ○ plane:平面🔲→平面🔲、飛行機✈ ○ record:記録📝→記録📝、大会記録🎖、レコード🎵 ● ✅目的1:時代で意味が変わる単語を自動で検出したい! ● 目的2:意味の変わり方について、種類を知りたい! ○ 意味変化した単語は、「どのような変化」であるか? ○ 本タスクの難しい点(その2):意味変化の種類は結構ある! ○ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩󰯬🐶) ○ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ○ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ○ 良化:knight(男の子👦→騎士💂) ○ 悪化:knave(男の子👦→悪党󰬸) ○ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張

Slide 14

Slide 14 text

(再掲)背景:単語の意味変化 14 ● 単語の意味は時代とともに変わる(ことがある) ○ plane:平面🔲→平面🔲、飛行機✈ ○ record:記録📝→記録📝、大会記録🎖、レコード🎵 ● ✅目的1:時代で意味が変わる単語を自動で検出したい! ● 目的2:意味の変わり方について、種類を知りたい! ○ 意味変化した単語は、「どのような変化」であるか? ○ 本タスクの難しい点(その2):意味変化の種類は結構ある! ○ 拡大:dog(特定種の犬🐕→犬全般🦮🐕🐩󰯬🐶) ○ 縮小:meat(食べ物全般🍙🦀🍖🥦 → 肉🍖) ○ 比喩:bite/bitter(噛む動作🦷😬→苦い🫑😖) ○ 良化:knight(男の子👦→騎士💂) ○ 悪化:knave(男の子👦→悪党󰬸) ○ +社会的な要因による変化:plane(平面🔲→飛行機✈) 技術革新 技術革新 拡張 提案された 3つの尺度 は 下記のような意味変化を分類できる?

Slide 15

Slide 15 text

提案:意味変化を評価する尺度 15 提案された 3つの尺度 は 下記のような意味変化を分類できる? →各尺度の上昇・下降で表現できる!

Slide 16

Slide 16 text

実験 ● 心理学/社会学の分野の用語を使用 ○ 危害に関する用語が意味的に拡張する(concept creep) ○ 例)trauma:外傷→心理的 ● 調査:「心理的な用語の変化(concept creep)」と 「それ以外」を区別できるか? ○ 心理的・より広義になった単語:“mental health” ○ 心理的・より専門的な意味になった単語:“mental illness” ○ 中立的な単語:“perceptron” 16 心理関係 コーパス 一般的な コーパス

Slide 17

Slide 17 text

結果:主要な3つの軸で調査 ● sentiment 軸:心理的な単語は減少(=ネガティブ) ● breadth 軸:どの単語も緩やかに増加(=意味の拡張) 17 illness はより 専門的になった はずでは…? 🧐 (下降すべき)

Slide 18

Slide 18 text

結果:主要な3つの軸で調査 ● intensity 軸:心理的な単語は変動が激しく(左)、 大幅に増加傾向にある(らしい)(右) 18

Slide 19

Slide 19 text

結果:補助的な2つの軸で調査 19 health < illness →さらに 専門的に なった ● thematic concept 軸:心理的な単語は有意に共起する ● salience 軸:(心理的な文書で)mental health が急増

Slide 20

Slide 20 text

結果:複数軸での評価でわかること 20 ● 通常の単語(perception)と比較して、 心理的な単語(mental health, mental illness)は…? ● sentiment, intensity 軸: ○ 通常のコーパスだとポジティブ・落ち着いた状態に移行するが、 ○ 心理的なコーパスだとネガティブ・緊張状態に移行 ● breadth 軸: ○ 「専門性⇔意味の広がり」を捉える重要な軸 ○ 通常のコーパスだと意味が近いようにみえるが、 ○ 心理的なコーパスだと意味の幅が広い → mental illness は専門性↑なので、狭まって欲しかった… ● [sub] thematic concept, salience 軸: ○ 指定した分野の用語と有意に共起 ○ mental illness の頻度はほぼ一定だが、mental health の頻度は 急増する(→関心の高まり?)

Slide 21

Slide 21 text

まとめ 21 ● 問題:意味変化の有無は算出できるが、種類は複雑 ● 提案:単語の意味変化の種類を評価する3+2つの尺度 ○ sentiment:(感情的に)ネガティブ⇔ポジティブ ○ breadth:(意味的に)似ていない⇔似ている ○ intensity:(感情的に)落ち着いている⇔緊張状態 ○ [sub] thematic concept:任意の分野の用語との共起頻度 ○ [sub] salience:相対的な頻度情報 ● 実験:心理学/社会学における分析で有用性を調査 ○ 心理的に意味が変化した用語、そうでない単語を区別できた

Slide 22

Slide 22 text

まとめ ● 問題:意味変化の有無は算出できるが、種類は複雑 ● 提案:単語の意味変化の種類を評価する3+2つの尺度 ○ sentiment:(感情的に)ネガティブ⇔ポジティブ ○ breadth:(意味的に)似ていない⇔似ている ○ intensity:(感情的に)落ち着いている⇔緊張状態 ○ [sub] thematic concept:任意の分野の用語との共起頻度 ○ [sub] salience:相対的な頻度情報 →これらの要素は本当に直交しているのか?必要十分か? ● 実験:心理学/社会学における分析で有用性を調査 ○ 心理的に意味が変化した用語、そうでない単語を区別できた →各要素を教師情報なしで算出するにはどうしたらいいか? (参考:感情分析+意味変化 [Goworek+24]、 LLMで置き換えるための単語を生成 [Periti+24]) ○ とはいえ、難しい課題を簡潔に評価する試みはとても良い! 22