Slide 1

Slide 1 text

発表者:⽊⼭朔 東京都⽴⼤学 修⼠2年 6TJOH4ZODISPOJD%FGJOJUJPOTBOE 4FNBOUJD3FMBUJPOTUP$MBTTJGZ 4FNBOUJD$IBOHF5ZQFT Pierluigi Cassotti, Stefano De Pascale, Nina Tahmasebi ACL 2024 main ※スライド中の図表は指定がない限りは上記の論⽂からの引⽤になります。

Slide 2

Slide 2 text

"CTUSBDU n 意味変化の種類の分類タスクを提案 n 語義の定義⽂を⽤いた共時的な語義の関係を⽤いる n 単語の語義の定義⽂が意味変化の種類の予測に有益 n 意味変化の種類は意味変化検出のタスクに有益 n 従来の意味変化検出⼿法に意味変化の種類の情報を加味 n 段階的な Word-in-Context タスクの性能を向上 n 意味が変化したかのバイナリ分類タスクの性能を向上 1

Slide 3

Slide 3 text

-FYJDBM4FNBOUJD$IBOHF n 通時的な意味変化とは時代により単語の意味が変化する事象 n 単語の意味に着⽬するため単語埋め込みを⽤いて分析する n gay:「happiness」から「homosexuality」へと意味が変化 n happy:「lucky」から「happiness」へと意味が変化 2 [Hamilton+, 2016] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. ACL 2016. より図を引⽤

Slide 4

Slide 4 text

-FYJDBM4FNBOUJD$IBOHF%FUFDUJPO 3 n SemEval 2020 task 1 [Schlechtweg+,2020] n 意味変化の評価データセット n 英語、ドイツ語、スウェーデン語、ラテン語 n ⼈⼿で usage ペアの関連性スコアを計算 n 単語の usage グラフをクラスタリングし、その語義の割合で評価 DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages より引⽤ [Schlechtweg+,2020] SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection

Slide 5

Slide 5 text

-4$$5%#FODINBSL n Blank の意味変化リストから作成 n 認知⾔語学的観点から 650 の意味変化の事例を分類 n ロマンス語が中⼼で英語やドイツ語に拡張 n 歴史⾔語学者がデジタルに書き起こした 4 [Blank, 1997] Prinzipien des lexikalischen Bedeutungswandels am Beispiel der romanischen Sprachen

Slide 6

Slide 6 text

4FNBOUJD$IBOHFUZQF n Blank の分類の中で分類できそうな type を抽出 n Generalization(⼀般化) n 意味が⼀般的に使われるように変化 n Specialization(特殊化) n 意味が限定的に使われるように変化 n Co-hyponymous transfer(共-下位語転移) n ある対象が同じ階層で似ている別の対象として変化 n Auto-antonymy(⾃動反意語) n 従来とは逆の意味に変化 5

Slide 7

Slide 7 text

(FOFSBUJOHFYBNQMFTGSPN8PSE/FU n WordNet を⽤いて、語義の定義⽂のペアを⽤意 n Generalization and Specialization(⼀般化と特殊化) n 上位語と下位語の組 n Co-hyponymous(共-下位語) n 同じ親を持つ異なる2つの⼦の組 n Antonymy(反義語) n 反対の概念を表す組 n Homonymy(同⾳異義語) n 同じ品詞かつ上記以外のランダムな組 6 同⾳異義語 下位語 上位語 共-下位語 反義語

Slide 8

Slide 8 text

4FUUJOH n Dataset n Train/dev/test = 80%/10%/10% n 分類クラスが均衡になるようにクラスの数を調整 n Model n ⽣成は Flan-T5 XL FT [Giulianelli+, 2023] を使⽤ n 分類モデルには RoBERTa large を使⽤ n Method n 2つの定義⽂δ1,δ2を1つの⽂字列として連結 n 連結した⽂を⽤いて分類器を学習 7

Slide 9

Slide 9 text

&WBMVBUJPOPO8PSE/FU n 概ね分類は可能 n 83%~95% の正答率 n 上位語と下位語は混同 n 上位語 in 下位語 のため n 共-下位語転移は性能が下がる n 同じ階層内の切り分けが困難? 8 同⾳異義語 下位語 上位語 共-下位語 反義語 同⾳異義語 下位語 上位語 共-下位語 反義語

Slide 10

Slide 10 text

&WBMVBUJPOPOUIF-4$$5%#FODINBSL n 分類性能に差がある n 特殊化 n ⾼い精度で検出できている n ⼀般化と⾃動反義語 n 中程度で検出できている n 共-下位語転移 n 検出不能 n 同じ階層のという曖昧さが困難? n データセットにはない現象? 9 同⾳異義語 下位語 上位語 共-下位語 反義語 特殊化 ⼀般化 共-下位語転移 ⾃動反義語

Slide 11

Slide 11 text

4FNBOUJD3FMBUFEOFTTBOE)PNPOZNZ n 実験設定 n SemEval の英語データ n 語義同⼠の定義⽂を⽣成 n 定義⽂から語義の関係を予測 n 語義関係と⼈間の関係性スコア n 同⾳異義語は無関係のクラス1が多い n 意味変化したものはクラス4が集まる 10 同⾳異義語 下位語 上位語 共-下位語 反義語

Slide 12

Slide 12 text

(SBEFE8PSEJO$POUFYU5BTL n 段階的 Word-in Context で評価 n ⼈⼿評価との順位相関を計算 n 関連性スコアの算出 n 語義関係で計算⽅法を変える n 同⾳異義語の場合は無関係なので0 n それ以外のクラスは関係するので計算 11 (同⾳異義語は0にする) (同⾳異義語以外は計算する)

Slide 13

Slide 13 text

(SBEFE8PSEJO$POUFYU5BTL&WBMVBUJPO n 同⾳意義語で前処理すると相関が上がる n Definition:定義⽂⽣成 n 全て組み合わせると SOTA を上回る性能に n ablationとしては⾜りてない気もするが… 12

Slide 14

Slide 14 text

#JOBSZ$IBOHF5BTL n 実験設定 n SemEval においての意味変化の有無を判定するタスク n 評価 n 定義⽂⽣成と同⾳異義語を⽤いれば性能が⾼い n XL-LEXEME は閾値を最適化する必要がある 13

Slide 15

Slide 15 text

$PODMVTJPO n 意味変化の種類の分類タスクを提案 n 語義の定義⽂を⽤いた共時的な語義の関係を⽤いる n 単語の語義の定義⽂が意味変化の種類の予測に有益 n 意味変化の種類は意味変化検出のタスクに有益 n 従来の意味変化検出⼿法に意味変化の種類の情報を加味 n 段階的な Word-in-Context タスクの性能を向上 n 意味が変化したかのバイナリ分類タスクの性能を向上 14

Slide 16

Slide 16 text

-JNJUBUJPO n Blank のデータセットは信⽤しても良いのか? n ⼀⼈の学者が⽤意した意味変化の分類 n ⾔語のバイアスや、バランスが取れていない可能性 n 分布仮説では不⼗分? n 意味変化の種類はテキストで閉じた変化ではない n ⼊⼒や⽂脈だけで分類を実施するには不⼗分 n 意味変化の種類の定義 n 分類ができそうな変化を取り出してしまっている n しっかりアノテーションする必要があり、時間とお⾦が必要… 15

Slide 17

Slide 17 text

ײ૝ n 意味変化の種類の分類タスクを作る話は良い n WordNet をうまく使うことでできそうなところに取り組んでいる n ⼀⽅で意味変化の種類については少ない気もする n あとは、教師データが必要になるので難しい… n Blank の意味変化の種類のアノテーションの質がわからない n 意味変化検出に種類の情報はそこまで役に⽴ってない n 同⾳異義語を⽤意して関連のないものを0に前処理している n もっと意味変化の種類の情報を使って関連性スコアを変えるべき? n SemEval が種類の情報が⼊らないタスクになっている… n 意味変化の種類を評価するデータセットが欲しい 16

Slide 18

Slide 18 text

ײ૝ n 定義⽂⽣成の拡張 n Fran-T5 を使って定義⽂を作っているけど GPT 系列はどうか? n 単語ベクトルから⽂ベクトルへと拡張できる n ⼀⽅で良い定義⽂を評価することが難しい… n ⼆つの時期から複数の時期へ n 意味変化の種類は2つの時期だけ⾒てもわからないような n 複数時期で意味変化の種類までアノテーションされると嬉しい(厳しい) 17