Word Sense Extension

木山朔 M1 論文紹介 ACL2023 11/1 1

Abstract • 新しい語義は人間の創造的な単語の使い方により発生 ◦ 単語の語義がどの様な方向で拡張されるかの予測タスクは存在しない • Word Sense Extention という語義拡張タスクを提案
◦ 多義語を二つの擬似トークンに分割し、従来の意味を持つトークンの拡張かどうかを判断 ◦ 新しい語義と既存の単語のペアリングを事前知識なしで実装したい • WSD（語義曖昧性解消）の rare word sense に対して効果があることを検証 2

Creative reuse of words : example of “arrive” 語の創造的使用による語義を獲得したい arrive
という単語を考える original: to come to locations (e.g., to arrive at the gate) extend1: to come to an event (e.g., to arrive at a concert) extend2: to achieve a goal or cognitive state (e.g., to arrive at a conclusion) 3

Related work • Models of word meaning extension ◦ lexical
semantics と cognitive linguistic の観点から語義拡張が議論 ◦ Chaining (連鎖) による認知的理論をもとにフレームワークを構築 • Models of word sense disambiguation ◦ WSD（語義曖昧性解消）ではデータスパースネスの問題 ◦ 低頻度語に関するWSDシステムの精度向上を狙う • Contextualized semantic representations ◦ 多義語を文脈化埋め込みで扱う ◦ 言い換えの研究は存在するが、意味拡張の研究は行われていない 4

Chaining：example of “grasp” and “get” • Chaining（連鎖）という現象とは？ ◦ 既存の語義間の意味関係を識別し、その関係を一般化し新たな語義を生成すること •
grasp の例 ◦ 意味1「ものを掴む」 ◦ 意味2「アイデアを理解する」 ▪ この様な拡張が別の単語でもみられる • get の例 ◦ 意味1「車を手に入れる」 ◦ 意味2「誰かのアイデアを手に入れる」 ▪ 抽象化が grasp の場合と同じ！ 5

Computational framework 3つの構成要素が存在 1. 多義語を異なる語義に対応する擬似トークンに分割 2. 語義選択のために、確率的な連鎖に基づいて語義拡張を定式化 3. 語義拡張の学習のための意味空間学習アルゴリズム 6

Sense-based word type partitioning (1/2) 文字の定義 • 多義語の集合： • 語義集合：
• 文脈と語義のペア： • トークン： ◦ 既存の語義集合内のトークン： ◦ 拡張された語義のトークン： ▪ 単語 w が既存の語義から拡張される新しい語義 s* を表す 7

Sense-based word type partitioning (2/2) ある多義語 w の特定の語義 s* を知らない状況で、語義
s を表現するシナリオ • 多義語 w を二つのトークンに分割 ◦ 既存の語義集合内のトークン： ◦ 拡張された語義のトークン： ▪ 単語 w が既存の語義から拡張される新しい語義 s* を表す • 文脈化された言語モデルを0から学習 ◦ MLM で学習 ◦ マスクされたトークンを埋める際に確率が最大となるように学習 8

Probabilistic formulation of WSE • 単語 w を t*, t0
に置き換えた文脈と語義のペア集合を C*,C0 とする ◦ 既存の語義集合内のトークン： ◦ 拡張された語義のトークン： • WSEタスクの具体的な内容 ◦ w = arrive ◦ s* = “to achieve a goal” ◦ c = “They finally t* at a conclusion after a long debate” ◦ t* としてソーストークン t = arrive が得られるか ◦ m(-) : - を入力とした際のモデルの表現 9

Chaining-based models of WSE • 用語の整理 ◦ h(-)：文脈化埋め込み ◦ H(-)：文脈化埋め込みの集合
• 従来の語義とターゲットの語義の類似度が高い場合にWSEと判定 ◦ 類似度の計算方法として二つ紹介 10

WSE-Prototype model and WSE-Exemplar model • WSE-Prototype model • WSE-Examplar
model 11 要はどこで平均をとるかの違い d(-,-)はドット積を表す

Learning sense-extensional semantic space • 言語モデルの埋め込み空間をWSE向けに変換したい • Chaining に対応するために、episode learning
algorithm を提案 ◦ episode ごとに mini-batch でソースとターゲットトークンのペアを獲得 ◦ ターゲットトークンに対して最も適切なソーストークンを選択 ◦ negative log likelihood を計算 12

Data • Dataset：Wikitext-103 [Merityet al., 2016] ◦ SpaCy を用いて文を抽出しレンマタイズ ◦
WSD を適用し、各トークンに関連する wordnet synset ID を意味ラベルとして付与 ◦ 多義語の語彙リストは下記の条件を満たすものの集合 ▪ 単語タイプがコーパス内で少なくとも 2つの異なる意味を持つ ▪ SpaCy により、名詞、動詞、形容詞、副詞と判断されたもの • 多義語の単語タイプを擬似トークンペアに分割 ◦ ソースとターゲットのペアに分割 ◦ n個の語義に対し、ランダムに一つを選択肢、他はソーストークンとして扱う 13

Setup • モデル：BERT-base-uncased ◦ パラメータの重みはランダムに初期化（ 0から学習） ◦ 多義語を含む場合は置換し、擬似トークンを使用 ◦ BERT
埋め込み層と最終分類層を追加 • 学習方法 ◦ 多義語の70%を学習に ◦ 30%をテストに使う 14

Baseline models Chaining ベースの推論機構を持たないモデルをベースラインとする • BERT-MLM ◦ マスクされた文脈における t0 の確率
• BERT-STS ◦ t0 と t* でコサイン類似度 15

Evaluation on WSE (1/2) • WSE タスクの性能評価 ◦ WSE で学習させると性能が向上する
◦ WSE-Examplar が一番性能が良い 16

Evaluation on WSE (2/2) • 予測例 ◦ 動詞や名詞の場合を WSE モデルでは予測できている
◦ BERT-MLM は言い換えを予測する傾向 ◦ 強い非リテラルな意味拡張をする用例はどのモデルでも性能が低い 17

Sense relatedness and model predictability • 関連度の高い語義を知っていれば新しい語義は容易に予測可能では？ ◦ 答えは
YES ◦ WSE のモデルが人間の様な感度を持つかどうかを検証 ◦ Wu-Palmer semantic distance ▪ t* と t0 の意味的距離 ◦ 距離が小さいメトニミーは予測できる ◦ 強いメタファーなどは困難 18

Application of WSE to WSD (1/3) • WSD のモデルに対して WSE
を学習したモデルを適応 ◦ 最先端の WSD モデルに対して WSE を追加で学習 [Blevinsand Zettlemoyer, 2020] ◦ 副詞を除いてほぼ全てのデータセットで性能向上を確認 19

Application of WSE to WSD (2/3) • 頻度ごとに分析 ◦ rare
word に対する性能が高くなっている ◦ BERT-linear だと高くなっていない気がするが … 20

Application of WSE to WSD (3/3) • 具体例 ◦ WSE
の有無で向上した例 ◦ 従来の意味と新しい意味の関係を捉えられている 21

Conclusion まとめ • WSE のタスク、フレームワークを提案 • Chaining をもとにした学習により、WSE の性能が向上 •
WSE の学習を追加することで WSD の(rare word に対する?)精度向上も確認今後の展望 • より良い WSE モデルのためのフレームワークの拡張 • 時間や言語の違いを考慮したモデル化 22

Word Sense Extension

Word Sense Extension

hajime kiyama

More Decks by hajime kiyama

Other Decks in Research

Featured

Transcript

木山朔 M1 論文紹介 ACL2023 11/1 1

Abstract • 新しい語義は人間の創造的な単語の使い方により発生 ◦ 単語の語義がどの様な方向で拡張されるかの予測タスクは存在しない • Word Sense Extention という語義拡張タスクを提案

Creative reuse of words : example of “arrive” 語の創造的使用による語義を獲得したい arrive

Related work • Models of word meaning extension ◦ lexical

Chaining：example of “grasp” and “get” • Chaining（連鎖）という現象とは？ ◦ 既存の語義間の意味関係を識別し、その関係を一般化し新たな語義を生成すること •

Computational framework 3つの構成要素が存在 1. 多義語を異なる語義に対応する擬似トークンに分割 2. 語義選択のために、確率的な連鎖に基づいて語義拡張を定式化 3. 語義拡張の学習のための意味空間学習アルゴリズム 6

Sense-based word type partitioning (1/2) 文字の定義 • 多義語の集合： • 語義集合：

Sense-based word type partitioning (2/2) ある多義語 w の特定の語義 s* を知らない状況で、語義

Probabilistic formulation of WSE • 単語 w を t*, t0

Chaining-based models of WSE • 用語の整理 ◦ h(-)：文脈化埋め込み ◦ H(-)：文脈化埋め込みの集合

WSE-Prototype model and WSE-Exemplar model • WSE-Prototype model • WSE-Examplar

Learning sense-extensional semantic space • 言語モデルの埋め込み空間をWSE向けに変換したい • Chaining に対応するために、episode learning

Data • Dataset：Wikitext-103 [Merityet al., 2016] ◦ SpaCy を用いて文を抽出しレンマタイズ ◦

Setup • モデル：BERT-base-uncased ◦ パラメータの重みはランダムに初期化（ 0から学習） ◦ 多義語を含む場合は置換し、擬似トークンを使用 ◦ BERT

Baseline models Chaining ベースの推論機構を持たないモデルをベースラインとする • BERT-MLM ◦ マスクされた文脈における t0 の確率

Evaluation on WSE (1/2) • WSE タスクの性能評価 ◦ WSE で学習させると性能が向上する

Evaluation on WSE (2/2) • 予測例 ◦ 動詞や名詞の場合を WSE モデルでは予測できている

Sense relatedness and model predictability • 関連度の高い語義を知っていれば新しい語義は容易に予測可能では？ ◦ 答えは

Application of WSE to WSD (1/3) • WSD のモデルに対して WSE

Application of WSE to WSD (2/3) • 頻度ごとに分析 ◦ rare

Application of WSE to WSD (3/3) • 具体例 ◦ WSE

Conclusion まとめ • WSE のタスク、フレームワークを提案 • Chaining をもとにした学習により、WSE の性能が向上 •