Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Word Sense Extension
Search
hajime kiyama
January 23, 2024
Research
0
96
Word Sense Extension
Japanese explanation
hajime kiyama
January 23, 2024
Tweet
Share
More Decks by hajime kiyama
See All by hajime kiyama
Idiosyncrasies in Large Language Models
rudorudo11
0
6
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
rudorudo11
0
110
Analyzing Continuous Semantic Shifts with Diachronic Word Similarity Matrices.
rudorudo11
0
140
Using Synchronic Definitions and Semantic Relations to Classify Semantic Change Types
rudorudo11
0
47
Analyzing Semantic Change through Lexical Replacements
rudorudo11
0
300
意味変化分析に向けた単語埋め込みの時系列パターン分析
rudorudo11
0
130
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations
rudorudo11
0
270
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
rudorudo11
0
170
The Geometry of Multilingual Language Model Representations
rudorudo11
0
190
Other Decks in Research
See All in Research
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
380
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
350
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
120
超高速データサイエンス
matsui_528
1
150
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
440
PhD Defense 2025: Visual Understanding of Human Hands in Interactions
tkhkaeio
1
240
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
550
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成 / GLIM @ Robotics symposia 2022
koide3
0
100
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
11
4.3k
診断前の病歴テキストを対象としたLLMによるエンティティリンキング精度検証
hagino3000
1
150
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
640
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
130
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
9
580
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
61k
Docker and Python
trallard
46
3.6k
For a Future-Friendly Web
brad_frost
180
9.9k
Navigating Team Friction
lara
189
15k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Optimizing for Happiness
mojombo
379
70k
Documentation Writing (for coders)
carmenintech
75
5k
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
19
1.2k
Code Reviewing Like a Champion
maltzj
525
40k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Transcript
木山朔 M1 論文紹介 ACL2023 11/1 1
Abstract • 新しい語義は人間の創造的な単語の使い方により発生 ◦ 単語の語義がどの様な方向で拡張されるかの予測タスクは存在しない • Word Sense Extention という語義拡張タスクを提案
◦ 多義語を二つの擬似トークンに分割し、従来の意味を持つトークンの拡張かどうかを判断 ◦ 新しい語義と既存の単語のペアリングを事前知識なしで実装したい • WSD(語義曖昧性解消) の rare word sense に対して効果があることを検証 2
Creative reuse of words : example of “arrive” 語の創造的使用による語義を獲得したい arrive
という単語を考える original: to come to locations (e.g., to arrive at the gate) extend1: to come to an event (e.g., to arrive at a concert) extend2: to achieve a goal or cognitive state (e.g., to arrive at a conclusion) 3
Related work • Models of word meaning extension ◦ lexical
semantics と cognitive linguistic の観点から語義拡張が議論 ◦ Chaining (連鎖) による認知的理論をもとにフレームワークを構築 • Models of word sense disambiguation ◦ WSD(語義曖昧性解消)ではデータスパースネスの問題 ◦ 低頻度語に関するWSDシステムの精度向上を狙う • Contextualized semantic representations ◦ 多義語を文脈化埋め込みで扱う ◦ 言い換えの研究は存在するが、意味拡張の研究は行われていない 4
Chaining:example of “grasp” and “get” • Chaining(連鎖)という現象とは? ◦ 既存の語義間の意味関係を識別し、その関係を一般化し新たな語義を生成すること •
grasp の例 ◦ 意味1「ものを掴む」 ◦ 意味2「アイデアを理解する」 ▪ この様な拡張が別の単語でもみられる • get の例 ◦ 意味1「車を手に入れる」 ◦ 意味2「誰かのアイデアを手に入れる」 ▪ 抽象化が grasp の場合と同じ! 5
Computational framework 3つの構成要素が存在 1. 多義語を異なる語義に対応する擬似トークンに分割 2. 語義選択のために、確率的な連鎖に基づいて語義拡張を定式化 3. 語義拡張の学習のための意味空間学習アルゴリズム 6
Sense-based word type partitioning (1/2) 文字の定義 • 多義語の集合: • 語義集合:
• 文脈と語義のペア: • トークン: ◦ 既存の語義集合内のトークン: ◦ 拡張された語義のトークン: ▪ 単語 w が既存の語義から拡張される新しい語義 s* を表す 7
Sense-based word type partitioning (2/2) ある多義語 w の特定の語義 s* を知らない状況で、語義
s を表現するシナリオ • 多義語 w を二つのトークンに分割 ◦ 既存の語義集合内のトークン: ◦ 拡張された語義のトークン: ▪ 単語 w が既存の語義から拡張される新しい語義 s* を表す • 文脈化された言語モデルを0から学習 ◦ MLM で学習 ◦ マスクされたトークンを埋める際に確率が最大となるように学習 8
Probabilistic formulation of WSE • 単語 w を t*, t0
に置き換えた文脈と語義のペア集合を C*,C0 とする ◦ 既存の語義集合内のトークン: ◦ 拡張された語義のトークン: • WSEタスクの具体的な内容 ◦ w = arrive ◦ s* = “to achieve a goal” ◦ c = “They finally t* at a conclusion after a long debate” ◦ t* としてソーストークン t = arrive が得られるか ◦ m(-) : - を入力とした際のモデルの表現 9
Chaining-based models of WSE • 用語の整理 ◦ h(-):文脈化埋め込み ◦ H(-):文脈化埋め込みの集合
• 従来の語義とターゲットの語義の類似度が高い場合にWSEと判定 ◦ 類似度の計算方法として二つ紹介 10
WSE-Prototype model and WSE-Exemplar model • WSE-Prototype model • WSE-Examplar
model 11 要はどこで平均をとるかの違い d(-,-)はドット積を表す
Learning sense-extensional semantic space • 言語モデルの埋め込み空間をWSE向けに変換したい • Chaining に対応するために、episode learning
algorithm を提案 ◦ episode ごとに mini-batch でソースとターゲットトークンのペアを獲得 ◦ ターゲットトークンに対して最も適切なソーストークンを選択 ◦ negative log likelihood を計算 12
Data • Dataset:Wikitext-103 [Merityet al., 2016] ◦ SpaCy を用いて文を抽出しレンマタイズ ◦
WSD を適用し、各トークンに関連する wordnet synset ID を意味ラベルとして付与 ◦ 多義語の語彙リストは下記の条件を満たすものの集合 ▪ 単語タイプがコーパス内で少なくとも 2つの異なる意味を持つ ▪ SpaCy により、名詞、動詞、形容詞、副詞と判断されたもの • 多義語の単語タイプを擬似トークンペアに分割 ◦ ソースとターゲットのペアに分割 ◦ n個の語義に対し、ランダムに一つを選択肢、他はソーストークンとして扱う 13
Setup • モデル:BERT-base-uncased ◦ パラメータの重みはランダムに初期化( 0から学習) ◦ 多義語を含む場合は置換し、擬似トークンを使用 ◦ BERT
埋め込み層と最終分類層を追加 • 学習方法 ◦ 多義語の70%を学習に ◦ 30%をテストに使う 14
Baseline models Chaining ベースの推論機構を持たないモデルをベースラインとする • BERT-MLM ◦ マスクされた文脈における t0 の確率
• BERT-STS ◦ t0 と t* でコサイン類似度 15
Evaluation on WSE (1/2) • WSE タスクの性能評価 ◦ WSE で学習させると性能が向上する
◦ WSE-Examplar が一番性能が良い 16
Evaluation on WSE (2/2) • 予測例 ◦ 動詞や名詞の場合を WSE モデルでは予測できている
◦ BERT-MLM は言い換えを予測する傾向 ◦ 強い非リテラルな意味拡張をする用例はどのモデルでも性能が低い 17
Sense relatedness and model predictability • 関連度の高い語義を知っていれば 新しい語義は容易に予測可能では? ◦ 答えは
YES ◦ WSE のモデルが人間の様な感度を 持つかどうかを検証 ◦ Wu-Palmer semantic distance ▪ t* と t0 の意味的距離 ◦ 距離が小さいメトニミーは予測できる ◦ 強いメタファーなどは困難 18
Application of WSE to WSD (1/3) • WSD のモデルに対して WSE
を学習したモデルを適応 ◦ 最先端の WSD モデルに対して WSE を追加で学習 [Blevinsand Zettlemoyer, 2020] ◦ 副詞を除いてほぼ全てのデータセットで性能向上を確認 19
Application of WSE to WSD (2/3) • 頻度ごとに分析 ◦ rare
word に対する性能が高くなっている ◦ BERT-linear だと高くなっていない気がするが … 20
Application of WSE to WSD (3/3) • 具体例 ◦ WSE
の有無で向上した例 ◦ 従来の意味と新しい意味の関係を捉えられている 21
Conclusion まとめ • WSE のタスク、フレームワークを提案 • Chaining をもとにした学習により、WSE の性能が向上 •
WSE の学習を追加することで WSD の(rare word に対する?)精度向上も確認 今後の展望 • より良い WSE モデルのためのフレームワークの拡張 • 時間や言語の違いを考慮したモデル化 22