埋め込み表現の意味適応による知識ベース語義曖昧性解消

埋め込み表現の意味適応による知識ベース語義曖昧性解消 NLPコロキウム 2023年5月17日水木栄東工大岡崎研/ホットリンク 1

語義曖昧性解消(WSD: Word Sense Disambiguation) 2 “justify”の訳し分け訳して．“We need to justify
the margin.” 「余白を揃える必要があります。」 Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum … Contrary to popular belief, Lorem Ipsum is not simply random text. It has roots in a piece … 出典: Princeton WordNet 3.1 “justify” • 文脈を考慮して，単語（対象語）の語義を識別すること • 正確な翻訳などに役立つ[Campolungo+, 2022]

研究の動機 • 辞書だけを使って，語義を識別したい；知識ベースWSD． • He uses a mouse and keyboard.
→ device🖱️ それとも animal🐭? • 辞書(WordNet)には，語義の解説文＝語釈文が書いてある． • 対象語と語釈文の文脈依存(BERT)埋め込みを計算して最も近い語義を選ぶと，そこそこ解ける． 3 BERT 🐭mouse(animal): any of numerous small rodents… 🖱️mouse(device): a hand- operated electronic device… He uses a mouse and keyboard. 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑑𝑒𝑣𝑖𝑐𝑒 mouse 𝒗mouse 𝒗mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑑𝑒𝑣𝑖𝑐𝑒 mouse 🖱️mouse(device) 語義を識別したいテキスト辞書(WordNet) 文脈依存埋め込み最近傍を選ぶ pool

研究の動機 • 対象語の埋め込みを正解語義に近付けるモデルがあれば，もっと解けるはず • 辞書には語義どうしのつながり；意味ネットワークが書いてある．ここから教師信号を得られないか？ 4 BERT 🐭mouse(animal) 🖱️mouse(device)
He uses a mouse and keyboard. 意味ネットワーク（意味的つながり） mouse(device) mouse mouse(animal) airplane scanner machine 正解に近付ける 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑑𝑒𝑣𝑖𝑐𝑒 mouse 𝒗mouse ❄️ モデル

意味ネットワークに適応するような動かし方をするモデルを学習 BERT埋め込みを変換問い・方法論 • BERT埋め込みを以下のように動かす=適応させるモデル(𝐻𝑠, 𝐻𝑤)を学習する • 関連する(=隣接)語義◦ および対象語◇
は，近付ける • 関連しない(=非隣接)語義◦ および異なる語義◦ は，遠ざける • 埋め込みを適応させてから最近傍を選ぶと，既存手法を上回った 5 意味ネットワーク（意味のつながり） mouse(device) mouse mouse(animal) airplane printer machine 𝒆printer 𝒆machine 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑎𝑖𝑟𝑝𝑙𝑎𝑛𝑒 A mouse got caught in a trap. BERT any of numerous small… BERT 𝐻𝑠 𝐻𝑤 𝒗mouse BERT埋め込みを意味ネットワークに適応させると，語義の識別性能が上がるか？遠ざける近付ける

先行研究 6

知識ベースWSDとは • 語義注釈付きコーパス(右下) に頼らず，WordNet等の語彙資源(左下) のみを使う方法．長所は低コスト．語義の注釈はとても大変． • 課題は，注釈がないのにどうやって対象語を正解語義に対応付けるか．有望な方法論は，BERT埋め込みによる最近傍法． •
性能を伸ばす鍵は，語彙資源の情報をフル活用すること． • 語義：見出し語が持つ意味の一覧 • 語釈文：語義を説明するテキスト • 意味ネットワーク：単語・語義・語義間のつながり(例：上位下位) 7

BERT埋め込みの最近傍法に基づく既存研究 • 関連する語義を互いに近付ける：SREF[Wang and Wang, 2020] 👍 意味ネットワーク上の隣接性を語義埋め込みに反映．性能が改善． 👎 対象語埋め込みはそのまま．無関連語義・異義は未活用．
• 文書情報で対象語埋め込みを補強：COE[Wang+, 2021] 👍 隣接文をまとめてエンコード．最高精度を達成． 👎 SNS投稿などの単文には使えない．汎用性に欠ける． • 類義を考慮した最近傍語義の探索：TaM経験則[Wang and Wang, 2021] 👍 任意の埋め込みと併用できる経験則(機械翻訳のbeam searchのような存在)．性能が少し改善． ➢我々も採用．提案手法と併用したときの有効性を調べる． 8 COE: Context-Oriented Embed. We set up a mousetrap. A mouse got caught in a trap. The kitchen should be … 𝒗mouse BERT TaM: Try-again Mechanism 𝒗mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 horse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 cat 𝒆rodent 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆house_mouse 𝒆′ SREF (Synset Rel.-enhanced Framework) もしanimalが正解なら，horseやcat とも近いはず関連語義との重心へ動かす隣接文を入れて手がかりを増やす

提案手法 9

意味ネットワークに適応させるモデルを学習 BERT埋め込みを変換提案手法の概要 • 語釈文を使って，語義のBERT埋め込みを計算しておく • 平文コーパスを使って，単語（対象語）のBERT埋め込みを計算しておく • いろんな文で，WordNetに出てくる単語の埋め込みを計算しておく
• 埋め込みを意味ネットワークに適応させるモデル(𝐻𝑠, 𝐻𝑤)を学習する • 関連する(=隣接)語義◦ および対象語◇ は，近付ける • 関連しない(=非隣接)語義◦ および異なる語義◦ は，遠ざける 10 意味ネットワーク（意味のつながり） mouse(device) mouse mouse(animal) airplane printer machine 𝒆printer 𝒆machine 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑎𝑖𝑟𝑝𝑙𝑎𝑛𝑒 A mouse got caught in a trap. BERT any of numerous small… BERT 𝐻𝑠 𝐻𝑤 𝒗mouse 遠ざける近付ける

提案手法の課題 🤔 対象語◇に近付ける語義◦をどうやって教える？ • 平文コーパスから計算してるので，正解語義はわからない • 辞書を見れば候補語義はわかる • 問題は，近付ける語義をどうやって選ぶか 11
He bought a mouse at the store. mouse(device) mouse(animal) ？？ A mouse got caught in a trap. mouse(device) mouse(animal) ？？文1 文2 平文コーパス内の“mouse”が出てくる文文1: He bought a mouse at the store. 文2: A mouse got caught in a trap. …

提案手法：吸引・反発学習と自己学習の併用 💡 吸引・反発学習は，語義どうしの距離◦↔◦を学習 • 意味ネットワーク上の隣接性がそのまま教師信号になる 💡 自己学習は，語義と対象語の距離◦↔◇を学習．訓練時の最近傍を正解とみなしてさらに近付ける • ブートストラップ．うまくいけば疑似正解の精度が上がる好循環
吸引・反発学習自己学習 He bought a mouse at the store. A mouse got caught in a trap. 平文コーパス訓練文1 訓練文2… 12

(参考) 提案手法の定式化 • 吸引・反発学習は，対照損失 • 自己学習は，候補語義のうち最大類似度吸引・反発学習自己学習 13

性能を引き出すための工夫 • BERT埋め込みを大きく動かす必要はないことに気づく • 正解語義を最近傍に持ってくるには微調整で十分 • 大きな移動を許すと，見当外れの正解が選ばれて自己学習が失敗 • そこで，モデルが動かせる距離に上限（制約）をつけた •
距離制約の効果を実験により実証 14 ほどよい制約で性能が最大距離制約の強度語義識別性能モデルによる移動を制約 ⭕️ ❌ ❌ ⭕️ BERT ❄️ モデル

実験および考察 15

実験設定 • 語義・対象語埋め込みエンコーダ: BERT (large-cased) ファインチューニングなし • 変換関数の最適化目標: 吸引・反発学習および
自己学習 • 吸引・反発学習の訓練データ: WordNet(語義数207k) • 自己学習の訓練データ: 注釈語義削除ずみSemCorコーパス(対象語数227k) • Wikitext等でも構わない．公平な比較のためWSDタスクの事実上標準であるSemCorを使用． • 埋め込みの変換関数: 順伝播型NNによる残差接続 • 埋め込みの類似度: cosine • 評価データ: WSD Evaluation framework [Raganato+, 2017] • 評価指標: マイクロF値 • 比較する既存手法 • 知識ベース手法: BERT, SREF[Wang and Wang, 2020] , COE[Wang+, 2021] • 教師あり手法: Sup-kNN[Loureiro and Jorge, 2019] 16

吸引・反発+自己学習関連語義を近づける埋め込みの意味適応によるWSD性能 • まず，提案手法単体での性能を評価してみる • 埋め込みの意味適応により性能が9.3pt改善(提案手法－BERT) • 関連語義を近づけるだけの既存手法(SREF)を上回る •
提案手法は，素朴な教師ありWSD手法(Sup-kNN)をも上回る • Sup-kNNは，最も似ている用例の注釈語義を選ぶ手法． 17 適応により+9.3pt 名称手法 WSD性能 Sup-kNN[Loureiro and Jorge, 2019] 教師あり 73.5 BERT 知識ベース 65.6 SREF[Wang and Wang, 2020] 知識ベース 71.0 提案手法知識ベース 74.9

隣接文も使う意味適応+TaM経験則によるWSD性能 • 次に，提案手法にTaM経験則を併用する効果を評価 • 既知の経験則は提案手法にも有効か? • 併用時の性能は2.2pt改善した(74.9→77.1)． • 文書情報に頼る従来の最高精度手法(COE)を上回った．
➢単文に使用できて，なおかつ精度も更新できた 18 SoTA更新 +0.8pt 名称手法文書 WSD性能 SREF+TaM 知識ベース不要 73.5 [SoTA]COE+TaM 知識ベース必要 76.3 提案手法知識ベース不要 74.9 提案手法+TaM 知識ベース不要 77.1 TaM(Try-again Mechanism)経験則 [Wang and Wang, 2021] 𝒗mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 horse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 mouse 𝒆𝑎𝑛𝑖𝑚𝑎𝑙 cat horseやcatとも近いか考慮して animalが正解かどうか選び直す TaM効果 +2.2pt

考察：埋め込みは意味ネットワークに適応したか • 意味適応前後での埋め込み間のcosine類似度を比較 • 無関連・異義は遠ざかり，対象語-正解語義は近づいた ➢意味ネットワークの隣接性が埋め込みの類似度に反映された 19 語義対 OR 対象語-語義対
適応前(BERT) 適応後類似度の変化関連 0.91 0.88 -0.03 無関連 0.77 0.64 -0.13 異義 0.87 0.78 -0.09 対象語-正解語義 0.64 0.77 +0.13 埋め込み間のcosine類似度

まとめ 20

まとめ • 関連する語義や対象語を近づけ，無関連語義や異義は遠ざけるように埋め込みを動かすモデルを学習する • 学習方法として，吸引・反発学習および自己学習の同時最適化を提案． • 提案手法が，既存手法を上回ることを報告 • 意味ネットワークと埋め込みの相似性を分析．埋め込み間の距離が
ネットワークの隣接性に適応する傾向を確認 • 多言語WSDに応用したい．資源が乏しい言語で長所を発揮するか • 英語で学習した関数は，他言語に転用できるか？ 21 BERT埋め込みを意味ネットワークに適応させると，語義の識別性能が上がるか？本研究の問い

語彙知識を大規模言語モデルに統合する意義 22

大規模言語モデルとて万能ではない 23 • 知らない単語や，間違える語義はかならずある ➢ 人間の知識を教えてやりたい花の名前だと教えたい “余白を揃える”の用例だと教えたい

大規模言語モデルは語義識別が不得意? • Word-in-Context(WiC)[Pilehvar and Camacho-Collados, 2019] という語義識別タスクがある • 文脈語の語義が２文間で同じか違うかを分類するタスク． WSDの亜種[Hauer
and Kondrak, 2022] 例： (Justify the margins, The end justifies the means) → 同じ意味それとも違う？ • WiCをFew-shot学習で解くと，GPT-3・LaMDA・FLAN・PaLMは乱択レベル，またはBERTのファインチューニングを下回る． • 現状はLLM単体での語義識別は困難で，相応の訓練データが必要と示唆される 24 名称手法訓練データ WiC性能(Acc) GPT-3 175B [Brown+, 2020] In-context学習 Few-shot 49.4 LaMDA 137B [Wei+, 2022] Prompt tuning 32shot 51.6 FLAN 137B [Wei+, 2022] Prompt tuning 32shot 57.8 PaLM 540B [Chowdhery, 2022] In-context学習 Few-shot 64.6 PaLM 540B [Chowdhery, 2022] Fine-tuning Full 78.8 BERT(large) [Wang+, NeurIPS2019] Fine-tuning Full 69.6

人間とモデルの共通作業基盤を持つ • 人間は，辞書のような語彙資源を構築して意味を表してきた • 語義をテキストで説明したり，概念どうしを関係づけたり • 語彙資源を大規模言語モデルに統合する技術は，人間とモデルが共通の作業基盤を持つ役割を担いうる • 正確性，更新可能性，解釈性の改善に貢献できるはず
25 出典: Freepik.com 出典: https://doi.org/10.1371/journal.pone.0136277.g009

「事例で学ぶ」から「知識を学ぶ」へ • 大規模言語モデルは構造化知識と相性がよい • 少ない事例で学習できる[Brown+, 2020] • 相応の常識や知識を保持している[Petroni+, 2019] •
LLMの性質を活用して，知識をそのまま教える手法が研究されている • 検索した知識をContextに入力[Pan+, 2023] • モデルパラメータをピンポイントで書き換える[Meng+, 2022] • 大規模言語データから学んだ概念を人間の知識で洗練する方法論への発展か 26 [Meng+, 2022] Locating and Editing Factual Associations in GPT. In: NeurIPS 2022. [Pan+, 2023] Knowledge-in-Context: Towards Knowledgeable Semi- Parametric Language Models. In: ICLR 2023.

おわり 27

参考文献 • [Campolungo+, 2022] CAMPOLUNGO, Niccolò, et al. DiBiMT: A
novel benchmark for measuring Word Sense Disambiguation biases in Machine Translation. In: ACL 2022, pp. 4331-4352, 2022. • [Wang and Wang, 2020] Ming Wang and Yinglin Wang. A synset relation-enhanced framework with a try-again mechanism for word sense disambiguation. In: EMNLP 2020, pp. 6229–6240, 2020. • [Wang+, 2021] Ming Wang, Jianzhang Zhang, and Yinglin Wang. Enhancing the context representation in similarity-based word sense disambiguation. In: EMNLP 2021, pp. 8965–8973, 2021. • [Wang and Wang, 2021] Ming Wang and Yinglin Wang. Word sense disambiguation: Towards interactive context exploitation from both word and sense perspectives. In: ACL-IJCNLP 2021, pp. 5218–5229, 2021. • [Loureiro and Jorge, 2019] Daniel Loureiro and Alıpio Jorge. Language modelling makes sense: Propagating representations through wordnet for full-coverage word sense disambiguation. In: ACL 2019, pp. 5682–5691, 2019. • [Raganato+, 2017] Alessandro Raganato, Jose Camacho-Collados, and Roberto Navigli. Word sense disambiguation: Aunified evaluation framework and empirical comparison. In: EACL 2017, pp. 99–110, 2017. • [Deng+, 2019] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. In: CVPR 2019, pp. 4690–4699, 2019. • [Brown+, 2020] BROWN, Tom, et al. Language models are few-shot learners.In: NeurIPS 2020, 33: 1877-1901, 2020. • [Petroni+, 2019] PETRONI, Fabio, et al. Language Models as Knowledge Bases?. In: EMNLP 2019, pp. 2463-2473, 2020. • [Pan+, 2023] PAN, Xiaoman, et al. Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models. In: ICLR 2023. 2023. • [Meng+, 2022] MENG, Kevin, et al. Locating and Editing Factual Associations in GPT. In: NeurIPS 2022. 2022. 28

埋め込み表現の意味適応による知識ベース語義曖昧性解消

埋め込み表現の意味適応による知識ベース語義曖昧性解消

S

More Decks by S

Other Decks in Research

Featured

Transcript