Upgrade to Pro — share decks privately, control downloads, hide ads and more …

埋め込み表現の意味適応による知識ベース語義曖昧性解消

S
May 17, 2023

 埋め込み表現の意味適応による知識ベース語義曖昧性解消

辞書のような語彙資源を用いて文中の単語(対象語)の語義を識別するタスクを,知識ベース語義曖昧性解消(WSD)といいます.辞書には単語の語義を説明したテキスト,いわゆる語釈文が書いてあります.そこで有望な方法論は,BERT埋め込みを用いて対象語に最も近い語釈文を選ぶことです.しかし,もしも対象語と正解語義の埋め込みを近付ける手段があれば,さらに性能が伸びるはずです.これをふまえて,本研究では埋め込み表現の意味適応を提案しました.提案手法は,自己学習および語彙資源に書かれている語義どうしのつながりを教師信号として,埋め込み間の近さ・遠さを変更します.これにより,知識ベースWSDの最高性能を更新できました.ところで近年は,GPTなどの大規模言語モデルが目を見張るような能力を見せています.このような時代に,語彙資源のような人間の知識を深層学習モデルに統合する意義についても触れたいと思います.
NLPコロキウム 2023-05-17
https://nlp-colloquium-jp.github.io/

S

May 17, 2023
Tweet

More Decks by S

Other Decks in Research

Transcript

  1. 埋め込み表現の意味適応による
    知識ベース語義曖昧性解消
    NLPコロキウム
    2023年5月17日
    水木栄 東工大岡崎研/ホットリンク
    1

    View Slide

  2. 語義曖昧性解消(WSD: Word Sense Disambiguation)
    2
    “justify”の訳し分け
    訳して.“We need to justify the margin.”
    「余白を揃える必要があります。」
    Lorem Ipsum is simply
    dummy text of the
    printing and typesetting
    industry. Lorem Ipsum …
    Contrary to popular
    belief, Lorem Ipsum is
    not simply random text.
    It has roots in a piece …
    出典: Princeton WordNet 3.1 “justify”
    • 文脈を考慮して,単語(対象語)の語義を識別すること
    • 正確な翻訳などに役立つ[Campolungo+, 2022]

    View Slide

  3. 研究の動機
    • 辞書だけを使って,語義を識別したい;知識ベースWSD.
    • He uses a mouse and keyboard. → device🖱️ それとも animal🐭?
    • 辞書(WordNet)には,語義の解説文=語釈文が書いてある.
    • 対象語と語釈文の文脈依存(BERT)埋め込みを計算して最も近い語義を選ぶ
    と,そこそこ解ける.
    3
    BERT
    🐭mouse(animal): any of
    numerous small rodents…
    🖱️mouse(device): a hand-
    operated electronic device…
    He uses a mouse and
    keyboard.
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    mouse
    𝒆𝑑𝑒𝑣𝑖𝑐𝑒
    mouse
    𝒗mouse
    𝒗mouse
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    mouse
    𝒆𝑑𝑒𝑣𝑖𝑐𝑒
    mouse
    🖱️mouse(device)
    語義を識別したい
    テキスト
    辞書(WordNet) 文脈依存埋め込み 最近傍を選ぶ
    pool

    View Slide

  4. 研究の動機
    • 対象語の埋め込みを正解語義に近付けるモデルがあれば,もっと解けるはず
    • 辞書には語義どうしのつながり;意味ネットワークが書いてある.
    ここから教師信号を得られないか?
    4
    BERT
    🐭mouse(animal)
    🖱️mouse(device)
    He uses a mouse and
    keyboard.
    意味ネットワーク(意味的つながり)
    mouse(device)
    mouse
    mouse(animal)
    airplane
    scanner
    machine
    正解に近付ける
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    mouse 𝒆𝑑𝑒𝑣𝑖𝑐𝑒
    mouse
    𝒗mouse
    ❄️
    モデル

    View Slide

  5. 意味ネットワークに適応するような
    動かし方をするモデルを学習
    BERT埋め込みを変換
    問い・方法論
    • BERT埋め込みを以下のように動かす=適応させるモデル(𝐻𝑠, 𝐻𝑤)を学習する
    • 関連する(=隣接)語義○ および対象語◇ は,近付ける
    • 関連しない(=非隣接)語義○ および異なる語義○ は,遠ざける
    • 埋め込みを適応させてから最近傍を選ぶと,既存手法を上回った
    5
    意味ネットワーク(意味のつながり)
    mouse(device)
    mouse
    mouse(animal)
    airplane
    printer
    machine
    𝒆printer
    𝒆machine
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    mouse
    𝒆𝑎𝑖𝑟𝑝𝑙𝑎𝑛𝑒
    A mouse got caught in a trap.
    BERT
    any of numerous small…
    BERT
    𝐻𝑠
    𝐻𝑤
    𝒗mouse
    BERT埋め込みを意味ネットワークに適応させると,語義
    の識別性能が上がるか?
    遠ざける
    近付ける

    View Slide

  6. 先行研究
    6

    View Slide

  7. 知識ベースWSDとは
    • 語義注釈付きコーパス(右下)
    に頼らず,WordNet等の語彙資源(左下)
    のみを
    使う方法.長所は低コスト.語義の注釈はとても大変.
    • 課題は,注釈がないのにどうやって対象語を正解語義に対応付けるか.
    有望な方法論は,BERT埋め込みによる最近傍法.
    • 性能を伸ばす鍵は,語彙資源の情報をフル活用すること.
    • 語義:見出し語が持つ意味の一覧
    • 語釈文:語義を説明するテキスト
    • 意味ネットワーク:単語・語義・語義間のつながり(例:上位下位)
    7

    View Slide

  8. BERT埋め込みの最近傍法に基づく既存研究
    • 関連する語義を互いに近付ける:SREF[Wang and Wang, 2020]
    👍 意味ネットワーク上の隣接性を語義埋め込みに反映.性能が改善.
    👎 対象語埋め込みはそのまま.無関連語義・異義は未活用.
    • 文書情報で対象語埋め込みを補強:COE[Wang+, 2021]
    👍 隣接文をまとめてエンコード.最高精度を達成.
    👎 SNS投稿などの単文には使えない.汎用性に欠ける.
    • 類義を考慮した最近傍語義の探索:TaM経験則[Wang and Wang, 2021]
    👍 任意の埋め込みと併用できる経験則(機械翻訳のbeam searchのような存在).性能が少し改善.
    ➢我々も採用.提案手法と併用したときの有効性を調べる.
    8
    COE: Context-Oriented Embed.
    We set up a mousetrap.
    A mouse got caught in a trap.
    The kitchen should be …
    𝒗mouse
    BERT
    TaM: Try-again Mechanism
    𝒗mouse
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    horse
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    mouse
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    cat
    𝒆rodent
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    mouse
    𝒆house_mouse
    𝒆′
    SREF
    (Synset Rel.-enhanced Framework)
    もしanimalが正解なら,horseやcat
    とも近いはず
    関連語義との重心へ動かす 隣接文を入れて手がかりを増やす

    View Slide

  9. 提案手法
    9

    View Slide

  10. 意味ネットワークに適応させる
    モデルを学習
    BERT埋め込みを変換
    提案手法の概要
    • 語釈文を使って,語義のBERT埋め込みを計算しておく
    • 平文コーパスを使って,単語(対象語)のBERT埋め込みを計算しておく
    • いろんな文で,WordNetに出てくる単語の埋め込みを計算しておく
    • 埋め込みを意味ネットワークに適応させるモデル(𝐻𝑠, 𝐻𝑤)を学習する
    • 関連する(=隣接)語義○ および対象語◇ は,近付ける
    • 関連しない(=非隣接)語義○ および異なる語義○ は,遠ざける
    10
    意味ネットワーク(意味のつながり)
    mouse(device)
    mouse
    mouse(animal)
    airplane
    printer
    machine
    𝒆printer
    𝒆machine
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    mouse
    𝒆𝑎𝑖𝑟𝑝𝑙𝑎𝑛𝑒
    A mouse got caught in a trap.
    BERT
    any of numerous small…
    BERT
    𝐻𝑠
    𝐻𝑤
    𝒗mouse
    遠ざける
    近付ける

    View Slide

  11. 提案手法の課題
    🤔 対象語◇に近付ける語義○をどうやって教える?
    • 平文コーパスから計算してるので,正解語義はわからない
    • 辞書を見れば候補語義はわかる
    • 問題は,近付ける語義をどうやって選ぶか
    11
    He bought a mouse at the store.
    mouse(device)
    mouse(animal)
    ? ?
    A mouse got caught in a trap.
    mouse(device)
    mouse(animal)
    ? ?
    文1 文2
    平文コーパス内の“mouse”が出てくる文
    文1: He bought a mouse at the store.
    文2: A mouse got caught in a trap.

    View Slide

  12. 提案手法:吸引・反発学習と自己学習の併用
    💡 吸引・反発学習は,語義どうしの距離○↔○を学習
    • 意味ネットワーク上の隣接性がそのまま教師信号になる
    💡 自己学習は,語義と対象語の距離○↔◇を学習.訓練時の最近傍を正解と
    みなしてさらに近付ける
    • ブートストラップ.うまくいけば疑似正解の精度が上がる好循環
    吸引・反発学習 自己学習
    He bought a mouse at the store.
    A mouse got caught in a trap.
    平文コーパス
    訓練文1
    訓練文2…
    12

    View Slide

  13. (参考) 提案手法の定式化
    • 吸引・反発学習は,対照損失
    • 自己学習は,候補語義のうち最大類似度
    吸引・反発学習 自己学習
    13

    View Slide

  14. 性能を引き出すための工夫
    • BERT埋め込みを大きく動かす必要はないことに気づく
    • 正解語義を最近傍に持ってくるには微調整で十分
    • 大きな移動を許すと,見当外れの正解が選ばれて自己学習が失敗
    • そこで,モデルが動かせる距離に上限(制約)をつけた
    • 距離制約の効果を実験により実証
    14
    ほどよい制約で性能が最大
    距離制約の強度
    語義識別性能
    モデルによる移動を制約
    ⭕️


    ⭕️
    BERT
    ❄️
    モデル

    View Slide

  15. 実験および考察
    15

    View Slide

  16. 実験設定
    • 語義・対象語埋め込みエンコーダ: BERT (large-cased) ファインチューニングなし
    • 変換関数の最適化目標: 吸引・反発学習 および 自己学習
    • 吸引・反発学習の訓練データ: WordNet(語義数207k)
    • 自己学習の訓練データ: 注釈語義削除ずみSemCorコーパス(対象語数227k)
    • Wikitext等でも構わない.公平な比較のためWSDタスクの事実上標準であるSemCorを使用.
    • 埋め込みの変換関数: 順伝播型NNによる残差接続
    • 埋め込みの類似度: cosine
    • 評価データ: WSD Evaluation framework [Raganato+, 2017]
    • 評価指標: マイクロF値
    • 比較する既存手法
    • 知識ベース手法: BERT, SREF[Wang and Wang, 2020]
    , COE[Wang+, 2021]
    • 教師あり手法: Sup-kNN[Loureiro and Jorge, 2019]
    16

    View Slide

  17. 吸引・反発+自己学習
    関連語義を近づける
    埋め込みの意味適応によるWSD性能
    • まず,提案手法単体での性能を評価してみる
    • 埋め込みの意味適応により性能が9.3pt改善(提案手法-BERT)
    • 関連語義を近づけるだけの既存手法(SREF)を上回る
    • 提案手法は,素朴な教師ありWSD手法(Sup-kNN)をも上回る
    • Sup-kNNは,最も似ている用例の注釈語義を選ぶ手法.
    17
    適応により+9.3pt
    名称 手法 WSD性能
    Sup-kNN[Loureiro and Jorge, 2019]
    教師あり 73.5
    BERT 知識ベース 65.6
    SREF[Wang and Wang, 2020]
    知識ベース 71.0
    提案手法 知識ベース 74.9

    View Slide

  18. 隣接文も使う
    意味適応+TaM経験則によるWSD性能
    • 次に,提案手法にTaM経験則を併用する効果を評価
    • 既知の経験則は提案手法にも有効か?
    • 併用時の性能は2.2pt改善した(74.9→77.1).
    • 文書情報に頼る従来の最高精度手法(COE)を上回った.
    ➢単文に使用できて,なおかつ精度も更新できた
    18
    SoTA更新 +0.8pt
    名称 手法 文書 WSD性能
    SREF+TaM 知識ベース 不要 73.5
    [SoTA]COE+TaM 知識ベース 必要 76.3
    提案手法 知識ベース 不要 74.9
    提案手法+TaM 知識ベース 不要 77.1
    TaM(Try-again Mechanism)経験則
    [Wang and Wang, 2021]
    𝒗mouse
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    horse
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    mouse
    𝒆𝑎𝑛𝑖𝑚𝑎𝑙
    cat
    horseやcatとも近いか考慮して
    animalが正解かどうか選び直す
    TaM効果 +2.2pt

    View Slide

  19. 考察:埋め込みは意味ネットワークに適応したか
    • 意味適応前後での埋め込み間のcosine類似度を比較
    • 無関連・異義は遠ざかり,対象語-正解語義は近づいた
    ➢意味ネットワークの隣接性が埋め込みの類似度に反映された
    19
    語義対 OR 対象語-語義対 適応前(BERT) 適応後 類似度の変化
    関連 0.91 0.88 -0.03
    無関連 0.77 0.64 -0.13
    異義 0.87 0.78 -0.09
    対象語-正解語義 0.64 0.77 +0.13
    埋め込み間のcosine類似度

    View Slide

  20. まとめ
    20

    View Slide

  21. まとめ
    • 関連する語義や対象語を近づけ,無関連語義や異義は遠ざけるように
    埋め込みを動かすモデルを学習する
    • 学習方法として,吸引・反発学習および自己学習の同時最適化を提案.
    • 提案手法が,既存手法を上回ることを報告
    • 意味ネットワークと埋め込みの相似性を分析.埋め込み間の距離が
    ネットワークの隣接性に適応する傾向を確認
    • 多言語WSDに応用したい.資源が乏しい言語で長所を発揮するか
    • 英語で学習した関数は,他言語に転用できるか?
    21
    BERT埋め込みを意味ネットワークに適応させると,
    語義の識別性能が上がるか?
    本研究の問い

    View Slide

  22. 語彙知識を大規模言語モデルに統合する意義
    22

    View Slide

  23. 大規模言語モデルとて万能ではない
    23
    • 知らない単語や,間違える語義はかならずある
    ➢ 人間の知識を教えてやりたい
    花の名前だと教えたい
    “余白を揃える”の用例だと
    教えたい

    View Slide

  24. 大規模言語モデルは語義識別が不得意?
    • Word-in-Context(WiC)[Pilehvar and Camacho-Collados, 2019]
    という語義識別タスクがある
    • 文脈語の語義が2文間で同じか違うかを分類するタスク. WSDの亜種[Hauer and Kondrak, 2022]
    例: (Justify the margins, The end justifies the means) → 同じ意味 それとも 違う?
    • WiCをFew-shot学習で解くと,GPT-3・LaMDA・FLAN・PaLMは乱択レベル,
    またはBERTのファインチューニングを下回る.
    • 現状はLLM単体での語義識別は困難で,相応の訓練データが必要と示唆される
    24
    名称 手法 訓練データ WiC性能(Acc)
    GPT-3 175B [Brown+, 2020] In-context学習 Few-shot 49.4
    LaMDA 137B [Wei+, 2022] Prompt tuning 32shot 51.6
    FLAN 137B [Wei+, 2022] Prompt tuning 32shot 57.8
    PaLM 540B [Chowdhery, 2022] In-context学習 Few-shot 64.6
    PaLM 540B [Chowdhery, 2022] Fine-tuning Full 78.8
    BERT(large) [Wang+, NeurIPS2019] Fine-tuning Full 69.6

    View Slide

  25. 人間とモデルの共通作業基盤を持つ
    • 人間は,辞書のような語彙資源を構築して意味を表してきた
    • 語義をテキストで説明したり,概念どうしを関係づけたり
    • 語彙資源を大規模言語モデルに統合する技術は,人間とモデルが共通の作
    業基盤を持つ役割を担いうる
    • 正確性,更新可能性,解釈性の改善に貢献できるはず
    25
    出典: Freepik.com
    出典: https://doi.org/10.1371/journal.pone.0136277.g009

    View Slide

  26. 「事例で学ぶ」から「知識を学ぶ」へ
    • 大規模言語モデルは構造化知識と相性がよい
    • 少ない事例で学習できる[Brown+, 2020]
    • 相応の常識や知識を保持している[Petroni+, 2019]
    • LLMの性質を活用して,知識をそのまま教える手法が研究されている
    • 検索した知識をContextに入力[Pan+, 2023]
    • モデルパラメータをピンポイントで書き換える[Meng+, 2022]
    • 大規模言語データから学んだ概念を人間の知識で洗練する方法論への発展か
    26
    [Meng+, 2022] Locating and Editing Factual Associations in GPT. In: NeurIPS 2022.
    [Pan+, 2023] Knowledge-in-Context: Towards Knowledgeable Semi-
    Parametric Language Models. In: ICLR 2023.

    View Slide

  27. おわり
    27

    View Slide

  28. 参考文献
    • [Campolungo+, 2022] CAMPOLUNGO, Niccolò, et al. DiBiMT: A novel benchmark for measuring Word Sense
    Disambiguation biases in Machine Translation. In: ACL 2022, pp. 4331-4352, 2022.
    • [Wang and Wang, 2020] Ming Wang and Yinglin Wang. A synset relation-enhanced framework with a try-again mechanism
    for word sense disambiguation. In: EMNLP 2020, pp. 6229–6240, 2020.
    • [Wang+, 2021] Ming Wang, Jianzhang Zhang, and Yinglin Wang. Enhancing the context representation in similarity-based
    word sense disambiguation. In: EMNLP 2021, pp. 8965–8973, 2021.
    • [Wang and Wang, 2021] Ming Wang and Yinglin Wang. Word sense disambiguation: Towards interactive context
    exploitation from both word and sense perspectives. In: ACL-IJCNLP 2021, pp. 5218–5229, 2021.
    • [Loureiro and Jorge, 2019] Daniel Loureiro and Alıpio Jorge. Language modelling makes sense: Propagating representations
    through wordnet for full-coverage word sense disambiguation. In: ACL 2019, pp. 5682–5691, 2019.
    • [Raganato+, 2017] Alessandro Raganato, Jose Camacho-Collados, and Roberto Navigli. Word sense disambiguation:
    Aunified evaluation framework and empirical comparison. In: EACL 2017, pp. 99–110, 2017.
    • [Deng+, 2019] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. Arcface: Additive angular margin loss for deep
    face recognition. In: CVPR 2019, pp. 4690–4699, 2019.
    • [Brown+, 2020] BROWN, Tom, et al. Language models are few-shot learners.In: NeurIPS 2020, 33: 1877-1901, 2020.
    • [Petroni+, 2019] PETRONI, Fabio, et al. Language Models as Knowledge Bases?. In: EMNLP 2019, pp. 2463-2473, 2020.
    • [Pan+, 2023] PAN, Xiaoman, et al. Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models. In:
    ICLR 2023. 2023.
    • [Meng+, 2022] MENG, Kevin, et al. Locating and Editing Factual Associations in GPT. In: NeurIPS 2022. 2022.
    28

    View Slide