知識強化言語モデルLUKE @ LUKEミートアップ

Slide 1

Slide 1 text

山田育矢, 鈴木正敏知識強化言語モデル Studio Ousia

Slide 2

Slide 2 text

自己紹介山田育矢 (@ikuyamada) Studio Ousia チーフサイエンティスト名古屋大学客員教授理化学研究所AIP 客員研究員 ● 大学入学時に、ベンチャー企業を起業し売却（2000年〜2006年） ○ インターネットの基盤技術（Peer to Peer通信におけるNAT越え問題）の研究開発を推進 ○ 売却先企業は株式上場 ● Studio Ousiaを共同創業し、自然言語処理に取り組む（2007年〜） ○ 言語モデルや質問応答を中心とした自然言語処理の研究開発を推進 ● プログラミングが好き ○ 好きなライブラリ: Numba, Cython, Transformers 2

Slide 3

Slide 3 text

本日の講演の内容 ● LUKE (EMNLP 2020, ACL 2022) ● LUKEのエンティティリンキングへの応用 (NAACL 2022, EMNLP Findings 2022) ● 日本語LUKE (2022) ● LUKEの拡張 - LUXE（2025, Work In Progress） 3 知識強化モデル「LUKE」とその後続の研究での展開についてお話します

Slide 4

Slide 4 text

LUKE 4 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto EMNLP 2020 mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka ACL 2022

Slide 5

Slide 5 text

LUKE: 概要 ● 知識を使うことが重要なダウンストリームタスクにおいて良い性能を達成 e.g., エンティティリンキング・質問応答・固有表現抽出・関係認識・型認識 ● Huggingface Transformers経由で簡単に使える 5 単語とエンティティの文脈付きベクトルを出力する知識強化 (knowledge-enhanced)されたエンコーダ型の言語モデル from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained(“studio-ousia/luke-base”) tokenizer = AutoModel.from_pretrained(“studio-ousia/luke-base”)

Slide 6

Slide 6 text

LUKE: エンティティとは物や概念をあらわす言語表現例: Wikipediaに存在するような一般的な用語個人や組織独自の用語 6

Slide 7

Slide 7 text

言語モデル（LM）ではエンティティをうまく表現しにくい ○ LMはエンティティのスパンに対応する表現を出力できない ○ エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい ○ Masked LMの訓練タスクはエンティティに向いているとは言えない 7 BERT...? GPT…? The Force is not strong with them. Mark Hamill by Gage Skidmore 2 LUKE: 背景

Slide 8

Slide 8 text

言語モデル（LM）ではエンティティをうまく表現しにくい ○ LMはエンティティのスパンに対応する表現を出力できない ○ エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい ○ Masked LMの訓練タスクはエンティティに向いているとは言えない 8 BERT...? GPT…? The Force is not strong with them. Mark Hamill by Gage Skidmore 2 LUKE: 背景 ”[MASK]・ポッター ”に対して”ハリー”を予測するのは ”ハリー・ポッター ”全体を予測するより明らかに簡単

Slide 9

Slide 9 text

● Transformerエンコーダ（BERT/RoBERTa）をベースにした言語モデル ○ 単語とエンティティの双方を独立したトークンとして扱う ○ ランダムに単語とエンティティをマスクして訓練を行う LUKE: アーキテクチャ 9 Wikipediaのエンティティアノテーション付きの入力テキスト: Beyoncé lives in Los Angeles

Slide 10

Slide 10 text

LUKE: アーキテクチャ ● LUKE は単語とエンティティを独立したトークンとして扱う ● エンティティが独立したトークンとして扱われているので ○ エンティティのスパンが自然に表現できる ○ エンティティ同士の関係がTransformer内部で自然に捉えられる 10 Wikipediaのエンティティアノテーション付きの入力テキスト: Beyoncé lives in Los Angeles 入力表現の計算

Slide 11

Slide 11 text

LUKE: 事前訓練: 単語とエンティティをマスク 11 Wikipediaリンクをエンティティのアノテーションとして使用 Wikipediaに含まれる単語およびエンティティをランダムにマスクする単語およびエンティティを15%の確率で[MASK] 単語、[MASK]エンティティに変換 Born and raised in Houston, Texas, Beyoncé performed in various singing and dancing competitions as a child. She rose to fame in the late 1990s as the lead singer of Destiny's Child Born and [MASK] in Houston, Texas, [MASK] performed in various [MASK] and dancing competitions as a [MASK]. She rose to fame in the [MASK] 1990s as the lead singer of Destiny's Child

Slide 12

Slide 12 text

LUKE: 事前訓練: マスクした単語とエンティティを予測して訓練 12 下記の2つのタスクで訓練 ● マスクされた単語の元の単語を予測 ● マスクされたエンティティの元のエンティティを予測 Wikipediaに含まれる単語およびエンティティをランダムにマスクしそれらを予測することで訓練

Slide 13

Slide 13 text

LUKE: ダウンストリームタスクでのエンティティ表現の利用 13 LUKEにエンティティを入力する2つの方法： 1. [MASK] エンティティを入力 ○ 事前訓練時に使った[MASK] エンティティを利用する ○ 入力テキスト中からエンティティに関する情報を集約したエンティティ表現が得られる

Slide 14

Slide 14 text

LUKE: ダウンストリームタスクでのエンティティ表現の利用 14 LUKEにエンティティを入力する2つの方法： 1. [MASK] エンティティを入力 ○ 事前訓練時に使った[MASK] エンティティを利用する ○ 入力テキスト中からエンティティに関する情報を集約したエンティティ表現が得られる 2. Wikipediaエンティティを入力 ○ 入力テキストに含まれるWikipediaエンティティを入力する ○ エンティティエンべディングに含まれる豊富な情報を使ってタスクを解くことができる ○ エンティティリンキングが必要

Slide 15

Slide 15 text

LUKE: 実験 5つの異なる知識の必要なタスク（knowledge-intensive tasks）でSOTAを更新 15 Dataset Task Open Entity エンティティ型認識 TACRED 関係認識 CoNLL-2003 固有表現認識 ReCoRD 穴埋め式質問応答 SQuAD 抽出型質問応答

Slide 16

Slide 16 text

LUKE: 実験: エンティティ型認識、関係認識、穴埋め式質問応答 16 モデル: エンティティ表現を入力とする線形分類層を追加モデルへの入力: ● テキスト ● 対象となるエンティティのスパンに対応する [MASK] エンティティエンティティ型認識、関係認識、穴埋め式質問応答にてSOTAを更新 Results on Open Entity Results on TACRED Results on ReCoRD データセット: ● Open Entity (エンティティ型認識) ● TACRED (関係認識) ● ReCoRD (穴埋め式質問応答)

Slide 17

Slide 17 text

LUKE: 実験: 固有表現認識 17 モデル: 1. 入力テキスト中の全てのスパンをエンティティの候補として扱う 2. 各スパンをエンティティの型、もしくはnon-entity型に分類 3. ロジットの大きいものから順に分類結果を確定モデルへの入力: ● 入力テキスト ● 入力テキスト中の全てのエンティティスパンに対応する [MASK] エンティティ固有表現認識データセット（CoNLL-2003）でSOTAを更新 Results on CoNLL-2003

Slide 18

Slide 18 text

LUKE: 実験: 抽出型質問応答 18 モデル: 出力単語表現の上に開始位置、終了位置を推定する線形分類層を追加モデルへの入力: ● 質問及びパッセージのテキスト ● パッセージに含まれるWikipediaエンティティ抽出型質問応答データセット（SQuAD v1.1）でSOTAを更新 Results on SQuAD v1.1 LUKE got #1 on leaderboard

Slide 19

Slide 19 text

LUKEによるエンティティリンキング 19 Global Entity Disambiguation with BERT Ikuya Yamada, Koki Washio, Hiroyuki Shindo, Yuji Matsumoto NAACL 2022 Entity Embedding Completion for Wide-Coverage Entity Disambiguation Daisuke Oba, Ikuya Yamada, Naoki Yoshinaga, Masashi Toyoda EMNLP Findings 2022

Slide 20

Slide 20 text

LUKEによるエンティティリンキング: エンティティリンキングとは 20 エンティティリンキング: メンションをエンティティにリンクするタスクメッシとロナウドがワールドカップに出場した

Slide 21

Slide 21 text

LUKEによるエンティティリンキング: エンティティリンキングとは 21 エンティティリンキング: メンションをエンティティにリンクするタスクメッシとロナウドがワールドカップに出場したリオネル・メッシ FIFA ワールドカップクリスティアーノ・ロナウド固有名詞や専門用語の曖昧性解消は実利用でも重要な課題

Slide 22

Slide 22 text

LUKEによるエンティティリンキング: ローカルモデル 22 ローカルモデル: 各メンションに対応する[MASK]エンティティを予測

Slide 23

Slide 23 text

LUKEによるエンティティリンキング: グローバルモデル 23 ● メンションを順に対応するエンティティに紐づけていく ● 紐づけたエンティティをコンテクストとして使うグローバルモデル:

Slide 24

Slide 24 text

LUKEによるエンティティリンキング: グローバルモデル 24 ● メンションを順に対応するエンティティに紐づけていく ● 紐づけたエンティティをコンテクストとして使うグローバルモデル:

Slide 25

Slide 25 text

LUKEによるエンティティリンキング: グローバルモデル 25 ● メンションを順に対応するエンティティに紐づけていく ● 紐づけたエンティティをコンテクストとして使うグローバルモデル:

Slide 26

Slide 26 text

LUKEによるエンティティリンキング: グローバルモデル 26 ● メンションを順に対応するエンティティに紐づけていく ● 紐づけたエンティティをコンテクストとして使うグローバルモデル:

Slide 27

Slide 27 text

LUKEによるエンティティリンキング: グローバルモデル 27 ● メンションを順に対応するエンティティに紐づけていく ● 紐づけたエンティティをコンテクストとして使うグローバルモデル: 各ステップで最も確信度が高い予測を得たメンションを紐づけていく

Slide 28

Slide 28 text

LUKEによるエンティティリンキング: 実験結果 28 Name Accuracy Ganea and Hoffman (2017) 92.2 Cao et al. (2021) 93.3 Barba et al. (2022) 92.6 Our local model 94.5 Our global model 95.0 Name Average F1 Ganea and Hoffman (2017) 85.2 Cao et al. (2021) 87.8 Barba et al. (2022) 88.9 Our local model 89.4 Our global model 89.9 Accuracy on AIDA-CoNLL Average F1 scores on MSNBC, AQUAINT, ACE2004, WNED-WIKI, and WNED-CWEB ● 複数のエンティティリンキングのデータセットでSOTAを獲得 ● グローバルモデルはローカルモデルより一貫して高性能

Slide 29

Slide 29 text

日本語LUKE 29

Slide 30

Slide 30 text

日本語LUKE: 概要 30 モデルの訓練： 1. XLM-RoBERTaを訓練コーパス：日本語Wikipedia + 日本語CC100 トークナイザ：Sentencepiece（語彙はコーパスから学習）ハイパーパラメータ：CamemBERT (ACL 2020) を再現 2. mLUKEを訓練コーパス：日本語Wikipedia ハイパーパラメータ：LUKE (EMNLP 2020) と同じ設定を使用モチベーション：日本語の知識強化言語モデルを作りたい

Slide 31

Slide 31 text

日本語LUKE: 評価: baseモデル 31 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA 日本語LUKE base 0.965 0.916/0.877 0.912 0.842 XLM-RoBERTa base (ベースモデル) 0.961 0.910/0.871 0.902 0.838 Tohoku BERT base 0.958 0.909/0.868 0.899 0.808 Waseda RoBERTa base 0.962 0.913/0.873 0.895 0.840 XLM-RoBERTa base (original) 0.961 0.877/0.831 0.893 0.687 ● XLM-RoBERTaベースモデルと比較して性能が改善 ● 全てのデータセットにおいて既存モデルよりも高い性能を獲得

Slide 32

Slide 32 text

日本語LUKE: 評価: largeモデル 32 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA 日本語LUKE large 0.965 0.932/0.902 0.927 0.893 Tohoku BERT large 0.955 0.913/0.872 0.900 0.816 Waseda RoBERTa large (seq128) 0.954 0.930/0.896 0.924 0.907 Waseda RoBERTa large (seq512) 0.961 0.926/0.892 0.926 0.891 XLM-RoBERTa large (original) 0.961 0.877/0.831 0.919 0.840 ● JCommonsenseQAを除くデータセットにおいて既存モデルよりも高い性能を獲得

Slide 33

Slide 33 text

LUKEの拡張 - LUXE 33 Language Understanding with dupleX Entity knowledge

Slide 34

Slide 34 text

次世代知識強化言語モデル LUXE（仮称）従来のLUKEでできること ● テキストに含まれるエンティティを予測する（エンティティの情報を用いてテキストの埋め込みを改善する） LUXEで新たにできるようになること ● テキストの主題のエンティティを予測する ● テキストの主題のトピックを予測する ● 任意のエンティティ集合を用いた推論に対応する 34

Slide 35

Slide 35 text

LUXEで新たにできるようになること (1/2) 主題エンティティ/トピックの予測入力に対して「これは何に関するテキストか」を予測できるようにする UBKE-LUKEにおける例 ● 入力: レクサスは主に北米の高級車マーケットにおいて、一定の地位を築いた。 ● 出力: トヨタ自動車手法: 訓練データ（Wikipedia）のテキストが属する記事タイトルおよび　　カテゴリを教師信号にモデルを訓練 35

Slide 36

Slide 36 text

LUXEで新たにできるようになること (2/2) 任意のエンティティ集合に対する推論 ● UBKE-LUKEでは、ユーザベースが独自に持つ企業名データをエンティティ集合として用いてLUKEを追加訓練 ● LUXEでは、任意のエンティティ集合に対する推論（主題および文中のエンティティの予測）をモデルの追加訓練なしに実現したい手法: Wikipediaで訓練済みのLUXEを用いて、任意のエンティティについての説明文や言及文からエンティティの埋め込みを生成し、それらを推論に用いる ● 弊社インターン生による研究 [Oba+ EMNLP 2022 Findings] を応用 36

Slide 37

Slide 37 text

LUXE の応用可能性任意のテキストに対して意味のあるタグ（エンティティ）を付与できる ⇒ タグを軸として、テキストを整理したり活用できるようになる ● LUXEが付与したタグに基づいて、テキストを分類・整理する ● 意味的に近いタグを辿ることで、興味あるテキストを探索する ● LLMと組み合わせて、タグに対応したテキストの集合を要約する LUXEで、テキストを「使えるナレッジ」へ 38