Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

知識拡張型言語モデルLUKE

 知識拡張型言語モデルLUKE

言語処理学会第29回年次大会 併設ワークショップ JLR2023 (@jedws) での招待講演資料です。

Ikuya Yamada

March 17, 2023
Tweet

More Decks by Ikuya Yamada

Other Decks in Technology

Transcript

  1. 自己紹介 山田 育矢 (@ikuyamada) Studio Ousia 共同創業者チーフサイエンティスト 理化学研究所AIP 客員研究員(知識獲得チーム、言語情報アクセス技術チーム) •

    大学入学時に、ベンチャー企業を起業し売却(2000年〜2006年) ◦ インターネットの基盤技術(Peer to Peer通信におけるNAT越え問題)の研究開発を推進 ◦ 売却先企業は株式上場 • Studio Ousiaを共同創業し、自然言語処理に取り組む(2007年〜) ◦ 質問応答・言語モデルを中心とした自然言語処理の研究開発を推進 • プログラミングが好き ◦ 最近よく使うライブラリ:PyTorch、PyTorch-lightning、transformers、Wikipedia2Vec • コンペティションにいろいろ出場 ◦ Kaggle master ◦ 優勝したタスク:#Microposts @ WWW2015, W-NUT Task #1 @ ACL 2015, HCQA @ NAACL 2016, HCQA @ NIPS 2017, Semantic Web Challenge @ ISWC 2020 2
  2. 本日の講演の内容 • LUKE (EMNLP 2020) LUKE: Deep Contextualized Entity Representations

    with Entity-aware Self-attention • 多言語LUKE (mLUKE) (ACL 2022) mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models • LUKEのエンティティリンキングへの応用 (NAACL 2022) Global Entity Disambiguation with BERT • LUKEのエンティティエンべディングの補完 (EMNLP Findings 2022) Entity Embedding Completion for Wide-Coverage Entity Disambiguation • 日本語LUKE (2022) 3 知識拡張型モデル「LUKE」とその後続の研究での展開についてお話します
  3. LUKE 4 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention

    Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto EMNLP 2020
  4. LUKE: 概要 • 知識を使うことが重要なダウンストリームタスクにおいて良い性能を達成 e.g., 質問応答・エンティティリンキング・固有表現抽出・関係認識・型認識 • Huggingface Transformers経由で簡単に使える 5

    単語とエンティティの文脈付きベクトルを出力する 知識拡張型 (knowledge-enhanced)の訓練済み言語モデル from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained(“studio-ousia/luke-base”) tokenizer = AutoModel.from_pretrained(“studio-ousia/luke-base”)
  5. LUKE: アーキテクチャ • LUKE は単語とエンティティを独立したトークンとして扱う • エンティティが独立したトークンとして扱われているので ◦ エンティティのスパンが自然に表現できる ◦

    エンティティ同士の関係がTransformer内部で自然に捉えられる 10 Wikipediaのエンティティアノテーション付きの入力テキスト: Beyoncé lives in Los Angeles 入力表現の計算
  6. LUKE: 入力表現の計算 16 • 単語表現: トークンエンべディング + ポジションエンべディング • エンティティ表現:

    トークンエンべディング + ポジションエンべディング + エンティティタイプエンベディング
  7. LUKE: 事前訓練: 単語とエンティティをマスク 17 Wikipediaリンク を エンティティの アノテーション として使用 Wikipediaに含まれる単語およびエンティティをランダムにマスクする

    単語およびエンティティを15%の 確率で[MASK] 単語、[MASK]エン ティティに変換 Born and raised in Houston, Texas, Beyoncé performed in various singing and dancing competitions as a child. She rose to fame in the late 1990s as the lead singer of Destiny's Child Born and [MASK] in Houston, Texas, [MASK] performed in various [MASK] and dancing competitions as a [MASK]. She rose to fame in the [MASK] 1990s as the lead singer of Destiny's Child
  8. LUKE: ダウンストリームタスクでのエンティティ表現の利用 20 LUKEにエンティティを入力する2つの方法: 1. [MASK] エンティティを入力 ◦ 事前訓練時に使った[MASK] エンティティを利用する

    ◦ 入力テキスト中からエンティティに関する情報を集約したエンティティ表現が得られる 2. Wikipediaエンティティを入力 ◦ 入力テキストに含まれるWikipediaエンティティを入力する ◦ エンティティエンべディングに含まれる豊富な情報を使ってタスクを解くことができる ◦ エンティティリンキングが必要
  9. LUKE: 実験 5つの異なる知識の必要なタスク(knowledge-intensive tasks)でSOTAを更新 21 Dataset Task Open Entity エンティティ型認識

    TACRED 関係認識 CoNLL-2003 固有表現認識 ReCoRD 穴埋め式質問応答 SQuAD 抽出型質問応答
  10. LUKE: 実験: エンティティ型認識、関係認識、穴埋め式質問応答 22 モデル: エンティティ表現を入力とする線形分類層を追加 モデルへの入力: • テキスト •

    対象となるエンティティのスパンに対応する [MASK] エンティティ エンティティ型認識、関係認識、穴埋め式質問応答にてSOTAを更新 Results on Open Entity Results on TACRED Results on ReCoRD データセット: • Open Entity (エンティティ型認 識) • TACRED (関係認識) • ReCoRD (穴埋め式質問応答)
  11. LUKE: 実験: 固有表現認識 23 モデル: 1. 入力テキスト中の全てのスパンをエンティティの 候補として扱う 2. 各スパンをエンティティの型、もしくはnon-entity型に分類

    3. ロジットの大きいものから順に分類結果を確定 モデルへの入力: • 入力テキスト • 入力テキスト中の全てのエンティティスパンに対応する [MASK] エンティティ 固有表現認識データセット(CoNLL-2003)でSOTAを更新 Results on CoNLL-2003
  12. LUKE: 実験: 抽出型質問応答 24 モデル: 出力単語表現の上に開始位置、終了位置を推定する 線形分類層を追加 モデルへの入力: • 質問及びパッセージのテキスト

    • パッセージに含まれるWikipediaエンティティ 抽出型質問応答データセット(SQuAD v1.1)でSOTAを更新 Results on SQuAD v1.1 LUKE got #1 on leaderboard
  13. 多言語LUKE (mLUKE) 29 mLUKE: The Power of Entity Representations in

    Multilingual Pretrained Language Models Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka ACL 2022
  14. mLUKE: 概要 アーキテクチャの変更点 • 言語非依存な共有エンティティエンベディングの導入 • 多言語訓練済み言語モデル(XLM-RoBERTa)をベースモデルに使用 事前訓練の変更点 • 24言語のWikipediaを利用

    • エンティティの語彙数を500K -> 1.2Mに増やした 32 LUKEに言語非依存なエンティティエンベディングを導入し、 クロスリンガル転移性能を向上させる
  15. mLUKE: Research Question 34 mLUKEでのクロスリンガル転移性能が改善する二つの要因とその評価方法: 1. エンティティを用いた事前訓練での性能改善 エンティティを入力として使わずに単語のみを入力とすることで評価 👉mLUKE-Wと表記 2.

    エンティティを入力として用いることによる性能改善 エンティティを入力として用いたモデルを使って評価 👉mLUKE-Eと表記 言語非依存なエンティティエンベディングによって クロスリンガル転移性能は改善するか?
  16. mLUKE: 実験:クロスリンガル関係分類 36 • 訓練データ:KBP37 • 評価データ:RELX (KBP37のテストセットを翻訳) クロスリンガル関係分類において性能向上を確認 事前訓練での改善:

    XLM-Rベースラインと同様に mLUKEの単語表現のみを利用 エンティティ表現による改善: [MASK]エンティティを使った エンティティ表現を利用
  17. mLUKE: 実験:クロスリンガル質問応答 38 • 訓練データ:SQuAD • 評価データ:XQuAD、MLQA、MLQA G-XLT (質問と回答が異なる言語で与えられる) クロスリンガル質問応答において性能向上を確認

    事前訓練での改善: XLM-Rベースラインと同様に mLUKEの単語表現のみを利用 エンティティ表現による改善: Wikipediaエンティティを 入力として使用
  18. LUKEによるエンティティリンキング: ローカルコンテクストとグローバルコンテクスト • ローカルコンテクスト: メンションと共起しているサブワードから取得 45 ローカルコンテクスト: メ, ##ッシ, と,

    ロ, ##ナウ, ##ド, が, ワールドカップ, 出場, し, た 入力: ワールドカップのコンテクスト: メッシ と ロナウド が ワールドカップ に出場した
  19. LUKEによるエンティティリンキング: ローカルコンテクストとグローバルコンテクスト • ローカルコンテクスト: メンションと共起しているサブワードから取得 • グローバルコンテクスト: 他のメンションに対応するエンティティから取得 46 ローカルコンテクスト:

    メ, ##ッシ, と, ロ, ##ナウ, ##ド, が, ワールドカップ, 出場, し, た 入力: ワールドカップのコンテクスト: メッシ と ロナウド が ワールドカップ に出場した グローバルコンテクスト: リオネル・メッシ クリスティアーノ・ロナウド
  20. LUKEによるエンティティリンキング: Research Question SOTAモデル: 訓練済み言語モデル+ローカルコンテクスト (Févry et al., 2020; Cao

    et al., 2021; Barba et al., 2022) 47 グローバルコンテキストは表現力の高い 訓練済み言語モデルにおいても有効か?
  21. LUKEによるエンティティリンキング: 実験結果 55 Name Accuracy Ganea and Hoffman (2017) 92.2

    Cao et al. (2021) 93.3 Barba et al. (2022) 92.6 Our local model 94.5 Our global model 95.0 Name Average F1 Ganea and Hoffman (2017) 85.2 Cao et al. (2021) 87.8 Barba et al. (2022) 88.9 Our local model 89.4 Our global model 89.9 Accuracy on AIDA-CoNLL Average F1 scores on MSNBC, AQUAINT, ACE2004, WNED-WIKI, and WNED-CWEB • 複数のエンティティリンキングのデータセットでSOTAを獲得 • グローバルモデルはローカルモデルより一貫して高性能
  22. LUKEによるエンティティリンキング: グローバルモデルのケーススタディ(AIDA-CoNLL) 56 "Campo has a massive following in this

    country and has had the public with him ever since he first played here in 1984," said Andrew, also likely to be making his final Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke 文書: 推論の順序:
  23. LUKEによるエンティティリンキング: グローバルモデルのケーススタディ(AIDA-CoNLL) 57 "Campo has a massive following in this

    country and has had the public with him ever since he first played here in 1984," said Andrew, also likely to be making his final Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke 文書: 推論の順序:
  24. LUKEによるエンティティリンキング: グローバルモデルのケーススタディ(AIDA-CoNLL) 58 "Campo has a massive following in this

    country and has had the public with him ever since he first played here in 1984," said Andrew, also likely to be making his final Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke 文書: 推論の順序:
  25. LUKEによるエンティティリンキング: グローバルモデルのケーススタディ(AIDA-CoNLL) 59 "Campo has a massive following in this

    country and has had the public with him ever since he first played here in 1984," said Andrew, also likely to be making his final Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke ローカルモデルは、Nigel Walker と Matthew Burke で 間違ったエンティティを予測 文書: 推論の順序:
  26. LUKEによるエンティティリンキング: グローバルモデルのケーススタディ(AIDA-CoNLL) 60 "Campo has a massive following in this

    country and has had the public with him ever since he first played here in 1984," said Andrew, also likely to be making his final Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke グローバルモデルでは、Nigel Walker が野球選手ではなく、 元ラグビープレーヤーに正しくリンクされた 文書: 推論の順序:
  27. LUKEによるエンティティリンキング: グローバルモデルのケーススタディ(AIDA-CoNLL) 61 "Campo has a massive following in this

    country and has had the public with him ever since he first played here in 1984," said Andrew, also likely to be making his final Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke Matthew Burke が 、1964年生まれのオーストラリアの 元ラグビープレーヤー ではなく、1973年生まれのオーストラリアの 元ラグビープレーヤーに正しくリンクされた 文書: 推論の順序:
  28. エンティティエンべディングの補完: エンティティリンキングモデルの問題 63 • 訓練時の計算量やエンべディングに必要なGPUメモリの制約から、 Wikipediaエンティティ全体を使った訓練を行うことが難しい ◦ 英語のWikipediaは、約7Mのエンティティを含む 7M *

    256 (エンべディングの次元) * 4 (float32) * 3 (Adamの勾配履歴) ≒ 22GB • 新しいエンティティを事後的に追加できない(例:COVID-19) • エンティティの意味の変化をうまく扱えない(例:ドナルド・トランプ) 訓練時の語彙に含まれないエンティティや 意味の変化したエンティティをうまく扱えない
  29. 日本語LUKE: 概要 69 モデルの訓練: 1. XLM-RoBERTaを訓練 コーパス:日本語Wikipedia + 日本語CC100 トークナイザ:Sentencepiece(語彙はコーパスから学習)

    ハイパーパラメータ:CamemBERT (ACL 2020) を再現 2. mLUKEを訓練 コーパス:日本語Wikipedia ハイパーパラメータ:LUKE (EMNLP 2020) と同じ設定を使用 モチベーション:日本語の知識拡張型言語モデルを作りたい
  30. 日本語LUKE: 評価: baseモデル 70 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA

    日本語LUKE base 0.965 0.916/0.877 0.912 0.842 XLM-RoBERTa base (ベースモデル) 0.961 0.910/0.871 0.902 0.838 Tohoku BERT base 0.958 0.909/0.868 0.899 0.808 Waseda RoBERTa base 0.962 0.913/0.873 0.895 0.840 XLM-RoBERTa base (original) 0.961 0.877/0.831 0.893 0.687 • XLM-RoBERTaベースモデルと比較して性能が改善 • 全てのデータセットにおいて既存モデルよりも高い性能を獲得
  31. 日本語LUKE: 評価: largeモデル 71 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA

    日本語LUKE large 0.965 0.932/0.902 0.927 0.893 Tohoku BERT large 0.955 0.913/0.872 0.900 0.816 Waseda RoBERTa large (seq128) 0.954 0.930/0.896 0.924 0.907 Waseda RoBERTa large (seq512) 0.961 0.926/0.892 0.926 0.891 XLM-RoBERTa large (original) 0.961 0.877/0.831 0.919 0.840 • JCommonsenseQAを除くデータセットにおいて既存モデルよりも 高い性能を獲得
  32. 日本語LUKE: 利用方法 74 from transformers import AutoModel, AutoTokenizer model =

    AutoModel.from_pretrained(“studio-ousia/luke-base-japanese”) tokenizer = AutoModel.from_pretrained(“studio-ousia/luke-base-japanese”) Huggingface Transformersからすぐに利用できます! エンティティエンべディングあり エンティティエンべディングなし studio-ousia/luke-base-japanese studio-ousia/luke-base-japanese-lite studio-ousia/luke-large-japanese studio-ousia/luke-large-japanese-lite Wikipediaエンティティを入力として使わないタスクでは、 エンティティエンべディングなしのliteモデルを使用してください
  33. さいごに • 多言語LUKE 東京大学鶴岡研究室とStudio Ousiaの共同研究の成果 主著:李 凌寒さん (東京大学博士課程・Studio Ousiaインターン) •

    エンティティエンべディングの補完 東京大学豊田・根本・吉永・合田研究室とStudio Ousiaの共同研究の成果 主著:大葉 大輔さん (東京大学博士課程・Studio Ousiaインターン) 75 研究を進めるにあたって多大なご助力をいただきました この場を借りて感謝いたします