知識拡張型言語モデルLUKE

山田育矢 (Ikuya Yamada) 知識拡張型言語モデル Studio Ousia & RIKEN

自己紹介山田育矢 (@ikuyamada) Studio Ousia 共同創業者チーフサイエンティスト理化学研究所AIP 客員研究員（知識獲得チーム、言語情報アクセス技術チーム） •
大学入学時に、ベンチャー企業を起業し売却（2000年〜2006年） ◦ インターネットの基盤技術（Peer to Peer通信におけるNAT越え問題）の研究開発を推進 ◦ 売却先企業は株式上場 • Studio Ousiaを共同創業し、自然言語処理に取り組む（2007年〜） ◦ 質問応答・言語モデルを中心とした自然言語処理の研究開発を推進 • プログラミングが好き ◦ 最近よく使うライブラリ：PyTorch、PyTorch-lightning、transformers、Wikipedia2Vec • コンペティションにいろいろ出場 ◦ Kaggle master ◦ 優勝したタスク：#Microposts @ WWW2015, W-NUT Task #1 @ ACL 2015, HCQA @ NAACL 2016, HCQA @ NIPS 2017, Semantic Web Challenge @ ISWC 2020 2

本日の講演の内容 • LUKE (EMNLP 2020) LUKE: Deep Contextualized Entity Representations
with Entity-aware Self-attention • 多言語LUKE (mLUKE) (ACL 2022) mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models • LUKEのエンティティリンキングへの応用 (NAACL 2022) Global Entity Disambiguation with BERT • LUKEのエンティティエンべディングの補完 (EMNLP Findings 2022) Entity Embedding Completion for Wide-Coverage Entity Disambiguation • 日本語LUKE (2022) 3 知識拡張型モデル「LUKE」とその後続の研究での展開についてお話します

LUKE 4 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto EMNLP 2020

LUKE: 概要 • 知識を使うことが重要なダウンストリームタスクにおいて良い性能を達成 e.g., 質問応答・エンティティリンキング・固有表現抽出・関係認識・型認識 • Huggingface Transformers経由で簡単に使える 5
単語とエンティティの文脈付きベクトルを出力する知識拡張型 (knowledge-enhanced)の訓練済み言語モデル from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained(“studio-ousia/luke-base”) tokenizer = AutoModel.from_pretrained(“studio-ousia/luke-base”)

LUKE: エンティティとは物や概念をあらわす言語表現本講演では主にWikipediaに存在するような世界の知識に関するエンティティを指す 6

訓練済み言語モデル（PLM）はエンティティをうまく表現できない ◦ PLMはエンティティのスパンに対応する表現を出力できない ◦ エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい ◦ PLMの訓練タスクはエンティティに向いているとは言えない 7 BERT...?
GPT…? The Force is not strong with them. Mark Hamill by Gage Skidmore 2 LUKE: 背景

訓練済み言語モデル（PLM）はエンティティをうまく表現できない ◦ PLMはエンティティのスパンに対応する表現を出力できない ◦ エンティティは複数の入力トークンに分割されるため、Transformer内部でエンティティ同士の関係を捉えることが難しい ◦ PLMの訓練タスクはエンティティに向いているとは言えない 8 BERT...?
ERNIE…? The Force is not strong with them. Mark Hamill by Gage Skidmore 2 LUKE: 背景 ”ハリー・[MASK]”に対して”ポッター”を予測するのは ”ハリー・ポッター”全体を予測するより明らかに簡単

• Transformer（RoBERTa）をベースにした訓練済み言語モデル ◦ 単語とエンティティの双方を独立したトークンとして扱う ◦ ランダムに単語とエンティティをマスクして訓練を行う ◦ エンティティに適したアテンションメカニズムを提案 (省略) LUKE:
アーキテクチャ 9 Wikipediaのエンティティアノテーション付きの入力テキスト: Beyoncé lives in Los Angeles

LUKE: アーキテクチャ • LUKE は単語とエンティティを独立したトークンとして扱う • エンティティが独立したトークンとして扱われているので ◦ エンティティのスパンが自然に表現できる ◦
エンティティ同士の関係がTransformer内部で自然に捉えられる 10 Wikipediaのエンティティアノテーション付きの入力テキスト: Beyoncé lives in Los Angeles 入力表現の計算

• トークンエンべディング：単語もしくはエンティティ自体をあらわす LUKE: 入力表現：3種類のエンベディング 11

LUKE: 入力表現：3種類のエンベディング 12 • トークンエンべディング：単語もしくはエンティティ自体をあらわす • ポジションエンべディング：トークンの単語列中での位置をあらわす

LUKE: 入力表現：3種類のエンベディング 13 • トークンエンべディング：単語もしくはエンティティ自体をあらわす • ポジションエンべディング：トークンの単語列中での位置をあらわす ◦ 複数の単語を含むエンティティの場合は、ポジションエンべディングを平均する

LUKE: 入力表現：3種類のエンベディング 14 • トークンエンべディング：単語もしくはエンティティ自体をあらわす • ポジションエンべディング：トークンの単語列中での位置をあらわす ◦ 複数の単語を含むエンティティの場合は、ポジションエンべディングを平均する •
エンティティタイプエンベディング：入力トークンがエンティティであることをあらわす

LUKE: 入力表現の計算 15 • 単語表現: トークンエンべディング + ポジションエンべディング

LUKE: 入力表現の計算 16 • 単語表現: トークンエンべディング + ポジションエンべディング • エンティティ表現:
トークンエンべディング + ポジションエンべディング + エンティティタイプエンベディング

LUKE: 事前訓練: 単語とエンティティをマスク 17 Wikipediaリンクをエンティティのアノテーションとして使用 Wikipediaに含まれる単語およびエンティティをランダムにマスクする
単語およびエンティティを15%の確率で[MASK] 単語、[MASK]エンティティに変換 Born and raised in Houston, Texas, Beyoncé performed in various singing and dancing competitions as a child. She rose to fame in the late 1990s as the lead singer of Destiny's Child Born and [MASK] in Houston, Texas, [MASK] performed in various [MASK] and dancing competitions as a [MASK]. She rose to fame in the [MASK] 1990s as the lead singer of Destiny's Child

LUKE: 事前訓練: マスクした単語とエンティティを予測して訓練 18 下記の2つのタスクで訓練 • マスクされた単語の元の単語を予測 • マスクされたエンティティの元のエンティティを予測 Wikipediaに含まれる単語およびエンティティをランダムにマスクし
それらを予測することで訓練

LUKE: ダウンストリームタスクでのエンティティ表現の利用 19 LUKEにエンティティを入力する2つの方法： 1. [MASK] エンティティを入力 ◦ 事前訓練時に使った[MASK] エンティティを利用する
◦ 入力テキスト中からエンティティに関する情報を集約したエンティティ表現が得られる

LUKE: ダウンストリームタスクでのエンティティ表現の利用 20 LUKEにエンティティを入力する2つの方法： 1. [MASK] エンティティを入力 ◦ 事前訓練時に使った[MASK] エンティティを利用する
◦ 入力テキスト中からエンティティに関する情報を集約したエンティティ表現が得られる 2. Wikipediaエンティティを入力 ◦ 入力テキストに含まれるWikipediaエンティティを入力する ◦ エンティティエンべディングに含まれる豊富な情報を使ってタスクを解くことができる ◦ エンティティリンキングが必要

LUKE: 実験 5つの異なる知識の必要なタスク（knowledge-intensive tasks）でSOTAを更新 21 Dataset Task Open Entity エンティティ型認識
TACRED 関係認識 CoNLL-2003 固有表現認識 ReCoRD 穴埋め式質問応答 SQuAD 抽出型質問応答

LUKE: 実験: エンティティ型認識、関係認識、穴埋め式質問応答 22 モデル: エンティティ表現を入力とする線形分類層を追加モデルへの入力: • テキスト •
対象となるエンティティのスパンに対応する [MASK] エンティティエンティティ型認識、関係認識、穴埋め式質問応答にてSOTAを更新 Results on Open Entity Results on TACRED Results on ReCoRD データセット: • Open Entity (エンティティ型認識) • TACRED (関係認識) • ReCoRD (穴埋め式質問応答)

LUKE: 実験: 固有表現認識 23 モデル: 1. 入力テキスト中の全てのスパンをエンティティの候補として扱う 2. 各スパンをエンティティの型、もしくはnon-entity型に分類
3. ロジットの大きいものから順に分類結果を確定モデルへの入力: • 入力テキスト • 入力テキスト中の全てのエンティティスパンに対応する [MASK] エンティティ固有表現認識データセット（CoNLL-2003）でSOTAを更新 Results on CoNLL-2003

LUKE: 実験: 抽出型質問応答 24 モデル: 出力単語表現の上に開始位置、終了位置を推定する線形分類層を追加モデルへの入力: • 質問及びパッセージのテキスト
• パッセージに含まれるWikipediaエンティティ抽出型質問応答データセット（SQuAD v1.1）でSOTAを更新 Results on SQuAD v1.1 LUKE got #1 on leaderboard

LUKE: エンティティ表現の有効性の評価 25 固有表現認識（CoNLL-2003）と抽出型質問応答（SQuAD v1.1）の双方でエンティティ表現を使うことで性能が改善

LUKE: エンティティ表現の有効性の評価 26 固有表現認識（CoNLL-2003）と抽出型質問応答（SQuAD v1.1）の双方でエンティティ表現を使うことで性能が改善 [MASK]エンティティを入力 Wikipediaエンティティを入力

LUKE: 固有表現抽出（CoNLL-2003）の結果の変化 27 http://explainaboard.nlpedia.ai/leaderboard/task-ner/

LUKE: 固有表現抽出（CoNLL-2003）の結果の変化 28 http://explainaboard.nlpedia.ai/leaderboard/task-ner/

多言語LUKE (mLUKE) 29 mLUKE: The Power of Entity Representations in
Multilingual Pretrained Language Models Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka ACL 2022

mLUKE: Wikipediaエンティティは言語非依存 Wikipediaのエンティティは、Wikidataを通じて言語を横断して相互にリンクされている 30

mLUKE: 言語非依存なエンティティエンベディング Wikidataのinter-language linksを使って、言語非依存なエンティティエンべディングを作成 31 言語横断でエンティティとエンベディングが対応

mLUKE: 概要アーキテクチャの変更点 • 言語非依存な共有エンティティエンベディングの導入 • 多言語訓練済み言語モデル（XLM-RoBERTa）をベースモデルに使用事前訓練の変更点 • 24言語のWikipediaを利用
• エンティティの語彙数を500K -> 1.2Mに増やした 32 LUKEに言語非依存なエンティティエンベディングを導入し、クロスリンガル転移性能を向上させる

mLUKE: クロスリンガル転移学習 33 ダウンストリームタスクの訓練と評価を異なる言語で行って、言語を跨いだ転移性能を評価

mLUKE: Research Question 34 mLUKEでのクロスリンガル転移性能が改善する二つの要因とその評価方法: 1. エンティティを用いた事前訓練での性能改善エンティティを入力として使わずに単語のみを入力とすることで評価 👉mLUKE-Wと表記 2.
エンティティを入力として用いることによる性能改善エンティティを入力として用いたモデルを使って評価 👉mLUKE-Eと表記言語非依存なエンティティエンベディングによってクロスリンガル転移性能は改善するか？

mLUKE: 実験：クロスリンガル関係分類 35 • 訓練データ：KBP37 • 評価データ：RELX (KBP37のテストセットを翻訳) クロスリンガル関係分類において性能向上を確認

mLUKE: 実験：クロスリンガル関係分類 36 • 訓練データ：KBP37 • 評価データ：RELX (KBP37のテストセットを翻訳) クロスリンガル関係分類において性能向上を確認事前訓練での改善：
XLM-Rベースラインと同様に mLUKEの単語表現のみを利用エンティティ表現による改善： [MASK]エンティティを使ったエンティティ表現を利用

mLUKE: 実験：クロスリンガル質問応答 37 • 訓練データ：SQuAD • 評価データ：XQuAD、MLQA、MLQA G-XLT (質問と回答が異なる言語で与えられる) クロスリンガル質問応答において性能向上を確認

mLUKE: 実験：クロスリンガル質問応答 38 • 訓練データ：SQuAD • 評価データ：XQuAD、MLQA、MLQA G-XLT (質問と回答が異なる言語で与えられる) クロスリンガル質問応答において性能向上を確認
事前訓練での改善： XLM-Rベースラインと同様に mLUKEの単語表現のみを利用エンティティ表現による改善： Wikipediaエンティティを入力として使用

mLUKE: 実験：穴埋めタスク 39 XLM-R & mLUKE-W mLUKE-E ([Y]) 穴埋め形式のタスクでの性能を異なるモデルの設定で評価 mLUKE-E
([X] & [Y])

mLUKE: 実験：穴埋めタスク 40 • 評価データ：mLAMA 穴埋め形式のタスクでの性能を異なるモデルの設定で評価

mLUKE: 実験：穴埋めタスクにおける言語バイアスの改善 41 「[X]は[Y]に設立されました。」というクエリでの [Y] の間違った予測の件数とその中での「Japan」の割合言語依存性の少ないエンティティ表現を使うことで言語バイアスが改善

LUKEによるエンティティリンキング 42 Global Entity Disambiguation with BERT Ikuya Yamada, Koki
Washio, Hiroyuki Shindo, Yuji Matsumoto NAACL 2022

LUKEによるエンティティリンキング: エンティティリンキングとは 43 エンティティリンキング: メンションをエンティティにリンクするタスクメッシとロナウドがワールドカップ
に出場した

LUKEによるエンティティリンキング: エンティティリンキングとは 44 エンティティリンキング: メンションをエンティティにリンクするタスクメッシとロナウドがワールドカップ
に出場したリオネル・メッシ FIFA ワールドカップクリスティアーノ・ロナウド

LUKEによるエンティティリンキング: ローカルコンテクストとグローバルコンテクスト • ローカルコンテクスト: メンションと共起しているサブワードから取得 45 ローカルコンテクスト: メ, ##ッシ, と,
ロ, ##ナウ, ##ド, が, ワールドカップ, 出場, し, た入力: ワールドカップのコンテクスト: メッシとロナウドがワールドカップに出場した

LUKEによるエンティティリンキング: ローカルコンテクストとグローバルコンテクスト • ローカルコンテクスト: メンションと共起しているサブワードから取得 • グローバルコンテクスト: 他のメンションに対応するエンティティから取得 46 ローカルコンテクスト:
メ, ##ッシ, と, ロ, ##ナウ, ##ド, が, ワールドカップ, 出場, し, た入力: ワールドカップのコンテクスト: メッシとロナウドがワールドカップに出場したグローバルコンテクスト: リオネル・メッシクリスティアーノ・ロナウド

LUKEによるエンティティリンキング: Research Question SOTAモデル: 訓練済み言語モデル＋ローカルコンテクスト (Févry et al., 2020; Cao
et al., 2021; Barba et al., 2022) 47 グローバルコンテキストは表現力の高い訓練済み言語モデルにおいても有効か？

LUKEによるエンティティリンキング: 提案手法 48 提案するモデル：ローカルコンテクストとグローバルコンテクストを利用する LUKEベースのモデル • エンティティを入力トークンとして利用 • エンティティを順にリンクしていき、確定したエンティティを
コンテクストとして利用グローバルコンテクストを利用するための工夫:

LUKEによるエンティティリンキング: ローカルモデル 49 ローカルモデル: 各メンションに対応する[MASK]エンティティを予測

LUKEによるエンティティリンキング: グローバルモデル 50 • メンションを順に対応するエンティティに紐づけていく • 紐づけたエンティティをコンテクストとして使うグローバルモデル:

LUKEによるエンティティリンキング: グローバルモデル 54 • メンションを順に対応するエンティティに紐づけていく • 紐づけたエンティティをコンテクストとして使うグローバルモデル: 各ステップで最も確信度が高い予測を得たメンションを紐づけていく

LUKEによるエンティティリンキング: 実験結果 55 Name Accuracy Ganea and Hoffman (2017) 92.2
Cao et al. (2021) 93.3 Barba et al. (2022) 92.6 Our local model 94.5 Our global model 95.0 Name Average F1 Ganea and Hoffman (2017) 85.2 Cao et al. (2021) 87.8 Barba et al. (2022) 88.9 Our local model 89.4 Our global model 89.9 Accuracy on AIDA-CoNLL Average F1 scores on MSNBC, AQUAINT, ACE2004, WNED-WIKI, and WNED-CWEB • 複数のエンティティリンキングのデータセットでSOTAを獲得 • グローバルモデルはローカルモデルより一貫して高性能

LUKEによるエンティティリンキング: グローバルモデルのケーススタディ（AIDA-CoNLL） 56 "Campo has a massive following in this
country and has had the public with him ever since he ﬁrst played here in 1984," said Andrew, also likely to be making his ﬁnal Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke 文書: 推論の順序:

country and has had the public with him ever since he ﬁrst played here in 1984," said Andrew, also likely to be making his ﬁnal Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke ローカルモデルは、Nigel Walker と Matthew Burke で間違ったエンティティを予測文書: 推論の順序:

country and has had the public with him ever since he ﬁrst played here in 1984," said Andrew, also likely to be making his ﬁnal Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke グローバルモデルでは、Nigel Walker が野球選手ではなく、元ラグビープレーヤーに正しくリンクされた文書: 推論の順序:

country and has had the public with him ever since he ﬁrst played here in 1984," said Andrew, also likely to be making his ﬁnal Twickenham appearance. On tour, Australia have won all four tests against Italy, Scotland, Ireland and Wales, (snip) Teams: Barbarians - 15 - Tim Stimpson (England); 14 - Nigel Walker (Wales), 13 - Allan Bateman (Wales), (snip) Australia - 15 - Matthew Burke; 14 - Joe Roff, (snip) 1 - Dan Crowley. Allan Bateman ➡ Rob Howley ➡ Nick Popplewell ➡ Tony Underwood ➡ (snip) ➡ England ➡ Wales ➡ (snip) ➡ Italy ➡ Scotland ➡ Ireland ➡ Nigel Walker ➡ New Zealand ➡ Matthew Burke Matthew Burke が、1964年生まれのオーストラリアの元ラグビープレーヤーではなく、1973年生まれのオーストラリアの元ラグビープレーヤーに正しくリンクされた文書: 推論の順序:

エンティティエンべディングの補完 62 Entity Embedding Completion for Wide-Coverage Entity Disambiguation Daisuke
Oba, Ikuya Yamada, Naoki Yoshinaga, Masashi Toyoda EMNLP Findings 2022

エンティティエンべディングの補完: エンティティリンキングモデルの問題 63 • 訓練時の計算量やエンべディングに必要なGPUメモリの制約から、 Wikipediaエンティティ全体を使った訓練を行うことが難しい ◦ 英語のWikipediaは、約7Mのエンティティを含む 7M *
256 (エンべディングの次元) * 4 (ﬂoat32) * 3 (Adamの勾配履歴) ≒ 22GB • 新しいエンティティを事後的に追加できない（例：COVID-19） • エンティティの意味の変化をうまく扱えない（例：ドナルド・トランプ）訓練時の語彙に含まれないエンティティや意味の変化したエンティティをうまく扱えない

エンティティエンべディングの補完: 提案手法 64 エンティティの説明文やエンティティについての言及文からエンティティエンべディングを補完する 1. Wikipediaでの頻出エンティティ500kをエンティティ語彙としてLUKEを訓練 2. エンティティの説明文・言及文から、1のエンティティエンべディングを予測するエンコーダを訓練

エンティティエンべディングの補完: 提案手法 65 新しいエンティティ「COVID-19」を訓練済みのモデルに追加

エンティティエンべディングの補完: 実験結果 66 Micro F1 on AIDA-CoNLL SOTAモデルと比較して遜色ない性能を達成

エンティティエンべディングの補完: 実験結果 67 Micro F1 on AIDA-CoNLL SOTAモデルと比較して遜色ない性能を達成評価時に必要となる候補エンティティを全て語彙に追加して訓練する設定が採用されている
頻出エンティティのみ（47％）を使って訓練してその他のエンべディング（53％）を補完

日本語LUKE 68

日本語LUKE: 概要 69 モデルの訓練： 1. XLM-RoBERTaを訓練コーパス：日本語Wikipedia + 日本語CC100 トークナイザ：Sentencepiece（語彙はコーパスから学習）
ハイパーパラメータ：CamemBERT (ACL 2020) を再現 2. mLUKEを訓練コーパス：日本語Wikipedia ハイパーパラメータ：LUKE (EMNLP 2020) と同じ設定を使用モチベーション：日本語の知識拡張型言語モデルを作りたい

日本語LUKE: 評価: baseモデル 70 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA
日本語LUKE base 0.965 0.916/0.877 0.912 0.842 XLM-RoBERTa base (ベースモデル) 0.961 0.910/0.871 0.902 0.838 Tohoku BERT base 0.958 0.909/0.868 0.899 0.808 Waseda RoBERTa base 0.962 0.913/0.873 0.895 0.840 XLM-RoBERTa base (original) 0.961 0.877/0.831 0.893 0.687 • XLM-RoBERTaベースモデルと比較して性能が改善 • 全てのデータセットにおいて既存モデルよりも高い性能を獲得

日本語LUKE: 評価: largeモデル 71 JGLUEデータセットで既存モデルと比較して高い性能を獲得 Model MARC-ja JSTS JNLI JCommonsenseQA
日本語LUKE large 0.965 0.932/0.902 0.927 0.893 Tohoku BERT large 0.955 0.913/0.872 0.900 0.816 Waseda RoBERTa large (seq128) 0.954 0.930/0.896 0.924 0.907 Waseda RoBERTa large (seq512) 0.961 0.926/0.892 0.926 0.891 XLM-RoBERTa large (original) 0.961 0.877/0.831 0.919 0.840 • JCommonsenseQAを除くデータセットにおいて既存モデルよりも高い性能を獲得

日本語LUKE: 性能改善の考えられる理由 • Wikipediaエンティティを予測する訓練が言語理解の性能向上に有効 • WikipediaでのLUKEの訓練が整った文の多いデータセットと相性が良い • 事前訓練を長くした分、性能が改善しただけ 72

日本語LUKE: 性能改善の考えられる理由 • Wikipediaエンティティを予測する訓練が言語理解の性能向上に有効 • WikipediaでのLUKEの訓練が整った文の多いデータセットと相性が良い • 事前訓練を長くした分、性能が改善しただけ 73 ベースモデルのJGLUEでの性能は約30％くらいの訓練ステップから横ばいで
訓練ステップが増えたことで性能改善につながったとはやや考えにくい

日本語LUKE: 利用方法 74 from transformers import AutoModel, AutoTokenizer model =
AutoModel.from_pretrained(“studio-ousia/luke-base-japanese”) tokenizer = AutoModel.from_pretrained(“studio-ousia/luke-base-japanese”) Huggingface Transformersからすぐに利用できます！エンティティエンべディングありエンティティエンべディングなし studio-ousia/luke-base-japanese studio-ousia/luke-base-japanese-lite studio-ousia/luke-large-japanese studio-ousia/luke-large-japanese-lite Wikipediaエンティティを入力として使わないタスクでは、エンティティエンべディングなしのliteモデルを使用してください

さいごに • 多言語LUKE 東京大学鶴岡研究室とStudio Ousiaの共同研究の成果主著：李凌寒さん (東京大学博士課程・Studio Ousiaインターン) •
エンティティエンべディングの補完東京大学豊田・根本・吉永・合田研究室とStudio Ousiaの共同研究の成果主著：大葉大輔さん (東京大学博士課程・Studio Ousiaインターン) 75 研究を進めるにあたって多大なご助力をいただきましたこの場を借りて感謝いたします

76 [email protected] @ikuyamada 質問やコメント等は下記の連絡先までご連絡ください！ありがとうございました！

知識拡張型言語モデルLUKE

知識拡張型言語モデルLUKE

More Decks by Ikuya Yamada

Other Decks in Technology

Featured

Transcript