言語間転移学習で大規模言語モデルを賢くする

山田育矢 (Ikuya Yamada) 言語間転移学習で大規模言語モデルを賢くする Studio Ousia & RIKEN
1

自己紹介山田育矢 (@ikuyamada) Studio Ousiaチーフサイエンティスト理化学研究所AIP客員研究員（知識獲得チーム、言語情報アクセス技術チーム） • 大学入学時にベンチャー企業を起業し売却（2000年〜2006年） ◦
Peer to Peer通信におけるNAT越え問題の研究開発を推進 • Studio Ousiaを共同創業し、自然言語処理に取り組む（2007年〜） ◦ 質問応答・言語モデルを中心とした自然言語処理の研究開発を推進 • 最近の関心：大規模言語モデルへの知識の導入や言語間転移 2 昨年「大規模言語モデル入門」という本を執筆・監修しました

言語間転移学習とは言語間転移学習（cross-lingual transfer learning）: ある言語で学習した知識を他の言語に転移する言語を横断した転移学習 • 多言語コーパスで学習した言語モデルは「言語に依存しない表現」を内部的に獲得することが知られている ◦ 異なる言語で記述された同じ文やそのトークンが近い埋め込みで表現される
◦ ある言語でファインチューニングしたモデルを別の言語でゼロショットで使う • 単言語コーパスを連結したコーパスで学習するだけで言語間転移はおこる ◦ mBERT*は様々な言語のWikipediaを連結したコーパスで訓練されているが言語に依存しない表現を内部的に獲得していることが知られている 3 *BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., NAACL 2019)

言語間転移学習の実際（mBERT） • 知識は言語に依存したパラメータと言語を横断したパラメータの双方で表現されている • 言語を横断して知識を獲得する場合もあるが、性能は言語によって大きくバラツキがある 4 mBERTのmLAMAデータセットでの言語ごとの正解数と訓練コーパス中に該当する知識が含まれている割合 Unraveling Cross-Lingual Dynamics
in Language Models: Independent, Shared and Transferred Factual Knowledge (Zhao et al., EACL 2024)

GPT-4の言語による性能差 GPT-4のMMLUでの言語ごとの3-shot正解率 GPT-4 Technical Report (OpenAI, 2023) 5 英語と日本語で 5.6%の性能差

オープンな日本語LLMの英語と日本語の性能差 6 X-CODAH X-CSQA Belebele MSGM 英語 55.3% 61.7% 41.4%
10.8% 日本語 42.0% 41.0% 39.9% 5.2% （Belebele、MGSM (mgsm_native_cot) はEleutherAI/lm-evaluation-harness、X-CODAH、X-CSQAは自作のコードで評価を実施）常識を評価する質問応答常識を評価する質問応答抽出型読解数学オープンな日本語LLMをパラレルな4つのデータセットにおいて比較した際の性能 X-CODAH X-CSQA Belebele MSGM 英語 54.7% 63.9% 34.7% 13.6% 日本語 42.7% 38.1% 32.1% 0.4% Swallow 7B: CyberAgentLM2 (CALM2) 7B:

7 高資源な言語（≒英語）で学習した知識を他の言語でもっと使えるようにしたい言語間転移の促進

言語間転移を促進するには？ • 人間が新しい言語を習得する際には、辞書や例文から言語同士の対応関係を学ぶ • LLMのコーパスは大規模だが、ほぼ単言語の文書で構成されている LLMの訓練においても、言語間の対応関係を示すデータを明示的に使った方が良いのでは？ 8

言語間転移を促進するために使える資源： • 対訳コーパス • 辞書 • Wikipediaエンティティ言語間転移を促進する資源 9

対訳コーパスによる言語間転移の促進の例: nmT5 10 多言語T5をベースに対訳コーパスを使った4つのタスクで訓練を行う ✓質問応答、パージング、NER、要約、翻訳タスクで性能改善 ✖大きいモデルサイズ（1.3B vs. 3.7B）で性能の改善幅が小さくなったと報告 nmT5 -
Is parallel data still relevant for pre-training massively multilingual language models? (Kale et al., ACL-IJCNLP 2021)

辞書による言語間転移の促進の例: PARADISE 11 PARADISE: Exploiting Parallel Data for Multilingual Sequence-to-Sequence
Pretraining (Reid and Artetxe, NAACL 2022) • mBARTをベースに対訳辞書と対訳コーパスを使った2つのタスクで訓練 ◦ dictionary denoising ◦ bitext denoising • 機械翻訳と多言語自然言語推論タスクにおいて両タスクが性能改善に貢献 dictionary denoising: 辞書を使って入力トークンを他の言語での同義語にランダムに置き換えて元の文を予測 bitext denoising: 対訳テキストの原言語の入力トークンを他の言語での同義語にランダムに置き換えて目的言語のトークンを予測

LEIA: Wikipediaエンティティを使ったデータ拡張による言語間転移の促進 12

13 LEIA: Wikipediaエンティティを使ったデータ拡張 • 任意の対象言語のWikipediaテキストのハイパーリンクの隣に該当する英語名を挿入することでデータ拡張を行う単純な方法 ◦ 特殊トークン<translate>, </translate>で英語名を囲むことで、推論時に英語名を出力する挙動を抑制
◦ 訓練時と推論時の入力の差異を少なくするため一定の確率p skip で挿入を行わない • データ拡張を施したテキストを使った言語モデリング(次トークン予測)でLLMを訓練対象言語のWikipediaテキスト Wikipediaの言語間リンクを使ってリンクに対応する英語名を取得ハイパーリンクの横に英語名を挿入

• Wikipediaは言語間リンクによって異なる言語のエンティティが広範に接続されている ◦ 国に依存しない世界知識の多くに言語間リンクが付与されている • 実験した7つの言語全てにおいて8割以上のハイパーリンクを英語エンティティに解決できた ◦
実験した言語：アラビア語、スペイン語、ヒンディー語、日本語、ロシア語、スワヒリ語、中国語 • Wikipediaを言語間転移の資源として用いる： ◦ 言語間リンク＝対訳辞書 ◦ ハイパーリンク＝対訳辞書の用例 • Wikipediaの言語資源としての特徴： ◦ 常に新しい知識が追加されていく ◦ 300言語以上の幅広い言語で展開されている LEIA: Wikipediaの言語間リンクを言語間転移の資源として使う 14 「カルシウム」のWikipedia言語間リンク https://www.wikidata.org/wiki/Q706

LEIA: データ拡張の直感的な狙い • デコーダLLMの内部では、エンティティ名の最終トークンを処理する際に、そのエンティティに関する知識がMLPから取り出されるという報告*がある • エンティティの英語名を入力系列に挿入することで、英語で学習したエンティティの知識をLLM内部で抽出し適用させる •
英語で学習したエンティティの知識を注意機構を経由して LLM内部で伝播させる 15 *Locating and Editing Factual Associations in GPT (Meng et al., NeurIPS 2022) GPT-2-XLの各層のMLPのトークン単位でのprobing性能への貢献度の視覚化エンティティ名に含まれるトークンの入力埋め込みにノイズを加えた上で対象とする層の隠れ状態をノイズを加えないで処理した際の隠れ状態に差し替えることで各MLPのprobing性能への貢献を調査（詳細は論文参照）

LEIA: 実装上のメリット 16 • 主流になりつつあるデコーダ型LLMに自然に適用できる • LLMの訓練に最適化された実装をそのまま使うことができる

LEIA: 実験に使用したモデル多言語での実験: LLaMA 2 7Bをチューニング • LLaMA 2は膨大な英語中心のコーパスで訓練されており転移可能な英語の知識を多く含んでいると考えられる
• LLaMA 2の訓練コーパスは380億トークン程度の英語以外の多言語テキストを含んでおり多言語LLMとしての性能も高い* 日本語での実験: Swallow 7Bをチューニング • Swallowは日本語900億トークン、英語100億トークンの高品質なコーパスでLLaMA 2に継続学習を施したモデル • 対象言語で十分な訓練を行ったモデルでのLEIAの有効性の評価 • 日本語のより幅広いデータセットを用いて評価 17 *Do Multilingual Language Models Think Better in English? (Table 3) (Etxaniz et al., ArXiv 2023)

LEIA: 多言語実験の設定 LEIAによるデータ拡張を施したWikipediaコーパスで LLaMA 2を訓練・評価 • 訓練に使ったトークン数: 2億トークン • バッチサイズ:
400万トークン • 学習率: 5e-6 • 言語: アラビア語、スペイン語、ヒンディー語、日本語、ロシア語、スワヒリ語、中国語（ヒンディー語、スワヒリ語は低資源言語として扱う） • データセット: 二つの多言語質問応答データセットを使用 ◦ X-CODAH（0-shot） ◦ X-CSQA（4-shot） • ベースライン: ◦ LLaMA 2 ◦ LLaMA 2+FT: データ拡張なしのWikipediaコーパスを使って同一の設定で訓練 18 言語言語族アラビア語 (ar) Afro-Asiatic スペイン語 (es) Indo-European (Italic) ヒンディー語 (hi) Indo-European (Indo-Iranian) 日本語 (ja) Japonic ロシア語 (ru) Indo-European (Balto-Slavic) スワヒリ語 (sw) Niger-Congo 中国語 (zh) Sino-Tibetan 実験に使用した言語とその言語族

LEIA: データ拡張方法の性能への影響実験したデータ拡張方法: • 英語名の挿入方法: ◦ 対象言語のエンティティ名の左側に挿入 ◦ 対象言語のエンティティ名の右側に挿入 ◦
対象言語のエンティティ名を英語名に置換 • 挿入を飛ばす確率: ◦ 飛ばさない（p skip =0.0） ◦ 50%の確率で飛ばす（p skip =0.5）結果: • 英語名の挿入方法は微細な影響しか与えない • 挿入を飛ばしたほうが性能が良いこれ以降では対象言語のエンティティ名の右側に 50%の確率で挿入するモデルのみで実験 19 挿入方法 p skip X-CODAH X-CSQA 左側に挿入 0.0 35.6 30.5 左側に挿入 0.5 36.1 30.6 右側に挿入 0.0 35.8 30.5 右側に挿入 0.5 36.1 30.6 置換 0.0 35.8 30.4 置換 0.5 36.0 30.5 異なる設定を利用した際の 7言語での平均正解率

• X-CODAHの全ての言語とX-CSQAの5/7の言語で性能改善 • データ拡張を行わずに同一の設定で訓練したモデル（LLaMA2+FT）と比較すると双方のデータセットの全ての言語で性能改善 • ヒンディー語とスワヒリ語では訓練前・訓練後の全てのモデルでランダムに選択した場合のベースラインより性能が下回る ◦ これらの言語ではfew-shotタスクをうまくこなせるようになっていないような挙動
LEIA: 多言語実験の結果 20 モデル X-CODAH X-CSQA ar es hi ja ru sw zh ar es hi ja ru sw zh ランダム 25.0 25.0 25.0 25.0 25.0 25.0 25.0 20.0 20.0 20.0 20.0 20.0 20.0 20.0 LLaMA 2 30.3 45.3 29.7 30.3 34.3 28.7 36.7 21.0 45.1 19.1 34.4 36.0 16.0 40.1 LLaMA 2+FT 30.7 ±0.6 45.5 ±0.4 27.2 ±0.2 30.4 ±0.3 34.4 ±0.9 29.0 ±0.1 38.3 ±0.3 21.3 ±0.3 44.8 ±0.2 18.2 ±0.2 34.5 ±0.3 35.7 ±0.3 15.9 ±0.1 39.7 ±0.1 LEIA (LLaMA2) 32.8 ±0.5 46.6 ±0.2 30.6 ±0.2 34.9 ±0.4 37.5 ±0.2 30.4 ±0.2 39.1 ±0.2 21.9 ±0.2 45.7 ±0.1 18.4 ±0.2 35.4 ±0.2 36.1 ±0.2 16.0 ±0.1 40.5 ±0.1 X-CODAHとX-CSQAでの多言語実験の結果。訓練したモデルは5回の訓練での平均正解率と95%信頼区間を記載

LEIA: 日本語実験の設定 21 LEIAによるデータ拡張を施したWikipediaコーパスでSwallowを訓練・評価 • 訓練設定: 多言語実験と同様の設定を使用 • データセット: 多言語実験のデータセットに4つの日本語質問応答データセットを追加
◦ X-CODAH（0-shot） ◦ X-CSQA（4-shot） ◦ JCommonsenseQA（4-shot; JP Language Model Evaluation Harness） ◦ JAQKET（4-shot; JP Language Model Evaluation Harness） ◦ JEMHopQA（4-shot; llm-jp-eval） ◦ NIILC（4-shot; llm-jp-eval） • ベースライン: ◦ Swallow ◦ Swallow+FT: データ拡張なしのWikipediaコーパスを使って同一の設定で訓練

LEIA: 日本語実験結果 22 モデル X-CODAH X-CSQA JCommonse nseQA NIILC JEMHopQA
JAQKET ランダム 25.0 25.0 25.0 25.0 25.0 25.0 Swallow 30.3 45.3 29.7 30.3 34.3 28.7 Swallow+FT 30.7 ±0.6 45.5 ±0.4 27.2 ±0.2 30.4 ±0.3 34.4 ±0.9 29.0 ±0.1 LEIA (Swallow) 32.8 ±0.5 46.6 ±0.2 30.6 ±0.2 34.9 ±0.4 37.5 ±0.2 30.4 ±0.2 • 全てのデータセットにおいて有意に性能が改善日本語実験の結果。訓練したモデルは5回の訓練での平均正解率と95%信頼区間を記載

LEIA: 性能改善の理由の分析 • コーパス中に挿入された英語名は下記の二つの観点で訓練に影響を与える ◦ 次トークン予測のラベルとしての役割: 先行する日本語の文脈からエンティティの英語名を予測することによる転移の促進 ◦ 後続トークン予測時の文脈としての役割: 日本語の文脈にエンティティの英語名の知識を加えることによる言語間転移の促進
• 「次トークン予測のラベルとしての役割」を無効化するため、エンティティの英語名に含まれるトークンを予測する際の損失の伝播を無効化して性能を計測 • 性能はほとんど変化せず、「後続トークン予測時の文脈としての役割」が言語間転移を主に促進していることが示唆される 23 挿入方法 X-CODAH X-CSQA エンティティの英語名において損失の伝播を有効にした場合 36.1 30.6 エンティティの英語名において損失の伝播を無効にした場合 36.0 30.6 多言語実験のモデルの訓練において、エンティティの英語名に含まれるトークンの予測時に損失の伝播を有効化／無効化した場合の7言語での平均正解率

LEIA: 定性分析 24 LLaMA2-FTのX-CODAHでの推定 LEIA (LLaMA2)のX-CODAHでの推定海を沸かせようとしている。海が大好きなんです。海を沸かせようとしている。彼は不可能なことを成し遂げようとしている。イギリスのロンドンにあるエッフェル塔。
エッフェル塔はパリにあります。電話が鳴る音がする。音量を上げてみました。電話が鳴る音がする。私はそれに答える。フードコートに人がいる。その人はマラソンを走っています。フードコートに人がいる。その人はサンドイッチを買う。 • 多言語実験の日本語モデルのX-CODAHでの推定結果を評価 ◦ 候補文の中から最も高い確率を与えた文を推定結果として利用 • 世界に関する常識や事実の英語から日本語へ転移によって性能が改善 ◦ 海を沸かすことはできない ◦ エッフェル塔はパリにある LLaMA2-FTとLEIA (LLaMA2) の日本語X-CODAHにおける推定結果の比較

LEIA: モデルとソースコード Hugging Face HubにてLEIAによる学習を行ったモデルを公開予定 25 ソースコード: https://github.com/studio-ousia/leia LEIA-LLaMA2（多言語） 7Bのモデルを公開予定
LEIA-Swallow（日本語） 7Bと13Bのモデルを公開予定

LEIA: まとめ • 言語間転移を促進する方法としてWikipediaエンティティを使った単純なデータ拡張方法を提案 • 多言語および日本語の幅広い質問応答データセットでの性能向上を確認 • 今後実験したいこと： ◦
大規模コーパスにデータ拡張したWikipediaコーパスを混ぜて事前訓練を行う ◦ エンティティリンキングを使ってWikipedia以外のコーパスに対してハイパーリンクを付与して英語名を挿入した場合の有効性を確認する 26

Studio Ousiaの研究開発の紹介 Studio Ousiaでは、LLMの持つ知識のドメイン転移・言語間転移の改善や LLMの知識の評価を行う研究を進めています • LLMの持つ知識の上手なドメインや言語への適用や、LLMの知識の評価に取り組むことで、研究と実用の双方の側面から役に立つ研究を進めます • NLP
JLRワークショップにて日本語LLMの知識を評価する研究を発表* 「4択クイズを題材にした多肢選択式日本語質問応答データセットの構築」 ◦ 国内のクイズ大会で使用された4択クイズの問題をもとにしたデータセット ◦ 日本特有の事物に関する問題を多く含むため日本固有の知識を評価できる 27 *4択クイズを題材にした多肢選択式日本語質問応答データセットの構築 (鈴木正敏, NLP 日本語言語資源の構築と利用性の向上 2024)

28 [email protected] @ikuyamada 質問やコメント等は下記の連絡先までご連絡ください！ありがとうございました！

言語間転移学習で大規模言語モデルを賢くする

言語間転移学習で大規模言語モデルを賢くする

Ikuya Yamada

More Decks by Ikuya Yamada

Other Decks in Research

Featured

Transcript

山田育矢 (Ikuya Yamada) 言語間転移学習で大規模言語モデルを賢くする Studio Ousia & RIKEN

自己紹介山田育矢 (@ikuyamada) Studio Ousiaチーフサイエンティスト理化学研究所AIP客員研究員（知識獲得チーム、言語情報アクセス技術チーム） • 大学入学時にベンチャー企業を起業し売却（2000年〜2006年） ◦

GPT-4の言語による性能差 GPT-4のMMLUでの言語ごとの3-shot正解率 GPT-4 Technical Report (OpenAI, 2023) 5 英語と日本語で 5.6%の性能差

オープンな日本語LLMの英語と日本語の性能差 6 X-CODAH X-CSQA Belebele MSGM 英語 55.3% 61.7% 41.4%

7 高資源な言語（≒英語）で学習した知識を他の言語でもっと使えるようにしたい言語間転移の促進

言語間転移を促進するために使える資源： • 対訳コーパス • 辞書 • Wikipediaエンティティ言語間転移を促進する資源 9

辞書による言語間転移の促進の例: PARADISE 11 PARADISE: Exploiting Parallel Data for Multilingual Sequence-to-Sequence

LEIA: Wikipediaエンティティを使ったデータ拡張による言語間転移の促進 12

LEIA: 実装上のメリット 16 • 主流になりつつあるデコーダ型LLMに自然に適用できる • LLMの訓練に最適化された実装をそのまま使うことができる

LEIA: 実験に使用したモデル多言語での実験: LLaMA 2 7Bをチューニング • LLaMA 2は膨大な英語中心のコーパスで訓練されており転移可能な英語の知識を多く含んでいると考えられる

LEIA: 多言語実験の設定 LEIAによるデータ拡張を施したWikipediaコーパスで LLaMA 2を訓練・評価 • 訓練に使ったトークン数: 2億トークン • バッチサイズ:

LEIA: データ拡張方法の性能への影響実験したデータ拡張方法: • 英語名の挿入方法: ◦ 対象言語のエンティティ名の左側に挿入 ◦ 対象言語のエンティティ名の右側に挿入 ◦

LEIA: 日本語実験結果 22 モデル X-CODAH X-CSQA JCommonse nseQA NIILC JEMHopQA

LEIA: モデルとソースコード Hugging Face HubにてLEIAによる学習を行ったモデルを公開予定 25 ソースコード: https://github.com/studio-ousia/leia LEIA-LLaMA2（多言語） 7Bのモデルを公開予定

LEIA: まとめ • 言語間転移を促進する方法としてWikipediaエンティティを使った単純なデータ拡張方法を提案 • 多言語および日本語の幅広い質問応答データセットでの性能向上を確認 • 今後実験したいこと： ◦

28 [email protected] @ikuyamada 質問やコメント等は下記の連絡先までご連絡ください！ありがとうございました！