(2022-05-28 Machine Learning 15Minutes!) 日本語ニュース分類から見る多言語モデル

Wataru Hirota 日本語ニュース分類から見る多言語モデル 2022-05-28 Machine Learning 15minutes! Broadcast 詳しい内容はテックブログにあります
https://tech.stockmark.co.jp/blog/multilingual-language-models/

© 2022 Stockmark Inc. Stockmark ͸ ニュース x NLP の会社です
• toB 情報収集プラットフォーム Anews / Astrategy を運営 • Stockmark Research (研究組織) には現在 8 人の NLP 研究者が在籍 Astrategy の画面例

© 2022 Stockmark Inc. ରԠݴޠΛ֦ு͢Δίετ͸ߴ͍ͨΊɺଟݴޠϞσϧͷݕ౼Λ։࢝ • モデル数が (言語数)*(タスク数) だけ必要になり、管理コストが増える •
全ての {言語, タスク} で十分なデータが得られるとは限らない多言語モデルの導入でこれらの問題を解決できないか？

© 2022 Stockmark Inc. ଟݴޠϞσϧ: ෳ਺ݴޠΛѻ͏ݴޠϞσϧ 単言語モデル → 言語ごとにモデルが必要 Hello!
你好! こんにちは! 英語モデル中国語モデル日本語モデル多言語モデル → 複数言語を受け付ける多言語モデル Hello! 你好! こんにちは! ※以降では BERT などの事前学習済み言語モデルを単に言語モデルと呼びます

© 2022 Stockmark Inc. mBERT (ଟݴޠ BERT) ͸ଟ͘ͷݴޠͰͷλεΫͰߴ͍ੑೳΛൃش • mBERT
(Devlin+ NAACL 2019) • 多言語モデルの1つ • 104 ヶ国語の Wikipedia 記事上で事前学習 • 言語間の橋渡し (翻訳など) はしていないにもかかわらず、 • zero-shot transfer が多くの言語間で成功 (Pires+ ACL 2019) • 語彙のオーバーラップがほとんどない言語対でも転移◎ (Pires+ ACL 2019) • 省リソースの下流タスクでの性能は単言語の BERT より mBERT の方が高い (Wu and Dredze EMNLP 2019)

© 2022 Stockmark Inc. লϦιʔεݴޠʹ͓͚Δ mBERT ͷϙςϯγϟϧ͸զʑͷγφϦΦͱ߹க • Wikipedia コーパスが小さい言語での性能は
単言語の BERT より mBERT の方が高い (Wu and Dredze EMNLP 2019) 1つのタスクで複数言語が必要な弊社で応用できるのでは？ IDEA

© 2022 Stockmark Inc. ೔ຊޠͷχϡʔε෼ྨͰଟݴޠϞσϧͷӳޠ 㲗 ೔ຊޠؒͷసҠੑೳΛݕূ 方法1 日本語データで fine-tune
多言語モデル円相場が急落中カテゴリ: 経済多言語モデル New medicine for COVID-19 カテゴリ: 医療カテゴリ: 経済円相場が急落中方法2 英語データ*で fine-tune そのあと、日本語データで fine-tune 方法1と方法2で精度が変わるか？検証 *http://archive.ics.uci.edu/ml/datasets/News+Aggregator

© 2022 Stockmark Inc. ຊݕূͰ͸ଟݴޠϞσϧͱͯ͠ mBERT ͱ XLM-RoBERTa Λ࢖༻ •
mBERT (Devlin+ NAACL 2019) https://huggingface.co/bert-base-multilingual-cased • XLM-RoBERTa (Conneau+ ACL 2020) 100言語の Common Crawl データで事前学習済み https://huggingface.co/xlm-roberta-base Hugging Face 上の2大人気モデル

© 2022 Stockmark Inc. ݁Ռ: ೔ຊޠσʔλͷαΠζ͕খ͍͞ͱ͖ɺ ӳޠσʔλͰͷࣄલֶशͷޮՌ͕େ͖͍ 1クラスあたりの日本語の学習インスタンス数日本語データが少ない
(K<20) 場合英語での事前学習の効果が大きい英語で事前学習あり英語で事前学習なし日本語テストデータでの Accuracy

© 2022 Stockmark Inc. ӳޠσʔλͱ೔ຊޠσʔλͰ࿩୊͕ࣅ͍ͯΔΧςΰϦͰ͸సҠੑೳ͕ߴ͘ɺ ೔ຊࠃ಺ಛ༗ͷ࿩୊ΛؚΉΧςΰϦͰ͸సҠੑೳ͕௿͍ • business, science →
K=0 でも精度が高い (英語データの効果大) • education, travel → K=0では精度が低く, K=100で向上 (日本語データが必要) ラベル別の Precision

© 2022 Stockmark Inc. Takeaways • 多言語モデルを使うことで、別言語の教師データが使える • 検証結果: 英語データで日本語ニュース分類の精度が向上した
• 特に日本語データが少ないときに英語データの効果が大きかった

© 2022 Stockmark Inc. Stockmark ͸ଞʹ΋༷ʑͳ NLP ٕज़ʹऔΓ૊ΜͰ͍·͢ ニュース記事から知識グラフを構築
(東北大乾教授と共同研究中) テキスト生成の研究 (産総研石垣氏がアドバイザーに就任) 社内に大量のニュースコーパスがあり、まだまだたくさんの面白い NLP 課題が残っています！ぜひ採用ページ ( stockmark.co.jp/recruit ) もご覧ください！

© 2022 Stockmark Inc. ࢀߟจݙ • (Devlin+ NAACL 2019) Jacob
Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL. • (Conneau+ ACL 2020) Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov. Unsupervised Cross-lingual Representation Learning at Scale. In Proceedings of ACL 2020. • (Wu and Dredze 2019) Shijie Wu, Mark Dredze. Beto, Bentz, Becas: The Surprising Cross- Lingual Effectiveness of BERT. In Proceedings of EMNLP. 2019. • (Pires+ 2019) Telmo Pires, Eva Schlinger and Dan Garrette. How multilingual is Multilingual BERT? In Proceedings of NAACKL 2019. • (Fabio DMKD 2017) Fabio Gasparetti. Modeling user interests from web browsing activities. Data Mining and Knowledge Discovery. 2017.

(2022-05-28 Machine Learning 15Minutes!) 日本語ニュー...

(2022-05-28 Machine Learning 15Minutes!) 日本語ニュース分類から見る多言語モデル

Wataru Hirota

More Decks by Wataru Hirota

Featured

Transcript

Wataru Hirota 日本語ニュース分類から見る多言語モデル 2022-05-28 Machine Learning 15minutes! Broadcast 詳しい内容はテックブログにあります

© 2022 Stockmark Inc. Stockmark ͸ ニュース x NLP の会社です

© 2022 Stockmark Inc. ֎ࠃޠϝσΟΞ͔Βͷ৘ใऩूʹର͢Δཁ๬͕ଟ͘ɺ ͜Ε·Ͱ೔ຊޠͷΈରԠ͍ͯͨ͠ NLP ϞσϧΛଟݴޠ֦ு͢Δඞཁ͕͋Δ

© 2022 Stockmark Inc. ରԠݴޠΛ֦ு͢Δίετ͸ߴ͍ͨΊɺଟݴޠϞσϧͷݕ౼Λ։࢝ • モデル数が (言語数)*(タスク数) だけ必要になり、管理コストが増える •

© 2022 Stockmark Inc. ଟݴޠϞσϧ: ෳ਺ݴޠΛѻ͏ݴޠϞσϧ 単言語モデル → 言語ごとにモデルが必要 Hello!

© 2022 Stockmark Inc. mBERT (ଟݴޠ BERT) ͸ଟ͘ͷݴޠͰͷλεΫͰߴ͍ੑೳΛൃش • mBERT

© 2022 Stockmark Inc. লϦιʔεݴޠʹ͓͚Δ mBERT ͷϙςϯγϟϧ͸զʑͷγφϦΦͱ߹க • Wikipedia コーパスが小さい言語での性能は

© 2022 Stockmark Inc. ೔ຊޠͷχϡʔε෼ྨͰଟݴޠϞσϧͷӳޠ 㲗 ೔ຊޠؒͷసҠੑೳΛݕূ 方法1 日本語データで fine-tune

© 2022 Stockmark Inc. ຊݕূͰ͸ଟݴޠϞσϧͱͯ͠ mBERT ͱ XLM-RoBERTa Λ࢖༻ •

© 2022 Stockmark Inc. ݁Ռ: ೔ຊޠσʔλͷαΠζ͕খ͍͞ͱ͖ɺ ӳޠσʔλͰͷࣄલֶशͷޮՌ͕େ͖͍ 1クラスあたりの日本語の学習インスタンス数日本語データが少ない

© 2022 Stockmark Inc. ӳޠσʔλͱ೔ຊޠσʔλͰ࿩୊͕ࣅ͍ͯΔΧςΰϦͰ͸సҠੑೳ͕ߴ͘ɺ ೔ຊࠃ಺ಛ༗ͷ࿩୊ΛؚΉΧςΰϦͰ͸సҠੑೳ͕௿͍ • business, science →

© 2022 Stockmark Inc. ೔ຊޠͰ fine-tune ͯ͠΋ӳޠͰେ͖ͳσάϨ͸ݟΒΕͳ͍ 精度低下は 5ポイント程度英語データセットでの

© 2022 Stockmark Inc. Takeaways • 多言語モデルを使うことで、別言語の教師データが使える • 検証結果: 英語データで日本語ニュース分類の精度が向上した

© 2022 Stockmark Inc. Stockmark ͸ଞʹ΋༷ʑͳ NLP ٕज़ʹऔΓ૊ΜͰ͍·͢ ニュース記事から知識グラフを構築

© 2022 Stockmark Inc. ࢀߟจݙ • (Devlin+ NAACL 2019) Jacob