Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(2022-05-28 Machine Learning 15Minutes!) 日本語ニュース分類から見る多言語モデル

Wataru Hirota
May 28, 2022
74

(2022-05-28 Machine Learning 15Minutes!) 日本語ニュース分類から見る多言語モデル

Wataru Hirota

May 28, 2022
Tweet

Transcript

  1. © 2022 Stockmark Inc. Stockmark ͸ ニュース x NLP の会社です

    • toB 情報収集プラットフォーム Anews / Astrategy を運営 • Stockmark Research (研究組織) には現在 8 人の NLP 研究者が在籍 Astrategy の画面例
  2. © 2022 Stockmark Inc. ରԠݴޠΛ֦ு͢Δίετ͸ߴ͍ͨΊɺଟݴޠϞσϧͷݕ౼Λ։࢝ • モデル数が (言語数)*(タスク数) だけ必要になり、管理コストが増える •

    全ての {言語, タスク} で十分なデータが得られるとは限らない 多言語モデルの導入でこれらの問題を解決できないか?
  3. © 2022 Stockmark Inc. ଟݴޠϞσϧ: ෳ਺ݴޠΛѻ͏ݴޠϞσϧ 単言語モデル → 言語ごとにモデルが必要 Hello!

    你好! こんにちは! 英語 モデル 中国語 モデル 日本語 モデル 多言語モデル → 複数言語を受け付ける 多言語モデル Hello! 你好! こんにちは! ※以降では BERT などの事前学習済み言語モデルを単に言語モデルと呼びます
  4. © 2022 Stockmark Inc. mBERT (ଟݴޠ BERT) ͸ଟ͘ͷݴޠͰͷλεΫͰߴ͍ੑೳΛൃش • mBERT

    (Devlin+ NAACL 2019) • 多言語モデルの1つ • 104 ヶ国語の Wikipedia 記事上で事前学習 • 言語間の橋渡し (翻訳など) はしていないにもかかわらず、 • zero-shot transfer が多くの言語間で成功 (Pires+ ACL 2019) • 語彙のオーバーラップがほとんどない言語対でも転移◎ (Pires+ ACL 2019) • 省リソースの下流タスクでの性能は 単言語の BERT より mBERT の方が高い (Wu and Dredze EMNLP 2019)
  5. © 2022 Stockmark Inc. লϦιʔεݴޠʹ͓͚Δ mBERT ͷϙςϯγϟϧ͸զʑͷγφϦΦͱ߹க • Wikipedia コーパスが小さい言語での性能は

    単言語の BERT より mBERT の方が高い (Wu and Dredze EMNLP 2019) 1つのタスクで複数言語が必要な弊社で応用できるのでは? IDEA
  6. © 2022 Stockmark Inc. ೔ຊޠͷχϡʔε෼ྨͰଟݴޠϞσϧͷӳޠ 㲗 ೔ຊޠؒͷసҠੑೳΛݕূ 方法1 日本語データで fine-tune

    多言語モデル 円相場が急落中 カテゴリ: 経済 多言語モデル New medicine for COVID-19 カテゴリ: 医療 カテゴリ: 経済 円相場が急落中 方法2 英語データ*で fine-tune そのあと、日本語データで fine-tune 方法1と方法2で精度が変わるか? 検証 *http://archive.ics.uci.edu/ml/datasets/News+Aggregator
  7. © 2022 Stockmark Inc. ຊݕূͰ͸ଟݴޠϞσϧͱͯ͠ mBERT ͱ XLM-RoBERTa Λ࢖༻ •

    mBERT (Devlin+ NAACL 2019) https://huggingface.co/bert-base-multilingual-cased • XLM-RoBERTa (Conneau+ ACL 2020) 100言語の Common Crawl データで事前学習済み https://huggingface.co/xlm-roberta-base Hugging Face 上の2大人気モデル
  8. © 2022 Stockmark Inc. ݁Ռ: ೔ຊޠσʔλͷαΠζ͕খ͍͞ͱ͖ɺ ӳޠσʔλͰͷࣄલֶशͷޮՌ͕େ͖͍ 1クラスあたりの 日本語の学習インスタンス数 日本語データが少ない

    (K<20) 場合 英語での事前学習の効果が大きい 英語で事前学習あり 英語で事前学習なし 日本語テストデータ での Accuracy
  9. © 2022 Stockmark Inc. ӳޠσʔλͱ೔ຊޠσʔλͰ࿩୊͕ࣅ͍ͯΔΧςΰϦͰ͸సҠੑೳ͕ߴ͘ɺ ೔ຊࠃ಺ಛ༗ͷ࿩୊ΛؚΉΧςΰϦͰ͸సҠੑೳ͕௿͍ • business, science →

    K=0 でも精度が高い (英語データの効果大) • education, travel → K=0では精度が低く, K=100で向上 (日本語データが必要) ラベル別の Precision
  10. © 2022 Stockmark Inc. Stockmark ͸ଞʹ΋༷ʑͳ NLP ٕज़ʹऔΓ૊ΜͰ͍·͢ ニュース記事から 知識グラフを構築

    (東北大 乾教授と共同研究中) テキスト生成の研究 (産総研石垣氏がアドバイザーに就任) 社内に大量のニュースコーパスがあり、 まだまだたくさんの面白い NLP 課題が残っています! ぜひ採用ページ ( stockmark.co.jp/recruit ) もご覧ください!
  11. © 2022 Stockmark Inc. ࢀߟจݙ • (Devlin+ NAACL 2019) Jacob

    Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL. • (Conneau+ ACL 2020) Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov. Unsupervised Cross-lingual Representation Learning at Scale. In Proceedings of ACL 2020. • (Wu and Dredze 2019) Shijie Wu, Mark Dredze. Beto, Bentz, Becas: The Surprising Cross- Lingual Effectiveness of BERT. In Proceedings of EMNLP. 2019. • (Pires+ 2019) Telmo Pires, Eva Schlinger and Dan Garrette. How multilingual is Multilingual BERT? In Proceedings of NAACKL 2019. • (Fabio DMKD 2017) Fabio Gasparetti. Modeling user interests from web browsing activities. Data Mining and Knowledge Discovery. 2017.