Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps ...

Shotaro Ishihara
September 16, 2024

第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11

第 45 回 『事例でわかる MLOps 機械学習の成果をスケールさせる処方箋』出版記念 MLOps 勉強会
イベント: https://mlops.connpass.com/event/328296/
書籍: https://www.amazon.co.jp/dp/4065369568/

Shotaro Ishihara

September 16, 2024
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 石原祥太郎 (日本経済新聞社) 第 45 回 『事例でわかる MLOps 機械学習の成果をス ケールさせる処方箋』出版記念 MLOps

    勉強会 2024 年 10 月 2 日 第 2 部 11 章「大規模言語モ デルの研究開発から実運用に 向けて」に向けて
  2. • 応用事例 (何が嬉しいの?) ◦ 商用 API が充実している時代、独自モデルを 作るには相応の理由が必要 • 継続的な実運用

    (何が困るの?) ◦ 独自モデルに関して発生し得る問題を把握・ 対策しておくのが大切 (特に日本語大規模言語 モデルでは、十分に明らかになっていない) 独自の機械学習モデルを作る 3
  3. プロジェクト変遷と世界の研究動向 2019 2021 2023 日経電子版 BERT BERT Google の先駆的な取り組み 多様なモデルの開発

    や検証、デモや論文 ChatGPT 一般への急速な認知拡大 BloombergGPT 金融情報特化モデル (50B) より大規模な開発や 商用 API の活用 第 0 期 第 1 期 第 2 期 4
  4. • 経済情報特化の生成 AI、日経が開発 40 年分の 記事学習, 日経電子版, 2024 年 4 月

    24 日 • AI 編集支援ツール NIKKEI Tailor について 日経 イノベーション・ラボが Minutes 向けに開発, Minutes by NIKKEI, 2023 年11月 21 日 外部に発信している例 5
  5. 研究開発から実運用へ 6 • 応用事例 (何が嬉しいの?) ◦ 商用 API が充実している時代、独自モデルを 作るには相応の理由が必要

    • 継続的な実運用 (何が困るの?) ◦ 独自モデルに関して発生し得る問題を把握・ 対策しておくのが大切 (特に日本語大規模言語 モデルでは、十分に明らかになっていない)
  6. • 応用事例 (何が嬉しいの?) ◦ GPT-3.5 Turbo など一般的なモデルと比べ、 編集者の文体を模倣した生成を実現した • 継続的な実運用

    (何が困るの?) ◦ 幻覚 (ハルシネーション) の分析 ◦ 時系列の性能劣化 ◦ セキュリティ・著作権 実際に日経では何をしている? 7
  7. 査読付き論文の内容を平易に 8 • 応用事例 (何が嬉しいの?) ◦ GPT-3.5 Turbo など一般的なモデルと比べ、 編集者の文体を模倣した生成を実現

    [1] • 継続的な実運用 (何が困るの?) ◦ 幻覚 (ハルシネーション) の分析 [1] ◦ 時系列の性能劣化 [2] ◦ セキュリティ・著作権 [3]
  8. 1. 石原ら. 日本語ニュース記事要約支援に向けたドメイン特化事前学 習済みモデルの構築と活用. 自然言語処理, 2024, 31巻, 4号. 2. 石原ら.

    Semantic Shift Stability: 学習コーパス内の単語の意味変 化を用いた事前学習済みモデルの時系列性能劣化の監査. 自然言語 処理, 2024, 31巻, 4号. 3. Ishihara et al. Quantifying Memorization and Detecting Training Data of Pre-trained Language Models using Japanese Newspaper. Proceedings of INGL 2024. [paper] 参考文献 9