Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第16回最先端NLP勉強会_スポンサー公開資料

株式会社ELYZA
August 28, 2024
350

 第16回最先端NLP勉強会_スポンサー公開資料

2024年8月25日開催の第16回最先端NLP勉強会にスポンサーとしてELYZAも参加をいたしました。
その際にスポンサーとして自社紹介と直近の取り組みを発表した資料です。

株式会社ELYZA

August 28, 2024
Tweet

Transcript

  1. 2 ©2024 ELYZA,Inc 本日の現地参加メンバー 大葉 大輔 株式会社ELYZA 研究開発Gr 東京大学大学院 情報理工学系研究科

    博士後期課程 修了。博士(情報理工学)。在学中、学術振興会特別研 究員(DC2)に採用。自然言語処理の研究を専門とし、 国際学会の採択経験あり。同大学にて特別研究員を 務めたのち、ELYZAに参画。 ELYZAでは大規模言語モデルの研究開発を担当。 平川 雅人 株式会社ELYZA 研究開発Gr Mgr 東京大学大学院工学系研究科 松尾研究室 修士卒。 モデル圧縮や宝くじ仮説に関する研究に従事。在学中、 東大松尾研主催のGCIを優秀生として修了。 ELYZAでは大手企業との共同研究PJTのマネジメン トに複数携わった後、現在は大規模言語モデルの研究 開発を担当。
  2. 7 ©2024 ELYZA,Inc 「Llama-3-ELYZA-JP」シリーズの公開 今年6月、Meta社のLlama 3 (8B/70B) をベースに2つのモデルを開発 8Bは商用利用可能な形で一般公開、70Bはデモサイトを無料解放 研究開発

    Llama-3-ELYZA-JP-8B Llama-3-ELYZA-JP-70B デモサイト: https://elyza.ai/lp/elyza-llm-for-jp HF: https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B 研究 開発 1
  3. 8 ©2024 ELYZA,Inc 「Llama-3-ELYZA-JP」シリーズの性能 70Bモデルは「GPT-4」などの主要グローバルモデルを上回るスコアを達成。 8Bモデルは、「GPT-3.5 Turbo」に匹敵するスコアを達成した 70Bモデル 8Bモデル 研究

    開発 1 ※ ELYZA-Tasks-100は、「GPT-4o」による自動評価結果 ※ Japanese MT-Bench評価の際は、Japanese MT-Bench のリポジトリのコードベースを使用。
  4. 10 ©2024 ELYZA,Inc GENIAC: Depth Up-Scaling (1/2) 継続学習にモデルのスケールアップを組み合わせることで、既存モデルから 到達可能な性能のトップラインを引き上げる試み 研究

    開発 1 0-80 80層 140層 0-10 5-15 10-20 60-70 65-75 70-80 ・・・ Depth Up-Scaling [1] Up-scaling Llama-3-120B の継続事前学習 「Meta-Llama-3-70B-Instruct」をベースにスケールアップ • mergekitのpassthroughを使用し、層を部分的に重複させながら積む • 右図の設定で、Llama-3-120B (1,220億パラメータ) を作成 Llama-3-120Bに対し、約150Bトークンの追加事前学習と、事後学習を実施 [1] https://arxiv.org/abs/2312.15166
  5. 11 ©2024 ELYZA,Inc GENIAC: Depth Up-Scaling (2/2) 120Bモデルは70Bモデルより学習効率が高く、最終的に得られたモデルは、 70Bモデルや「GPT-4」を上回る性能を達成 FLOPsごとの訓練誤差

    最終モデルの性能評価結果 初期は70Bモデルのlossの方が低いが、 120Bモデルの方がより速くlossが減衰 ※ 「nejumi-v3」は、wandb/llm-leaderboardを使用して算出し、「汎用的言語性能(GLP)_AVG」を参照 ※ 「Llama-3-ELYZA-JP-70B」「GPT-4」「GPT-4o」はリリース時のスコアを引用 ※ この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の「ポスト5G情報通信システム基 盤強化研究 開発事業」 JPNP 20017 )の助成事業の結果得られたものです。 研究 開発 1
  6. 12 ©2024 ELYZA,Inc GENIAC: 日本の知識に関する特化学習 日本特有の知識 (法令、行政手続き等) に関する特化学習を実施。応答性能 を測るため、ベンチマークを新たに作成し評価に用いた 背景

    日本語ベンチマークの評価 研究 開発 1 課題 原因仮説 方法 評価方法 グローバルモデルの、日本の文化や言語に関する タスクへの低い応答性能 事前学習コーパスにおいて、法令や行政手続きな どの日本特化情報に関する網羅性が高くない 1. 政府省庁サイトからの法令・行政テキスト収集 2. 指示学習データの生成 3. 特化学習の実施 日本のローカルルールに関する知識と、その活用 に関する計30問のベンチマークを作成 [例] 事故で片足を失い義足を作ったのですが、 義足は高額療養費の対象となりますか? ※ 評価は、「GPT-4」による自動評価を実施 ※ 「contextあり」は、必要な情報が含まれるテキストを、回答時のpromptに挿入した場合 • 特化学習により、知識の焼き付けには一定成功している • 一方で、「contextあり」のスコアは低く、知識の活用に関し てはまだ課題がある
  7. 13 ©2024 ELYZA,Inc ELYZAの社会実装 日系大手企業との取り組み多数。PoCにとどまらず、実業務への導入を多数 実現しており、それらは自社のApp Platform上で実装されている 大手企業との共同研究 自社プロダクト (App

    Platform) (ほか、大手メディア、大手製薬メーカー、精密化学メーカーなどで導入) 『ELYZA App Platform』 LLM実用化プラットフォーム 社会 実装 2
  8. 15 ©2024 ELYZA,Inc 主な支援実績: 三井住友カード (2/2) 問い合わせメールへの回答草案を生成するRAGシステムを構築。クエリ拡 張・Rank fusion・リランキング等を組み合わせ、実用レベルの精度を達成 生成AI技術を活用し、

    コンタクトセンター業務の高度化・効率化を促進 with生成AI 従来 お客様 オペレーター オペレーター 回答生成AI お客様 問い合わせ 回答 問い合わせ 回答 問い合わせ内容流し込み 業務フロー 内容検討 回答の元となる 情報抽出 草案作成 草案作成 最終文面作成 回答の元となる 情報抽出 社内情報参照 推敲 最終文面作成 推敲 探索AI 草案提示 RAG 社会 実装 2