Slide 1

Slide 1 text

1 ©2024 ELYZA,Inc 「未踏の領域で、あたりまえを創る」 Confidential GENIAC最終報告会 2024/09/10

Slide 2

Slide 2 text

2 ©2024 ELYZA,Inc ELYZAの紹介

Slide 3

Slide 3 text

3 ©2024 ELYZA,Inc 会社紹介:ELYZA 2018年9月に東京大学 松尾研究室からスピンアウトしたAIカンパニー 読み方:イライザ

Slide 4

Slide 4 text

4 ©2024 ELYZA,Inc 会社紹介:ELYZAの活動 2019年から大規模言語モデル(LLM)について 研究開発・社会実装の両軸で活動を実施

Slide 5

Slide 5 text

5 ©2024 ELYZA,Inc 会社紹介:KDDIグループへの参画 今年の4月からKDDIグループと資本業務提携を実施。KDDIグループとの 協業によってELYZAの活動を加速

Slide 6

Slide 6 text

6 ©2024 ELYZA,Inc 2019年からLLMの研究開発を行い、成果を都度公開してきました。 研究開発:ELYZAのLLM研究開発の歩み

Slide 7

Slide 7 text

7 ©2024 ELYZA,Inc 「Llama-3-ELYZA-JP」シリーズの公開 今年6月、Meta社のLlama 3 (8B/70B) をベースに2つのモデルを開発 8Bは商用利用な形で一般公開、70Bはデモサイトを無料解放 研究開発 Llama-3-ELYZA-JP-8B Llama-3-ELYZA-JP-70B デモサイト: https://elyza.ai/lp/elyza-llm-for-jp HF: https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B

Slide 8

Slide 8 text

8 ©2024 ELYZA,Inc 「Llama-3-ELYZA-JP」シリーズの性能 70Bモデルは「GPT-4」などの主要グローバルモデルを上回るスコアを達成 8Bモデルは、「GPT-3.5 Turbo」に匹敵するスコアを達成した 70Bモデル 8Bモデル ※ ELYZA-Tasks-100は、「GPT-4o」による自動評価結果 ※ Japanese MT-Bench評価の際は、Japanese MT-Bench のリポジトリのコードベースを使用。

Slide 9

Slide 9 text

9 ©2024 ELYZA,Inc 社会実装:成果・導入事例 LLMの導入を推し進めており、 業務効率を30〜50%効率化を達成した事例が複数

Slide 10

Slide 10 text

10 ©2024 ELYZA,Inc GENIACにおける成果報告

Slide 11

Slide 11 text

11 ©2024 ELYZA,Inc Geniacでの取り組み概要 日本でインフラとして「使われる」基盤モデルの構築を目指す モデルの基礎能力向上 日本特有の知識・表現の性能向上 ・ 日本での社会実装を見据え、法令・行政手続きに関する特化学習 ・ 日本のローカルルールのベンチマークでGPT-4超えを目指す ・ 継続学習+モデルサイズ拡張により、性能のトップラインを引き上げ ・一般的な指標でGPT-4を超えるスコアの獲得を目指す 1 2

Slide 12

Slide 12 text

12 ©2024 ELYZA,Inc Geniacでの取り組み概要 日本でインフラとして「使われる」基盤モデルの構築を目指す モデルの基礎能力向上 日本特有の知識・表現の性能向上 ・ 日本での社会実装を見据え、法令・行政手続きに関する特化学習 ・ 日本のローカルルールのベンチマークでGPT-4超えを目指す ・ 継続学習+モデルサイズ拡張により、性能のトップラインを引き上げ ・一般的な指標でGPT-4を超えるスコアの獲得を目指す 1 2

Slide 13

Slide 13 text

13 ©2024 ELYZA,Inc モデル開発の基本方針 グローバルのオープンモデルをベースに、追加で日本語を事前学習させ、 独自の事後学習を実施し日本語に強いモデルを開発する オープン モデル 日本語化 モデル ELYZA独自の データセット 事後学習 Llamaシリーズ等 日本語データ 追加事前学習

Slide 14

Slide 14 text

14 ©2024 ELYZA,Inc モデルのサイズ拡張 継続学習アプローチにモデルのサイズ拡張を組み合わせることで、 既存モデルから到達可能な性能のトップラインを引き上げる オープン モデル 日本語化 モデル Depth Up-Scaling モデルサイズ拡張 ELYZA独自の データセット 事後学習 日本語データ 追加事前学習 オープン モデル 日本語化 モデル ELYZA独自の データセット 事後学習 Llama-3-70B 日本語データ 追加事前学習 Llama-3-ELYZA-JP-70B Llama-3-70B Llama-3-ELYZA-JP-120B 通常 今回

Slide 15

Slide 15 text

Depth Up-Scaling 研究 開発 0-80 0-10 5-15 10-20 60-70 65-75 70-80 ・・・
 Up-scaling 「Meta-Llama-3-70B-Instruct」をベースにスケールアップ • mergekitのpassthroughを使用し、層を部分的に重複させながら積む • 右図の設定で、Llama-3-120B (1,220億パラメータ) を作成 Llama-3-120Bに対し、約150Bトークンの追加事前学習と、事後学習を実施 [1] https://arxiv.org/abs/2312.15166 15 ©2024 ELYZA,Inc Llama-3-120B の継続事前学習 Depth Up-Scaling[1] 80層 140層 「Meta-Llama-3-70B-Instruct」をベースに、 層を部分的に重複させながら積むことで120Bモデルを作成

Slide 16

Slide 16 text

Llama-3-ELYZA-JP-120Bの結果 ※ 「nejumi-v3」は、wandb/llm-leaderboardを使用して算出し、「汎用的言語性能(GLP)_AVG」を参照 ※ 「Llama-3-ELYZA-JP-70B」「GPT-4」「GPT-4o」は「Llama-3-ELYZA-JP」のリリース時のスコアを引用 研究 開発 16 ©2024 ELYZA,Inc 70Bモデルや「GPT-4」を上回る性能を達成

Slide 17

Slide 17 text

モデルの出力例:プログラミング 研究 開発 17 条件を指定したコード生成などもできている

Slide 18

Slide 18 text

モデルの出力例:プログラミング 研究 開発 18 条件を指定したコード生成などもできている

Slide 19

Slide 19 text

モデルの出力例:情報の構造化 研究 開発 19 複雑な指示に従い、抽出や要約を行い、JSONで出力 https://www.meti.go.jp/policy/mono_info_service/geniac/geniac_magazine/interimreport_1.html

Slide 20

Slide 20 text

モデルの出力例:情報の構造化 研究 開発 20 複雑な指示に従い、抽出や要約を行い、JSONで出力

Slide 21

Slide 21 text

21 ©2024 ELYZA,Inc Geniacでの取り組み概要 日本でインフラとして「使われる」基盤モデルの構築を目指す モデルの基礎能力向上 日本特有の知識・表現の性能向上 ・ 日本での社会実装を見据え、法令・行政手続きに関する特化学習 ・ 日本のローカルルールのベンチマークでGPT-4超えを目指す ・ 継続学習+モデルサイズ拡張により、性能のトップラインを引き上げ ・一般的な指標でGPT-4を超えるスコアの獲得を目指す 1 2

Slide 22

Slide 22 text

22 ©2024 ELYZA,Inc 日本特有のタスクの例 基礎性能の高いLLMでも難易度が高い、日本での社会実装で 必要となり得るタスクの洗い出しを実施 カテゴリ 日本の法律 日本の制度 行政手続き サブカルチャーに関する知識 敬語やビジネスマナーなどの繊細な表現 漢字、平仮名、ローマ字、オノマトペ等 文字数の制限に従う 膨大な指示に漏れなく従うタスク 極めて難しい読解問題 検索が困難な質問 (RAGを想定) 項目 1. 日本のローカルルールに 関する知識とその活用 2. 日本語・日本文化に関する 理解 3. 言語に依らず困難なタスク • 「日本で鉄道事業を始めるにあたって注意点を 教えて」 • 「裁判所法第1条を答えてください」 具体例 • 「ちいかわのハチワレについて教えて」 • メールで疑問文に対して「?」を使ってしまう • 「AIについて18文字以上20文字以内で説明し て」 • 以下の条件を満たす文章を書いてください。 - 全体で10行、13文 - 最初の行と最後の行は空行ではない...

Slide 23

Slide 23 text

23 ©2024 ELYZA,Inc 日本特有のタスクの例 自社の社会実装での経験や課題感も踏まえ、 日本のローカルルールに関する知識とその活用に焦点 カテゴリ 日本の法律 日本の制度 行政手続き サブカルチャーに関する知識 敬語やビジネスマナーなどの繊細な表現 漢字、平仮名、ローマ字、オノマトペ等 文字数の制限に従う 膨大な指示に漏れなく従うタスク 極めて難しい読解問題 検索が困難な質問 (RAGを想定) 項目 1. 日本のローカルルールに 関する知識とその活用 2. 日本語・日本文化に関する 理解 3. 言語に依らず困難なタスク • 「日本で鉄道事業を始めるにあたって注意点を 教えて」 • 「裁判所法第1条を答えてください」 具体例 • 「ちいかわのハチワレについて教えて」 • メールで疑問文に対して「?」を使ってしまう • 「AIについて18文字以上20文字以内で説明し て」 • 以下の条件を満たす文章を書いてください。 - 全体で10行、13文 - 最初の行と最後の行は空行ではない...

Slide 24

Slide 24 text

24 ©2024 ELYZA,Inc 日本の知識に関する特化学習 研究 開発 ベンチマークの評価 評価方法 1. 政府省庁サイトからの法令・行政テキスト収集 2. 指示学習データの生成 3. 特化学習の実施 日本のローカルルールに関する知識と、その活用 に関する計30問のベンチマークを作成 [例] 事故で片足を失い義足を作ったのですが、 義足は高額療養費の対象となりますか? ※ 評価は、「GPT-4」による自動評価を実施 ※ 「contextあり」は、必要な情報が含まれるテキストを、回答時のpromptに挿入した場合 • 特化学習により、知識の焼き付けには一定成功している • 一方で、「contextあり」のスコアは低く、知識の活用に関し てはまだ課題がある 24 ©2024 ELYZA,Inc 日本特有の知識(法令、行政手続き等)に関する特化学習を実施。 応答性能を測るため、ベンチマークを新たに作成し評価に用いた アプローチ 学習方法 [例] 副業などをしていなく、普通に企業勤めを している場合は確定申告はしなくていいんでし たっけ? 自分は50歳の男性で、家族構成は妻と子供が 2人います。所得は2,500万円です。

Slide 25

Slide 25 text

25 ©2024 ELYZA,Inc 出力事例 義足は高額療養費の対象となります。 高額療養費とは、医療機関や薬局の窓口で支払っ た額が、ひと月(月の初めから終わりまで)で上限 額を超えた場合に、その超えた金額を支給する制 度です。義足はその支給対象に含まれています。 ただし、対象となるのは、医師の指示・処方に基づ いて購入した義足に限られます。詳しくは、加入し ている健康保険組合等にご相談ください。 日本の健康保険制度では、義足や義手などの補装具は 高額療養費の対象には含まれません。これらは「看護・ リハビリテーションを目的とする施設等における食事・ 宿泊・入浴などの費用」や「予防接種・人間ドック・健康 診断の費用」などと同様に自己負担となります。 補装具の費用については、一部が健康保険適用となり ますが、全額が補償されるわけではありません。また、 各自治体により、障害者支援のための補助金制度や免 税措置が設けられていることがあるため、詳細は各自 治体の窓口に問い合わせることをおすすめします。 事故で片足を失い義足を作ったのですが、義足は高額療養費の対象となりますか ELYZAモデル GPT-4

Slide 26

Slide 26 text

26 ©2024 ELYZA,Inc 出力事例 日本国憲法第81条は、最高裁判所について規定し た条文です。 「最高裁判所は、一切の法律、命令、規則又は処分 が憲法に適合するかしないかを決定する権限を有 する終審裁判所である。」 日本国憲法第81条は、「すべての裁判について最終的 な判断を下す権限を最高裁判所に与える。」と規定して います。全文は以下の通りです。 「すべての裁判について、最終的な判断を下す権利は、 最高裁判所に属する。」 日本国憲法第81条を答えて ELYZAモデル GPT-4

Slide 27

Slide 27 text

27 ©2024 ELYZA,Inc Geniacでの成果まとめ 日本でインフラとして「使われる」基盤モデルの構築を目指す • 継続学習アプローチにDepth Up-Scalingによるモデルサイズ拡張を組み 合わせることで、既存モデルから到達可能な性能のトップラインを引き上げ る試みを実施。 • Japanese MT-Bench, ELYZA-Tasks-100, Nejumi-v3それぞれに 対して、GPT-4を上回るスコアを達成 モデルの基礎能力向上 日本特有の知識・表現 の性能向上 • 基礎性能の高いLLMでも難易度が高い、日本での社会実装で必要となり得 るタスクの洗い出しを実施 • 弊社のLLMの社会実装経験も踏まえ、インパクトの大きさから「日本のロー カルルールに関する知識とその活用」に焦点をあて、ベンチマークを作成 • 法令や行政手続き等の特化学習を実施し、GPT-4を上回るスコアを達成 - 一方、Contextの知識の活用にはまだ課題が残る 実施事項 取り組み内容

Slide 28

Slide 28 text

28 ©2024 ELYZA,Inc 今後の展開 作成した日本語モデルを自社プロダクト・APIで展開していきつつ、 領域特化モデルの開発・展開に繋げていく 汎用LLM 業界特化LLM 企業特化LLM ◯◯特化LLM 派生開発 120B

Slide 29

Slide 29 text

29 ©2024 ELYZA,Inc 技術面の発信 今回の取り組みについてはELYZAの技術ブログなどを通じて 今後発信予定なので是非ご覧ください

Slide 30

Slide 30 text

30 ©2024 ELYZA,Inc - 未踏の領域で、あたりまえを創る - Confidential