Slide 1

Slide 1 text

日本語が話せる オープンアクセス 大規模言語モデルの評価 2024/9/24 株式会社ノーザンシステムサービス 佐々木 優興

Slide 2

Slide 2 text

この発表について オープンアクセスLLM • 誰でも自由にダウンロードして利用できるLLM 2 大規模言語モデル (LLM; Large Language Model) • 大量の言語を学習したAIモデル • ChatGPT (OpenAI) などのベース → 日本語が話せるオープンアクセスLLMについて 性能比較、回答傾向分析をした ※ この発表は、弊社で公開している下記記事を要約したものです ・https://qiita.com/wayama_ryousuke/items/105a164e5c80c150caf1 ・https://qiita.com/wayama_ryousuke/items/50e36d0dcb37f8fb7dd8 ・https://qiita.com/wayama_ryousuke/items/bd8522fda2a9e4b3c70a

Slide 3

Slide 3 text

目次 3 • オープンアクセスLLMの評価 • 調査の内容 1. 成績とモデルサイズ・学習データ量 2. 量子化モデル 3. 最近のオープンアクセスモデルの動向 • まとめと展望

Slide 4

Slide 4 text

4 自己紹介 主要業務:AIと地理空間データ(GIS)を中心とするソフトウェア開発、調査研究 ささき 佐々木 優興 ゆうき 株式会社ノーザンシステムサービス 研究開発部 https://github.com/yumemio https://www.linkedin.com/in/yumemio * Wayama et al. “Investigation to answer three key questions concerning plant pest identification and development of a practical identification framework”, Computer and Electronics in Agriculture, 222 (2024), 109021 画像識別AIを用いた農作物病害虫の自動診断 はやぶさ2データ検索システム

Slide 5

Slide 5 text

オープンアクセスLLMの評価 5 1

Slide 6

Slide 6 text

LLM小史 6 • Deep Learning • 大量のデータをDNNに学習させ、知的タスクを遂行させる • DNN: DNNの説明… • 知的タスク: 言語理解、物体認識、文字起こし、… • 言語モデル • 言語に関するタスクを遂行できるDNN • 感情推定、文章補完、会話、… • Transformer • 言語以外の分野(画像、音声など)でも利用される [1] dvgodoy (2024) “Deep Learning Visuals”. GitHub: dvgodoy/dl-visuals. CC BY 4.0. Transformer アーキテクチャ (エンコーダおよびデコーダ)[1]

Slide 7

Slide 7 text

LLM小史 7 • LLM(大規模言語モデル) • 多数の計算資源を並列化して、 大量のテキスト情報を 巨大な言語モデルに学習させたもの • スケーリング則 [1] Narayanan, Shoeybi et al. (2021) “Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”. arXiv: abs/2104.04473 [2] Kaplan, McCandlish et al. (2020). “Scaling Laws for Neural Language Models”. CoRR. abs/2001.08361. 計算資源・データセット規模・パラメタ数と損失 [2] 主要な言語モデルのパラメタ数 時系列変化[1]

Slide 8

Slide 8 text

オープンアクセスLLM 8 • オープンアクセスLLM:誰でもダウンロードして利用できるLLM • オープンソースソフトウェアのLLM版 • コスト、秘匿性などの面でメリット • 主な開発元 • 海外: Meta (Llama)、Mistral (Mistral)、アリババ (Qwen) など • 国内: ELYZA (ELYZA-japanese-llama)、Preferred Networks (PLaMo) など

Slide 9

Slide 9 text

オープンアクセスLLM 9 • ノーザンシステムサービスの取り組み • 日本語が話せるオープンアクセスLLMに注目 • ベンチマーク公称成績と性能実感の差異 → 体系的な評価を実施 Qiita (エンジニア向け記事サイト)で公開 Qiita (https://qiita.com/wayama_ryousuke)

Slide 10

Slide 10 text

オープンアクセスLLMの性能調査 10 • 性能評価のしかた • クローズエンド質問 • 利点: 定量評価のしやすさ 知識量の計測に適する • 欠点: 人間が感じる「性能」との差異 • オープンエンド質問 • 利点: 人間の性能実感に近いスコア • 欠点: 定量評価のコスト (人間が回答評価した場合) クマが海辺に行ってアザラシと友達になり、最終的には家に 帰るというプロットの短編小説を書いてください。 日本語では2つの漢字が組み合わさることで熟語となり、新し い意味を持ちます。 新しく熟語を与えるので、その意味を想 像してみてください。 杯伝 • LLM-as-a-judge • 性能のよいLLM(GPT-4V など)が採点 → 平均点を算出 冷えたものを温まるのに使うものは? 1.八百屋 2.電子レンジ 3.冷蔵庫 4.収穫 5.冷凍庫 電子機器で使用される最も主要な電子回路基板の事をなんと 言う? 1.掲示板 2.パソコン 3.マザーボード 4.ハードディスク 5.まな 板 [1] Yahoo! Japan “JCommonSenseQA” (https://github.com/yahoojapan/JGLUE) [2] ELYZA “ELYZA-tasks-100” (https://docs.google.com/spreadsheets/d/1mtoy4QAqDPk2f_B0vDogFoOrbA5G42DBEEHdqM4VmDI/edit#gid=1023787356) 設問例(J-CommonSenseQA) 設問例(ELYZA-tasks-100)

Slide 11

Slide 11 text

成績とモデルサイズ・学習データ量 11 2

Slide 12

Slide 12 text

12 成績とモデルサイズ・学習データ量 • スケーリング則 • データ・計算資源・パラメタのどれが寄与するのか? • 手法: オープンエンド質問ベンチマーク(ELYZA-tasks-100)の質問を 「日本語が話せる」オープンアクセスLLMに回答させる GPT-4V で採点し、平均点を算出 [1] Kaplan, McCandlish et al. (2020). “Scaling Laws for Neural Language Models”. CoRR. abs/2001.08361. 計算資源・データセット規模・パラメタ数と損失 [1]

Slide 13

Slide 13 text

13 成績とモデルサイズ・学習データ量 モデルの大きさ(パラメタ数、x軸) と平均得点(y軸)の相関 • モデルが大きくなると性能は上がる • 同じモデルサイズでも性能差が大きい • 学習データ量・質の差では? モデルの大きさと平均得点

Slide 14

Slide 14 text

14 成績とモデルサイズ・学習データ量 モデルの大きさ(パラメタ数、x軸) と平均得点(y軸)の相関 モデルの大きさと平均得点 次に読むべきSFを10冊挙げて 設問 以下は、SFファンにとって絶対に読むべき10冊の中から選んだもので す。 1.『さらば、宇宙の戦士』(Arthur C. Clarke):冒険的なテーマと先 進技術が絶妙に調和した作品。 2.『ドラキュラの娘』(Dracula's Daughter):ファンタジーSFとホ ラーの境界を描いた不朽の作品。 … 回答 (Xwin-LM-7B-V0.1) 以下は、今後読むべきSF10冊のリストです。これらの作品は、古典的 な名作から現代のベストセラーまで、さまざまな時代とジャンルを代 表しています。 1. 『フランケンシュタイン』(Mary Shelley) - この古典的なゴシッ クSF小説は、1818年に発表されました。研究者が死と再生の境界線を 越えて造り出したクリーチャーとその創造主との関係を描いています。 2. 『時計じかけのオレンジ』(Anthony Burgess) - 1962年に発表さ れたこのディストピアSF小説は、近未来の暴力と狂気に満ちた世界を 描いています。 … 回答 (Xwin-LM-70B-V0.1)

Slide 15

Slide 15 text

15 成績とモデルサイズ・学習データ量 モデルの大きさ(パラメタ数、x軸) と1Bパラメタあたりの得点(y軸)の相関 • モデルが大きくなるほど 1パラメタあたりの性能向上量は小さ くなる • パラメタ数の増加により性能向上を 図る戦略には限界がある モデルの大きさと平均得点

Slide 16

Slide 16 text

16 成績とモデルサイズ・学習データ量 学習データ量(トークン数、x軸) ・平均得点(y軸)の相関* • 一定量のデータを学習しないと 平均得点は伸びない • 2Tトークン程度は必要 (DeepSeekの例) • 国産モデルの学習データ不足 • データの量と質 • データの量: Llama3 (15Tトークン) • データの質: Phi-3 • LLMを用いたデータ拡張 学習データ量と平均得点 * 前の3スライドとは評価時期および評価対象のモデルが異なることに注意

Slide 17

Slide 17 text

量子化とモデル性能 17 3

Slide 18

Slide 18 text

18 量子化とは • LLMの課題 • 1: 推論に必要な計算資源(GPUメモリ)が多い • 2: 推論に時間がかかる • 量子化:モデルのパラメタ精度を下げる • 例: 4ビット量子化(16ビット→4ビット): およそ1/4 • 性能と軽量化のトレードオフ • 疑問点 量子化するとモデルの性能はどのくらい下がるのか?

Slide 19

Slide 19 text

• さまざまなモデルを4-bit 量子化 (K-quants)して比較 • 性能の変化は一定でない (量子化モデルのほうが平均点が高い場合もある) 量子化するとモデルの性能は(どのくらい)下がるのか 19 ベンチマーク平均得点の変化 (濃い青:元モデル、うすい青:量子化モデル)

Slide 20

Slide 20 text

量子化するとモデルの性能は(どのくらい)下がるのか 20 • 性能の変化が大きい回答例 (Swallow-13B) 「クマの冒険」。 クマはいつも海が何であるかを疑問に思っていました。彼はそれがどれほど壮大であるかを想像し、彼の興味を そそりました。彼はその広大さについて考え、そこに何があるのかと思いました。ある日、彼は岩の上に座って 海を眺めていました。遠くに、水の大きな塊が見えました。彼はそれがとても速く動いているのを見て、それに 興味をそそられました。 それで、クマは彼の冒険を始めるために泳ぐことにしました。彼は最初は怖かったが、すぐに夢中になり、それ がどれほど美しくて楽しいかに驚いた。彼は海の下の不思議な生き物と会い、彼がどれほど孤独であるかについ て泣きました。… 1.序章 2.クマがアザラシと仲良くなり、その後家に帰るまでのストーリー クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。 設問 回答 (元モデル) 回答 (量子化モデル)

Slide 21

Slide 21 text

• 回答の長さが違うのでは? → 回答長の分布を示す(右図) • モデルによって回答長の分布が異なる • 「つぼ型」「フラスコ型」「スライム型」 • 平均スコアが低いモデルは「スライム型」 (つぶれた形状)の傾向が強い • 回答の短いモデルは量子化の影響を受けやすい 量子化するとモデルの性能は(どのくらい)下がるのか 21 ベンチマーク質問への回答長 モデル別分布 (上段:元モデル、下段:量子化モデル)

Slide 22

Slide 22 text

2024年前半のモデル傾向 22 4

Slide 23

Slide 23 text

23 2024年前半のモデル傾向 • 性能 • 全体的に向上 • 商用モデルとの差は縮まっている • 日本 vs 海外 • 海外勢の性能が高い(米中仏) PLaMO (API版) Mistral Large Instruct 海外企業モデル 海外企業モデルを日本の組織がファインチューン 日本の組織がフルスクラッチで開発

Slide 24

Slide 24 text

24 傾向分析 海外モデル優勢の要因 • データセットの質・量 • 大量かつ高品質なデータ • パラメタ数 • Llama 405B • 大規模データの学習を支える計算資源 • 巨大なGPUクラスタ(Meta の例*: H100が24,576台×2クラスタ) • 日本(ABCI):A100 (960台) + V100 (4,352台) ※ モデル間でアーキテクチャに大きな差は無い *https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

Slide 25

Slide 25 text

まとめ 25 5

Slide 26

Slide 26 text

• まとめ • 大量・高品質のデータで学習する海外モデルが優勢 • 計算量を減らす技術(量子化)と性能の関係 • LLMの技術的課題 • 性能を上げる • 計算量を減らす(量子化、非 Transformer) • 自律的にタスクを遂行する(エージェント) • 学術領域での応用 • SOTA級アルゴリズムの実装論文を 自動執筆・レビュー まとめと展望 26 Sakana AI “AI Scientist” (https://sakana.ai/ai-scientist/#example-papers-generated-by-the-ai-scientist)

Slide 27

Slide 27 text

記事リンク 27 ELYZA-tasks-100でLLM14個の 日本語性能を横断評価してみた 日本語LLM 9種を量子化して回 答内容を比較調査してみた Llama 3.1 405B と Mistral Large 2 の性能を ELYZA-tasks- 100 で比較してみた

Slide 28

Slide 28 text

日本語が話せるオープンアクセス大規模言語モデルの評価 2024/9/24 株式会社ノーザンシステムサービス 佐々木 優興