日本語が話せるオープンアクセス大規模言語モデルの評価

日本語が話せるオープンアクセス大規模言語モデルの評価 2024/9/24 株式会社ノーザンシステムサービス佐々木優興

この発表についてオープンアクセスLLM • 誰でも自由にダウンロードして利用できるLLM 2 大規模言語モデル (LLM; Large Language Model)
• 大量の言語を学習したAIモデル • ChatGPT (OpenAI) などのベース → 日本語が話せるオープンアクセスLLMについて性能比較、回答傾向分析をした ※ この発表は、弊社で公開している下記記事を要約したものです・https://qiita.com/wayama_ryousuke/items/105a164e5c80c150caf1 ・https://qiita.com/wayama_ryousuke/items/50e36d0dcb37f8fb7dd8 ・https://qiita.com/wayama_ryousuke/items/bd8522fda2a9e4b3c70a

目次 3 • オープンアクセスLLMの評価 • 調査の内容 1. 成績とモデルサイズ・学習データ量 2. 量子化モデル
3. 最近のオープンアクセスモデルの動向 • まとめと展望

4 自己紹介主要業務：AIと地理空間データ（GIS）を中心とするソフトウェア開発、調査研究ささき佐々木優興ゆうき株式会社ノーザンシステムサービス研究開発部 https://github.com/yumemio
https://www.linkedin.com/in/yumemio * Wayama et al. “Investigation to answer three key questions concerning plant pest identification and development of a practical identification framework”, Computer and Electronics in Agriculture, 222 (2024), 109021 画像識別AIを用いた農作物病害虫の自動診断はやぶさ2データ検索システム

オープンアクセスLLMの評価 5 1

LLM小史 6 • Deep Learning • 大量のデータをDNNに学習させ、知的タスクを遂行させる • DNN: DNNの説明…
• 知的タスク: 言語理解、物体認識、文字起こし、… • 言語モデル • 言語に関するタスクを遂行できるDNN • 感情推定、文章補完、会話、… • Transformer • 言語以外の分野（画像、音声など）でも利用される [1] dvgodoy (2024) “Deep Learning Visuals”. GitHub: dvgodoy/dl-visuals. CC BY 4.0. Transformer アーキテクチャ（エンコーダおよびデコーダ）[1]

LLM小史 7 • LLM（大規模言語モデル） • 多数の計算資源を並列化して、大量のテキスト情報を巨大な言語モデルに学習させたもの • スケーリング則
[1] Narayanan, Shoeybi et al. (2021) “Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”. arXiv: abs/2104.04473 [2] Kaplan, McCandlish et al. (2020). “Scaling Laws for Neural Language Models”. CoRR. abs/2001.08361. 計算資源・データセット規模・パラメタ数と損失 [2] 主要な言語モデルのパラメタ数時系列変化[1]

オープンアクセスLLM 8 • オープンアクセスLLM：誰でもダウンロードして利用できるLLM • オープンソースソフトウェアのLLM版 • コスト、秘匿性などの面でメリット • 主な開発元
• 海外: Meta (Llama)、Mistral (Mistral)、アリババ (Qwen) など • 国内: ELYZA (ELYZA-japanese-llama)、Preferred Networks (PLaMo) など

オープンアクセスLLM 9 • ノーザンシステムサービスの取り組み • 日本語が話せるオープンアクセスLLMに注目 • ベンチマーク公称成績と性能実感の差異 → 体系的な評価を実施
Qiita （エンジニア向け記事サイト）で公開 Qiita (https://qiita.com/wayama_ryousuke)

オープンアクセスLLMの性能調査 10 • 性能評価のしかた • クローズエンド質問 • 利点: 定量評価のしやすさ知識量の計測に適する
• 欠点: 人間が感じる「性能」との差異 • オープンエンド質問 • 利点: 人間の性能実感に近いスコア • 欠点: 定量評価のコスト（人間が回答評価した場合）クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。日本語では2つの漢字が組み合わさることで熟語となり、新しい意味を持ちます。新しく熟語を与えるので、その意味を想像してみてください。杯伝 • LLM-as-a-judge • 性能のよいLLM（GPT-4V など）が採点 → 平均点を算出冷えたものを温まるのに使うものは？ 1.八百屋 2.電子レンジ 3.冷蔵庫 4.収穫 5.冷凍庫電子機器で使用される最も主要な電子回路基板の事をなんと言う？ 1.掲示板 2.パソコン 3.マザーボード 4.ハードディスク 5.まな板 [1] Yahoo! Japan “JCommonSenseQA” (https://github.com/yahoojapan/JGLUE) [2] ELYZA “ELYZA-tasks-100” (https://docs.google.com/spreadsheets/d/1mtoy4QAqDPk2f_B0vDogFoOrbA5G42DBEEHdqM4VmDI/edit#gid=1023787356) 設問例（J-CommonSenseQA）設問例（ELYZA-tasks-100）

成績とモデルサイズ・学習データ量 11 2

12 成績とモデルサイズ・学習データ量 • スケーリング則 • データ・計算資源・パラメタのどれが寄与するのか？ • 手法: オープンエンド質問ベンチマーク（ELYZA-tasks-100）の質問を「日本語が話せる」オープンアクセスLLMに回答させる
GPT-4V で採点し、平均点を算出 [1] Kaplan, McCandlish et al. (2020). “Scaling Laws for Neural Language Models”. CoRR. abs/2001.08361. 計算資源・データセット規模・パラメタ数と損失 [1]

13 成績とモデルサイズ・学習データ量モデルの大きさ（パラメタ数、x軸）と平均得点（y軸）の相関 • モデルが大きくなると性能は上がる • 同じモデルサイズでも性能差が大きい • 学習データ量・質の差では？
モデルの大きさと平均得点

14 成績とモデルサイズ・学習データ量モデルの大きさ（パラメタ数、x軸）と平均得点（y軸）の相関モデルの大きさと平均得点次に読むべきSFを10冊挙げて設問以下は、SFファンにとって絶対に読むべき10冊の中から選んだものです。 1.『さらば、宇宙の戦士』（Arthur
C. Clarke）：冒険的なテーマと先進技術が絶妙に調和した作品。 2.『ドラキュラの娘』（Dracula's Daughter）：ファンタジーSFとホラーの境界を描いた不朽の作品。 … 回答 (Xwin-LM-7B-V0.1) 以下は、今後読むべきSF10冊のリストです。これらの作品は、古典的な名作から現代のベストセラーまで、さまざまな時代とジャンルを代表しています。 1. 『フランケンシュタイン』（Mary Shelley） - この古典的なゴシックSF小説は、1818年に発表されました。研究者が死と再生の境界線を越えて造り出したクリーチャーとその創造主との関係を描いています。 2. 『時計じかけのオレンジ』（Anthony Burgess） - 1962年に発表されたこのディストピアSF小説は、近未来の暴力と狂気に満ちた世界を描いています。 … 回答 (Xwin-LM-70B-V0.1)

15 成績とモデルサイズ・学習データ量モデルの大きさ（パラメタ数、x軸）と1Bパラメタあたりの得点（y軸）の相関 • モデルが大きくなるほど 1パラメタあたりの性能向上量は小さくなる • パラメタ数の増加により性能向上を
図る戦略には限界があるモデルの大きさと平均得点

16 成績とモデルサイズ・学習データ量学習データ量（トークン数、x軸）・平均得点（y軸）の相関* • 一定量のデータを学習しないと平均得点は伸びない • 2Tトークン程度は必要（DeepSeekの例）
• 国産モデルの学習データ不足 • データの量と質 • データの量: Llama3 (15Tトークン) • データの質: Phi-3 • LLMを用いたデータ拡張学習データ量と平均得点 * 前の3スライドとは評価時期および評価対象のモデルが異なることに注意

量子化とモデル性能 17 3

18 量子化とは • LLMの課題 • 1: 推論に必要な計算資源（GPUメモリ）が多い • 2: 推論に時間がかかる
• 量子化：モデルのパラメタ精度を下げる • 例: 4ビット量子化（16ビット→4ビット）: およそ1/4 • 性能と軽量化のトレードオフ • 疑問点量子化するとモデルの性能はどのくらい下がるのか？

• さまざまなモデルを4-bit 量子化（K-quants）して比較 • 性能の変化は一定でない（量子化モデルのほうが平均点が高い場合もある）量子化するとモデルの性能は（どのくらい）下がるのか 19 ベンチマーク平均得点の変化
（濃い青：元モデル、うすい青：量子化モデル）

量子化するとモデルの性能は（どのくらい）下がるのか 20 • 性能の変化が大きい回答例 (Swallow-13B) 「クマの冒険」。クマはいつも海が何であるかを疑問に思っていました。彼はそれがどれほど壮大であるかを想像し、彼の興味をそそりました。彼はその広大さについて考え、そこに何があるのかと思いました。ある日、彼は岩の上に座って海を眺めていました。遠くに、水の大きな塊が見えました。彼はそれがとても速く動いているのを見て、それに興味をそそられました。
それで、クマは彼の冒険を始めるために泳ぐことにしました。彼は最初は怖かったが、すぐに夢中になり、それがどれほど美しくて楽しいかに驚いた。彼は海の下の不思議な生き物と会い、彼がどれほど孤独であるかについて泣きました。… 1.序章 2.クマがアザラシと仲良くなり、その後家に帰るまでのストーリークマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。設問回答 (元モデル) 回答 (量子化モデル)

• 回答の長さが違うのでは？ → 回答長の分布を示す（右図） • モデルによって回答長の分布が異なる • 「つぼ型」「フラスコ型」「スライム型」 • 平均スコアが低いモデルは「スライム型」
（つぶれた形状）の傾向が強い • 回答の短いモデルは量子化の影響を受けやすい量子化するとモデルの性能は（どのくらい）下がるのか 21 ベンチマーク質問への回答長モデル別分布（上段：元モデル、下段：量子化モデル）

2024年前半のモデル傾向 22 4

23 2024年前半のモデル傾向 • 性能 • 全体的に向上 • 商用モデルとの差は縮まっている • 日本
vs 海外 • 海外勢の性能が高い（米中仏） PLaMO (API版) Mistral Large Instruct 海外企業モデル海外企業モデルを日本の組織がファインチューン日本の組織がフルスクラッチで開発

24 傾向分析海外モデル優勢の要因 • データセットの質・量 • 大量かつ高品質なデータ • パラメタ数 •
Llama 405B • 大規模データの学習を支える計算資源 • 巨大なGPUクラスタ（Meta の例*: H100が24,576台×2クラスタ） • 日本（ABCI）：A100 (960台) + V100 (4,352台) ※ モデル間でアーキテクチャに大きな差は無い *https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

まとめ 25 5

• まとめ • 大量・高品質のデータで学習する海外モデルが優勢 • 計算量を減らす技術（量子化）と性能の関係 • LLMの技術的課題 • 性能を上げる
• 計算量を減らす（量子化、非 Transformer） • 自律的にタスクを遂行する（エージェント） • 学術領域での応用 • SOTA級アルゴリズムの実装論文を自動執筆・レビューまとめと展望 26 Sakana AI “AI Scientist” (https://sakana.ai/ai-scientist/#example-papers-generated-by-the-ai-scientist)

記事リンク 27 ELYZA-tasks-100でLLM14個の日本語性能を横断評価してみた日本語LLM 9種を量子化して回答内容を比較調査してみた Llama 3.1 405B
と Mistral Large 2 の性能を ELYZA-tasks- 100 で比較してみた

日本語が話せるオープンアクセス大規模言語モデルの評価 2024/9/24 株式会社ノーザンシステムサービス佐々木優興

日本語が話せるオープンアクセス大規模言語モデルの評価

日本語が話せるオープンアクセス大規模言語モデルの評価

ノーザンシステムサービス | Northern System Services

More Decks by ノーザンシステムサービス | Northern System Services

Other Decks in Technology

Featured

Transcript