Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語が話せるオープンアクセス大規模言語モデルの評価

 日本語が話せるオープンアクセス大規模言語モデルの評価

★ この資料は「秋田大学 令和6年情報システム研究会」(2024/9/24)の発表資料です ★

ChatGPT に代表される「ことばを学んだ AI モデル」が、一般の人々にも爆発的に普及して、ブームになっています。こうしたモデル(LLM)のうち、誰でもダウンロードして自由に使える AI モデルを「オープンアクセスLLM」と呼んでいます。
当社では、このなかでも「日本語が話せるオープンアクセスLLM」に焦点をあてて、日本語性能とモデルの大きさ・学習データ量の関係、量子化による性能変化、最近の動向について調査を行いました。その成果をご紹介します。

発表者:佐々木 優興(株式会社ノーザンシステムサービス 研究開発部)

More Decks by ノーザンシステムサービス | Northern System Services

Other Decks in Technology

Transcript

  1. この発表について オープンアクセスLLM • 誰でも自由にダウンロードして利用できるLLM 2 大規模言語モデル (LLM; Large Language Model)

    • 大量の言語を学習したAIモデル • ChatGPT (OpenAI) などのベース → 日本語が話せるオープンアクセスLLMについて 性能比較、回答傾向分析をした ※ この発表は、弊社で公開している下記記事を要約したものです ・https://qiita.com/wayama_ryousuke/items/105a164e5c80c150caf1 ・https://qiita.com/wayama_ryousuke/items/50e36d0dcb37f8fb7dd8 ・https://qiita.com/wayama_ryousuke/items/bd8522fda2a9e4b3c70a
  2. 4 自己紹介 主要業務:AIと地理空間データ(GIS)を中心とするソフトウェア開発、調査研究 ささき 佐々木 優興 ゆうき 株式会社ノーザンシステムサービス 研究開発部 https://github.com/yumemio

    https://www.linkedin.com/in/yumemio * Wayama et al. “Investigation to answer three key questions concerning plant pest identification and development of a practical identification framework”, Computer and Electronics in Agriculture, 222 (2024), 109021 画像識別AIを用いた農作物病害虫の自動診断 はやぶさ2データ検索システム
  3. LLM小史 6 • Deep Learning • 大量のデータをDNNに学習させ、知的タスクを遂行させる • DNN: DNNの説明…

    • 知的タスク: 言語理解、物体認識、文字起こし、… • 言語モデル • 言語に関するタスクを遂行できるDNN • 感情推定、文章補完、会話、… • Transformer • 言語以外の分野(画像、音声など)でも利用される [1] dvgodoy (2024) “Deep Learning Visuals”. GitHub: dvgodoy/dl-visuals. CC BY 4.0. Transformer アーキテクチャ (エンコーダおよびデコーダ)[1]
  4. LLM小史 7 • LLM(大規模言語モデル) • 多数の計算資源を並列化して、 大量のテキスト情報を 巨大な言語モデルに学習させたもの • スケーリング則

    [1] Narayanan, Shoeybi et al. (2021) “Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”. arXiv: abs/2104.04473 [2] Kaplan, McCandlish et al. (2020). “Scaling Laws for Neural Language Models”. CoRR. abs/2001.08361. 計算資源・データセット規模・パラメタ数と損失 [2] 主要な言語モデルのパラメタ数 時系列変化[1]
  5. オープンアクセスLLMの性能調査 10 • 性能評価のしかた • クローズエンド質問 • 利点: 定量評価のしやすさ 知識量の計測に適する

    • 欠点: 人間が感じる「性能」との差異 • オープンエンド質問 • 利点: 人間の性能実感に近いスコア • 欠点: 定量評価のコスト (人間が回答評価した場合) クマが海辺に行ってアザラシと友達になり、最終的には家に 帰るというプロットの短編小説を書いてください。 日本語では2つの漢字が組み合わさることで熟語となり、新し い意味を持ちます。 新しく熟語を与えるので、その意味を想 像してみてください。 杯伝 • LLM-as-a-judge • 性能のよいLLM(GPT-4V など)が採点 → 平均点を算出 冷えたものを温まるのに使うものは? 1.八百屋 2.電子レンジ 3.冷蔵庫 4.収穫 5.冷凍庫 電子機器で使用される最も主要な電子回路基板の事をなんと 言う? 1.掲示板 2.パソコン 3.マザーボード 4.ハードディスク 5.まな 板 [1] Yahoo! Japan “JCommonSenseQA” (https://github.com/yahoojapan/JGLUE) [2] ELYZA “ELYZA-tasks-100” (https://docs.google.com/spreadsheets/d/1mtoy4QAqDPk2f_B0vDogFoOrbA5G42DBEEHdqM4VmDI/edit#gid=1023787356) 設問例(J-CommonSenseQA) 設問例(ELYZA-tasks-100)
  6. 12 成績とモデルサイズ・学習データ量 • スケーリング則 • データ・計算資源・パラメタのどれが寄与するのか? • 手法: オープンエンド質問ベンチマーク(ELYZA-tasks-100)の質問を 「日本語が話せる」オープンアクセスLLMに回答させる

    GPT-4V で採点し、平均点を算出 [1] Kaplan, McCandlish et al. (2020). “Scaling Laws for Neural Language Models”. CoRR. abs/2001.08361. 計算資源・データセット規模・パラメタ数と損失 [1]
  7. 14 成績とモデルサイズ・学習データ量 モデルの大きさ(パラメタ数、x軸) と平均得点(y軸)の相関 モデルの大きさと平均得点 次に読むべきSFを10冊挙げて 設問 以下は、SFファンにとって絶対に読むべき10冊の中から選んだもので す。 1.『さらば、宇宙の戦士』(Arthur

    C. Clarke):冒険的なテーマと先 進技術が絶妙に調和した作品。 2.『ドラキュラの娘』(Dracula's Daughter):ファンタジーSFとホ ラーの境界を描いた不朽の作品。 … 回答 (Xwin-LM-7B-V0.1) 以下は、今後読むべきSF10冊のリストです。これらの作品は、古典的 な名作から現代のベストセラーまで、さまざまな時代とジャンルを代 表しています。 1. 『フランケンシュタイン』(Mary Shelley) - この古典的なゴシッ クSF小説は、1818年に発表されました。研究者が死と再生の境界線を 越えて造り出したクリーチャーとその創造主との関係を描いています。 2. 『時計じかけのオレンジ』(Anthony Burgess) - 1962年に発表さ れたこのディストピアSF小説は、近未来の暴力と狂気に満ちた世界を 描いています。 … 回答 (Xwin-LM-70B-V0.1)
  8. 16 成績とモデルサイズ・学習データ量 学習データ量(トークン数、x軸) ・平均得点(y軸)の相関* • 一定量のデータを学習しないと 平均得点は伸びない • 2Tトークン程度は必要 (DeepSeekの例)

    • 国産モデルの学習データ不足 • データの量と質 • データの量: Llama3 (15Tトークン) • データの質: Phi-3 • LLMを用いたデータ拡張 学習データ量と平均得点 * 前の3スライドとは評価時期および評価対象のモデルが異なることに注意
  9. 18 量子化とは • LLMの課題 • 1: 推論に必要な計算資源(GPUメモリ)が多い • 2: 推論に時間がかかる

    • 量子化:モデルのパラメタ精度を下げる • 例: 4ビット量子化(16ビット→4ビット): およそ1/4 • 性能と軽量化のトレードオフ • 疑問点 量子化するとモデルの性能はどのくらい下がるのか?
  10. 量子化するとモデルの性能は(どのくらい)下がるのか 20 • 性能の変化が大きい回答例 (Swallow-13B) 「クマの冒険」。 クマはいつも海が何であるかを疑問に思っていました。彼はそれがどれほど壮大であるかを想像し、彼の興味を そそりました。彼はその広大さについて考え、そこに何があるのかと思いました。ある日、彼は岩の上に座って 海を眺めていました。遠くに、水の大きな塊が見えました。彼はそれがとても速く動いているのを見て、それに 興味をそそられました。

    それで、クマは彼の冒険を始めるために泳ぐことにしました。彼は最初は怖かったが、すぐに夢中になり、それ がどれほど美しくて楽しいかに驚いた。彼は海の下の不思議な生き物と会い、彼がどれほど孤独であるかについ て泣きました。… 1.序章 2.クマがアザラシと仲良くなり、その後家に帰るまでのストーリー クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。 設問 回答 (元モデル) 回答 (量子化モデル)
  11. • 回答の長さが違うのでは? → 回答長の分布を示す(右図) • モデルによって回答長の分布が異なる • 「つぼ型」「フラスコ型」「スライム型」 • 平均スコアが低いモデルは「スライム型」

    (つぶれた形状)の傾向が強い • 回答の短いモデルは量子化の影響を受けやすい 量子化するとモデルの性能は(どのくらい)下がるのか 21 ベンチマーク質問への回答長 モデル別分布 (上段:元モデル、下段:量子化モデル)
  12. 23 2024年前半のモデル傾向 • 性能 • 全体的に向上 • 商用モデルとの差は縮まっている • 日本

    vs 海外 • 海外勢の性能が高い(米中仏) PLaMO (API版) Mistral Large Instruct 海外企業モデル 海外企業モデルを日本の組織がファインチューン 日本の組織がフルスクラッチで開発
  13. 24 傾向分析 海外モデル優勢の要因 • データセットの質・量 • 大量かつ高品質なデータ • パラメタ数 •

    Llama 405B • 大規模データの学習を支える計算資源 • 巨大なGPUクラスタ(Meta の例*: H100が24,576台×2クラスタ) • 日本(ABCI):A100 (960台) + V100 (4,352台) ※ モデル間でアーキテクチャに大きな差は無い *https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
  14. • まとめ • 大量・高品質のデータで学習する海外モデルが優勢 • 計算量を減らす技術(量子化)と性能の関係 • LLMの技術的課題 • 性能を上げる

    • 計算量を減らす(量子化、非 Transformer) • 自律的にタスクを遂行する(エージェント) • 学術領域での応用 • SOTA級アルゴリズムの実装論文を 自動執筆・レビュー まとめと展望 26 Sakana AI “AI Scientist” (https://sakana.ai/ai-scientist/#example-papers-generated-by-the-ai-scientist)