Upgrade to Pro — share decks privately, control downloads, hide ads and more …

国産LLMは作れるのか? — RakutenAI 3.0の炎上から考える

国産LLMは作れるのか? — RakutenAI 3.0の炎上から考える

2026年03月にZennに投稿した記事をClaude designでスライドにしました。
記事:https://zenn.dev/nitic_students/articles/e2e331dea0c616

Avatar for Juna1013

Juna1013

June 03, 2026

Other Decks in Programming

Transcript

  1. L L M / 国 産 A I / フ

    ァ イ ン チ ュ ー ン 国産LLMは 作れるのか? RakutenAI 3.0 の炎上から考える DeepSeek V3 継続事前学習 LoRA / QLoRA 透明性 茨城高専 学生テックブログ / 2026.03 01
  2. 2 0 2 6 . 0 3 . 1 7

    — 発 表 「国内最大規模」を謳う Rakuten AI 3.0 が公開 PARAMETERS ≈7000 億 MoE(Mixture of Experts)アーキテクチ ャ。入力に応じて一部の専門家だけを活 性化する方式。 BENCHMARK > GPT-4o 日本語ベンチマークで GPT-4o を上回るス コアを記録したと発表。 BACKING GENIAC 経済産業省・NEDO の補助を受けた「国産 AI」プロジェクトとして注目を集めた。 国産LLMは作れるのか? 02
  3. 公 開 直 後 — 炎 上 config.json に残された一行 RakutenAI-3.0

    / config.json { "architectures": [ ... ], "model_type": "deepseek_v3", "hidden_size": 7168, "num_experts": 256, ... } 判明したこと ベースモデルは DeepSeek V3 Hugging Face 上の設定ファイルから、中国 DeepSeek 社のオープン ウェイトモデルが土台であることが特定された。 ライセンス MIT ライセンスが欠落 初回公開時に DeepSeek 由来の MIT ライセンスが同梱されず、指摘 後に「NOTICE」ファイルとして追加された。 国産LLMは作れるのか? 03
  4. 批 判 の 核 心 問われたのは「技術」ではなく 出自を示さなかったこと GENIAC の補助を受けた「国産AI」が DeepSeek

    V3 ベースであったこと、 そしてその出自が積極的に明示されていなかったことが、批判の中心となった。 プレスリリース:「オープンソースコミュニティ上のモデルを基に」 → ベースモデル名は明示されず 国産LLMは作れるのか? 04
  5. 前 提 の 整 理 ファインチューンは「ズル」なのか 60% 日経新聞の報道によれば、日本企業の主要モデルのう ち約6割が DeepSeek

    や Qwen をベースにした2次開発 だという。 Llama や Qwen などのオープンソースモデルを土台に追加 学習するのは、世界中の研究者・企業が日常的に行う普通の 技術。 ファインチューン — 事前学習済みモデルに特定タスク・データで追加学習を行うこと。1から学習 するより少ないコストで特定用途に特化させられる。 国産LLMは作れるのか? 05
  6. 問 題 の 所 在 炎上の本質は、たった2点に集約される 01 — TRANSPARENCY 透明性の欠如

    「オープンソースコミュニティ上のモデルを基に」としか描 かれず、ベースモデル名(DeepSeek V3)が明示されなかっ た。 02 — LICENSE ライセンス対応の不備 DeepSeek V3 の MIT ライセンスが初回公開時に含まれておら ず、指摘を受けてから追加された。 「何をベースに」 「何をしたか」を明示していれば、ここまでの炎上にはならなかった。 国産LLMは作れるのか? 06
  7. S E C T I O N 0 1 フルスクラッチでの

    Pre-training を阻む、3つの壁。 01 国産LLMは作れるのか? 07 なぜ1から 日本語LLMを 作るのは難しいのか
  8. 壁 0 1 / 0 3 計算コストが莫大 項目 GPT-3クラス(1750億)の規模感 GPU

    A100 を 数百〜数千台 学習期間 数週間〜数ヶ月 推定コスト 数十億〜数百億円 DeepSeek V3(6710億)クラスなら、さらに桁違い のリソースが必要に。 日本の一企業が単独で負担するには、ほぼ不可能な水準。 国産LLMは作れるのか? 08
  9. 壁 0 2 / 0 3 日本語データの絶対量が少ない WEB上のテキスト言語比率 英語 46%

    日本語 5–6% LLMの性能はデータの量と質に大きく依存する。高品質な日本語コーパスを十分量確保すること自体が、大きな ボトルネックになる。 国産LLMは作れるのか? 09
  10. 壁 0 3 / 0 3 人材不足 — それでも挑む国内事例 Pre-training

    を設計・実行できるエンジニアは世 界的にも希少。分散学習の最適化、学習の安定 化、データパイプライン構築など、必要なスキ ルセットが非常に多い。 組織 モデル 備考 東大・国立情報学研究所 ほか LLM-jp 学術研究目的 サイバーエージェント OpenCALM 日本語特化 理化学研究所 研究用モデル 富岳を活用 いずれも研究目的がメインで、ChatGPT や Claude などの商用モデルの性能にはまだ届いていないのが現状。 国産LLMは作れるのか? 10
  11. 手 法 0 1 — C P T 継続事前学習 Continual

    Pre-Training 英語で高性能なベースモデル(Llama など)に、日本語テキ ストを追加学習させる。英語で得た知識・推論能力を保ちな がら、日本語処理能力を大幅に向上できる。 なぜ有力か 1から作るより圧倒的に低コストで、日本語性能を大きく改善 できる実用的な選択肢。 Rakuten AI 3.0 も、このアプローチに近いと考えられる。 国産LLMは作れるのか? 12
  12. 手 法 0 2 — L O R A /

    Q L O R A 差分行列だけを学習する 項目 FULL FINE-TUNING LORA / QLORA 必要なGPU A100 × 数十台 RTX 3090 1台でも可 コスト 数千万円〜 数万円〜 学習パラメータ 全パラメータ 全体の1%以下も 性能 ベスト 実用上ほぼ同等 QLoRA はモデルの量子化(4bitなど)を組み合わせてメモリ使用量を削減し、より小さなリソースでの学習を可能にする。 国産LLMは作れるのか? 13
  13. 手 法 0 3 – 0 5 量より質、小さく、借りる 03 —

    DATA データ効率を上げる Wikipedia・青空文庫・国会議事録など高 品質ソースに絞る。GPT-4等で合成データ を生成し指示追従を強化(Self- Instruct) 。 04 — LIGHTWEIGHT 軽量モデルをベースに Llama 3.2 (1B/3B) / Gemma 3 / Qwen 2.5。特定タスクなら小規模+日本語 LoRAで実用レベルに。 05 — CLOUD クラウドで調達 自前GPU不要。Colab Pro(月¥1,500〜) / Lambda Labs / Vast.ai で個人・小規模 チームでも学習可能。 国産LLMは作れるのか? 14
  14. お わ り に 足りなかったのは 技術 ではなく 透明性 だった フルスクラッチで世界トップの基盤モデルを作るのは、現時点の日本の資本・計算資源・データ量では極めて

    難しい。 しかし CPT や LoRA で日本語最適化を行い、ドメイン知識を組み込むことは十分に現実的なアプローチだ。 DeepSeek V3 を使ったこと自体は技術的に真っ当な判断。問われるべきは「何をベースに」 「何をしたか」を 透明にすることだった。 茨城高専 学生テックブログ 15