ローカルLLMバイブコーディングのすすめ

自己紹介 sou7といいます。修士1年、28卒予定趣味 : なろう小説を読み漁ること、鉄道(ライト勢) 好きな作品があったらぜひ教えてください！最近読んだ小説
サイレントウィッチ (本編と外伝で計285万字) トリニティアイ -転生平民魔術師の往生勤務- (65万字更新中) 1

連絡先 ActivityPub/Misskey: @[email protected] → Twitter: @sou7_ _ _ GitHub: @soukouki
2

世は大LLM時代皆さんにアンケート : バイブコーディングツールを使った経験は？ Claude Code Antigravity Codex GitHub Copilot
Chat Cline Cursor etc… 3

試したいなと思っている人は、よくこんなふうに思っているのでは？課金しないと使えない学生には月数千円はちょっと高いなぁ試してみたいけれど、コードそんな書かないのに数千円はちょっとなぁ試した人もこんなふうに思っているのでは？レートリミットが厳しくて、今のプランだと辛いプライベートな情報をクラウドで扱いたくないなぁ会社でAIを推進したいけれど、このコードは外部のLLMサービスには送れないなぁ 4

【令和8年最新版】今すぐ止めて。AI課金はもう古い。課金なし/レートミットなし/安全にバイブコーディング・AIエージェントを使う方法【無料】 Zli 大LT 2026春 2026-05-16 5

どうやるのか用意するもの : GPU なお電気代は考えないこととします (300WのGPUを1時間フルに動かしても約10円なので) 6

みなさん情報系の学生ですから自宅にGPUくらいありますよね！ 7

ローカルLLMバイブコーディングのススメ Zli 大LT 2026春 2026-05-16 8

ローカルLLMとは？クラウドサービスを使わず、自宅などのローカル環境で動かすLLMのことです。計算能力をかなり要求し、生成速度や賢さがほしければGPUが必要ローカルLLMにはモデルという、学習済みの重みデータが必要で、このモデルはGoogleやAlibabaなどがいくつか公開している実際に家庭で動かせるレベルのモデルは、クラウドのモデルに比べてかなり性能が落ちるモデルを動かすためにはランタイムが必要簡単なのはLM
Studioで、これらはモデルのダウンロードからチャットUI、 MCPツールの設定まで一通りをGUIで提供してくれる 9

Qwen3.5とGemma 4の登場今年の2月から4月にかけて、前世代と比べて性能が大幅に向上したモデル群がリリースされました。 2026年2月16日 : AlibabaがQwen3.5をリリース 2026年4月2日 : GoogleがGemma
4をリリースこれより前の家庭用GPUで動くモデルでは、Claude Codeなどのバイブコーディングツールはほとんど動作しませんでした。(ツール呼び出しが1回でも上手く行けば御の字、大抵はツール呼び出しすら出来ず、意味不明な文字列を出力することも多かった。 ) この新世代のモデルでは、VRAM16〜32GB程度の家庭用GPUで、これらのツールが十分に動作するようになりました。 10

普段どんな構成で使ってるの？ GPU : RTX 5070 Ti VRAM16GBで、購入時の価格は125,800円でした。中の上、あるいは上の下くらいの性能モデル :
unslothによるQwen3.6 27BのIQ2_M量子化モデルコンテキスト長を伸ばすために、2ビット量子化モデルを使用しています。ランタイム : llama.cpp RTX 5070 Ti用のオプションを付けて自前でビルドしています。また、モデル切り替えとTTL管理のためにllama-swapも使用しています。 11

AIエージェント : Hermes Claude Codeのようなコーディング特化のエージェントではなく、汎用的なエージェントを使用しています。 Claude CodeはProプラン以上じゃないと(APIプランでは)検索ツールが使えず、しかも検索ツールをLLMのプロンプトから外すことすら出来ません。 Hermesのウリは「会話内容から自動でスキルとメモリを追加・修正してく
れること」です。自然と会話を最適化してくれるので、賢くないモデルとの相性が良いです。 webuiは、公式のもの、nesquena/hermes-webui、EKKOLearnAI/hermes- web-uiの3つがあり、好みのものを選べばいいと思います。sou7は nesquena/hermes-webuiを使用しています。 ※ Hermesはフランス語で、フランス語では先頭のHは発音しません。 12

クラウドのモデルと比べると？ sou7の体感や周りの人の話を合わせると、大体このくらいのモデルと同じくらいの性能です。 Claude Haiku 4.5 Gemini 3.1 Flash Lite
GPT-5.4 mini ※ 量子化の度合いや与えるタスクによって性能はかなり変わります。あくまで目安程度に考えてください。 13

どんなことが出来るの？ 1000〜2000行のコードで、具体的に指示をすればコーディング可能コードやWeb検索を使った簡単な調査も出来るただし、安定性に欠ける頻繁にループする日本語の中に韓国語や中国語の単語が混ざる(Qwen系の場合) コンテキストにループや質の悪い文章が入ると以降の出力の質が落ちる ※ 安定性については、VRAM不足により量子化度合いの強いモデルを使っているからというのもあります。 14

辛いこと VRAMが足りないため、量子化度合い/コンテキスト長というトレードオフを迫られます。量子化を強めると、安定性が落ちます。 AIエージェントにはかなりのコンテキスト長が必要で、コンテキストの圧縮処理も考えると最低でも100Kトークン、できれば150Kトークンは無いと辛いです。 sou7宅の場合、コンテキストを伸ばした結果、IQ2_Mというかなり強い量子化モデルを使うことになりました。そのために、安定性や性能がかなり犠牲に
なっています。 15

あるある sou7「AではなくBです！べらべらべら…」 16

あるある sou7「AではなくBです！べらべらべら…」 AIエージェント「つまりAってことですね！」 17

あるある sou7「AではなくBです！べらべらべら…」 AIエージェント「つまりAってことですね！」 sou7「違う〜！！」 18

あるある2 sou7「AをしてBをしてCをしてください！」 19

あるある2 sou7「AをしてBをしてCをしてください！」 AIエージェント「ではまずはBから作業を始めます！」 20

あるある2 sou7「AをしてBをしてCをしてください！」 AIエージェント「ではまずはBから作業を始めます！」 sou7「Aからやってほしいのに！！(泣)」 21

あるある3 sou7「Aが壊れてるように見えるからそこをデバッグしてくれ」 22

あるある3 sou7「Aが壊れてるように見えるからそこをデバッグしてくれ」 AIエージェント「わかりました！ではBを確認します」 23

あるある3 sou7「Aが壊れてるように見えるからそこをデバッグしてくれ」 AIエージェント「わかりました！ではBを確認します」 sou7「(# 丶Дﾟ) ﾋﾟｷﾋﾟｷ」 24

ローカルLLMの未来は明るいそれでも、3ヶ月前に比べて格段に実用的になりました。最近は、簡単な質問や調べごとにはローカルLLMを使っています。性能を揃えると、3.3ヶ月で、パラメータ数が半減するという研究があります^1。つまり、半年後には今の120B級相当、1年後には今の480B級相当のモデルが自宅で動かせるようになるかも！ちなみに、クラウドと比べるとコスパは圧倒的に悪いです。付録として、GPUの選び方、おすすめのGPU、MoEについて、トークン生成速度の目安も載せておきます。LTでは時間の都合で割愛しますが、興味がある人はぜひスライドを見てください！
25

出典 1. Chaojun Xiao et al., “Densing Law of LLMs,”
arXiv:2412.04315, 2024. URL: https://arxiv.org/abs/2412.04315 26

余談このスライドの大半は真心のこもった人の手入力によって書かれています。sou7の体感の話ばかりで、基になる情報が無いので… 出典を書くところや、Marpのテーマの修正、インタラクティブな紙芝居の部分など、Hermesを活用している部分もあります。 Marpのテーマが、前回は200行だったのが420行に増えました。どうしてこんなことに… スライド作成RTAの記録は7時間46分でした 27

付録 1. GPUの選び方 2. おすすめのGPU 3. MoEってどうなの？ 4. トークン生成速度の目安 28

GPUの選び方 VRAM量を重視しましょう。処理性能も大事ですが。 VRAMは最低限16GB、できれば24GB以上ほしいところです。複数枚GPUは結構アリです。 VRAMは足し算されます。トークン生成速度は足し算されません(性能の低い方に引っ張られます)。代わりに、同時に複数の生成を走らせても性能が落ちにくくなります。 29

おすすめのGPU 会社機種 VRAM 価格備考 NVIDIA RTX 6000 Pro
Blackwell 96GB 165万円誰か買ってください NVIDIA RTX 5090 32GB 56万円家庭用で一番良い NVIDIA RTX 5070 Ti 16GB 16万円 sou7が使ってる NVIDIA RTX 5060 Ti (16GB) 16GB 9万円 LLM向けとして注目 NVIDIA RTX 4090 24GB 34万円 24GBは魅力的 AMD RX 7900 XTX 24GB 19万円推論のみなら 3090もよく取り上げられますが、流石に古すぎてあまりおすすめできないと感じます。 ※ 価格は2026年5月16日現在の新品の最安値 30

MoEってどうなの？ MoEは萌え〜 Mixture of Expertsの略で、パラメータの一部をいくつかの部分パラメータ(エキスパート/専門家と呼ばれる)に分け、トークンごとに適切なエキスパートを複数選んで生成していく手法です。 1つのトークンを生成するパラメータ数(アクティブパラメータ)が3B程度であれば、処理性能が限られたコンピュータでも高速に生成できます。同じ総パラメータ数では、MoEを使っていないモデルの方が高性能です。
50B以上の大規模なモデルでは、たいていMoEが採用されています。ちなみに、DRAM(マザボに指すメモリ)側に置いたパラメータは必ずCPU で処理されます。PCIeの転送速度はかなり遅く、DRAM側のパラメータを GPU側に転送するのは非常に非効率です。 ※ Mistral Medium 3.5 128BのようなクソデカDenseモデル一応あります。 31

トークン生成速度の目安 5〜10 トークン/秒夜間にバッチ処理を走らせるのであれば十分チャットには厳しい CPUで20B〜のDenseモデルを使うとこれくらいになりがち 10〜30 トークン/秒チャットにはちょっと遅いと感じる AIエージェントやバイブコーディングには厳しい
30〜80 トークン/秒チャットは快適 AIエージェントやバイブコーディングだと遅いと思うことはあるが耐え 80 トークン/秒以上 AIエージェントやバイブコーディングも快適 32

ローカルLLMバイブコーディングのすすめ

ローカルLLMバイブコーディングのすすめ

soukouki

More Decks by soukouki

Other Decks in Technology

Featured

Transcript

自己紹介 sou7といいます。修士1年、28卒予定趣味 : なろう小説を読み漁ること、鉄道(ライト勢) 好きな作品があったらぜひ教えてください！最近読んだ小説

連絡先 ActivityPub/Misskey: @[email protected] → Twitter: @sou7_ _ _ GitHub: @soukouki

世は大LLM時代皆さんにアンケート : バイブコーディングツールを使った経験は？ Claude Code Antigravity Codex GitHub Copilot

【令和8年最新版】今すぐ止めて。AI課金はもう古い。課金なし/レートミットなし/安全にバイブコーディング・AIエージェントを使う方法【無料】 Zli 大LT 2026春 2026-05-16 5

どうやるのか用意するもの : GPU なお電気代は考えないこととします (300WのGPUを1時間フルに動かしても約10円なので) 6

みなさん情報系の学生ですから自宅にGPUくらいありますよね！ 7

ローカルLLMバイブコーディングのススメ Zli 大LT 2026春 2026-05-16 8

Qwen3.5とGemma 4の登場今年の2月から4月にかけて、前世代と比べて性能が大幅に向上したモデル群がリリースされました。 2026年2月16日 : AlibabaがQwen3.5をリリース 2026年4月2日 : GoogleがGemma

普段どんな構成で使ってるの？ GPU : RTX 5070 Ti VRAM16GBで、購入時の価格は125,800円でした。中の上、あるいは上の下くらいの性能モデル :

クラウドのモデルと比べると？ sou7の体感や周りの人の話を合わせると、大体このくらいのモデルと同じくらいの性能です。 Claude Haiku 4.5 Gemini 3.1 Flash Lite

あるある sou7「AではなくBです！べらべらべら…」 16

あるある sou7「AではなくBです！べらべらべら…」 AIエージェント「つまりAってことですね！」 17

あるある sou7「AではなくBです！べらべらべら…」 AIエージェント「つまりAってことですね！」 sou7「違う〜！！」 18

あるある2 sou7「AをしてBをしてCをしてください！」 19

あるある2 sou7「AをしてBをしてCをしてください！」 AIエージェント「ではまずはBから作業を始めます！」 20

あるある2 sou7「AをしてBをしてCをしてください！」 AIエージェント「ではまずはBから作業を始めます！」 sou7「Aからやってほしいのに！！(泣)」 21

あるある3 sou7「Aが壊れてるように見えるからそこをデバッグしてくれ」 22

あるある3 sou7「Aが壊れてるように見えるからそこをデバッグしてくれ」 AIエージェント「わかりました！ではBを確認します」 23

あるある3 sou7「Aが壊れてるように見えるからそこをデバッグしてくれ」 AIエージェント「わかりました！ではBを確認します」 sou7「(# 丶Дﾟ) ﾋﾟｷﾋﾟｷ」 24

出典 1. Chaojun Xiao et al., “Densing Law of LLMs,”

付録 1. GPUの選び方 2. おすすめのGPU 3. MoEってどうなの？ 4. トークン生成速度の目安 28

おすすめのGPU 会社機種 VRAM 価格備考 NVIDIA RTX 6000 Pro