Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Claude Code × WebLLM:AI駆動開発で作る次世代PDF要約ツール

Claude Code × WebLLM:AI駆動開発で作る次世代PDF要約ツール

Claude Code(Claude 4)を使ったVibe Codingで開発した、プライバシー重視のPDF要約アプリケーションの開発体験談。WebLLMを活用してブラウザ内で完全ローカル実行されるAI要約システムの実装から、ローカルLLMの現状と課題、そしてAI支援開発の生産性とコストについて実体験を交えて解説します。

#WebLLM #AI #PDF #ローカルLLM #VibeCoding #Claude #プライバシー #開発体験

Avatar for teitei_tk

teitei_tk

June 23, 2025
Tweet

More Decks by teitei_tk

Other Decks in Programming

Transcript

  1. プロジェクト概要 目的: PDFファイルからテキスト抽出 + AI要約 技術: TypeScript, Next.js 15, React

    19, WebLLM, Material-UI v7 Vitest プライバシー: すべての処理が内部のサーバで完結する AI活用: 99.5%ぐらいAI(ClaudeCode Claude4)製。いわゆるVibe Coding GitHubURL: https://github.com/teitei-tk/webllm-pdf-summary 9
  2. アーキテクチャ PDF Upload Text Extract AI Summary ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐

    │ ドラッグ&ドロップ │ ──→ │ pdf2json │ ──→ │ WebLLM │ │ ファイル選択 │ │ テキスト抽出 │ │ 自動要約処理 │ └─────────────────┘ └─────────────────┘ └─────────────────┘ │ │ │ │ ▼ ▼ │ Server-side API Browser-based AI │ ┌─────────────────┐ ┌─────────────────┐ └──────────────→│ Next.js API │ │ クライアント処理 │ │ Route Handler │ │ プライバシー保護 │ └─────────────────┘ └─────────────────┘ 10
  3. WebLLM フォールバック戦略を採用 実装では以下の優先順位でフォールバックを設定: const modelCandidates = [ 'Phi-3-mini-4k-instruct-q4f16_1-MLC', // 第一選択

    'TinyLlama-1.1B-Chat-v0.4-q4f16_1-MLC', // 軽量フォールバック 'RedPajama-INCITE-Chat-3B-v1-q4f16_1-MLC', // 高性能フォールバック ]; 13
  4. 利用モデル Phi-3-mini 選択理由 1. ユーザー体験 初期化時間: 2-3分程度で実用的 応答速度: リアルタイムに近い要約生成 安定性:

    クラッシュやエラーが少ない 2. 要約品質 文書理解: PDF文書の構造理解が良好 要約精度: 重要ポイントの抽出が適切 日本語自然性: 読みやすい日本語要約を生成 14
  5. 利用モデル TinyLlama 選択理由 1. 軽量性 サイズ: ~600MB メモリ: 1GB程度で動作 対象:

    低スペックデバイス対応 2. 安定性 WebLLMでの動作実績が豊富 ブラウザ環境での互換性が高い 初期化失敗率が低い 15
  6. 利用モデル RedPajama 選択理由 1. 中間的な性能 パラメータ: 3B(TinyLlamaの1.1Bより大きい) 品質: TinyLlamaより高い要約品質 サイズ:

    ~2GB(Phi-3-miniより軽量) 2. 多様性の確保 アーキテクチャ: 異なるモデル系統 学習データ: RedPajamaデータセット使用 互換性: 他モデルで失敗時の代替案 17
  7. モデル Llama-3.1-8B アーキテクチャ パラメータ数: 8B(80億) アーキテクチャ: Transformer decoder Context Length:

    128K トークン(超長文対応) 量子化: q4f16_1(4bit量子化) モデルサイズ フル精度: ~16GB 量子化後: ~5GB(WebLLM対応) メモリ使用: 実行時8-10GB 24
  8. モデル Llama-3.1-8B 性能特徴 1. 多言語性能 日本語: GPT-3.5レベルの品質 英語: ネイティブレベル 2.

    推論能力 論理的思考: 複雑な推論タスクに対応 文書理解: 長文の構造理解が得意 要約品質: 重要ポイントの抽出精度が高い 25
  9. 抽出テキスト また、Appleは「Liquid Glass X」という技術を開発し、Windows Vistaに搭載しました。さらに、Appleの「Apple X Aero Glass」という技術も開発されました。 提供されたテキストには、Windows Vista

    2007とPC、iPhone、UIの記述があります。 要約すると、AppleはさまざまなOSをリリースし、Windows Vistaに「Liquid Glass X」を搭載し、「Apple X Aero Glass」を開発し、Windows Vista 2007とPC、iPhone、UIに関連する情報を提供したということです。 28
  10. 結果 Apple is set to unveil a new software design,

    "Liquid Glass," at its Worldwide Developers Conference, featuring a glossy, translucent aesthetic consistent across all Apple operating systems. The design is expected to lay the groundwork for new hardware products, including a 20th-anniversary iPhone with curved glass sides and slim bezels, launching in 2027. 31