ロングコンテキストLLMにリポジトリを読み込ませてみる

Slide 1

Slide 1 text

Slide 2

Slide 2 text

2 CONFIDENTIAL © 2024 Japan Digital Design, Inc. 吉竹直樹 Technical Project Manager Japan Digital Design • 2022 APN AWS Top Engineer • 『AWS認定資格試験テキスト AWS認定SysOpsアドミニストレーター – アソシエイト』 • 『AWS vs Google Cloud アプリ開発七番勝負』 ※同人誌プロフィール資格/出版 • 2023/11 JDDにJOIN • プロジェクトマネジメント/アーキテクチャ設計/技術検証等 # 音楽 # 旅行 # なんでも屋 # Drum # お酒

Slide 3

Slide 3 text

Slide 4

Slide 4 text

4 CONFIDENTIAL © 2024 Japan Digital Design, Inc. 本日のLTテーマ • コンテキストウィンドウが大きいLLMのこと • Claude 3/3.5 : 20 万 • Gemini 1.5 Flash : 100 万 • Gemini 1.5 Pro : 200 万 • より多くの情報をLLMへ入力できるようになったロングコンテキストLLMとは？ロングコンテキストLLM

Slide 5

Slide 5 text

5 CONFIDENTIAL © 2024 Japan Digital Design, Inc. • 新規サービス検討チームで技術/アーキテクチャ担当 • サービスはLLMを活用 • 『LLMをどのようにサービスに組み込むのか』考えたい • RAG？ • Agent？新規サービスのアーキテクトとあるプロダクトのTech PM • 開発チームのプロジェクトマネジメント • 日々、チームやプロセスの改善を検討 • 『LLMサービスを積極的にトライ＆活用したい』 • GitHub Copilot Enterprise • Copilot for Microsoft 365 背景：自身のロール

Slide 6

Slide 6 text

6 CONFIDENTIAL © 2024 Japan Digital Design, Inc. 背景：課題感 • 現時点の GitHub Copilot の限界 • とても有用だが、コンテキストに含まれるコードは多くない • Enterprise で自動PR作成機能が無くなっていた… • さらなる進化には期待している • RAGの難しさ • 回答の正しさは検索精度に依存する • ドキュメントの形式はいろいろ LLMを使う中で感じていたこと

Slide 7

Slide 7 text

7 CONFIDENTIAL © 2024 Japan Digital Design, Inc. • リポジトリ全体を読み込ませてQAできるかも • RAGの代替になり得るのか • 精度や速度はどんなものか考えたこと 6/27 Gemini 1.5 Pro の2M コンテキストウィンドウがGA Gemini の追加機能がGAに https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/

Slide 8

Slide 8 text

Slide 9

Slide 9 text

9 CONFIDENTIAL © 2024 Japan Digital Design, Inc. リポジトリのコードをGeminiへのクエリのコンテキストに含める全体感 Gemini GitHub User Code 1. 入力データの整備リポジトリからcloneしてきたコードを、 Geminiの入力に使えるように整備 2. GeminiへのリクエストユーザーからGeminiにクエリを投げる際に、加工したコードをコンテキスト含める

Slide 10

Slide 10 text

10 CONFIDENTIAL © 2024 Japan Digital Design, Inc. 試す際のポイント • 「リポジトリ丸ごと」入力にするのは簡単じゃない • 大抵のAPIでは、入力として扱えるファイルは1つのみ • 複数フォルダ＆ファイルを同時にLLMの入力にするための工夫が要る • そもそもコンテキストウィンドウの上限に達しないか • LLMの課金額は必ず試算する • これだけ大量のデータを同時に入力するのは初めて • リポジトリのコードがどれくらいのトークン量か想像もつかない試す際のポイント

Slide 11

Slide 11 text

11 CONFIDENTIAL © 2024 Japan Digital Design, Inc. コードを一つのファイルに集約する • LLMの入力に出来るように、リポジトリのコードを集約するスクリプトを作成 • 作成には Anthropic の Claude 3.5 Sonnetを利用 • Claudeにした理由は、普段使いしているから • リポジトリ全体ではなく、Frontend / Backend / Infra のフォルダごとに集約 • モノレポ全体を一つのファイルにするとコンテキストウィンドウの上限を超えた • 集約されたファイルには集約したファイルのパスも記載 • どのフォルダのコードかわかるようにするため 1. 入力データの整備

Slide 12

Slide 12 text

12 CONFIDENTIAL © 2024 Japan Digital Design, Inc. 集約対象から不要なファイルは除外 • .gitignoreを考慮して集約するようにスクリプトを作成 • secret や node_modulesが集約対象にならないように • その他、指定したパターンに該当するファイルを除外して集約できるようにした • ファイルごとの文字数をCSVファイルに出力したところ、一部のJSONファイルの文字数が非常に多かった • 確認したら Google Analytics のコンテナファイルだった • リポジトリ内容としては不要なので除外 • その他、テストコードも今回は除外 1. 入力データの整備 frontend │ ├ー src/pages/home │ ├ー Home.tsx │ └ー Home.stories.tsx │ ├ー src/share/components │ ├ー ComponentA.tsx │ └ー ComponentA.stories.tsx │ ├ー src/share/components/sub-components │ ├ー SubComponentB.tsx │ └ー SubComponentB.stories.tsx │ ├ー router.tsx │ ├ー .secret │ └ー key.json │ └ー google-analytics └ー container.json .gitignore や任意のファイルを集約対象から除外 ※フォルダ構成はイメージです

Slide 13

Slide 13 text

13 CONFIDENTIAL © 2024 Japan Digital Design, Inc. count_tokens のAPIを使い試算する • Vertex AI のGemini は「文字数」により課金される • 入力、出力ともに1,000字あたり • 合計のトークン数と、課金対象の文字数を確認できる count_tokens API が用意されている • total_tokens • total_billable_characters 2. Geminiへのリクエスト 1.5 Flash入力 1.5 Pro入力 1.5 Flash出力 1.5 Pro出力 https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=ja

Slide 14

Slide 14 text

14 CONFIDENTIAL © 2024 Japan Digital Design, Inc. 2. Geminiへのリクエスト：試算結果種類トークン数文字数モデル試算結果(USD) Frontend 965,305 2,290,364 Gemini 1.5 Flash 0.573 Gemini 1.5 Pro 5.726 Backend 201,300 635,909 Gemini 1.5 Flash 0.159 Gemini 1.5 Pro 1.590 Infra 227,835 477,072 Gemini 1.5 Flash 0.119 Gemini 1.5 Pro 1.193 • Gemini 1.5 Pro でFrontendのコード全体を入力にすると1リクエストで約922円飛ぶ • Gemini 1.5 Flash で検証することに（小規模に試すなら許容できるコスト） • アプリケーションの特性的に Frontend >>> Backend > Infra なので想定通り

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

17 CONFIDENTIAL © 2024 Japan Digital Design, Inc. 所感 • 肝心の正確さはこれから… • デプロイしたが2日前… • 少し試したメンバーからのフィードバック • 全体感を掴むの良い • 改善点が良い線いってるかも • 嘘つかれた（ハルシネーション） • 応答時間が長い • コードをファイルから読み込んでメモリに乗せる時間が長い • Gemini 1.5 Flash自体は高速だが、コード量が多い場合は回答も遅い試してみての所感

Slide 18

Slide 18 text

18 CONFIDENTIAL © 2024 Japan Digital Design, Inc. ロングコンテキストLLMとRAG等の比較 • DeepMindの研究チームが2024/6に発表した『Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?』 (*1) • ロングコンテキストなLLM（Long-context language models (LCLMs)）を評価するためのベンチマークとしてLOFTが開発された • RAGとの比較も行われているロングコンテキストLLMの未来 • 利点 • テキストや音声検索のタスクで、専門システムと同等の性能 • 多段階の推論を必要とするタスク • プロンプトエンジニアリングが容易 • 課題 • コンテキストウィンドウが増加するにつれて性能が低下する可能性 • 複雑な構造化タスク（SQLタスク）は不得意 • リアルタイムの応答に時間がかかる要約による利点と課題（by Claude 3） (*1) https://arxiv.org/html/2406.13121v1

Slide 19

Slide 19 text

Slide 20

Slide 20 text

20 CONFIDENTIAL © 2024 Japan Digital Design, Inc. さいごに • コンテキストキャッシュや根拠づけ機能 • コンテキストキャッシュの試算とかもした • Google Cloud で生成AI使う上での利用規約上の注意点 • プレビューは注意 • 社内向けWebアプリを作った詳細 • Identity-Aware Proxy 便利本日話さなかったこと（興味があれば聞いて下さい）