Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ML@Loft リポジトリをまるごとAIでレビューする
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Kawataki Yoshikazu
October 30, 2024
Technology
1
450
ML@Loft リポジトリをまるごとAIでレビューする
ML@Loft - コンテンツレビューにおけるLLM活用のリアル で発表したスライド資料
Kawataki Yoshikazu
October 30, 2024
Tweet
Share
Other Decks in Technology
See All in Technology
Claude Cowork Plugins を読む - Skills駆動型業務エージェント設計の実像と構造
knishioka
0
290
Claude Codeが爆速進化してプラグイン追従がつらいので半自動化した話 ver.2
rfdnxbro
0
420
AIエージェント時代に備える AWS Organizations とアカウント設計
kossykinto
0
190
モブプログラミング再入門 ー 基本から見直す、AI時代のチーム開発の選択肢 ー / A Re-introduction of Mob Programming
takaking22
2
390
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
22k
元エンジニアPdM、IDEが恋しすぎてCursorに全業務を集約したら、スライド作成まで爆速になった話
doiko123
1
450
マルチロールEMが実践する「組織のレジリエンス」を高めるための組織構造と人材配置戦略
coconala_engineer
3
590
開発組織の課題解決を加速するための権限委譲 -する側、される側としての向き合い方-
daitasu
5
290
作りっぱなしで終わらせない! 価値を出し続ける AI エージェントのための「信頼性」設計 / Designing Reliability for AI Agents that Deliver Continuous Value
aoto
PRO
1
200
Evolution of Claude Code & How to use features
oikon48
1
500
生成AIの利用とセキュリティ /gen-ai-and-security
mizutani
1
1.4k
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
3k
Featured
See All Featured
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.8k
WENDY [Excerpt]
tessaabrams
9
36k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
290
Utilizing Notion as your number one productivity tool
mfonobong
4
250
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
New Earth Scene 8
popppiees
1
1.7k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
Fireside Chat
paigeccino
42
3.8k
Transcript
© EXNOA LLC 1 リポジトリをまるごと AIでレビューする Long Contextモデルを利用したレビューシステムの紹介
© EXNOA LLC • 合同会社EXNOA • 技術統括本部 技術推進部 サーバーグループ •
川瀧 嘉和 自己紹介 2
© EXNOA LLC 背景と課題 • 自社でパブリッシュするゲームタイトルの技術面のレビューを横断的に 行っているが、様々な言語、アーキテクチャやプラットフォームのものが あり、レビュワーの技術スタックでカバーしきれないことある。 • 比較的短期間にアプリケーションやインフラストラクチャーなど、資料物
量が多く、幅広い範囲をレビューする必要があり、全てを網羅的にレ ビューしきれない場合がある。 3
© EXNOA LLC レビューシステム概要 本システムは、LongContextモデルを活用 し、リポジトリ全体を単一のコンテキスト として捉え、複数の評価基準に基づいて包 括的に分析します。 これにより、プロジェクト全体の文脈を考 慮した、改善提案を自動生成するレビュー
ツールです。 4
© EXNOA LLC アーキテクチャ概要 5 Amazon Web Services、“Powered by AWS”ロゴ、[およびかかる資料で使用されるその他のAWS商標]
は、 米国その他の諸国における、 Amazon.com, Inc.またはその関連会社の商標です。 • シンプルなECSによる構成 • WebインタフェースはGradioを採用 • 処理部分はフルスクラッチで開発
© EXNOA LLC レビュープロセス概要 レビュープロセスの中で Claude 3.5 Sonnet と Gemini
1.5 Proを使用 ・レビュー対象ファイルリストの作成 ・レビューの実施 ・レビュー結果の評価 6 レビュー対象ファイルリスト作成 Gemini レビュー用プロンプトを構築 レビューを実行 Claude Gemini OR 提案を評価 有効? Claude Gemini OR はい いいえ 提案に追加 提案を破棄 結果を出力 視点ごとのレビュー 提案の評価とフィルタリング
© EXNOA LLC 試しにvllmをレビューしてみました 7 https://github.com/vllm-project/vllm.git
© EXNOA LLC 8
© EXNOA LLC 9
© EXNOA LLC 10
© EXNOA LLC 11
© EXNOA LLC 提案の一例 12
© EXNOA LLC 技術的なポイント • AIによる回答に一貫性をもたせキャッシュできるよう常にTemperature=0 • コンテキスト長が長くなったと言っても、一度に全体を取り込めないリポジトリは多い • レビューするファイルそのものもAIに選定させて無駄なファイルを除外
• 出力コンテキストが長くなるとJSONで出力が不安定になる • マークダウンで出力し、正規表現で解析 • 地道なプロンプトのチューニング • いろいろなリポジトリをレビューにかけ繰り返し調整 13
© EXNOA LLC メリットと効果 • 操作が簡単で誰でもAIレビューの提案出力が可能になった。 • 関連した複数のファイルを横断する指摘や提案もしてくれる。 • レビュワー担当者の技術スタックによらず一定精度のレビューが可能になっ
た。 • 提案の再確認は必要だが、確実にレビュー品質は向上した。 • 精度の高いモデルを入れ替えるだけで、レビュー精度の向上が期待できる。 14
© EXNOA LLC 課題 • 担当者の技術スタックによらずレビューはできるものの、提案内容の妥当 性を人間が評価できる必要がある。 • レビュー対象ファイルリストの選定の精度がファイルパスに依存してしま う。
• CodacyやSonarQubeなどの競合になると思われるサービスとの比較がで きていない。 15
© EXNOA LLC まとめ • LongContextモデルを利用することで、プロジェクト全体を包括的に レビューすることが可能になった。 • Claudeをはじめ世の中には様々なモデルが公開されてきているので、 その時の最善のものを利用することで、より高精度なレビューを実現
できるようになる。 • AIによるレビューはできても最終的に人の確認は必要。 16