Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ML@Loft リポジトリをまるごとAIでレビューする
Search
Kawataki Yoshikazu
October 30, 2024
Technology
1
400
ML@Loft リポジトリをまるごとAIでレビューする
ML@Loft - コンテンツレビューにおけるLLM活用のリアル で発表したスライド資料
Kawataki Yoshikazu
October 30, 2024
Tweet
Share
Other Decks in Technology
See All in Technology
自作JSエンジンに推しプロポーザルを実装したい!
sajikix
1
160
テストを軸にした生き残り術
kworkdev
PRO
0
180
ヘブンバーンズレッドのレンダリングパイプライン刷新
gree_tech
PRO
0
590
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
370
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
30k
Grafana MCPサーバーによるAIエージェント経由でのGrafanaダッシュボード動的生成
hamadakoji
1
1.4k
大「個人開発サービス」時代に僕たちはどう生きるか
sotarok
19
9.3k
品質視点から考える組織デザイン/Organizational Design from Quality
mii3king
0
110
【実演版】カンファレンス登壇者・スタッフにこそ知ってほしいマイクの使い方 / 大吉祥寺.pm 2025
arthur1
1
330
Automating Web Accessibility Testing with AI Agents
maminami373
0
1.1k
20250903_1つのAWSアカウントに複数システムがある環境におけるアクセス制御をABACで実現.pdf
yhana
2
420
2025年になってもまだMySQLが好き
yoku0825
8
4.2k
Featured
See All Featured
Code Review Best Practice
trishagee
70
19k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
13k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Mobile First: as difficult as doing things right
swwweet
224
9.9k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
A Tale of Four Properties
chriscoyier
160
23k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.6k
Why Our Code Smells
bkeepers
PRO
339
57k
Side Projects
sachag
455
43k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
Transcript
© EXNOA LLC 1 リポジトリをまるごと AIでレビューする Long Contextモデルを利用したレビューシステムの紹介
© EXNOA LLC • 合同会社EXNOA • 技術統括本部 技術推進部 サーバーグループ •
川瀧 嘉和 自己紹介 2
© EXNOA LLC 背景と課題 • 自社でパブリッシュするゲームタイトルの技術面のレビューを横断的に 行っているが、様々な言語、アーキテクチャやプラットフォームのものが あり、レビュワーの技術スタックでカバーしきれないことある。 • 比較的短期間にアプリケーションやインフラストラクチャーなど、資料物
量が多く、幅広い範囲をレビューする必要があり、全てを網羅的にレ ビューしきれない場合がある。 3
© EXNOA LLC レビューシステム概要 本システムは、LongContextモデルを活用 し、リポジトリ全体を単一のコンテキスト として捉え、複数の評価基準に基づいて包 括的に分析します。 これにより、プロジェクト全体の文脈を考 慮した、改善提案を自動生成するレビュー
ツールです。 4
© EXNOA LLC アーキテクチャ概要 5 Amazon Web Services、“Powered by AWS”ロゴ、[およびかかる資料で使用されるその他のAWS商標]
は、 米国その他の諸国における、 Amazon.com, Inc.またはその関連会社の商標です。 • シンプルなECSによる構成 • WebインタフェースはGradioを採用 • 処理部分はフルスクラッチで開発
© EXNOA LLC レビュープロセス概要 レビュープロセスの中で Claude 3.5 Sonnet と Gemini
1.5 Proを使用 ・レビュー対象ファイルリストの作成 ・レビューの実施 ・レビュー結果の評価 6 レビュー対象ファイルリスト作成 Gemini レビュー用プロンプトを構築 レビューを実行 Claude Gemini OR 提案を評価 有効? Claude Gemini OR はい いいえ 提案に追加 提案を破棄 結果を出力 視点ごとのレビュー 提案の評価とフィルタリング
© EXNOA LLC 試しにvllmをレビューしてみました 7 https://github.com/vllm-project/vllm.git
© EXNOA LLC 8
© EXNOA LLC 9
© EXNOA LLC 10
© EXNOA LLC 11
© EXNOA LLC 提案の一例 12
© EXNOA LLC 技術的なポイント • AIによる回答に一貫性をもたせキャッシュできるよう常にTemperature=0 • コンテキスト長が長くなったと言っても、一度に全体を取り込めないリポジトリは多い • レビューするファイルそのものもAIに選定させて無駄なファイルを除外
• 出力コンテキストが長くなるとJSONで出力が不安定になる • マークダウンで出力し、正規表現で解析 • 地道なプロンプトのチューニング • いろいろなリポジトリをレビューにかけ繰り返し調整 13
© EXNOA LLC メリットと効果 • 操作が簡単で誰でもAIレビューの提案出力が可能になった。 • 関連した複数のファイルを横断する指摘や提案もしてくれる。 • レビュワー担当者の技術スタックによらず一定精度のレビューが可能になっ
た。 • 提案の再確認は必要だが、確実にレビュー品質は向上した。 • 精度の高いモデルを入れ替えるだけで、レビュー精度の向上が期待できる。 14
© EXNOA LLC 課題 • 担当者の技術スタックによらずレビューはできるものの、提案内容の妥当 性を人間が評価できる必要がある。 • レビュー対象ファイルリストの選定の精度がファイルパスに依存してしま う。
• CodacyやSonarQubeなどの競合になると思われるサービスとの比較がで きていない。 15
© EXNOA LLC まとめ • LongContextモデルを利用することで、プロジェクト全体を包括的に レビューすることが可能になった。 • Claudeをはじめ世の中には様々なモデルが公開されてきているので、 その時の最善のものを利用することで、より高精度なレビューを実現
できるようになる。 • AIによるレビューはできても最終的に人の確認は必要。 16