Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Text-to-SQLをAgentCoreで実現し、生成されるSQLの精度を定量的に評価する
Search
やくも
July 04, 2026
Technology
78
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Text-to-SQLをAgentCoreで実現し、生成されるSQLの精度を定量的に評価する
JAWS ミート 2026
https://jaws-ug-tokaido.connpass.com/event/392910/
やくも
July 04, 2026
More Decks by やくも
See All by やくも
社内RAGの導入で気を付けたポイント
yakumo
3
180
おいらのAWSアップデートの追い方〜Slack×AgentCore〜
yakumo
2
140
AgentCore Managed Harness を使ってみよう
yakumo
2
450
AgentCoreがWindowsで動かなかった原因を調べてみた
yakumo
1
100
AgentCoreとLINEを使った飲食店おすすめアプリを作ってみた
yakumo
2
420
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
2
610
なんとなくの実装を抜け出す!10分でおさらいするAgentCoreの認証・認可
yakumo
2
680
AWSと生成AIで学ぶ!実行計画の読み解き方とSQLチューニングの実践
yakumo
3
1.5k
AIエージェントを5分で一気におさらい!AIエージェント「構築」元年に備えよう
yakumo
1
200
Other Decks in Technology
See All in Technology
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
1.9k
AIチャット検索改善の3週間
kworkdev
PRO
2
200
FPGAの開発コンペでZephyrを使ってみた
iotengineer22
0
220
打造你的 AI 工作流:Agent Skill + MCP 實戰工作坊
appleboy
0
150
5分でわかるDuckDB Quack
chanyou0311
4
260
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
930
秘密度ラベル初心者が第1歩でつまづかないための「設計・運用」ポイント
seafay
PRO
1
500
Microsoft のサポートとフィードバック総まとめ
murachiakira
PRO
0
120
はてなのサービス基盤を支える Kubernetes《足腰》
masayoshimaezawa
0
170
本当の”仕事”を手放せる未来が見えた
mu7889yoon
0
190
クレデンシャル流出 ― 攻撃 3 時間 vs 復旧 10 時間。この非対称性にどう備えるか
kazzpapa3
3
620
UIパーツの設計を「型」から読み解く 〜TSKaigiのセッションから得た学び〜
yud0uhu
0
100
Featured
See All Featured
The agentic SEO stack - context over prompts
schlessera
0
830
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Tell your own story through comics
letsgokoyo
1
980
The SEO Collaboration Effect
kristinabergwall1
1
490
Become a Pro
speakerdeck
PRO
31
6k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
980
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
590
The Pragmatic Product Professional
lauravandoore
37
7.3k
A Soul's Torment
seathinner
6
3k
The Cost Of JavaScript in 2023
addyosmani
55
10k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
280
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Transcript
AgentCoreを利用したText-to-SQLと精度評価 八雲 慎之助/Shinnosuke Yakumo 2026/7/4 JAWS-UG ミート 2026
八雲 慎之助(やくも しんのすけ) • 所属:株式会社クレスコ / JAWS-UG 新潟支部 • 業務:R&D(AI分野)
• AWS Community Builder – AI Engineering • 2025 Japan AWS Jr.Champions Who am I
AgentCore 使ってますか?
Text-to-SQLはやったことありますか?
Text-to-SQLって?? • 自然言語の質問をSQLクエリに変換する • NL2SQLとかあるけどほぼ同じ • 難しい構文を理解しなくても良いので、知識がなくても必 要なデータの取得が可能になる。
ざっくりなイメージ(従来のSQL) SQLカキカキ〜
ざっくりなイメージ(Text-to-SQL) SQLカキカキ〜 LLMにSQLを考えさせて実行
Text-to-SQLの課題や弱点 • LLMに生成させるのでハルシネーションは起こりうる • 場合によってはレイテンシーが大きくなる • 生成されたSQLの精度が評価しづらい
導入の背景やメリット • アプリ部門にいた時代、SQLによる分析や実行計画からの 改善の負担が大きかった • 職人気質な分野だが若手が任されやすい • 本来の開発に時間をかけたいので、LLMを使えるなら活用 して時間を短縮したい!
AWSでの構築方法 https://speakerdeck.com/yakumo/bedrockde
Bedrock Agentsさん…(7/30より新規利用停止) https://aws.amazon.com/about-aws/whats-new/2026/06/aws-service-availability/
AgentCoreで実装するとこんな感じになりました
動作イメージ(次のスライド)
AgentCoreで実装するとこんな感じになりました 評価+ダッシュボード表示 スキーマ検索+SQL実行
やっていることの解説など • スキーマの検索・取得 • AgentCore Memoryの活用 • LLM as a
judgeによるSQLの精度評価 • 実行計画の確認とSQLの修正(未実装(泣))
①スキーマの取得 全テーブルを参照すると、SQL生成時のコンテキストが爆発する データストア こんな感じでヨロ データ探すの大変なん ですけど…
①スキーマの取得 エージェントが効率的にSQLを書くために、どのテーブル・カラム を使えばいいかを判断する →コストの削減(トークンベースで1/10)、精度向上、レスポンス短縮
①スキーマの取得 スキーマ検索+SQL実行 • レイテンシと精度はトレードオフ • 数テーブルしかないのであれば、不要な処理となる • テーブル数が膨大で、LLMの負担を減らしたいので あれば効果的な処理となります。
②AgentCore Memoryの活用 1. ユーザーの質問をメモリに保存 2. 類似の過去事例を取得 3. 参考にSQLを生成
②AgentCore Memory使用・未使用の比較 1. 質問 2. スキーマ取得 3. SQLを生成 • 過去の正解例を知らない
• 似た質問でも毎回ゼロから推論 1. 質問 2. Memory検索(類似の正解を取得) 3. スキーマ取得 4. SQLを生成 • 正解を手本に • JOINのパスやカラム選択の精度の向上 毎回推論して生成する Memoryを参照するのでどんどん 精度が向上する Memory 未使用 Memory 使用
LLM as a judgeによるSQL評価について • LLM自身がLLMのアウトプットを評価する手法 • なぜLLM as a
judge? • BIRDのようなベンチマークはオフライン評価 • 本番で稼働し、データが変わり続ける場合LLMを利用した方が 品質の担保がしやすかった • 本番導入前のオフラインでの検証では有用かもしれない • Ex)スキーマ検索の有無、Memoryの有無での精度比較など
マルチモデルによる採点を実施 • 単一モデルによる偏りを防ぐため、3つのモデルで採点 質問+SQL+応答 異なるモデル、異なるプロンプトで並列評価 最終スコアを表示
採点モデルごとのプロンプト例 • Opus • SQLの正確性に関する深い検証 • テーブルやカラム、JOIN条件などの妥当性 • Sonnet •
回答品質の評価 • 質問に対して的確に答えているか?わかりやすいか? • Haiku/Amazon Nova • 効率性のチェック • フルスキャン、冗長なJOINがないか
AgentCore Evaluationsについて • AgentCoreで実装しているなら、組み込み機能のEvaluationsを使 えばいいのでは?? →実はAgentCore Evaluationsもオンライン評価に対応しているの で、技術的には可能です。 • ですが今回はユーザー体験が良い方を優先しました。
なぜAgentCore Evaluationsじゃないのか 1. 非同期表示のため • 実行後、即座に、シームレスに評価を確認したい場合がある。 • Evaluationsは毎回CloudWatchを見る手間があり、表示にタイムラグもある。 2. GenAIダッシュボードを見る必要がある
• 結果・評価の確認、実行計画の改善などを単一ダッシュボードで改善したかった 3. マルチモデル評価やコメント合成未対応 • マルチモデルによる評価は不可 • ビルトイン評価の場合、モデルそのものが不明(カスタムの場合指定可能)
さいご • LLMを利用したSQL生成により、初学者・新規参画者の湿気がグッ と下がることを実感 • AgentCoreに縛られず、要件や現場に適した実装や技術選定のの 重要さを改めて理解 • 実行計画の改善機能が残っているので、早めに実装する