Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Text-to-SQLをLangSmithで評価
Search
西岡 賢一郎 (Kenichiro Nishioka)
July 26, 2024
Business
0
190
Text-to-SQLをLangSmithで評価
機械学習の社会実装勉強会第37回 (
https://machine-learning-workshop.connpass.com/event/324630/
) の発表資料です。
西岡 賢一郎 (Kenichiro Nishioka)
July 26, 2024
Tweet
Share
More Decks by 西岡 賢一郎 (Kenichiro Nishioka)
See All by 西岡 賢一郎 (Kenichiro Nishioka)
LangGraphを使ったHuman in the loop
knishioka
0
94
AIシステムの品質と成功率を向上させるReflection
knishioka
0
23
LangGraph Templatesによる効率的なワークフロー構築
knishioka
0
110
AIエージェントの開発に特化した統合開発環境 LangGraph Studio
knishioka
0
150
LangGraphを用いたAIアプリケーションにおけるメモリ永続化の実践
knishioka
1
390
効果的なLLM評価法 LangSmithの技術と実践
knishioka
1
380
LangGraphのノード・エッジ・ルーティングを深堀り
knishioka
1
560
LangGraphでマルチエージェントワークフローを構築
knishioka
0
420
LLMアプリケーションで使用するVector Databaseの比較
knishioka
0
2.7k
Other Decks in Business
See All in Business
傾聴力を高めるビジネスゲーム「傾聴チャレンジ」
chibanba1982
PRO
0
260
コンセンサスゲーム「NASAゲーム オンライン版」
chibanba1982
PRO
0
690
Sales Marker Culture Book(English)
salesmarker
PRO
1
3.4k
企業向けチームビルディングゲーム「ドミノ」
chibanba1982
PRO
0
110
ABCash会社紹介資料「Culture Deck2025」
abcash_recruit
0
10k
営業疑似体験ゲーム「ヒアリングチャレンジオンライン版」
chibanba1982
PRO
0
240
Owned株式会社 採用ピッチ
owned_recruit
PRO
0
180
ロジカルシンキング研修用スライド
chibanba1982
PRO
0
470
FY2025_ASK会社案内
asking
1
150
財務会計を楽しく学べるビジネスゲーム「財務の虎」
chibanba1982
PRO
0
460
フォロワーシップ、ビジョン共有の重要性を学べる「部課長ゲームオンライン」
chibanba1982
PRO
0
400
S-Mat CultureDeck
smartshopping
2
30k
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
870
GraphQLとの向き合い方2022年版
quramy
44
13k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.2k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
How to train your dragon (web standard)
notwaldorf
89
5.8k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.5k
Writing Fast Ruby
sferik
628
61k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.2k
A Philosophy of Restraint
colly
203
16k
Transcript
Text-to-SQLをLangSmithで評価 2024/07/27 第37回勉強会
自己紹介 • 名前: 西岡 賢一郎 ◦ Twitter: @ken_nishi ◦ note:
https://note.com/kenichiro ◦ YouTube: 【経営xデータサイエンスx開発】西岡 賢一郎のチャンネル (https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg) • 経歴 ◦ 東京大学で位置予測アルゴリズムを研究し博士 (学術) を取得 ◦ 東京大学の博士課程在学中にデータサイエンスをもとにしたサービスを提供する株式会社ト ライディアを設立 ◦ トライディアを別のIT会社に売却し、CTOとして3年半務め、2021年10月末にCTOを退職 ◦ CDPのスタートアップ (Sr. CSM)・株式会社データインフォームド (CEO)・株式会社ディース タッツ (CTO) ◦ 自社および他社のプロダクト開発チーム・データサイエンスチームの立ち上げ経験
Text-to-SQLの背景と必要性
Text-to-SQLとは • 自然言語の質問やコマンドをSQLクエリに変換する技術 • 例: "30歳以上のユーザーの平均年齢は?" → "SELECT AVG(age) FROM
users WHERE age >= 30;" • Text-to-SQLの仕組み ◦ 自然言語理解 (NLU): ▪ ユーザーが入力した自然言語の質問や要求を解析して、意図を理解します。 ◦ 文脈と構造の抽出: ▪ 質問の文脈や構造を抽出し、どのデータベースのテーブルやカラムが関係して いるかを特定します。 ◦ SQLクエリ生成: ▪ 抽出された情報を基に、適切なSQLクエリを生成します。 ◦ 実行と結果の表示: ▪ 生成されたSQLクエリをデータベースに対して実行し、その結果をユーザーに 返します。
なぜText-to-SQLが必要か • データベースへのアクセシビリティ向上 ◦ SQL非専門家でもデータ分析が可能に ◦ ビジネスユーザーが直接データにアクセス可能 • 開発効率の向上 ◦
繰り返し行われるクエリ作成の自動化 ◦ プロトタイピングの迅速化 • 自然言語インターフェースの実現 ◦ チャットボットやAIアシスタントへの統合 ◦ よりユーザーフレンドリーなデータ探索ツールの 開発 データ抽出依頼 データ抽出 Text-to SQLで データ抽出
Text-to-SQLの評価方法
評価指標の例 1. 正確性 (Correctness) ◦ 生成されたSQLが意図した結果を返すか 2. 効率性 (Efficiency) ◦
生成されたSQLが最適化されているか 3. 可読性 (Readability) ◦ 生成されたSQLが人間にとって理解しやすいか 4. 実行精度 (Execution Accuracy) ◦ 実行結果が期待される結果と一致するか
LangSmithを使ったText-to-SQL評価のデモ
LangSmithの概要 LLMアプリケーション開発でよく使われるLangChainのサー ビスである「LangSmith」は、LLMを楽に評価できる機能を 提供している。 • Evaluatorの設定 ◦ コードを書かずにEvaluatorを設定し、データ セットに紐づけられる •
PlayGround ◦ プログラムを書かずにプロンプトやモデルの設 定をテスト • 中間ステップの評価 ◦ RAGパイプラインなどの中間ステップを詳細に 評価 • 標準Evaluatorの利用: ◦ カスタムコードを書くことなく、標準の Evaluatorを使用 • Annotationの利用 ◦ 実行結果に注釈を追加し、詳細なフィードバッ クを提供
デモ 評価プロセス 1. 評価対象のText-to-SQL modelの定義 2. 評価用データセットの作成 3. カスタム評価器の設定 4.
評価の実行と結果の分析 デモの主要ポイント • SQLiteデータベースの使用 • LangChainのSQLエージェントの活用 • カスタムLLM評価器の実装 • 効率性スコアの計算 • LangSmithでの評価実行と結果の可視化
まとめ • Text-to-SQLはデータアクセシビリティと開発効率を向上 • 多面的な評価が重要: 正確性、効率性、可読性、実行精度 • LangSmithを使用することで、包括的かつ効率的な評価が可能 • 継続的な改善と最適化のためのツールとしてのLangSmithが便利