Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AzureのPrompt Flowを使ったRAG精度評価とつらみ
Search
id32h6kz
July 11, 2024
Technology
3
5.5k
AzureのPrompt Flowを使ったRAG精度評価とつらみ
現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策
https://findy.connpass.com/event/323129/
id32h6kz
July 11, 2024
Tweet
Share
Other Decks in Technology
See All in Technology
2人で作ったAIダッシュボードが、開発組織の次の一手を照らした話― Cursor × SpecKit × 可視化の実践 ― Qiita AI Summit
noalisaai
1
340
セキュリティ はじめの一歩
nikinusu
0
1.4k
ファインディの横断SREがTakumi byGMOと取り組む、セキュリティと開発スピードの両立
rvirus0817
1
890
Tebiki Engineering Team Deck
tebiki
0
23k
【インシデント入門】サイバー攻撃を受けた現場って何してるの?
shumei_ito
0
1.4k
DatabricksホストモデルでAIコーディング環境を構築する
databricksjapan
0
220
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1k
Amazon ElastiCacheのコスト最適化を考える/Elasticache Cost Optimization
quiver
0
370
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
1
120
分析画面のクリック操作をそのままコード化 ! エンジニアとビジネスユーザーが共存するAI-ReadyなBI基盤
ikumi
0
120
CDK対応したAWS DevOps Agentを試そう_20260201
masakiokuda
1
120
オープンウェイトのLLMリランカーを契約書で評価する / searchtechjp
sansan_randd
3
550
Featured
See All Featured
A designer walks into a library…
pauljervisheath
210
24k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
YesSQL, Process and Tooling at Scale
rocio
174
15k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
87
Embracing the Ebb and Flow
colly
88
5k
Being A Developer After 40
akosma
91
590k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
51
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
It's Worth the Effort
3n
188
29k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
630
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.3k
Transcript
AzureͷPrompt FlowΛͬͨ RAGਫ਼ධՁͱͭΒΈ KDDI ΞδϟΠϧ։ൃηϯλʔ גࣜձࣾ 2024.07.11 Findy Lunch LT
ࣗݾհ • ͍ͰΈͭ • KDDI ΞδϟΠϧ։ൃηϯλʔ גࣜձࣾ • ۀɿੜAIΛར༻ͨ͠ΞϓϦέʔγϣϯ։ൃ •
͖ͳAzureαʔϏεɿDocument Intelligence
͓͠ͳ͕͖ • ͡Ίʹ • ΞʔΩςΫνϟհ • ࠓ͍͑ͨ͜ͱ • Prompt FlowͱRAGASͷհ
• ·ͱΊ
͡Ίʹ • ༷ʑͳυΩϡϝϯτΛRAGͱͯ͠ੜAIʹճͤ͞ΔαʔϏε • ·ͩ։ൃதͷͨΊɺϦϦʔε͍ͯ͠·ͤΜ • ਫ਼্ͦͷͷ·ͩ·ͩࡧத
ࠓճLTͷϕʔεͱͳΔγεςϜͷ ؆୯ͳΞʔΩςΫνϟհ ར༻ऀ υΩϡϝϯτ Azure App Service Document Intelligence AI
Search gpt-4o ᶃ ᶄ ᶅ ᶆ
ຊ͍͑ͨ͜ͱ
RAGͷਫ਼্ͬͯେมʂ
Ҋ͕݅ελʔτͨ͠λΠϛϯάͰPOͷํʹ ͜͏ݴΘΕ·ͨ͠
ࠓ·ͩճਫ਼͕͍
ճਫ਼80%Λࢦ͔͢Β
ࣗ༝ʹೖྗ͢Δ͜ͱͷͰ͖Δɺνϟοτ ϘοτͰճਫ਼80%ͬͯͲ͏͍͏͜ͱʁ
ͦͦճਫ਼͕ߴ͍/͍ͱײ͡Δͷ ײ֮ͳͷͰɺ࣮ࡍͲΕ͘Β͍ͳͷ͔ΛՄࢹ Խ͍ͨ͠
ͦ͜Ͱ·ͣਫ਼ධՁʹ͍ͭͯͲ͏͢Δ͖ ͔ݕ౼͠·ͨ͠
ਫ਼ධՁͷඞཁੑ • ճਫ਼ͷՄࢹԽ • ࠓޙͷվળͷࢦ • վળͷޮՌݕূ
ਫ਼ධՁͷओͳख๏ • खಈධՁ(ਓ͕ؒߦ͏ධՁ) • γεςϜʹରͯ͠QΛ͛ɺAͷྑ͠ѱ͠Λਓ͕ؒஅ͢Δ • ࣗಈධՁ(LLMͳͲ͕ߦ͏ධՁ) • γεςϜʹରͯ͠QΛ͛ɺAͷྑ͠ѱ͠ΛLLM͕அ͢Δ
ਫ਼ධՁͷओͳख๏ • खಈධՁ(ਓ͕ؒߦ͏ධՁ) • γεςϜʹରͯ͠QΛ͛ɺAͷྑ͠ѱ͠Λਓ͕ؒஅ͢Δ • ࣗಈධՁ(LLMͳͲ͕ߦ͏ධՁ) • γεςϜʹରͯ͠QΛ͛ɺAͷྑ͠ѱ͠ΛLLM͕அ͢Δ
ਫ਼ධՁʹ͑ͦ͏ͳαʔϏε • Prompt Flow • 🦜⚒LangSmith • LangFuse
ਫ਼ධՁʹ͑ͦ͏ͳαʔϏε • Prompt Flow • 🦜⚒LangSmith • LangFuse
Prompt Flowͷ֓ཁ • LLMΛ׆༻ͨ͠ΞϓϦέʔγϣϯͷ։ൃޮԽΛਤΔͨΊͷαʔ Ϗε • ࣭͔Βճ·ͰͷҰ࿈ͷFlowΛઃఆ࣮͠ߦ͢Δ͜ͱ͕Ͱ͖Δ • ֤FlowLLMΛͬͨςΩετੜϓϩϯϓτ࡞ɺPython ͷ࣮ߦ͕Մೳͱͳ͓ͬͯΓɺ͜ΕΒΛΈ߹Θͤͯશମͷϑϩʔ
Λ࡞͢Δ
Prompt FlowΛબΜͩཧ༝ • AzureΛར༻͍ͯͨͨ͠Ίɺಋೖϋʔυϧ͕͍ • RAGͷධՁ͚ͩͰͳ͘։ൃͷࣄલݕূʹར༻͢Δ͜ͱ͕Ͱ͖ Δ(promptΛमਖ਼͓ͯ͠ࢼ͠)
RAGASͱ • PythonͰ࡞ΒΕͨRAGධՁ༻ϑϨʔϜϫʔΫɺPrompt FlowʹΈࠐΉ͜ͱ͕Մೳ • 9ͭͷϝτϦΫεͰճΛධՁ͢Δ͜ͱ͕Մೳ • https://docs.ragas.io/en/stable/concepts/metrics/index.html
࣮ࡍʹPrompt FlowͱRAGASΛͬͯධ ՁΛͲͷΑ͏ʹߦ͏͔
Prompt FlowͱRAGASͷհ ඪ४ϑϩʔ(ΞϓϦέʔγϣϯΛ࠶ݱͨ͠ϑϩʔ)
Prompt FlowͱRAGASͷհ ධՁϑϩʔ(RAGASݺͿϑϩʔ)
Prompt FlowͱRAGASͷհ RAGASͷධՁ݁Ռ
Prompt FlowͱRAGASͷհ RAGASͷධՁ݁Ռ ճͷਖ਼֬͞ ίϯςΩετʹର͢Δճͷ࣮ ਖ਼ͱίϯςΩετͷؔ࿈ ࣭ٴͼਖ਼ʹର͢ΔίϯςΩετͷਫ਼
Prompt FlowͱRAGASΛ ͬͯྑ͔ͬͨ͜ͱ • ϒϥβ͔Β৮ΕΔͨΊɺΤϯδχΞ͚ͩͰͳ͘PO৮ΕΔ • ճਫ਼্ͷͨΊͷࢪࡦ͕ຊʹޮՌ͕͋ͬͨͷ͔Λ֬ೝ͢ Δ͜ͱ͕Ͱ͖Δ
Prompt Flow࠷ߴʂ
PO৮ͬͯ͘Εͯɺධ͍͍ʂ
Ͱʂ
Prompt Flowͷ͕ͭ͜͜Β͍ʂ • Prompt Flowͷιʔεߋ৽͕େม • ࣮ࡍͷΞϓϦέʔγϣϯͱPrompt Flowͷίʔυผ • ैྔ՝ۚͳͷͰɺىಈ͍͕ͨ͠VMͷىಈʹඇৗʹ͕࣌ؒ
͔͔Δ(5Ҏ্)
ͦΜͳதɺଟ͘ͷ՝
Visual Studio Codeͷ֦ுػೳPrompt Flow CLI toolΛ͏ͱղফͰ͖Δ
None
ͦͷଞͷ՝ • RAGASͰධՁ͢ΔͨΊͷQAσʔλͷ࡞͕͍͠ • ݱঢ়QAͷࣗಈੜ͋·Γਫ਼͕ग़ͳ͔ͬͨͨΊਓͷखͰ࡞ ͍ͯ͠Δɻ • େྔʹ࡞Δʹ͕͔͔࣌ؒΔͨΊɺܧଓతʹՃ͢Δӡ༻͕ ྑͦ͞͏
কདྷతʹࢦ͍ͨ͜͠ͱ • Prompt FlowͱGithub Actionsͷ࿈ܞ • LangFuseΛར༻ͨ͠feedbackऔಘ • ධՁ༻ͷQAσʔλΛ࡞͢Δͷݮ
·ͱΊ • RAGͷਫ਼্ʹධՁ͕ෆՄܽ • खಈͰͷධՁݱ࣮తͰͳ͘ɺͱͯେม • RAGճਫ਼ΛධՁ͢Δ͜ͱͰɺରࡦΛߟ͑Δ͜ͱ͕Ͱ͖Δ • ఆظతʹධՁΛ͢Δ͜ͱͰɺߦͳ͍ͬͯΔࢪࡦͷޮՌΛଌఆ͢Δ͜ͱ͕Ͱ͖ Δ
• QAϦετͷ࡞ʹ͕͔͔࣌ؒΔͷͰɺલͬͯ࣌ؒΛઃ͚࡞͢Δͷ͕ྑ͍
͋Γ͕ͱ͏͍͟͝·ͨ͠