AzureのPrompt Flowを使ったRAG精度評価とつらみ

AzureͷPrompt FlowΛ࢖ͬͨ RAGਫ਼౓ධՁͱͭΒΈ KDDI ΞδϟΠϧ։ൃηϯλʔ גࣜձࣾ 2024.07.11 Findy Lunch LT

ࣗݾ঺հ • ͍ͰΈͭ • KDDI ΞδϟΠϧ։ൃηϯλʔ גࣜձࣾ • ۀ຿ɿੜ੒AIΛར༻ͨ͠ΞϓϦέʔγϣϯ։ൃ •
޷͖ͳAzureαʔϏεɿDocument Intelligence

͓͠ͳ͕͖ • ͸͡Ίʹ • ΞʔΩςΫνϟ঺հ • ࠓ೔఻͍͑ͨ͜ͱ • Prompt FlowͱRAGASͷ঺հ
• ·ͱΊ

͸͡Ίʹ • ༷ʑͳυΩϡϝϯτΛRAGͱͯ͠ੜ੒AIʹճ౴ͤ͞ΔαʔϏε • ·ͩ։ൃதͷͨΊɺϦϦʔε͸͍ͯ͠·ͤΜ • ਫ਼౓޲্ͦͷ΋ͷ͸·ͩ·ͩ໛ࡧத

ࠓճLTͷϕʔεͱͳΔγεςϜͷ ؆୯ͳΞʔΩςΫνϟ঺հ ར༻ऀ υΩϡϝϯτ Azure App Service Document Intelligence AI
Search gpt-4o ᶃ ᶄ ᶅ ᶆ

ຊ೔఻͍͑ͨ͜ͱ

RAGͷਫ਼౓޲্ͬͯେมʂ

Ҋ͕݅ελʔτͨ͠λΠϛϯάͰPOͷํʹ ͜͏ݴΘΕ·ͨ͠

ࠓ͸·ͩճ౴ਫ਼౓͕௿͍

ճ౴ਫ਼౓͸80%Λ໨ࢦ͔͢Β

ࣗ༝ʹೖྗ͢Δ͜ͱͷͰ͖Δɺνϟοτ ϘοτͰճ౴ਫ਼౓80%ͬͯͲ͏͍͏͜ͱʁ

ͦ΋ͦ΋ճ౴ਫ਼౓͕ߴ͍/௿͍ͱײ͡Δͷ͸ ײ֮ͳͷͰɺ࣮ࡍͲΕ͘Β͍ͳͷ͔ΛՄࢹ Խ͍ͨ͠

ͦ͜Ͱ·ͣਫ਼౓ධՁʹ͍ͭͯͲ͏͢Δ΂͖ ͔ݕ౼͠·ͨ͠

ਫ਼౓ධՁͷඞཁੑ • ճ౴ਫ਼౓ͷՄࢹԽ • ࠓޙͷվળͷࢦ਑ • վળͷޮՌݕূ

ਫ਼౓ධՁͷओͳख๏ • खಈධՁ(ਓ͕ؒߦ͏ධՁ) • γεςϜʹରͯ͠QΛ౤͛ɺAͷྑ͠ѱ͠Λਓ͕ؒ൑அ͢Δ • ࣗಈධՁ(LLMͳͲ͕ߦ͏ධՁ) • γεςϜʹରͯ͠QΛ౤͛ɺAͷྑ͠ѱ͠ΛLLM͕൑அ͢Δ

ਫ਼౓ධՁʹ࢖͑ͦ͏ͳαʔϏε • Prompt Flow • 🦜⚒LangSmith • LangFuse

Prompt Flowͷ֓ཁ • LLMΛ׆༻ͨ͠ΞϓϦέʔγϣϯͷ։ൃޮ཰ԽΛਤΔͨΊͷαʔ Ϗε • ࣭໰͔Βճ౴·ͰͷҰ࿈ͷFlowΛઃఆ࣮͠ߦ͢Δ͜ͱ͕Ͱ͖Δ • ֤Flow͸LLMΛ࢖ͬͨςΩετੜ੒΍ϓϩϯϓτ࡞੒ɺPython ͷ࣮ߦ͕Մೳͱͳ͓ͬͯΓɺ͜ΕΒΛ૊Έ߹Θͤͯશମͷϑϩʔ
Λ࡞੒͢Δ

Prompt FlowΛબΜͩཧ༝ • AzureΛར༻͍ͯͨͨ͠Ίɺಋೖϋʔυϧ͕௿͍ • RAGͷධՁ͚ͩͰͳ͘։ൃͷࣄલݕূʹ΋ར༻͢Δ͜ͱ͕Ͱ͖ Δ(promptΛमਖ਼͓ͯ͠ࢼ͠౳)

RAGASͱ͸ • PythonͰ࡞ΒΕͨRAGධՁ༻ϑϨʔϜϫʔΫɺPrompt Flowʹ૊ΈࠐΉ͜ͱ͕Մೳ • 9ͭͷϝτϦΫεͰճ౴ΛධՁ͢Δ͜ͱ͕Մೳ • https://docs.ragas.io/en/stable/concepts/metrics/index.html

࣮ࡍʹPrompt FlowͱRAGASΛ࢖ͬͯධ ՁΛͲͷΑ͏ʹߦ͏͔

Prompt FlowͱRAGASͷ঺հ ඪ४ϑϩʔ(ΞϓϦέʔγϣϯΛ࠶ݱͨ͠ϑϩʔ)

Prompt FlowͱRAGASͷ঺հ ධՁϑϩʔ(RAGASݺͿϑϩʔ)

Prompt FlowͱRAGASͷ঺հ RAGASͷධՁ݁Ռ

Prompt FlowͱRAGASͷ঺հ RAGASͷධՁ݁Ռ ճ౴ͷਖ਼֬͞ ίϯςΩετʹର͢Δճ౴ͷ஧࣮౓ ਖ਼౴ͱίϯςΩετͷؔ࿈౓ ࣭໰ٴͼਖ਼౴ʹର͢ΔίϯςΩετͷਫ਼౓

Prompt FlowͱRAGASΛ ࢖ͬͯྑ͔ͬͨ͜ͱ • ϒϥ΢β͔Β৮ΕΔͨΊɺΤϯδχΞ͚ͩͰͳ͘PO΋৮ΕΔ • ճ౴ਫ਼౓޲্ͷͨΊͷࢪࡦ͕ຊ౰ʹޮՌ͕͋ͬͨͷ͔Λ֬ೝ͢ Δ͜ͱ͕Ͱ͖Δ

Prompt Flow࠷ߴʂ

PO΋৮ͬͯ͘Εͯɺධ൑΋͍͍ʂ

Ͱ΋ʂ

Prompt Flowͷ͕ͭ͜͜Β͍ʂ • Prompt Flowͷιʔεߋ৽͕େม • ࣮ࡍͷΞϓϦέʔγϣϯͱPrompt Flowͷίʔυ͸ผ෺ • ैྔ՝ۚͳͷͰɺ౎౓ىಈ͍͕ͨ͠VMͷىಈʹඇৗʹ͕࣌ؒ
͔͔Δ(5෼Ҏ্)

ͦΜͳதɺଟ͘ͷ՝୊͸

Visual Studio Codeͷ֦ுػೳ΍Prompt Flow CLI toolΛ࢖͏ͱղফͰ͖Δ

ͦͷଞͷ՝୊ • RAGASͰධՁ͢ΔͨΊͷQAσʔλͷ࡞੒͕೉͍͠ • ݱঢ়QAͷࣗಈੜ੒͸͋·Γਫ਼౓͕ग़ͳ͔ͬͨͨΊਓͷखͰ࡞ ੒͍ͯ͠Δɻ • େྔʹ࡞Δʹ͸͕͔͔࣌ؒΔͨΊɺܧଓతʹ௥Ճ͢Δӡ༻͕ ྑͦ͞͏

কདྷతʹ໨ࢦ͍ͨ͜͠ͱ • Prompt FlowͱGithub Actionsͷ࿈ܞ • LangFuseΛར༻ͨ͠feedbackऔಘ • ධՁ༻ͷQAσʔλΛ࡞੒͢Δ޻਺ͷ࡟ݮ

·ͱΊ • RAGͷਫ਼౓޲্ʹ͸ධՁ͕ෆՄܽ • खಈͰͷධՁ͸ݱ࣮తͰ͸ͳ͘ɺͱͯ΋େม • RAG͸ճ౴ਫ਼౓ΛධՁ͢Δ͜ͱͰɺରࡦΛߟ͑Δ͜ͱ͕Ͱ͖Δ • ఆظతʹධՁΛ͢Δ͜ͱͰɺߦͳ͍ͬͯΔࢪࡦͷޮՌΛଌఆ͢Δ͜ͱ͕Ͱ͖ Δ
• QAϦετͷ࡞੒ʹ͕͔͔࣌ؒΔͷͰɺલ΋ͬͯ࣌ؒΛઃ͚࡞੒͢Δͷ͕ྑ͍

͋Γ͕ͱ͏͍͟͝·ͨ͠

AzureのPrompt Flowを使ったRAG精度評価とつらみ

AzureのPrompt Flowを使ったRAG精度評価とつらみ

Other Decks in Technology

Featured

Transcript