Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM_robustness_and_ops_in_production.pdf

neonankiti
August 18, 2023

 LLM_robustness_and_ops_in_production.pdf

LLM in Production 2023/08/18の登壇資料「LLMプロダクトのロバスト性と運用」です。
https://llm-in-production.connpass.com/event/290321/

neonankiti

August 18, 2023
Tweet

More Decks by neonankiti

Other Decks in Technology

Transcript

  1. LLM͸େ͖͘ਐԽ͕ͨ͠ɺࣄۀαʔϏεʹٻΊΒΕΔϩόετੑʹ͸՝୊͕࢒Δɻ LLMϓϩμΫτͷϩόετੑͷ՝୊ͱରࡦ Yan, Ziyou. (Aug 2023). How to Match LLM

    Patterns to Problems. eugeneyan.com. https://eugeneyan.com/writing/llm-problems/ 特定タスクに対する パフォーマンス指標の⽋如 外部モデルの性能の低さ 内部モデルの性能が低さ 外部モデルの制約 UX要件を満たさない レイテンシ 信頼性が低いモデル出⼒ 悪い顧客体験の対応 顧客影響の可視化 プロンプトテンプレートを更新したり、モデルを微調整したり、RAGを改善したりといったシステムの調整を⾏う際に、改善また は後退を測定する⽅法が必要である。 最新データでモデルが訓練されていない、もしくはモデルが不⼗分、最新のコンテキストを持っていないなどによって起こる。 ChatGPTの知識カットオフ。組織内の専有データがないことなど。 オープンLLMは特定のタスクの性能が良くない傾向がある。結果、抽出や要約の精度の低下、事実ではない応答、トピッ クから逸脱した応答、単に流暢さの⽋如が⽣じる可能性がある。 技術的なもの(レート制限、レイテンシなど)、法的なもの(機密情報やユーザーのプライバシーデータの送信、著作権と 使⽤に関する制約など)、財務的なもの(API呼び出しの⾼いコスト)がある。 特定のユースケースでは、短い時間(数百ミリ秒以内)でLLMからのレスポンスが求められます。ストリーム出⼒はUXに良い ですが、必ずしも適応できるわけではない。 LLMは不正確な出⼒を⽣成する可能性があり、LLMの製品による利便性を⾼めること、エラーの発⽣に対して対応する かが求められる。 モデル出⼒が特定の形式(JSONなど)に従わない、実⾏できない場合に発⽣する構⽂エラー。モデルの出⼒が有害、事 実でない、トピックから外れている、単に⽭盾している場合などに発⽣する意味エラー。 モデルの影響を評価できない。カスタマーサポートの代わりにLLMを活⽤した場合、2週間での損失が12倍に増えたという エピソードがあった。 Evals, Collect Feedback RAG, Evals Fine-tuning, Collect Feedback Fine-tuning, Evals, Collect Feedback Guardrails(guidance syntax checks, semantic checks) Caching Defensive UX(for onboarding, for paper cuts), Collect Feedback Monitoring, Collect Feedback ՝୊ ৄࡉ ରࡦ
  2. ֤ύλʔϯʹର͢ΔऔΓ૊ΈίετͱϢʔβʔମݧ΁ͷΠϯύΫτ ߏஙύλʔϯͷROI Yan, Ziyou. (Jul 2023). Patterns for Building LLM-based

    Systems & Products. eugeneyan.com. https://eugeneyan.com/writing/llm-patterns/ Fine-tuning Defensive UX Collect feedback RAG Evals Caching Guardrails Ϣʔβʔମݧ΁ͷଈޮੑߴ͍ ௿͍ ௿͍ ίετ(࣌ؒ/ֹۚ)/ෆ࣮֬ੑߴ͍ ຊ೔࿩͢͜ͱ
  3. ϓϩϯϓτ੍ޚ(Defensive UX) l νϟοτUI͸ࣗ༝౓͕ߴ͘ɺ࢖͍͜ͳ͢ʹ͸ϊ ΢ϋ΢͕ඞཁɻ l ݻ༗ͷ৘ใҎ֎͸ςϯϓϨʔτΛ༻ҙ͠ɺϓϩ ϯϓτͷग़ྗ͕҆ఆ͢ΔΑ͏ʹ͢ΔɻෆཁͳΒ ແࢹͰ͖Δ༏͍͠UIʹɻ l

    ςϯϓϨʔτ؅ཧ΋ՄೳͳͨΊɺࣗ෼ͷۀ຿ʹ ߹ΘͤͨϑΥʔϚοτԽ/νʔϜ಺Ͱͷڞ༗΋ Մೳɻ l ࠓճͷొஃࢿྉͷΞδΣϯμͱ಺༰΋γΰϥΫ AIͰ࡞੒ɻ ๏ਓ޲͚ChatGPTʮγΰϥΫAIʯͷUI੍ޚ ೖྗ஋ ग़ྗ஋ ݻ༗৘ใ ςϯϓϨʔτ Ξ΢τϓοτϑΥʔϚοτ
  4. l ࢀর͍ͨ͠৘ใΛݩʹɺQ&A΍ཁ໿͕Ͱ͖Δػೳɻ l ߏ੒ l جຊߏ੒͸ɺਤͱಉ༷ɻ l ϕΫτϧԽ͸ɺtext-embedding-ada-002Λ׆༻ (1536࣍ݩ) l

    ϕΫλʔDB͸pineconeΛ׆༻͠ɺϋΠϒϦοτ ݕࡧ(୯ҰͷૄີΠϯσοΫε)ʹରԠɻ l LLMʹೖྗલͷσʔλΛΞϓϦέʔγϣϯ૚Ͱ ࠷దԽ͢Δɻ(refine query) ๏ਓ޲͚ChatGPTʮγΰϥΫAIʯͷυΩϡϝϯτQ&Aػೳ(ۙ೔தʹϦϦʔε) ϕΫλʔDBͷ׆༻(RAG, Guardrails) 柿沼太一. (Aug 2023). LLMを利用したRAG(Retrieval Augmented Generation)と著作権侵害. https://storialaw.jp/blog/9885
  5. l ϓϩμΫτ l જࡏత/ݦࡏతͳχʔζʹΑͬͯҟͳΔ͕ɺԾઆΛ ͨͯΔͨΊͷϑΝΫτूܭج൫͸ඞਢɻ(ݱঢ়͸ɺ ϓϩϯϓτςϯϓϨʔτͷར༻཰ͷΈΛଌఆ) l ·ͨɺσʔλΛूΊΔͨΊͷσβΠϯ͸ॏཁɻ ChatGPTͷ͍͍ͶϘλϯ͸୭΋ԡ͞ͳ͍ͷͰɺσʔ λ͕ू·Γʹ͘͘ɺڧԽֶश͕Ͱ͖ͳ͍ɻ

    l LLM l ඪ४ԽσʔληοτΛ༻ֶ͍ͨज़తͳࢦඪΛ׆༻ ͢Δɻ l ਓؒͷ൑அج४ʹ͍ۙ͠ࢦඪʮG-Evalʯͷಋೖ ϢʔβʔߦಈͷධՁ(Collect feedback, Evals) ๏ਓ޲͚ChatGPTʮγΰϥΫAIʯͷσʔλ෼ੳͱػೳվળ(༧ఆ) ϓϩϯϓτධՁػߏ
  6. l Ϣʔβʔͷຊ࣭తͳ՝୊͸Կ ͔ʁ=> ղ͘΂͖՝୊͸ਖ਼͍͠ ͔ʁ l ػೳཁ݅͸ؒҧ͍ͬͯͳ͍ ͔ʁ => ղ͖ํ͸߹͍ͬͯΔ

    ͔ʁ l ϩόετੑͷߴ͍બ୒ࢶΛͱ ΕΔΑ͏ʹຊ࣭తͳ՝୊Λൃ ݟ͢ΔϓϩηεΛଵΒͳ͍ɻ ロバスト性の高いシステムアーキテクチャに変更した話の例: レストランにおける分散システムの構築と改善 ՝୊ʹର͢Δຊ࣭తͳιϦϡʔγϣϯઃܭΛߦ͏
  7. LLMϓϩμΫτͷϩόετੑΛߴΊΔखஈͱλΠϛϯάΛ஌Δɻ l ߏஙύλʔϯ(Collect feedback, Defensive UX, Caching, Guardrails, RAG, Fine-tuning,

    Evals)Λ׆༻͢ Δɻ l ·ͨɺϓϩμΫτϑΣʔζʹ߹ΘͤͯɺROIΛݟۃΊύλʔϯΛ૊Έ߹ΘͤΔɻ ϩόετੑʹࠨӈ͞Εͳ͍ӡ༻Λߦ͏ɻ l ຊ࣭తͳސ٬՝୊ʹରͯ͠ϩόετੑͷߴ͍ιϦϡʔγϣϯΛ༏ઌ͢Δɻ l Ӧۀ/CSͷମ੍ΛްΊʹ͠ɺސ٬ͱͷྑ͍ؔ܎ੑΛங͘ɻ ·ͱΊ
  8. ੜ੒AIϓϩμΫτ։ൃʹڵຯ͋Δํɺ࠙਌ձͰ͓࿩͠͠·͠ΐ͏ l LLMOpsͷϓϩηεઃܭ/ νʔϜମ੍ɾ࠾༻/ӡ༻ l ߏஙύλʔϯͷৄࡉ l ը૾ੜ੒ܥͷϓϩμΫτ ͷ࿩ 他のトピック

    採⽤しています l ࣄۀ෦CTO l SoQware Engineer l Machine Learning Engineer l Product Manager l BizDevʢ৽نࣄۀʣ l Sales l CS オンラインでも @neonankiti