Slide 10
Slide 10 text
LLMେ͖͘ਐԽ͕ͨ͠ɺࣄۀαʔϏεʹٻΊΒΕΔϩόετੑʹ՝͕Δɻ
LLMϓϩμΫτͷϩόετੑͷ՝ͱରࡦ
Yan, Ziyou. (Aug 2023). How to Match LLM Patterns to Problems. eugeneyan.com. https://eugeneyan.com/writing/llm-problems/
特定タスクに対する
パフォーマンス指標の⽋如
外部モデルの性能の低さ
内部モデルの性能が低さ
外部モデルの制約
UX要件を満たさない
レイテンシ
信頼性が低いモデル出⼒
悪い顧客体験の対応
顧客影響の可視化
プロンプトテンプレートを更新したり、モデルを微調整したり、RAGを改善したりといったシステムの調整を⾏う際に、改善また
は後退を測定する⽅法が必要である。
最新データでモデルが訓練されていない、もしくはモデルが不⼗分、最新のコンテキストを持っていないなどによって起こる。
ChatGPTの知識カットオフ。組織内の専有データがないことなど。
オープンLLMは特定のタスクの性能が良くない傾向がある。結果、抽出や要約の精度の低下、事実ではない応答、トピッ
クから逸脱した応答、単に流暢さの⽋如が⽣じる可能性がある。
技術的なもの(レート制限、レイテンシなど)、法的なもの(機密情報やユーザーのプライバシーデータの送信、著作権と
使⽤に関する制約など)、財務的なもの(API呼び出しの⾼いコスト)がある。
特定のユースケースでは、短い時間(数百ミリ秒以内)でLLMからのレスポンスが求められます。ストリーム出⼒はUXに良い
ですが、必ずしも適応できるわけではない。
LLMは不正確な出⼒を⽣成する可能性があり、LLMの製品による利便性を⾼めること、エラーの発⽣に対して対応する
かが求められる。
モデル出⼒が特定の形式(JSONなど)に従わない、実⾏できない場合に発⽣する構⽂エラー。モデルの出⼒が有害、事
実でない、トピックから外れている、単に⽭盾している場合などに発⽣する意味エラー。
モデルの影響を評価できない。カスタマーサポートの代わりにLLMを活⽤した場合、2週間での損失が12倍に増えたという
エピソードがあった。
Evals, Collect Feedback
RAG, Evals
Fine-tuning, Collect
Feedback
Fine-tuning, Evals,
Collect Feedback
Guardrails(guidance syntax
checks, semantic checks)
Caching
Defensive UX(for onboarding, for
paper cuts), Collect Feedback
Monitoring, Collect
Feedback
՝ ৄࡉ ରࡦ