Patterns to Problems. eugeneyan.com. https://eugeneyan.com/writing/llm-problems/ 特定タスクに対する パフォーマンス指標の⽋如 外部モデルの性能の低さ 内部モデルの性能が低さ 外部モデルの制約 UX要件を満たさない レイテンシ 信頼性が低いモデル出⼒ 悪い顧客体験の対応 顧客影響の可視化 プロンプトテンプレートを更新したり、モデルを微調整したり、RAGを改善したりといったシステムの調整を⾏う際に、改善また は後退を測定する⽅法が必要である。 最新データでモデルが訓練されていない、もしくはモデルが不⼗分、最新のコンテキストを持っていないなどによって起こる。 ChatGPTの知識カットオフ。組織内の専有データがないことなど。 オープンLLMは特定のタスクの性能が良くない傾向がある。結果、抽出や要約の精度の低下、事実ではない応答、トピッ クから逸脱した応答、単に流暢さの⽋如が⽣じる可能性がある。 技術的なもの(レート制限、レイテンシなど)、法的なもの(機密情報やユーザーのプライバシーデータの送信、著作権と 使⽤に関する制約など)、財務的なもの(API呼び出しの⾼いコスト)がある。 特定のユースケースでは、短い時間(数百ミリ秒以内)でLLMからのレスポンスが求められます。ストリーム出⼒はUXに良い ですが、必ずしも適応できるわけではない。 LLMは不正確な出⼒を⽣成する可能性があり、LLMの製品による利便性を⾼めること、エラーの発⽣に対して対応する かが求められる。 モデル出⼒が特定の形式(JSONなど)に従わない、実⾏できない場合に発⽣する構⽂エラー。モデルの出⼒が有害、事 実でない、トピックから外れている、単に⽭盾している場合などに発⽣する意味エラー。 モデルの影響を評価できない。カスタマーサポートの代わりにLLMを活⽤した場合、2週間での損失が12倍に増えたという エピソードがあった。 Evals, Collect Feedback RAG, Evals Fine-tuning, Collect Feedback Fine-tuning, Evals, Collect Feedback Guardrails(guidance syntax checks, semantic checks) Caching Defensive UX(for onboarding, for paper cuts), Collect Feedback Monitoring, Collect Feedback ՝ ৄࡉ ରࡦ