Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM APIを2年間本番運用して苦労した話

LLM APIを2年間本番運用して苦労した話

2025/10/23に開催された「Product Engineering Night #10 ── LLM活用プロダクトとPdE実践の最前線」に、IVRyのべいえりあが登壇しました。

■リンク集
・コーポレートサイト:https://ivry.jp/company/
・採用ページ:https://ivry-jp.notion.site/
・イベント一覧:https://ivry.connpass.com/event/
・IVRy Tech(Xアカウント):https://x.com/IVRy_tech

More Decks by 株式会社IVRy(社員登壇資料)

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 名前:べいえりあ 肩書:Principal AI Engineer @ IVRy 専門:自然言語処理(10年くらいやってます) これまでの経歴: -

    理論物理博士@ミシガン大学 - データサイエンス修士 @ニューヨーク大学 - Llama作ったチームでインターンやったり - Google Assistant作ってたチーム(の中の一チーム)でテックリードをやったり
  2. 2024/07/13、⼤規模Azure OpenAI障害 - Azure OpenAIが世界中で落ちた - OpenAIも同時に落ちた - 復旧まで1⽇くらいかかった -

    何故か⽇本リージョンは無事 - 対話サービスはほぼ影響無し - オフラインのサービスが⼀部影響を受けた LLM APIは落ちる。落とせないサービスだとLLMが落ちた時の対策は必須
  3. 対策②:障害パターン毎のplaybookを作成 1. 異常時の挙動を洗い出す a. エラー率悪化、レイテンシーの悪化、精度劣化、など 2. それぞれの挙動について、ユーザー影響を調べる 3. それぞれの挙動について、検知⽅法を考える 4.

    それぞれの挙動について、どういう条件が満たされた時にどういう アクションを起こすかを考える 簡単そうに⾒えても、特にアクションなどは判断が難しいことは多々ある
  4. 対策:別ライブラリへの移⾏ LLM APIのIF共通化 + フォールバックだけなら代替がいろいろある - Pydantic AI(Pythonライブラリ) - any-llm(Pythonライブラリ)

    - AI SDK(Typescriptライブラリ) - OpenRouter(統合API) IF共通化したいだけなら、⾃前実装の⽅がコントロールが効くかも?
  5. まとめ - LLM APIにおいては考えうる障害は⼤体実際に起こる - 障害に対応できる仕組みを考えて実装するのは必須 - フォールバックを⼊れる - LLM

    APIの監視は細かく⾏う - ありうる障害パターンを想定してplaybookを作成する - LLM APIのIF共通化はライブラリに頼っても良いが、不便もある