GET /ping - ヘルスチェック(コンテナが正常かどうか) • POST /invocations - 推論リクエストを受け付ける • Triton Inference Server → 高性能だが導入・運用が複雑 • BentoML → 便利だが追加の依存が増える • FastAPI → シンプル、依存が少ない → /ping と /invocations だけなら十分 TorchServe が Limited Maintenance になったので移行するサービングライブラリを検討した https://buildersbox.corp-sansan.com/entry/2025/03/26/100000 参照: FastAPI 採用