TorchServeからFastAPIにした話

©Fusic Co., Ltd. 0 TorchServeからFastAPIにした話 2025.12.12 佐藤礼央奈 X: @xthixsl_ml
福岡Tech LT大忘年会

©Fusic Co., Ltd. 1 自己紹介はじめに佐藤礼央奈 R E
O N A S AT O 株式会社Fusic エンジニア東京の大学を卒業。在学中にエンジニアとして3社で約2年半の長期インターンを経験。機械学習や生成AIの研究開発に携わる中で、MLモデルの本番運用に興味を持ちMLOpsに関心を深める。生成AIも取り入れた開発や、AWSパートナー企業での経験から、同領域に強みを持つFusicに魅力を感じ、2025年に新卒入社。

©Fusic Co., Ltd. 2 1. 背景 2. 対策

©Fusic Co., Ltd. 3 背景 1

©Fusic Co., Ltd. 4 1. 背景サブタイトル SageMaker Docker Image
+ Endpoint NVIDIA NGC イメージ (nvcr.io) TorchServe がメンテ終了 & バージョン問題 FastAPI で自前実装 amd端末で推論コンテナ立ち上げ、追加でarm端末での対応が必要に arm端末の制約、DLモデルの変更が発生、Pythonのバージョンをアップグレード 3.8から3.12へ Serve系のライブラリの検討 ※Serveとはモデルを推論APIとしてを提供することを指します

©Fusic Co., Ltd. 5 対策 2

©Fusic Co., Ltd. 6 2. 対策サブタイトル • SageMakerのエンドポイント仕様に合わせている実装でした。 •
GET /ping - ヘルスチェック（コンテナが正常かどうか） • POST /invocations - 推論リクエストを受け付ける • Triton Inference Server → 高性能だが導入・運用が複雑 • BentoML → 便利だが追加の依存が増える • FastAPI → シンプル、依存が少ない → /ping と /invocations だけなら十分 TorchServe が Limited Maintenance になったので移行するサービングライブラリを検討した https://buildersbox.corp-sansan.com/entry/2025/03/26/100000 参照:

©Fusic Co., Ltd. 7 2. 対策サブタイトル • SageMakerのエンドポイント仕様に合わせている実装でした。 •
GET /ping - ヘルスチェック（コンテナが正常かどうか） • POST /invocations - 推論リクエストを受け付ける • Triton Inference Server → 高性能だが導入・運用が複雑 • BentoML → 便利だが追加の依存が増える • FastAPI → シンプル、依存が少ない → /ping と /invocations だけなら十分 TorchServe が Limited Maintenance になったので移行するサービングライブラリを検討した https://buildersbox.corp-sansan.com/entry/2025/03/26/100000 参照: FastAPI 採用

TorchServeからFastAPIにした話

TorchServeからFastAPIにした話

xthixsl_ml

More Decks by xthixsl_ml

Featured

Transcript

©Fusic Co., Ltd. 0 TorchServeからFastAPIにした話 2025.12.12 佐藤礼央奈 X: @xthixsl_ml

©Fusic Co., Ltd. 1 自己紹介はじめに佐藤礼央奈 R E

©Fusic Co., Ltd. 2 1. 背景 2. 対策

©Fusic Co., Ltd. 3 背景 1

©Fusic Co., Ltd. 4 1. 背景サブタイトル SageMaker Docker Image

©Fusic Co., Ltd. 5 対策 2

©Fusic Co., Ltd. 6 2. 対策サブタイトル • SageMakerのエンドポイント仕様に合わせている実装でした。 •

©Fusic Co., Ltd. 7 2. 対策サブタイトル • SageMakerのエンドポイント仕様に合わせている実装でした。 •

©Fusic Co., Ltd. 8 Thank You We are Hiring! https://recruit.fusic.co.jp/