Sleep-time Compute: LLM推論コスト削減のための事前推論

by sergicalsix

Slide 1

Slide 1 text

sergicalsix　 AI Transformation(AX) AIエンジニア Sleep-time Compute LLM推論コスト削減のための事前推論

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

© 2025 Algomatic Inc. - LLMの性能を引き上げるために、推論コストが増加 - Sleep-time Computeとは事前(Sleep-time)にコンテキストを処理することで、推論コストを下げる⼿法 - 従来⼿法に⽐べて推論コストを約5倍短縮（⼀部条件化除く) サマリと所感 Sleep-time Computeの根本的な考え⽅としては、データマートの整備やRAGのチャンク情報整備(ex.Contextual Document Embeddings(Moris and Rush, 2024))や事前に Reﬂectionを⾏って⼈格情報を整理するGenerative Agents(Park et al, 2023)、記憶層を分割して保持するSecond Me(Wei et al., 2025 )などに近い。ユーザーから回答を求められる前に事前に効果的な推論を回しておくことでレイテンシを削減するアプローチは筋が良く、推論時間が増加傾向のある状況に対する⼀つの解として有効だと考えられる。ただ事前推論時のコストや事前推論情報の保存とその活⽤など実⽤⾯でのハードルは⼀定存在していると⾔える。