Slide 7
Slide 7 text
© 2025 Algomatic Inc.
- LLMの性能を引き上げるために、推論コストが増加
- Sleep-time Computeとは事前(Sleep-time)にコンテキストを処理すること
で、推論コストを下げる⼿法
- 従来⼿法に⽐べて推論コストを約5倍短縮(⼀部条件化除く)
サマリと所感
Sleep-time Computeの根本的な考え⽅としては、データマートの整備やRAGのチャンク
情報整備(ex.Contextual Document Embeddings(Moris and Rush, 2024))や事前に
Reflectionを⾏って⼈格情報を整理するGenerative Agents(Park et al, 2023)、記憶層を
分割して保持するSecond Me(Wei et al., 2025 )などに近い。
ユーザーから回答を求められる前に事前に効果的な推論を回しておくことでレイテンシ
を削減するアプローチは筋が良く、推論時間が増加傾向のある状況に対する⼀つの解と
して有効だと考えられる。ただ事前推論時のコストや事前推論情報の保存とその活⽤な
ど実⽤⾯でのハードルは⼀定存在していると⾔える。