Slide 1

Slide 1 text

sergicalsix  AI Transformation(AX) AIエンジニア Sleep-time Compute LLM推論コスト削減のための事前推論

Slide 2

Slide 2 text

© 2025 Algomatic Inc. 今回話す内容は以下です。(2025/04/17)

Slide 3

Slide 3 text

© 2025 Algomatic Inc. 背景: モデルの性能を引き上げるために推論コストが増加 (ある⼀定の条件化で)推論時間が⻑くなれば性能が上がるというTest-Time Scalingが発⾒され、数 多くのLLMの推論に関する⼿法が提案された。 Zhang et al., 2025 Muennighof et al., 2025

Slide 4

Slide 4 text

© 2025 Algomatic Inc. 課題: モデルの性能を引き上げるために推論コストが増加 (ある⼀定の条件化で)推論時間が⻑くなれば性能が上がるというTest-Time Scalingが発⾒され、数 多くのLLMの推論に関する⼿法が提案された。→推論コストが上がった Zhang et al., 2025 Muennighof et al., 2025

Slide 5

Slide 5 text

© 2025 Algomatic Inc. 解決策: 推論前(Sleep-time)に事前実⾏(Compute) Sleep-time Computeとは事前(Sleep-time)にコンテキストを処理することで、推論コストを減少 させる⼿法

Slide 6

Slide 6 text

© 2025 Algomatic Inc. 結果 Sleep-time Computeによって、通常の⼿法と⽐べて同じ精度を保ちつつ約5倍推論コストを 削減できた。ただし推論時間が⼀定経過している条件では、既存⼿法を下回る場合もある。 AIME SWE-Features

Slide 7

Slide 7 text

© 2025 Algomatic Inc. - LLMの性能を引き上げるために、推論コストが増加 - Sleep-time Computeとは事前(Sleep-time)にコンテキストを処理すること で、推論コストを下げる⼿法 - 従来⼿法に⽐べて推論コストを約5倍短縮(⼀部条件化除く) サマリと所感 Sleep-time Computeの根本的な考え⽅としては、データマートの整備やRAGのチャンク 情報整備(ex.Contextual Document Embeddings(Moris and Rush, 2024))や事前に Reflectionを⾏って⼈格情報を整理するGenerative Agents(Park et al, 2023)、記憶層を 分割して保持するSecond Me(Wei et al., 2025 )などに近い。 ユーザーから回答を求められる前に事前に効果的な推論を回しておくことでレイテンシ を削減するアプローチは筋が良く、推論時間が増加傾向のある状況に対する⼀つの解と して有効だと考えられる。ただ事前推論時のコストや事前推論情報の保存とその活⽤な ど実⽤⾯でのハードルは⼀定存在していると⾔える。

Slide 8

Slide 8 text

© 2025 Algomatic Inc. 応⽤‧発展 Sleep-time Compute Sleep-time Agentic Compute Sleep-time Computeの応⽤‧発展として、コンテキストから事前にエージェントを起動 してタスクを仮実⾏する例(ex. Sleep-time Agentic Compute)などが考えられる

Slide 9

Slide 9 text

© 2025 Algomatic Inc. 宣伝 最新研究を業務で活かせるAlgomaticにみなさんJoinしませんか?