• LLMアプリケーションでは精度とレスポンス速度を高次元で両立させることは重要 • フローエンジニアリングを実践することで、精度は向上するが、処理系全体のレスポンス速度は 遅くなってしまう可能性がある • LLMが賢くなればエージェント数を減らすことはできるが、フローエンジニアリングの発想は今後 も有用 • 投機的な並列処理を行うことで処理時間を短縮することができる ◦ 投機的な処理を行うことで、コストは割高になるので、リリース後にデータセットを収集し、 一部の処理のML化、あるいは安価のモデルのfine-tuningを行うことでコストダウンも狙 う