AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか - AWS Gravitonで支える低遅延・低コストAI Agent基盤

Livetoon, Inc. all rights reserved AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか株式会社Livetoon 土川敦也 AWS
Summit Japan 2026 AWS Graviton で支える低遅延・低コストAI Agent基盤

1 Livetoon, Inc. all rights reserved 登壇者紹介 • 土川敦也（つちかわ
あつや） – ハンドルネーム：最上土川 – 株式会社Livetoon 開発マネージャー – 芝浦工業大学修士2年生 HCI x AIの研究 • 2020年頃（大1）からスタートアップ界隈で働く • 2023年、とある企業でAIキャラクター開発をする • 2024年12月にLivetoonへ転職 – フロントエンドエンジニアで入ったはずが、 Unity、バックエンド、インフラ、AIモデル開発もやっている

2 Livetoon, Inc. all rights reserved kaiwaとは？ • kaiwa （かいわ）
• 初リリース：2025年4月 • AppStore・GooglePlayで配信中 • 「ともだちAI」として気軽にお話してくれるAIキャラクターアプリ • 個性豊かな3Dキャラクターｘあなたを覚える記憶システムｘ低遅延なSTS基盤

3 ”STS”とは？

4 Livetoon, Inc. all rights reserved “STS”とは？ —— “音声”入力に対し、“音声”で応答する技術その他に
“STT” や “TTS” も存在 STS = Speech to Speech Speech Speech User STS model STT = Speech to Text: AIの「耳」 TTS = Text to Speech: AIの「口」

5 Livetoon, Inc. all rights reserved STSには2つの方式が存在方式組み合わせ型単一モデル型
〇〇〇メリット賢いカスタマイズしやすい速い ✕ ✕ ✕ デメリット遅い賢くないカスタマイズできない LLM User STT TTS STS User 向いている用途 ✓ キャラクター性：声や話し方を柔軟に変更したい場合 ✓ 用途特化：専門用語を追加学習させたい場合 ✓ 分解性：一部のAIのみ取り出して使用したい場合 ✓ リアルタイム性：同時通訳など、速さが求められる場合

6 Livetoon, Inc. all rights reserved STSには2つの方式が存在方式組み合わせ型単一モデル型
メリット〇速い ✕ ✕ デメリット遅い賢くないカスタマイズできない LLM User STT TTS STS User 向いている用途 ✓ キャラクター性：声や話し方を柔軟に変更したい場合 ✓ 用途特化：専門用語を追加学習させたい場合 ✓ 分解性：一部のAIのみ取り出して使用したい場合 ✓ リアルタイム性：同時通訳など、速さが求められる場合 STSパイプラインを約700msと高速化し単一モデル型に匹敵する速度を実現〇賢い〇カスタマイズしやすい〇速い

7 今日はSTS基盤を支える Gravitonの話をします

9 Gravitonとは？

10 Livetoon, Inc. all rights reserved Gravitonとは？ • AWSが設計したARMアーキテクチャのサーバーCPU •
電力効率が良く、自社設計のため価格性能に優れている • 世代 – Graviton2（2019年発表 / 2020年一般提供開始） – 従来世代のM5/C5/R5比で最大40%の価格性能向上 – Graviton3（2021年発表 / 2022年一般提供開始） – Graviton2比で最大25%高いコンピュート性能 – Graviton4（2023年発表 / 2024年一般提供開始） – Graviton3比で最大30%高いコンピュート性能、 50%多いコア数、75%高いメモリ帯域画像引用元：https://aws.amazon.com/jp/blogs/news/aws-graviton4-based-amazon-ec2-r8g-instances-best-price-performance-in-amazon-ec2/

11 Livetoon, Inc. all rights reserved LivetoonのSTSを支えるAWSインフラ TTS、STTサーバーでの Graviton2 +
NVIDIA T4 GPU活用

12 Livetoon, Inc. all rights reserved g4dnからg5gへの移行 • g4dn.xlarge •
x86 CPU + NVIDIA T4 GPU • 4 vCPU (Intel Cascade Lake) • 16GB RAM • NVIDIA T4 (VRAM 16GB) • 月コスト(ap-northeast-1) • $518.30 • g5g.xlarge • ARM64 CPU + NVIDIA T4G GPU • 4 vCPU (Graviton2) • 8GB RAM • NVIDIA T4G (VRAM16GB) • 月コスト(ap-northeast-1) • $413.84 (↓ 20.15%) • 移行に必要な作業 • GPU DriverやECS Agentなどを整備したAMI • ARM64+CUDA対応のtorchのビルド作業 Before After 性能変わらずで、約2割のコスト削減

13 なるほど！ Gravitonを使えば安くなるという話ね！

14 Gravitonの凄さは安さだけじゃない

16 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT
TTS

TTS 感情推定 Embeddings VAD ユーザーの発話を検知 RAGの為の文章ベクトル化キャラ表情のための感情推定約30ms 約30ms

TTS 感情推定 Embeddings VAD ユーザー端末で CPU/NPU推論 BackendAPI でCPU推論 BackendAPI でCPU推論ユーザーの発話を検知 RAGの為の文章ベクトル化キャラ表情のための感情推定約30ms 約30ms

19 Livetoon, Inc. all rights reserved Backend APIサーバーのGraviton移行 • Fargate
x86 • 1 vCPU • 2GB RAM • 月額コスト • $44.98 • ASP.NET Core 9 • EFCore • xUnit • AWSSDK • Qdrant.Client • TorchSharp • c7g.medium (Amazon ECS Managed Instances) • 1 vCPU (Graviton3) • 2GB RAM • 月額コスト • $37.20 (↓17.3%) • ASP.NET Core 9 • EFCore • xUnit • AWSSDK • Qdrant.Client • Livetoon.TorchSharp （TorchSharp ARM64対応版） Before After Embeddings CPU推論 25％高速化、コスト17％ダウン

24 Gravitonは AI Agentシステムに最適なCPU

25 でも、ARM64対応開発コストが高くつくのでは？

26 今の世代はARM64に慣れてきている

27 Raspberry Pi

28 Livetoon, Inc. all rights reserved 普及するARM64と下がる開発難易度 ARM64コンピュータの普及 • 2012年
Raspberry Pi登場 • 2017年 Windows on ARM登場 • 2020年 Apple Silicon Mac登場コーディングエージェントの普及 • CodexやClaude Code、Kiroなどのコーディングエージェントでほぼ手放しに改善・修正ループを回せる • TorchSharpのARM64化は、殆どCodexだけで完結 10年前と比べてARM64対応の開発難易度はかなり下がっている

29 Livetoon, Inc. all rights reserved まとめ • ともだちAIアプリ「kaiwa」ではGraviton活用で高速なSTSを実現している •
Graviton2 + NVIDIA GPUなg5gでコスト2割減、性能変わらずを実現 • Graviton3, 4でEmbeddings・感情推定モデルを高速推論、低遅延・低コストなAI Agentシステムを実現 • ARM64化のハードルは下がってきているご清聴ありがとうございました

AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか - AWS Gravitonで支...

AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか - AWS Gravitonで支える低遅延・低コストAI Agent基盤

最上土川

More Decks by 最上土川

Other Decks in Programming

Featured

Transcript

Livetoon, Inc. all rights reserved AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか株式会社Livetoon 土川敦也 AWS

1 Livetoon, Inc. all rights reserved 登壇者紹介 • 土川敦也（つちかわ

2 Livetoon, Inc. all rights reserved kaiwaとは？ • kaiwa （かいわ）

3 ”STS”とは？

4 Livetoon, Inc. all rights reserved “STS”とは？ —— “音声”入力に対し、“音声”で応答する技術その他に

5 Livetoon, Inc. all rights reserved STSには2つの方式が存在方式組み合わせ型単一モデル型

6 Livetoon, Inc. all rights reserved STSには2つの方式が存在方式組み合わせ型単一モデル型

7 今日はSTS基盤を支える Gravitonの話をします

8 Livetoon, Inc. all rights reserved LivetoonのSTSを支えるAWSインフラ

9 Gravitonとは？

10 Livetoon, Inc. all rights reserved Gravitonとは？ • AWSが設計したARMアーキテクチャのサーバーCPU •

11 Livetoon, Inc. all rights reserved LivetoonのSTSを支えるAWSインフラ TTS、STTサーバーでの Graviton2 +

12 Livetoon, Inc. all rights reserved g4dnからg5gへの移行 • g4dn.xlarge •

13 なるほど！ Gravitonを使えば安くなるという話ね！

14 Gravitonの凄さは安さだけじゃない

15 Livetoon, Inc. all rights reserved LivetoonのSTSを支えるAWSインフラ Backend APIサーバーでの Graviton3活用

16 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT

17 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT

18 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT

19 Livetoon, Inc. all rights reserved Backend APIサーバーのGraviton移行 • Fargate

20 Livetoon, Inc. all rights reserved Intel系とGraviton系でのCPU・メモリのベンチマーク

21 Livetoon, Inc. all rights reserved Intel系とGraviton系でのCPU・メモリのベンチマークメモリ帯域幅が非常に優秀

22 Livetoon, Inc. all rights reserved Intel系とGraviton系でのEmbeddingsベンチマーク Embeddingsモデルにはruri-v3 70mを使用

23 Livetoon, Inc. all rights reserved 行列演算が、どの最適化経路に乗るかで性能は大きく変わるどんなCPU命令があるかまで意識することで、より高速に

24 Gravitonは AI Agentシステムに最適なCPU

25 でも、ARM64対応開発コストが高くつくのでは？

26 今の世代はARM64に慣れてきている

27 Raspberry Pi

28 Livetoon, Inc. all rights reserved 普及するARM64と下がる開発難易度 ARM64コンピュータの普及 • 2012年

29 Livetoon, Inc. all rights reserved まとめ • ともだちAIアプリ「kaiwa」ではGraviton活用で高速なSTSを実現している •