Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか - AWS Gravitonで支...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
最上土川
June 30, 2026
Programming
100
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか - AWS Gravitonで支える低遅延・低コストAI Agent基盤
最上土川
June 30, 2026
More Decks by 最上土川
See All by 最上土川
Avaloniaでデスクトップ開発、もっとやってもいいんじゃない?
mogamit
0
920
Other Decks in Programming
See All in Programming
The ROI of Quarkus for Spring Boot Applications
hollycummins
0
140
LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦
suikabar
3
780
決定論的オーケストレーションの設計と実装 / Design and Implementation of Deterministic Orchestration
nrslib
4
1.5k
Creating Composable Callables in Contemporary C++
rollbear
0
170
才能?センス?知らん、 続けたもん勝ちだ。-- 結婚・出産・癌を越えてなお、私がプロダクトを創り続ける理由
16bitidol
1
420
act1-costs.pdf
sumedhbala
0
120
jQueryをバージョンアップする前に使いたいjQuery Migrate
matsuo_atsushi
0
600
コンテキストの使い捨てをやめる — ビジネスルール駆動開発と miko —
ioki
0
240
ローカルLLMを使ってB2Bサービスを作っていての学び
yaotti
0
220
鹿野さんに聞く!『TypeScriptコードレシピ集』で磨く実践力
tonkotsuboy_com
4
830
Signal Forms: Details & Live Coding @enterJS 2026 in Mannheim
manfredsteyer
PRO
0
190
並列実装の現場、2ヶ月間実務でAIを使い倒したAIもPCも私も限界が近い
ming_ayami
0
130
Featured
See All Featured
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
210
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
How to build a perfect <img>
jonoalderson
1
5.7k
[SF Ruby Conf 2025] Rails X
palkan
2
1.1k
Marketing to machines
jonoalderson
1
5.5k
The agentic SEO stack - context over prompts
schlessera
0
820
A better future with KSS
kneath
240
18k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
350
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
400
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
250
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
210
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
66
55k
Transcript
Livetoon, Inc. all rights reserved AIキャラアプリkaiwaの 低遅延音声通話基盤をどう作ったか 株式会社Livetoon 土川敦也 AWS
Summit Japan 2026 AWS Graviton で支える低遅延・低コストAI Agent基盤
1 Livetoon, Inc. all rights reserved 登壇者紹介 • 土川 敦也(つちかわ
あつや) – ハンドルネーム:最上土川 – 株式会社Livetoon 開発マネージャー – 芝浦工業大学 修士2年生 HCI x AIの研究 • 2020年頃(大1)からスタートアップ界隈で働く • 2023年、とある企業でAIキャラクター開発をする • 2024年12月にLivetoonへ転職 – フロントエンドエンジニアで入ったはずが、 Unity、バックエンド、インフラ、AIモデル開発もやっている
2 Livetoon, Inc. all rights reserved kaiwaとは? • kaiwa (かいわ)
• 初リリース:2025年4月 • AppStore・GooglePlayで配信中 • 「ともだちAI」として気軽に お話してくれるAIキャラクターアプリ • 個性豊かな3Dキャラクター x あなたを覚える記憶システム x 低遅延なSTS基盤
3 ”STS”とは?
4 Livetoon, Inc. all rights reserved “STS”とは? —— “音声”入力に対し、“音声”で応答する技術 その他に
“STT” や “TTS” も存在 STS = Speech to Speech Speech Speech User STS model STT = Speech to Text: AIの「耳」 TTS = Text to Speech: AIの「口」
5 Livetoon, Inc. all rights reserved STSには2つの方式が存在 方式 組み合わせ型 単一モデル型
〇 〇 〇 メリット 賢い カスタマイズ しやすい 速い ✕ ✕ ✕ デメリット 遅い 賢くない カスタマイズ できない LLM User STT TTS STS User 向いている 用途 ✓ キャラクター性:声や話し方を柔軟に変更したい場合 ✓ 用途特化:専門用語を追加学習させたい場合 ✓ 分解性:一部のAIのみ取り出して使用したい場合 ✓ リアルタイム性:同時通訳など、速さが求められる場合
6 Livetoon, Inc. all rights reserved STSには2つの方式が存在 方式 組み合わせ型 単一モデル型
メリット 〇 速い ✕ ✕ デメリット 遅い 賢くない カスタマイズ できない LLM User STT TTS STS User 向いている 用途 ✓ キャラクター性:声や話し方を柔軟に変更したい場合 ✓ 用途特化:専門用語を追加学習させたい場合 ✓ 分解性:一部のAIのみ取り出して使用したい場合 ✓ リアルタイム性:同時通訳など、速さが求められる場合 STSパイプラインを 約700msと高速化し 単一モデル型に匹敵する 速度を実現 〇 賢い 〇 カスタマイズ しやすい 〇 速い
7 今日はSTS基盤を支える Gravitonの話をします
8 Livetoon, Inc. all rights reserved LivetoonのSTSを支えるAWSインフラ
9 Gravitonとは?
10 Livetoon, Inc. all rights reserved Gravitonとは? • AWSが設計したARMアーキテクチャのサーバーCPU •
電力効率が良く、自社設計のため価格性能に優れている • 世代 – Graviton2(2019年発表 / 2020年一般提供開始) – 従来世代のM5/C5/R5比で最大40%の価格性能向上 – Graviton3(2021年発表 / 2022年一般提供開始) – Graviton2比で最大25%高いコンピュート性能 – Graviton4(2023年発表 / 2024年一般提供開始) – Graviton3比で最大30%高いコンピュート性能、 50%多いコア数、75%高いメモリ帯域 画像引用元:https://aws.amazon.com/jp/blogs/news/aws-graviton4-based-amazon-ec2-r8g-instances-best-price-performance-in-amazon-ec2/
11 Livetoon, Inc. all rights reserved LivetoonのSTSを支えるAWSインフラ TTS、STTサーバーでの Graviton2 +
NVIDIA T4 GPU活用
12 Livetoon, Inc. all rights reserved g4dnからg5gへの移行 • g4dn.xlarge •
x86 CPU + NVIDIA T4 GPU • 4 vCPU (Intel Cascade Lake) • 16GB RAM • NVIDIA T4 (VRAM 16GB) • 月コスト(ap-northeast-1) • $518.30 • g5g.xlarge • ARM64 CPU + NVIDIA T4G GPU • 4 vCPU (Graviton2) • 8GB RAM • NVIDIA T4G (VRAM16GB) • 月コスト(ap-northeast-1) • $413.84 (↓ 20.15%) • 移行に必要な作業 • GPU DriverやECS Agentなどを整備したAMI • ARM64+CUDA対応のtorchのビルド作業 Before After 性能変わらずで、約2割のコスト削減
13 なるほど! Gravitonを使えば安くなる という話ね!
14 Gravitonの凄さは 安さだけじゃない
15 Livetoon, Inc. all rights reserved LivetoonのSTSを支えるAWSインフラ Backend APIサーバーでの Graviton3活用
16 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT
TTS
17 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT
TTS 感情推定 Embeddings VAD ユーザーの発話を検知 RAGの為の 文章ベクトル化 キャラ表情のための 感情推定 約30ms 約30ms
18 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT
TTS 感情推定 Embeddings VAD ユーザー端末で CPU/NPU推論 BackendAPI でCPU推論 BackendAPI でCPU推論 ユーザーの発話を検知 RAGの為の 文章ベクトル化 キャラ表情のための 感情推定 約30ms 約30ms
19 Livetoon, Inc. all rights reserved Backend APIサーバーのGraviton移行 • Fargate
x86 • 1 vCPU • 2GB RAM • 月額コスト • $44.98 • ASP.NET Core 9 • EFCore • xUnit • AWSSDK • Qdrant.Client • TorchSharp • c7g.medium (Amazon ECS Managed Instances) • 1 vCPU (Graviton3) • 2GB RAM • 月額コスト • $37.20 (↓17.3%) • ASP.NET Core 9 • EFCore • xUnit • AWSSDK • Qdrant.Client • Livetoon.TorchSharp (TorchSharp ARM64対応版) Before After Embeddings CPU推論 25%高速化、コスト17%ダウン
20 Livetoon, Inc. all rights reserved Intel系とGraviton系でのCPU・メモリのベンチマーク
21 Livetoon, Inc. all rights reserved Intel系とGraviton系でのCPU・メモリのベンチマーク メモリ帯域幅が 非常に優秀
22 Livetoon, Inc. all rights reserved Intel系とGraviton系でのEmbeddingsベンチマーク Embeddingsモデルにはruri-v3 70mを使用
23 Livetoon, Inc. all rights reserved 行列演算が、どの最適化経路に乗るかで性能は大きく変わる どんなCPU命令があるかまで意識することで、より高速に
24 Gravitonは AI Agentシステムに 最適なCPU
25 でも、ARM64対応開発コストが 高くつくのでは?
26 今の世代はARM64に慣れてきている
27 Raspberry Pi
28 Livetoon, Inc. all rights reserved 普及するARM64と下がる開発難易度 ARM64コンピュータの普及 • 2012年
Raspberry Pi登場 • 2017年 Windows on ARM登場 • 2020年 Apple Silicon Mac登場 コーディングエージェントの普及 • CodexやClaude Code、Kiroなどの コーディングエージェントで ほぼ手放しに改善・修正ループを回せる • TorchSharpのARM64化は、殆どCodexだけで完結 10年前と比べてARM64対応の開発難易度はかなり下がっている
29 Livetoon, Inc. all rights reserved まとめ • ともだちAIアプリ「kaiwa」ではGraviton活用で高速なSTSを実現している •
Graviton2 + NVIDIA GPUなg5gでコスト2割減、性能変わらずを実現 • Graviton3, 4でEmbeddings・感情推定モデルを高速推論、低遅延・低コストなAI Agentシステムを実現 • ARM64化のハードルは下がってきている ご清聴ありがとうございました