Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか - AWS Gravitonで支...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

AIキャラアプリkaiwaの低遅延音声通話基盤をどう作ったか - AWS Gravitonで支える低遅延・低コストAI Agent基盤

Avatar for 最上土川

最上土川

June 30, 2026

More Decks by 最上土川

Other Decks in Programming

Transcript

  1. 1 Livetoon, Inc. all rights reserved 登壇者紹介 • 土川 敦也(つちかわ

    あつや) – ハンドルネーム:最上土川 – 株式会社Livetoon 開発マネージャー – 芝浦工業大学 修士2年生 HCI x AIの研究 • 2020年頃(大1)からスタートアップ界隈で働く • 2023年、とある企業でAIキャラクター開発をする • 2024年12月にLivetoonへ転職 – フロントエンドエンジニアで入ったはずが、 Unity、バックエンド、インフラ、AIモデル開発もやっている
  2. 2 Livetoon, Inc. all rights reserved kaiwaとは? • kaiwa (かいわ)

    • 初リリース:2025年4月 • AppStore・GooglePlayで配信中 • 「ともだちAI」として気軽に お話してくれるAIキャラクターアプリ • 個性豊かな3Dキャラクター x あなたを覚える記憶システム x 低遅延なSTS基盤
  3. 4 Livetoon, Inc. all rights reserved “STS”とは? —— “音声”入力に対し、“音声”で応答する技術 その他に

    “STT” や “TTS” も存在 STS = Speech to Speech Speech Speech User STS model STT = Speech to Text: AIの「耳」 TTS = Text to Speech: AIの「口」
  4. 5 Livetoon, Inc. all rights reserved STSには2つの方式が存在 方式 組み合わせ型 単一モデル型

    〇 〇 〇 メリット 賢い カスタマイズ しやすい 速い ✕ ✕ ✕ デメリット 遅い 賢くない カスタマイズ できない LLM User STT TTS STS User 向いている 用途 ✓ キャラクター性:声や話し方を柔軟に変更したい場合 ✓ 用途特化:専門用語を追加学習させたい場合 ✓ 分解性:一部のAIのみ取り出して使用したい場合 ✓ リアルタイム性:同時通訳など、速さが求められる場合
  5. 6 Livetoon, Inc. all rights reserved STSには2つの方式が存在 方式 組み合わせ型 単一モデル型

    メリット 〇 速い ✕ ✕ デメリット 遅い 賢くない カスタマイズ できない LLM User STT TTS STS User 向いている 用途 ✓ キャラクター性:声や話し方を柔軟に変更したい場合 ✓ 用途特化:専門用語を追加学習させたい場合 ✓ 分解性:一部のAIのみ取り出して使用したい場合 ✓ リアルタイム性:同時通訳など、速さが求められる場合 STSパイプラインを 約700msと高速化し 単一モデル型に匹敵する 速度を実現 〇 賢い 〇 カスタマイズ しやすい 〇 速い
  6. 10 Livetoon, Inc. all rights reserved Gravitonとは? • AWSが設計したARMアーキテクチャのサーバーCPU •

    電力効率が良く、自社設計のため価格性能に優れている • 世代 – Graviton2(2019年発表 / 2020年一般提供開始) – 従来世代のM5/C5/R5比で最大40%の価格性能向上 – Graviton3(2021年発表 / 2022年一般提供開始) – Graviton2比で最大25%高いコンピュート性能 – Graviton4(2023年発表 / 2024年一般提供開始) – Graviton3比で最大30%高いコンピュート性能、 50%多いコア数、75%高いメモリ帯域 画像引用元:https://aws.amazon.com/jp/blogs/news/aws-graviton4-based-amazon-ec2-r8g-instances-best-price-performance-in-amazon-ec2/
  7. 12 Livetoon, Inc. all rights reserved g4dnからg5gへの移行 • g4dn.xlarge •

    x86 CPU + NVIDIA T4 GPU • 4 vCPU (Intel Cascade Lake) • 16GB RAM • NVIDIA T4 (VRAM 16GB) • 月コスト(ap-northeast-1) • $518.30 • g5g.xlarge • ARM64 CPU + NVIDIA T4G GPU • 4 vCPU (Graviton2) • 8GB RAM • NVIDIA T4G (VRAM16GB) • 月コスト(ap-northeast-1) • $413.84 (↓ 20.15%) • 移行に必要な作業 • GPU DriverやECS Agentなどを整備したAMI • ARM64+CUDA対応のtorchのビルド作業 Before After 性能変わらずで、約2割のコスト削減
  8. 17 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT

    TTS 感情推定 Embeddings VAD ユーザーの発話を検知 RAGの為の 文章ベクトル化 キャラ表情のための 感情推定 約30ms 約30ms
  9. 18 Livetoon, Inc. all rights reserved STS機構を支える小さなモデルたち LLM User STT

    TTS 感情推定 Embeddings VAD ユーザー端末で CPU/NPU推論 BackendAPI でCPU推論 BackendAPI でCPU推論 ユーザーの発話を検知 RAGの為の 文章ベクトル化 キャラ表情のための 感情推定 約30ms 約30ms
  10. 19 Livetoon, Inc. all rights reserved Backend APIサーバーのGraviton移行 • Fargate

    x86 • 1 vCPU • 2GB RAM • 月額コスト • $44.98 • ASP.NET Core 9 • EFCore • xUnit • AWSSDK • Qdrant.Client • TorchSharp • c7g.medium (Amazon ECS Managed Instances) • 1 vCPU (Graviton3) • 2GB RAM • 月額コスト • $37.20 (↓17.3%) • ASP.NET Core 9 • EFCore • xUnit • AWSSDK • Qdrant.Client • Livetoon.TorchSharp (TorchSharp ARM64対応版) Before After Embeddings CPU推論 25%高速化、コスト17%ダウン
  11. 28 Livetoon, Inc. all rights reserved 普及するARM64と下がる開発難易度 ARM64コンピュータの普及 • 2012年

    Raspberry Pi登場 • 2017年 Windows on ARM登場 • 2020年 Apple Silicon Mac登場 コーディングエージェントの普及 • CodexやClaude Code、Kiroなどの コーディングエージェントで ほぼ手放しに改善・修正ループを回せる • TorchSharpのARM64化は、殆どCodexだけで完結 10年前と比べてARM64対応の開発難易度はかなり下がっている
  12. 29 Livetoon, Inc. all rights reserved まとめ • ともだちAIアプリ「kaiwa」ではGraviton活用で高速なSTSを実現している •

    Graviton2 + NVIDIA GPUなg5gでコスト2割減、性能変わらずを実現 • Graviton3, 4でEmbeddings・感情推定モデルを高速推論、低遅延・低コストなAI Agentシステムを実現 • ARM64化のハードルは下がってきている ご清聴ありがとうございました