Googleの最新モデル「Gemini 3 Flash」を活用し、音声波形レベルで発音を矯正するAIアプリ「EchoPerfect」の技術解説スライドです。
Vercel Serverlessの「10秒の壁」などの制約を、アーキテクチャとUXの工夫でどう乗り越えたかをまとめています。
【主なトピック】
・Deep Phonetic Analysis: 文字起こしではなく、音声波形を直接比較・推論するアーキテクチャ
・Vercelの10秒制限対策: 「マイクロフレーズ方式」によるUXの再設計
・Read-Onlyファイルシステムの攻略: io.BytesIO を使ったオンメモリ音声処理
・厳格な出力制御: JSONスキーマによるGeminiの「コーチング」品質担保
【技術スタック】
Frontend: Next.js (App Router) Backend: Python (FastAPI) on Vercel AI Model: Gemini 3 Flash (Multimodal)
【関連リンク】
GitHub: https://github.com/nekoai-lab/Echo-Perfect-AI
Zenn: https://zenn.dev/nekoai_lab/articles/30bfd478ca72e4