Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Google ADKを使ったメディア生成AI入門(概要)

Avatar for Kento.Yamada Kento.Yamada
July 25, 2025
61

Google ADKを使ったメディア生成AI入門(概要)

2025年7月25日に開催されたGenerative AI X-Meetup Vol.1 Tokyo & Osakaの登壇資料です。

https://linedevelopercommunity.connpass.com/event/361757/

参考資料

Vertex AI Studio の刷新: あらゆるモダリティにわたる生成 AI メディアモデルのソース
https://cloud.google.com/blog/ja/products/ai-machine-learning/vertex-ai-studio-redesigned

Vertex AI が動画、画像、音声、音楽にわたる生成メディアモデルを備えた唯一のプラットフォームに
https://cloud.google.com/blog/ja/products/ai-machine-learning/expanding-generative-media-for-enterprise-on-vertex-ai

google/adk-python | DeepWiki
https://deepwiki.com/google/adk-python

Build with Veo 3, now available in the Gemini API - Google Developers Blog
https://developers.googleblog.com/en/veo-3-now-available-gemini-api/

Chirp 3: HD 音声  |  Cloud Text-to-Speech API  |  Google Cloud
https://cloud.google.com/text-to-speech/docs/chirp3-hd?hl=ja

Firebase AI Logic client SDKs | Build generative AI features directly into your mobile and web apps
https://firebase.google.com/products/firebase-ai-logic?hl=ja

MCP Servers for Google Cloud Genmedia APIs
https://github.com/GoogleCloudPlatform/vertex-ai-creative-studio/tree/main/experiments/mcp-genmedia

Imagen - Google DeepMind
https://deepmind.google/models/imagen/

Veo - Google DeepMind
https://deepmind.google/models/veo/

Lyria - Google DeepMind
https://deepmind.google/models/lyria/

Avatar for Kento.Yamada

Kento.Yamada

July 25, 2025
Tweet

Transcript

  1. 山田顕人(Kento.Yamada) @ymd65536 自己紹介 3 仕事:MSP向け内製システムの開発 ロール:マルチクラウドエンジニア/デベロッパー 活動:.NETラボ勉強会、Azure AI Communityの運営 LINE

    API Expert(2024年〜) Google Cloud Partner Top Engineer 2025 DataAnalytics(2024年〜) Google Cloud Partner Tech Blog Challenge 2023 Cloud AI/ML 部門 LAPRAS OUTPUT AWARD 2024 01
  2. 生成AIによるメディア生成を実現するには 課金体系に注意(無料/サブスクリプション/従量課金のいずれか) • Gemini for Google Workspace • Google AI

    Studio • Gemini CLI + MCP Servers for Google Cloud Genmedia APIs ◦ Vertex AI Creative Studio(OSS)の実験的なMCPを利用 • Google Colaboratory + Stable Diffusion • Vertex AI Studio ◦ Media Studioという項目で生成できる • Firebase AI Logic SDK(NEW) ◦ Firebase Studioと併用する 5
  3. Googleが誇るメディア系生成AI 6 項番 モデル名 役割 1 Imagen 4 最高品質のテキスト画像変換モデル 2

    Chirp 3 画期的な音声生成モデル 3 Lyria 業界初のエンタープライズ対応テキスト音楽変換モデル 4 Veo 3 業界をリードする当社のビデオ生成モデル ※Veo3は音声付き動画を生成できるモデル、Veo2までは無音声の動画 ※Lyriaは楽曲生成、音声生成はgemini-2.5-flash-preview-ttsでも対応可能
  4. 結論:ADKとGen AI SDKの併用で開発する • 画像:できる。(サンプルコードを見ると厳密にはGen AI SDKを利用) • 動画:リアルタイム動画分析ならできる。ADKで生成はできない •

    音声:リアルタイム音声処理ならできる。ADKで生成はできない • 音楽:音声と扱いは同じ。ADKで生成はできない 今(2025年7月25日)のところ: Gen AI SDKを使うことで動画や音声の生成に対応できる ADKではエージェントの制御、Gen AI SDKではVertex AIを制御 9