Google Opalで使える生成AIの能力と役割

Google AI モデル群解体新書 Opal で使えるAI の能力と役割 1

はじめに：タスクに応じたAI の使い分け Opalなどのプラットフォームでは、様々な得意分野を持つAIモデルを利用できます。これらのモデルを適材適所で組み合わせることで、シンプルなお手伝いから複雑なアプリケーションまで、あらゆるアイデアを実現できます。本日は、主要なモデルを2つのカテゴリに分けて解説します。 1. テキスト・マルチモーダル系モデル
2. メディア生成系モデル 2

1. テキスト・マルチモーダル系モデル言葉やデータを理解し、思考するAI 中心的な役割テキストの理解、要約、生成、分析マルチモーダルとは？テキストだけでなく、画像、音声、動画など、複数の種類の情報を同時に扱える能力主な用途文章作成、データ分析、計画立案、対話など
3

Gemini 2.5 Flash 日常タスクを高速処理する、軽快なモデル役割: 日常的なタスクや高速な応答が得意なバランス型。機能: 大量のタスクを低遅延で効率的に処理することに最適化。最適な用途:
リアルタイム性が求められるチャットボット文章の要約や分類画像や動画のキャプション生成 4

Gemini 2.5 Pro 複雑なタスクをこなす、高性能な頭脳役割: 複雑で高度な思考を必要とするタスクを実行。機能: Flash より高度な推論、コーディング、マルチモーダル理解能力。テキスト、コード、画像、音声、動画など、多様な入力を深く理解。
最適な用途: 専門的なレポートや記事の作成複雑なデータ分析と洞察の抽出アプリ開発のコーディング補助 5

Plan and Execute with Gemini 2.5 計画し、実行する「AI エージェント」役割: 複雑なタスクを
自律的に計画し、実行する。機能: 曖昧な指示を具体的なステップに分解。必要なツール（他のAI、Web検索など）を自動で呼び出してタスクを遂行。例: 「競合他社の最新動向を調査してレポートを作成して」という指示だけで、計画から実行までを自動化。 6

Deep Research with Gemini 2.5 特定分野を深掘りする「AI リサーチャー」役割: 特定トピックに関する詳細な調査とレポート生成。
機能: AIが自ら調査計画を立て、Webから信頼性の高い情報を収集・分析。最終的に出典リンク付きで、構造化された詳細なレポートを生成。強み: 情報の信頼性が高く、ファクトチェックの手間を削減。 7

2. メディア生成系モデルテキストから、新たな創造物を生み出すAI 中心的な役割画像、音声、動画、音楽といったメディアをゼロから生成仕組みプロンプト（テキストによる指示）を解釈し、対応するメディアコンテンツを生成主な用途アート制作、デザイン、BGM作成、動画コンテンツ制作など
8

Imagen 4 テキストから高品質な画像を生成役割: プロンプトからフォトリアルな画像を生成。機能: 非常にリアルで高解像度な画像を生成。特に、人物の骨格や手の描写、
画像内のテキスト表現の正確性に優れる。最適な用途: 広告ビジュアルの作成ブログやプレゼン資料の挿絵アート作品の制作 9

Gemini 2.5 Flash Image 画像を生成し、さらに対話で「編集」する役割: テキストと画像を基に、画像の生成と編集を行う。機能: Imagen
4 の生成能力に加え、既存画像の編集が得意。「この人物を消して」「背景を森に変えて」といった自然言語での対話的な指示で画像を修正。最適な用途: 写真のレタッチや修正既存の画像をベースにしたコラージュ作成 10

AudioLM テキストから人間のようなスピーチを生成役割: テキストを自然な音声に変換。機能: 入力されたテキストを、人間らしいイントネーションや感情で読み上げる。短い音声の「続き」を違和感なく生成することも可能。最適な用途:
オーディオブックのナレーション動画の吹き替えポッドキャスト制作 11

Veo テキストや画像から高品質な動画を生成役割: 指示に基づいてリアルな動画を生成。機能: 物理法則や光の表現に優れた、シネマティックな動画を生成。最新版では、動画の内容に合った音声も同時に生成可能。最適な用途:
製品のプロモーションビデオコンセプトの可視化ショート動画コンテンツの制作 12

Lyria 2 テキストからプロ品質の音楽を生成役割: **楽器演奏の音楽（インストゥルメンタル）**を生成。機能: 「壮大なオーケストラ」「落ち着いたジャズピアノ」といった指示だけで音楽を生成。プロ品質で、商用利用も可能なレベル。最適な用途:
動画コンテンツのBGM作成作曲や編曲のアイデア出しアプリやゲームの背景音楽 13

まとめ適材適所のAI を組み合わせて、アイデアを形に思考するAI: Gemini Flash, Pro, Plan/Execute, Deep Research
創造するAI: Imagen, Flash Image, AudioLM, Veo, Lyria これらのモデルの特性を理解し、組み合わせることで、あなたのアイデアはより強力なアプリケーションへと進化します。 14

Google Opalで使える生成AIの能力と役割

Google Opalで使える生成AIの能力と役割

MIKIO KUBO

More Decks by MIKIO KUBO

Other Decks in Business

Featured

Transcript

Google AI モデル群解体新書 Opal で使えるAI の能力と役割 1

Gemini 2.5 Flash 日常タスクを高速処理する、軽快なモデル役割: 日常的なタスクや高速な応答が得意なバランス型。機能: 大量のタスクを低遅延で効率的に処理することに最適化。最適な用途:

Plan and Execute with Gemini 2.5 計画し、実行する「AI エージェント」役割: 複雑なタスクを

Deep Research with Gemini 2.5 特定分野を深掘りする「AI リサーチャー」役割: 特定トピックに関する詳細な調査とレポート生成。

Imagen 4 テキストから高品質な画像を生成役割: プロンプトからフォトリアルな画像を生成。機能: 非常にリアルで高解像度な画像を生成。特に、人物の骨格や手の描写、

Gemini 2.5 Flash Image 画像を生成し、さらに対話で「編集」する役割: テキストと画像を基に、画像の生成と編集を行う。機能: Imagen

まとめ適材適所のAI を組み合わせて、アイデアを形に思考するAI: Gemini Flash, Pro, Plan/Execute, Deep Research