Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIの現状と展望

Avatar for Y-h. Taguchi Y-h. Taguchi
October 28, 2025

 生成AIの現状と展望

第30回【総務省統計局】情報政策講演会
2025年10月28日 総務省統計局 7階大会議室(及び配信)

Geiminiによるまとめ
https://docs.google.com/document/d/1KZgEt8mwMqSsuoBmywMNkXyqGsRQzIH17wNACEd-jTg/edit?usp=sharing
音声化
https://youtu.be/7cFSP3sRw74

Avatar for Y-h. Taguchi

Y-h. Taguchi

October 28, 2025
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. 情報政策講演会 2 アジェンダ ◦ 人間の脳は現実をどう(ある意味誤って)解釈して いるか? ◦ 生成AI はどんな現実シミュレーターなのか? ◦

    トランスフォーマー ◦ 拡散モデル ◦ 生成AI はどんなことができるか? ◦ 生成AI の内部構造 ◦ いま、起きていること、これから起きること ◦ 倫理・安全・政策
  2. 情報政策講演会 3 朝日新聞朝刊 (10月8日) オードリー・タン 「 台湾(中華民国)出身 の著名なプログラマー・ 政治家であり、2022 年8

    月 27 日から2024 年5 月20 日 まで台湾の初代デジタル 発展部長(デジタル大 臣)を務めた。」
  3. 情報政策講演会 5 ... と思っていたらGoogle がVeo 3.1 で 音声同時生成・参照画像・フレー ム指定・編集による延長など、Sora 2

    と同等の制作ワークフローが公 式仕様で確認できた(セリフが変だけど⇒後述)
  4. 情報政策講演会 6 観点 Veo 3.1 (公式) Sora 2 (公式) 同等性評価

    主要出典 URL (Veo) 主要出典 URL(Sora) 音声生成 動画と音声を同時 生成(ネイティブ 音声) 同期した台詞・効果 音を生成 同等 https://ai.google.dev/ gemini-api/docs/video https:// openai.com/ index/sora-2/ 基本ク リップ長 (単発生 成) 4/6/8 秒(API ) 10 秒/ 15 秒/ 25 秒 (アプリ/ ウェブ/ プ ランにより。Pro は ウェブで最大25 秒(*) 概ね同等 (短尺生成 → 編集で長 尺化) https:// cloud.google.com/ vertex-ai/generative- ai/docs/models/veo/3- 1-generate-preview https:// help.openai.com/ en/articles/ 12460853- creating-videos- with-sora 長尺化 (編集) Flow の「Extend 」 で1 分以上へ継ぎ足 し可 エディタ/再編集・ 連結で長尺化 同等 https://blog.google/ technology/ai/veo- updates-flow/ https:// openai.com/ index/sora-is- here/ 解像度・ FPS 720p/1080p ・ 24fps (基本生成) 最大1080p (fps は未 公表) 概ね同等 https://ai.google.dev/ gemini-api/docs/video https:// openai.com/ index/sora-is- here/ (*) 根拠:OpenAI ヘルプ「Creating videos with Sora 」Usage limits (10/15/25 秒)。Sora Video Editor は「最大20 秒」の記載もあり 〔参考:Generating videos on Sora 〕。取得日:2025-10-17 。
  5. 情報政策講演会 7 観点 Veo 3.1 (公式) Sora 2 (公式) 同等性評価

    主要出典 URL (Veo) 主要出典 URL(Sora) → 画像 動画 対応(参照画像 最大3 枚) 対応(画像を初 期フレームとし て使用可) 同等 https:// cloud.google.com/ vertex-ai/generative- ai/docs/models/veo/3- 1-generate-preview https:// help.openai.com/ en/articles/ 9957612- generating- videos-on-sora フレーム指定/ 制 御 始端/ 終端フレー ム指定(Frames to Video ) タイムライン編 集・再カット (エディタ) 概ね同等 https://blog.google/ technology/ai/veo- updates-flow/ https:// openai.com/ index/sora-is- here/ 提供形態 Gemini API / Vertex AI / Gemini アプリ/ Flow Sora アプリ (iOS/ ウェブ) 相違(提供 形態) https:// developers.googleblog. com/en/introducing- veo-3-1-and-new- creative-capabilities-in- the-gemini-api/ https:// help.openai.com/ en/articles/ 12456897- getting-started- with-the-sora-app Veo 3.1 は、音声付き8 秒1080p 生成+参照画像・始終フレーム・Extend (1 分超)の 公式サポートにより、Sora 2 が掲げる音声同期・画像入力・ストーリーボード/ 再編集 での長尺化と同等の制作ワークフローを満たすモデルである(Google 公式Docs / Blog 、OpenAI 公式発表・ヘルプより)
  6. 情報政策講演会 13 現実シミュレーターとは? 入力 x を潜在 z に写像し、確率的生成過程 pθ (x

    z) ∣ で 「観測らしさ」を最大化する装置=“現実らしさシ ミュレーター”。 人間:知覚の先験的バイアスと予測誤差最小化(錯視 の位置づけ)。 AI :事後分布近似や自己回帰予測/拡散復元の過程 で“らしさ”を最適化。
  7. 情報政策講演会 15 生成AI がやっていること =潜在空間(分散ベクトル表現)の生成 音声 映像 文字 動画 音楽

    音声 映像 文字 動画 音楽 潜在空間 分散表現(数値ベクトル) エンコーダー デコーダー 入力 出力
  8. 情報政策講演会 16 生成AI 以前の機械学習:エンコーダーのみ。 出力は分散表現じゃなく結果そのもの。 音声 映像 文字 動画 音楽

    入力 「犬が映っています」 「この文章は格差を 扱っています」 エンコーダー 分散表現は中間層の状態 として存在はしていたが 特に注目は浴びず。
  9. 情報政策講演会 18 X:n トークン(単語)からなる入力 クエリー キー ヴァリュー n× n相互作用 (単語間関係)

    分散表現 (dv 次元) 「あるタスク」を もっともよく達成で きるようにWを学習 A n n dk n n d v dk WQ WK WV Q K V n n n d v マルチヘッド トランスフォーマー X d d dk d d d v Q=Query ,K=Key ,V=Value ,dk=Key 次元,dv=Value 次元,Wq/Wk/Wv= 線形射影,⊤= 転置
  10. 情報政策講演会 20 具体的なタスク: 分散表現を入力とし深層学習(FFN )で ・文章の途中の単語をその前までの文章で当てる 「 GPT は、入力トークンを埋め込みに変換し、トラ ンスフォーマー(自己注意+FFN

    )が文脈化された分 散表現を計算する。 その表現から次トークンの確率分布を出力し、次トー クン予測の損失を最小化するように逆伝播で全パラ メータ(WQ ,WK ,WV ,WO , FFN 等)を学習する 」
  11. 情報政策講演会 21 ノ イ ズ 拡散モデル 潜在表現 多 段 ノ

    イ ズ 付 加 多 段 ノ イ ズ 除 去 学習 生成 エンコーダー デコーダー テキスト
  12. 情報政策講演会 35 $5900でとんぼ返り、逆立ち可能な2足歩行ロボットが発売 https://www.youtube.com/watch?v=v1Q4Su54iho (ものはつかめません!) 動画では、移動とカスタマイズを目的としたヒューマノイドロ ボット「Unitree R1 」が紹介されています。動画では、ロボット が屋外と屋内のさまざまな環境で手立ちや側転などのアクロバ

    ティックな動作を披露し、26 の関節による機敏さと柔軟性を強 調しています。また、軽量設計(約25kg )や、音声と画像に対 応した大規模なマルチモーダルモデルとの統合についても説明 されています。最後に、ロボットのカスタマイズ可能性について 触れ、さまざまな部品の色やデザインオプションを示し、最終 的な出荷時の外観が変更される可能性があると説明していま す。動画は、ブランドロゴと、過酷なテスト、機能の差異、安全 ガイドライン、ヒューマノイドロボット開発の初期段階に関す る免責事項で締めくくられています。
  13. 情報政策講演会 36 画像分析 何が映っているか説明してください この画像には、現代的な会議室またはセミナールームの ような空間が写っています。部屋の中央には、白い天板 のテーブルがコの字型に配置されており、その周りには 赤い幾何学的な形をしたスツールが置かれています。奥 の壁には白いホワイトボードがあり、何か書かれている ようですが、詳細は不明瞭です。天井は高く、配管や照

    明器具がむき出しになっており、インダストリアルな雰 囲気を感じさせます。壁はコンクリート打ちっぱなしの ような素材で、全体的にモダンでシンプルなデザインの 空間です。左奥にはドアが見え、その隣には消火器 消火器のよ うな赤い物体も確認できます。光の当たり具合から、室 内は明るく、清潔感のある印象を受けます。 Gemini 2.5 Pro
  14. 情報政策講演会 46 Sora (OpenAI) vs Veo (Google) 10 秒以上のクリップにおける人物合流や後方接近な ど“難タスク”では、両アプリが先行(実は冒頭に見

    せた「画面外から人物がやってきて後ろから話しか ける」はとても難しいタスク)だが発展の歴史はか なり違う Sora: 言語ベースのトランスフォーマー⇒動画生成に応用 Veo: 画像ベースの拡散モデル⇒動画生成に応用
  15. 情報政策講演会 49 人間が要件を定義しAI に指示 生成AI が下書き/候補群を作成 生成AI がアウトプットを要約 人間が学ぶ デコーダー

    エンコーダー 成果物 人間A (発信) 人間B (受信) 選別/評価(人間) 選別/評価(人間)
  16. 情報政策講演会 50 AI 媒介ループ(Gemini Pro 2.5 Deep Research による命名) https://youtu.be/trVJ33ygFyE

    https://note.com/tagtag/n/n4e728624cf0a note 記事(Gemini によるまとめ) (同音声化)
  17. 情報政策講演会 52 Podcast で生成AI (Gemini Pro 2.5 Deep Research )

    に記事を書かせて音声化させて配信する社会実験 約10 分の動画× 約30 本。週あたり総視聴 時間:約9 時間 https://youtube.com/playlist?list=PLWd74yl8OJNeEFQtDkhqmFHESms1ym2Fh
  18. 情報政策講演会 57 デコーダー エンコーダー 入力 デコーダー エンコーダー 成果物 人間A (発信)

    人間B (受信) 潜在空間 出力 生成AI 現実 人間A (発信) 人間B (受信)
  19. 情報政策講演会 60 30分アニメの生成は10年後と予想。 時間的 ・キャラクター的・物語的一貫性の解決 逆に言えば猶予はたった10年 10 年ロードマップ 1–3 年:短尺高精度・編集の民主化、業務オペの“AI

    媒介ループ”標準化。3–6 年:長尺・キャラ維持・マ ルチショット連続性の定量ブレイクスルー。6–10 年:30 分級の一貫生成“条件つき”で到達。 到達判定KPI =ID 保全率/ショット整合率/物理破綻率/視聴完遂率(取得日:2025-10-17 )
  20. 情報政策講演会 64 • 誤情報(幻覚) • 兆候:自信満々の断定/出典不明/数値の桁ズレ • 一次対処:出典必須・重要事実は二重確認・数表 は再計算 •

    バイアス/差別 • 兆候:属性(性別・年齢・人種等)に依存した固 定観念的表現 • 一次対処:禁則プロンプト(属性推定しない等) +人手レビュー
  21. 情報政策講演会 65 • 著作権・ライセンス • 兆候:既存作品の構図・文言・ロゴに高い類似/ラ イセンス表記欠落 • 一次対処:商用可否の確認・クレジット表記・類似 度チェックの記録

    • 個人情報・機密情報の漏えい • 兆候:氏名・顔・連絡先・未公開資料の入力/生成 物への埋め込み • 一次対処:機微データ入力禁止・マスキング・社外 モデル分離運用
  22. 情報政策講演会 66 • セキュリティ(プロンプトインジェクション等) • 兆候:「前の指示を無視せよ」「社内規程を出 せ」等の誘導文 • 一次対処:システムプロンプト固定・外部リンク 隔離・ツール権限最小化

    • 説明責任・帰責 • 原則:Human-in-the-Loop (人間が最終責任) • 決定理由の記録(プロンプト/モデル/日付) • 本資料の一部は生成AI で作成し、人手で検証・編 集しました。重要事実・数値は複数出典で確認し ています。
  23. 情報政策講演会 67 まとめ • 生成AI =現実シミュレーター • 生成AI のしくみ •

    生成AI ができること • 生成AI の内部構造 • 生成AI 媒介ループ • 倫理・安全・政策
  24. 情報政策講演会 69 正式名称 提供元 バージョン/種別 初回公開年 参照 URL Sora 2

    OpenAI 動画・音声生成モデル 2025 [1] Veo 3.1 Google (DeepMind/ Labs ) 動画生成モデル 2025 [2] GPT-5 (ChatGPT で利用) OpenAI 大規模マルチモーダルモ デル 2025 [3] ChatGPT Canvas OpenAI ChatGPT のUI 機能 2024 [4] Grok 3 xAI LLM (推論強化) 2025 [5] Gemini 2.5 Pro Google DeepMind LLM (長文脈・推論) 2025 [6] GPT-4o(Omni ) OpenAI マルチモーダルLLM 2024 [7] [1] openai.com/index/sora-2/ [2]blog.google/technology/ai/veo-updates-flow/ [3] openai.com/index/introducing-gpt-5/ [4] openai.com/index/introducing-canvas/ [5] x.ai/news/grok-3 [6] deepmind.google/models/gemini/pro/ [7] openai.com/index/hello-gpt-4o/