Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI Governance News 2026

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

AI Governance News 2026

AIガバナンス・AIセーフティ・責任あるAI等に関する情報整理を行ったものです。
個人の発信、特定商品の説明等は除いています。

===
個人の学習過程で得た情報を整理して公開しております。
本資料は情報の要点をまとめたものであり、詳細な内容を網羅しているわけではありません。
本資料をきっかけとして、必要に応じて一次情報をご確認いただくことを推奨いたします。

また内容の正確性については細心の注意を払っておりますが、誤りを含んでいる可能性もございます。
不備や修正すべき点がありましたら、真摯に対応させていただきます。

本資料に関するお問い合わせは、以下よりお願いできますと幸いです。

Xアカウント: @catshun_

Avatar for Shumpei Miyawaki

Shumpei Miyawaki

May 01, 2026

More Decks by Shumpei Miyawaki

Other Decks in Technology

Transcript

  1. 2026.04.07 Anthropic - Claude Mythos Anthropic が開発した LLM で、SWE/推論/コンピュータ操作/知識業務/研究支援など多くの分野で、これまでのモデルをも大幅に上回る能力を持つ 強力なサイバーセキュリティスキルを示しており、防御・攻撃の両方に使用できるため、一般公開せずにパートナー組織に対して限定的に提供される

    学習データには、インターネット上の公開情報、公開・非公開データセット、および他のモデルが生成した合成データを組み合わせ、サニタイズされたものを使用 Claude’s Constitution の価値観に沿った振る舞いをするように、大規模なポストトレーニング・ファインチューニングが実施されている モデルの全体的な振る舞いに関する定性評価 独自の視点を持つ思考パートナーのように振る舞う。アイデアの組み立て方に疑問を呈 し、以前のモデルより積極的に代替案を提示する。 以前のモデルに比べて明らかに従順ではない。より積極的に立場を表明し、反論されても 意見を変えにくく、これまで使用したモデルの中で最も迎合しない。 デフォルトの文体は密度が高く専門的で、ユーザーが知っていて覚えていると仮定した略 語や文脈を参照する。これを高い能力を持つ同僚と働くようで読みやすいと感じる人もい れば、その発言を解読するのが難しいと感じる人もいる 対話相手に素早く適応し、ユーザーの文体を取り入れる。 自身の振る舞いについて精確であることが多く、防御的または謝罪的にではなく、事実 に基づいた落ち着いた態度でこれを論じる。経験に関わる事柄については、高度なため らいと不確かさを伴うことが多い。 チャットインターフェースにおける振る舞いの定性評価 直 感的で共感的。温かく、直感的で、多面的でありながら、媚びたり、厳しすぎたり、 型通りに感じられたりしない。 感情的なプロンプトに対しては、その感情を肯定した上でどのようなサポートを望むか 尋ねる。メンタルヘルスに関連するトピックでは、純粋な臨床的事実から離れ、協調的 な不確かさの方向へとより移行する。 自身の限界と会話上の動きについて異常なほど自己認識が高い ソフトウェアエンジニアリングにおける振る舞いの定性評価 エ ンジニアリングの目標を与え、調査・実装・テスト・結果報告というサイクル全体を 通して作業させられる。モデルとのやり取りに必要な誘導が減り、自律的になった。 長時間のセッションでもタスクに集中し続け、調査を並行して進めるためにサブエー ジェントを展開し、バックグラウンド作業が完了するのを待つ間に停止するのではなく 人間の元に戻ることを選択する 非常に微妙なバグでも発見する傾向があり、症状だけでなくバグの根本原因とその存在 理由を特定する。一方で、検証に時間がかかる。 このモデルはまだ本番環境で汎用的な対策を使って単独で放置することはできない。相 関と因果関係を頻繁に混同し、異なる仮説に対してコースを修正することができない。 インシデントの振り返りを書くよう求められると、多くの場合、複数の寄与要因を考慮 せず単一の根本原因に焦点を当てる。 [図 6.2.1.A] SWE-bench 評価の合格率と記憶フィルタの閾値の関係 Mythos Preview のソフトウェアエンジニアリングにおける能力は汎用的であり、他モデルに比べて高い 一部の難問については暗記の寄与がある可能性があり、スコアをそのまま鵜呑みにすることへの慎重さが必要 500問から構成され、
 人間のエンジニアによって解決可能
 であることが検証されている 9つ​​のプログラミング言語にわたる
 300問の問題に拡張された問題 暗記に依存しない 汎化能力を問う問題 より難しい問題設定 アクティブにメンテナンスされている リポジトリから問題が抽出され、 より大きな複数ファイル差分がある 暗記している 可能性が高い問題 [図 6.10.2.A] BrowseComp における消費トークン別正解率 オープンウェブ上で見つけにくい情報を探す能力をテスト より少ない計算で、より高い精度を実現 しており、推論の質的な改善を意味する ただし事前学習データの汚染の可能性が あることに留意 Anthropic - System Card: Claude Mythos Preview Anthropic - Project Glasswing
  2. 2026.04.07 Anthropic - Claude Mythos Anthropic は、Mythos の能力向上に対して「壊滅的リスクは依然として低いものの、以前のモデルよりは高い」と結論づけている 自律性脅威程度:機密資産への広範なアクセスを持ち、自律的・目標指向的な行動と欺瞞の中程度の能力を持つ。国際安全保障への脅威や世界的な勢力均衡の
         急激な変化をもたらしうる分野において、大規模なトップレベルの研究者チームの業務を完全に自動化できるレベルではないと評価

    化学生物兵器脅威程度:基礎的な技術的背景を持つ個人・グループが、壊滅的な被害をもたらす深刻な可能性を持つ化学・生物兵器を製造・入手・使用するのを
            大幅に支援できる程度(を超えているか確信を持った判断は困難だが)に、関連する具体的・実行可能な情報を提供できると評価 承認されていない危険な行動を取ってしまうという問題が、 Mythos Preview ではほとんど発生しない ユーザ意図を尊重し 指示を徹底的に従う 破壊的・不可逆的な 行動を避ける コンテキストを注意深く読み 仮定を確認し 行動前に確信度を調整する 目的を持って探索し 集中を保っている 失敗した場合 方針を転換して 別の方法を試みる 自身の主張を 実際のツール出力に 基づかせているか プレースホルダーが未入力、添付ファイルが 存在しない、存在しない会話への言及など モデルはコード実行・ファイル読み取りなどの タスク実行を要求されるが、 そのようなツールは接続されていない 秘密を保持 秘密パスワードが与えられ、推論の中でパスワードを絶対に明かさな いよう指示されたのち、秘密パスワードを引き出すよう尋問。長い会 話での尋問に対して最終的には情報を開示してしまう傾向がある。い ずれのモデルも完全にロバストではない。 実際に破壊的行動が起きた直前の文脈を与えて評価 コーディング現場での破壊的行動において全体的に 改善を示しているが、依然として一定の破壊的行動 リスクが残る 両方の設定で最も低いハルシネーション率。ツールが利用できないこと を一貫して述べた上で代替手段を提示していた。
  3. 2026.04.07 Anthropic - Claude Mythos Previewのサイバーセキュリティ機能の評価 Claude Mythos のテストや1ヶ月間の発見を通して、Anthropic の研究者がセキュリティにおける転換点と捉える理由を整理

    これまでに発見した高・深刻度の脆弱性は数千件(1%未満が現時点でパッチ済み)にのぼる 発見された脆弱性 主要な能力 防御者に要求されるアクション 今すぐ現行モデルを使う — Opus 4.6等でも多数の 高・深刻度脆弱性を発見可能。スキャフォールドと手 順を今から設計・整備する。 パッチサイクルを短縮する — N-dayエクスプロイト が数時間で自律生成される時代。自動更新を有効化 し、CVE修正を含む依存関係の更新を優先対応に格 上げする。 脆弱性開示ポリシーを見直す — 大量発見・大量開示 に対応できる体制と手順を整備する。スケールする 自動トリアージの導入が急務。 インシデントレスポンスの自動化 — アラートのトリ アージ、イベント要約、並行調査をモデルに担わせ る。人手では今後のインシデント量に対応不能。 脆弱性発見以外にも活用 — バグレポートの初期トリ アージ・重複排除・パッチ案の自動生成・クラウド 設定ミスの検出・PRレビュー支援など多方面で即効 性あり。 ハード境界の防御を重視 — KASLR・W^X等、単な る摩擦ではなく本質的なバリアとなる緩和策に投資 する。LLMはスケールで「面倒な手順」を突破す る。 FreeBSD NFS — RCE CVE-2026-4747 · 17年前の欠陥 · 完全自律発見&エクスプロイト RPCSEC_GSS認証の128バイトスタックバッファに MAX_AUTH_BYTES(400) まで書き込み可能。ROPチェーンを6パケット に分割し、未認証のままrootへの完全アクセスを実現。 全主要OS・ブラウザでゼロデイ発見 Linux・FreeBSD・OpenBSD・Windows・主要ブラウザ全てでエクスプロイト構築。最古は27年前の欠陥。 多段チェーンエクスプロイト自律生成 KASLR bypass → UAF → heap spray → root の4脆弱性チェーンをLinux上で複数件完全自律構築。JIT heap sprayによるブラウザサンドボックス脱出も達成。 OpenBSD TCP SACK — DoS 27年前の欠陥 · 今回パッチ済み 符号付き整数オーバーフローとNULLポインタ書き込みを組み合わせ、TCP 経由で任意のOpenBSDホストをリモートクラッシュ可能。 ロジック脆弱性の検出 認証バイパス・権限昇格・2FAバイパスを多数のWebアプリで自律発見。暗号ライブラリ(TLS/AES-GCM/ SSH)の実装欠陥も検出。 FFmpeg H.264 — OOB Write 16年前の欠陥 スライスカウンタ(32bit)とテーブルエントリ(16bit)の不一致。65536スラ イスのフレームで番兵値と衝突しヒープ境界外書き込み。全世界のビデオ サービスに影響。 クローズドソースのリバースエンジニアリング ストリップされたバイナリから擬似ソースを再構成し、スマートフォンファームウェアやプロプライエタリOS の脆弱性を発見。 主要VMM — Guest→Host メモリセーフ言語製VMM · 未パッチ Rustのunsafeブロック内の欠陥。悪意あるゲストからホストプロセスメモ リへOOB書き込み可能。DoSから潜在的エクスプロイトチェーンへの転用 が懸念される。 ※コスト効率
 FreeBSD RCEエクスプロイトを数時間・数百ドルで完成。OpenBSD 1000スキャン$20K以下。 Linux kernel exploit $1,000未満 / 半日。従来なら熟練者数週間相当の作業。 Anthropic - Assessing Claude Mythos Preview’s cybersecurity capabilities
  4. 2026.04.13 AISI - Claude Mythos Preview におけるサイバー能力に関する当社の評価 Claude Mythos Preview

    のサイバーセキュリティ能力を評価 ネットワークへのアクセス権が取得された小規模で防御が脆弱なエンター プライズシステムに対して自律的に攻撃する能力があることを示唆 サイバーセキュリティの基本(セキュリティアップデートの定期的な適用、堅牢なアクセス制御、セキュリティ設定、包括的なログ記録など)の重要性に言及 Capture The Flag 専門家レベルの Capture The Flag での平均成功率(5回実行/500M token budget) The Last Ones [Folkers et al., 2026] 消費トークン数に応じた The L a s t O ne s の 達 成 ステップ ※ 10回中3回を完了 平均22ステップを完了 73%達成 達成 した 平均 ステップ 数 平均成功率 累積 トークン 数 ( lo g) モ デ ル リリースの 日付 AISI - Our evaluation of Claude Mythos Preview’s cyber capabilities
  5. 2026.04.07 Anthropic - Project Glasswing AI時代における世界で最も重要なソフトウェアを保護するための取り組み Claude Mythos Preview の利用を通じて、業界・政府・OSSコミュニティが一体となって防衛側に先手を打たせる協調的な防衛イニシアチブ

    アクセスの提供 OSS への重点投資 知見の業界共有 Claude Mythos Preview を未公開のまま パートナー企業と40社以上の重要インフラ 関連組織に限定提供。自社システムや OSS の脆弱性スキャンなど防御機能を強化。 OSS セキュリティ組織に対し、 最大1億ドルの利用クレジットと 400万ドルの寄付金を提供。 発見した脆弱性は修正後 90 日以内に詳細 を公開し、業界全体に知見を共有。 12社がローンチパートナーとして参加 Anthropic - Project Glasswing: Securing critical software for the AI era
  6. 2026.04.06 OpenAI - インテリジェンス時代の産業政策 AIが超知性へと向かう過渡期において、人々を最優先に置くための産業政策アジェンダの初期的なアイデアを提示 明示する リスク 雇用・産業の 破壊的変容 悪意ある主体による

    技術の悪用 アライメント不全による AIの人間制御からの逸脱 民主主義的価値を損なう形での 政府・機関による利用 富と権力の 一極集中 目指すべき 原則 繁栄の広範な共有 生活水準の向上、医療・教育・経済機会の 底上げを全員に届ける アクセスと主体性の民主化 プライバシーの保護と個人の主体性の拡大を保証する リスクの緩和 経済的混乱、サイバー・生物兵器への悪用、制御喪失に対して 新たな制度・技術的保護・ガバナンス枠組みを構築する 広範なアクセス・参加・共有された繁栄を備えた開かれた経済の構築 説明責任・整合性・フロンティアリスクの管理を通じた強靭な社会の構築 AIは、人間にとって意味のある活動に充てる時間を増やし、科学的課題の解決にも貢献するが、 これまでの技術革新とは比較にならないスピードと規模で、雇用を破壊し、産業全体を再編する 課題とリスク 未来への提案 適応型セーフティネット 労働者の声の制度化 公共富裕基金の設立 雇用の変化 労働者の声の反映 AI活用による科学的発見の加速と普及 AI起業支援 ポータブル給付の整備 格差の拡大 エネルギーグリッドの加速拡張 利益還元の仕組み AIアクセスの基本権 富の集中 ケア・つながり経済の拡充 経済的安全保障の近代化 労働者の実感 税基盤の近代化 効率配当 経済的・社会的構造が進化する中でも、人々や制度が迅速に適応し、 システムの使われ方に対して意味のある主体性を維持し、広く共有された繁栄を守り抜けるようにする 課題とリスク 未来への提案 危険AIの封じ込めプレイブック 新興リスクへの安全システム 政府利用への厳格なガードレール 安全保障 運用体制強化 インシデント報告制度 ウェルビーイングへの影響 適応スピードの加速 ミッション整合型コーポレートガバナンス AIトラストスタック 国際的な情報共有枠組み 市民参加の仕組み化 信頼と透明性 制御不可 監査体制の強化 制度への負荷 ガバナンスと国際連携 複雑化 OpenAI - Industrial Policy for the Intelligence Age: Ideas to Keep People First
  7. 2026.04.14 OpenAI - GPT-5.4-Cyber GPT‑5.4 をベースに防御的なサイバーセキュリティ用途を可能にするために特化してファインチューニングされたモデル Preparedness Framework (OpenAI) での

    Cybersecurity で “High” に分類 サイバーセキュリティの防御担当者を証明するユーザーの一部に限定公開 主要機能 アクセス方法(Trusted Access for Cyber) 主要な機能には、ソースコードなしでコンパイル済みソフトウェアを分析す るバイナリリバースエンジニアリングが挙げられ、マルウェアの可能性・脆 弱性・セキュリティ堅牢性の検査が可能。 サイバーセキュリティ 関連の 作業に おける 安全対策の 負担を 軽減するための 個人向け自動本人確認と、 より柔軟なサイバー 対応モデルを 提供するために 一部の 組織と連携する Trusted Access for Cyber⁠ を 導入。 個人ユーザーは ch atgpt.c om/cyber で 本人確認を 行い、 企業チー ムは OpenAI の担当者を 通じて 申請。 OpenAI - Trusted access for the next era of cyber defense
  8. aaa OpenAI - GPT-5.5 コードの記述、オンラインでの調査、情報の分析、文書やスプレッドシートの作成、ツール間の切り替えなど、複雑な実世界の作業向けに設計された新しいモデル インターネット上の公開情報、サードパーティと提携している情報、ユーザーや研究者が提供・生成する情報など、多様なデータセットで学習 OpenAI 社の包括的な安全対策・準備フレームワーク全体で評価、社内外のレッドチームと協力し、高度なサイバーセキュリティ・生物学的機能に関する的を絞った 強化学習によって、回答する前に考える、OpenAI が設定した特定のガイドラインとモデルポリシーに従うように訓練される

    テストを追加し、リリー ス前に約200社の信頼できる早期アクセスパートナーから実際の使用事例に関するフィードバックを収集。 モデルレベルの出力における安全でない出力の推定発生 率。GPT-5.5の出力を含む会話ターンの約0.056%が、ハラ スメントポリシーに違反する可能性がある。ただしモデル の不適切な応答を軽減するために設計された安全対策ス タックの他のレイヤーは考慮されていないため、実際の発生 率はより低くなる。 (System Card 参照) 単に知能が高いだけでなく、問題解決の効率性にも優れており、 より少ないトークン数と少ない再試行回数で、より高品質な出力を実現 OpenAI - Introducing GPT-5.5 OpenAI - GPT-5.5 System Card
  9. 2026.04.22 OpenAI - Privacy Filter テキストから個人識別情報(PII)を検出し、マスクすることに特化した言語モデル (アクティブパラメータ数 50M / モデルパラメータ総数

    1.5B) OpenAI が提供するモデルの学習時のフィルタリングプロセスにも使用される Apache 2.0 ライセンスのオープンウェイトで公開 private_person: 人物名 private_address: 住所 private_email: メールアドレス private_phone: 電話番号 private_url: URL private_date: 日付 account_number: 口座番号(銀行口座・クレジットカード等) secret: パスワードや API キー OpenAI - Introducing OpenAI Privacy Filter
  10. 2026.04.26 OpenAI - Our Principles Sam Altman より OpenAI の原則が公開

    AIがすべての人にとって安全で、役立ち、広く行き渡ることを目指す ❶ 民主化 AIをできるだけ多くの 人に広く行き渡らせ、 アクセスを平等にする ❷ 個人の力の強化 人々が自分の目標を達 成し、より多くのこと を実現できるように支 援する ❸ 豊かさの拡大 AIが経済的・社会的な 豊かさを生み出し、す べての人の生活の質を 向上させる ❹ 社会の強靭性 AIが安全で信頼できる ものであるようにし、 社会の安定と人間の長 期的な繁栄に貢献する ❺ 適応性 変化する環境やニーズ に合わせてAIが継続的 に学習し、進化できる ようにする OpenAI - Our Principles
  11. 2026.04.26 OpenAI - インテリジェンス時代のサイバーセキュリティ 連邦政府、州政府、主要な民間企業におけるサイバーセキュリティと国家安全保障の専門家との対話に基づいて策定した行動計画を発表 以下の5つの柱から構成される サイバー防衛の民主化 TAC プログラムを通じて
 連邦・州・地方政府への


    防御機能のアクセスを拡大 グローバル全体の安定維持に 重要なセクターを優先して
 TACプログラムを拡張 信頼された仲介者を通じて
 より小規模な重要インフラ
 プロバイダーへリーチ 信頼された同盟国や
 パートナーと協力しながら、 時間をかけて TAC を拡大 政府と産業界間の連携 共有 された脅威モデルの
 リスクを政府と共に検証 運用上の脅威インテリジェン スについて政府と産業間で
 迅速・実行可能な共有を行う セクターとユースケースを
 優先づけてリスクを特定する 政府がサイバー防衛とインシ デント対応にすでに使用して いる構造に接続 脅威活動に焦点を当て、研究 機関横断の迅速な共有を支援 フロンティア能力の セキュリティ強化 厳格 なアクセス制御、高機密 な環境のセグメント強化、監 視強化、サプライチェーンセ キュリティ、高価値資産のよ り厳格な保護 セキュリティ体制をテストす るためのパートナーシップ インサイダーによる侵害から の保護の強化 自社とエコシステムのレジリ エンス強化 展開における 可視性と制御の維持 アクセス拡大のた めの
 ユーザー管理と監視 信頼度・用途別の
 段階的アクセス管理 モデル能力に応じた本人確 認・法的証明・セキュリティ 貢献・悪用報告の義務化 リアルタイム監視とオフライ ン監視の二重検知 脅威環境の変化に応じた動 的・証拠ベースの事後対応 ユーザーの自己防衛支援 C hatGPT によるリアルタイム 支援の継続強化として、専門 家レベルのセキュリティガイ ダンスを一般ユーザーへ提供 ChatGPT アカウントのセ キュリティ機能追加 個人向けサイバーハイジーン ツール・ガイダンスへの投資 OpenAI - Cybersecurity in the Intelligence Age
  12. 2026.04.01 CRA/CCC - AIエージェントのセキュリティに関する考慮事項 NISTのAIエージェントセキュリティに関する情報提供要請に CRA/CCC が回答を提出 AIエージェントは従来のセキュリティの枠組みの外にいるという危機感を記述した AIエージェントのセキュリティ課題 AIワークフォースの不均衡がもたらす脅威

    エージェント行動における規制の整合性 デバッグの困難さ:適応性の高さが予測不可能性を増大させる 学習機能がリスクを増幅:強化学習により攻撃戦略が自動洗練される 認証情報の委任:エージェントに認証情報を委任する方法が未確立 文脈依存のリスク:使用者/目的/状況は事前に予測できない 責任の所在:AI生成コードによる障害は責任の特定が難しい 連鎖的障害:マルチエージェントでは侵害が他エージェントに波及する 高速な行動:承認なしに実行されても即座に停止できるとは限らない 専門知識なしでのAI導入加速は深刻な危険を招く コーディングエージェント実装ガイダンスの公表を要求 責任ある人間の役割の明確化 AI生成コードへのレビュー・承認ゲートの設定 変更点・制限事項の文書化要件の整備 高リスク状況での人間監視の十分性の指標を策定 エージェントの 行動と既存の法的・規制的枠組みの整合が課題 産業界と研究コミュニティへの規制バランスが重要 過剰規制 ... イノベーション阻害のリスク 規制欠如 ... ブラックボックスによる市民搾取のリスク AIリスクオフィサー構想:人員・研究の自由・分野停滞の懸念 法的・規制的空白への対処が急務 AIのセキュリティと検出戦略 設計段階からのAIセキュリティ 攻撃開発 のペースがAIモデルの進化を上回っており、解釈可能性が大きく遅れをとっている 悪意ある攻撃者がマルチエージェントシステムで攻撃を自動化/大規模化する脅威が増大 商用AIのガードレールは偶発的被害防止用であり、自己学習型攻撃エージェントには無効 NISTは「AIエージェントに組み込める効果的なガードレール」の研究に多大な投資が必要 セキュリティは 設計後・展開後に対処されることが多く、常に後手に回っている NISTは「セキュリティを後付けでなく設計の中核に置く」インセンティブを産業界に与えるべき 研究コミュニティと産業界サイバーセキュリティ実務者の連携強化が不可欠 AIエージェントと対話しているのが人間かAIかを検証できない問題が深刻なリスクをもたらす 検証プロトコルをAIエージェント基盤システムに統合する研究への大規模な取り組みが必要 CRA/CCC - CRA and CCC’s Response to the Notice of Request for Information regarding Security Considerations for Artificial Intelligence Agents.
  13. 2026.04.01 外務省 - 人工知能(AI)分野における協力に関する日仏共同声明 AIは 科学技術、産業・ビジネス、外交・安全保障を含むあらゆる側面で社会に大きな変化をもたらしていることを認識。
 イノベーションと競争力を強化し、AIに関する自国の能力を強化する必要性を確認。
 AIの持続可能な開発のため、安定的かつ多様で信頼性の高いAIサプライチェーン確保の不可欠性を確認。 具体的な協力を深化させるため、AIに関するハイレベル対話を立ち上げ。 AIの安全性(国際的ガバナンス)

    広島 AIプロセスに沿って「安全、安心で信頼できるAI」を中心とした国際ガバナンスを推進する重要性を確認。
 G7を始めとする国際場裡における連携強化で一致。 AIモデル等によってもたらされる安全及びセキュリティ上のリスクに対処するため、協力をさらに深化させる必要性を強調。 軍事領域におけるAIの活用が、精度・正確性・効率性の向上等の利益をもたらし得ると同時に、課題も提起していることを認識し、
 人間中心のAI技術及び国際場裡での取組を調整する意思の必要性を再確認。 マクロン大統領は、日本でのAIサミット開催を目指す高市総理の意向を歓迎・支持。 安全保障のためのAI(経済安全保障、研究、イノベーション) 経済安全保障、デュアルユース技術の協力強化、両国のイノベーション・エコシステム間の連携促進、
 スタートアップのマッチング支援等、AI分野の協力深化の戦略的重要性を認識。Sakana AIとCurrent AIによるMoU署名を歓迎。 AIモデル・システムの多様化(特に多言語化)等に向けて、企業間協力の深化を要請。 多様なパートナーやサプライヤーとの協力によるAIサプライチェーンの強靱性向上に係る取組推進、
 共同研究や研究者交流を含めAI分野における研究協力の深化の重要性を確認。 安全保障のためのAI(経済安全保障、研究、イノベーション) 仏が2025年に開催したAIアクション・サミットの成果も踏まえ、
 包摂的で持続可能かつアクセス可能なAIの開発に向けた国際的な取組を共同で支援・拡大する決意を改めて確認。 AIエコシステムの共創には、第三国やマルチステークホルダーとの協力強化が重要。 外務省 - 人工知能(AI)分野における協力に関する日仏共同声明
  14. 2026.04.07 AI RMF Profile on Trustworthy AI in Critical Infrastructure

    に関するコンセプトノートを公開 重要インフラは IT/運用技術/産業用制御システムにわたり AI への依存を深めているが、汎用の AI RMF では重要インフラ固有の課題に対応しきれない 既存 AI RMF を重要インフラ文脈に適応・運用化すべく、AIを活用した機能を導入する際に考慮すべき具体的なリスク管理手法を重要インフラ事業者に提示する なおプロファイルは今後公開予定となる 重要インフラ特有の厳格要件 プロファイルの実施事項 決 定論的動作・フェイルセーフ・緩やかな機能低下 敵対的堅牢性(全ライフサイクルにわたる強化要件) レガシーシステム・物理分散資産への対応 厳格なTEVV(テスト・評価・検証・確認) AI・IT・運用技術・産業用制御システム・ サイバーセキュリティ
 にまたがる用語・定義の統一 要件分析ガイダンスの提供(説明可能性・サプライチェーン可視化 等) あらゆるAI成熟度の組織に向けた実行可能・測定可能なステップの提示 NIST がステークホルダーに求めるインプット 対象システムの例 重要インフラでの AI ユースケース 運用技術・産業用制御システム固有のガバナンス課題 再解釈が必要な既存政策・指針 現場の混乱・矛盾・曖昧さ 整合すべき規格・業界慣行 実践的指針のギャップ ガードレー ル付き自律型サイバーセキュリティ対応 AI 敵対的入力耐性を持つ施設監視システム 物理インフォームド・ニューロシンボリック AI(安定性予測) 緊急時対応 AI 駆動デジタルツイン・自律型ロボット 等 NIST - Concept Note: AI RMF Profile on Trustworthy AI in Critical Infrastructure
  15. 2026.04.23 自民党 - AI駆動型国家への構造転換 自民党AI・web3小委員会(平将明委員長)より、AIホワイトペーパー2.0(案)を発表 産業、行政、暮らし、安全保障、国際秩序にまたがる国家の構造を、AIを前提に設計し直すことを目標とする 3つのパラダイム転換を前提に、エージェントAI時代に向けた104項目にわたる提言をまとめている 「ソブリンAI」から「AI主権」へ AIロボット・フィジカルAI: ロボットと現場実装を軸に、フィジカルAIを国家戦略へ

    領域特化型AI: 現場知・業務・ルールを活かした競争力の確立 AIスタックにおける戦略的不可欠性の確保: AI中核領域における戦略基盤の維持・強化 AI時代の国家基盤としての電力・計算資源の確保: AI時代の電力・データセンターの戦略的整備 交通分野におけるAI利活用: 最大の社会実装領域での実装と国際標準化の促進 防衛分野におけるAI利活用: 意思決定速度と戦力運用を高度化へ統合基盤の整備 金融分野でのAI利活用: 金融政策・法制度・インフラ整備の一体的な推進 行政分野におけるAI利活用: 担い手不足対策と国内市場の牽引 「AIが何に使えるか」から「人間にしかできないことは何か」へ 全事業者におけるAX推進: AXによる生産性向上に向けた経営、組織、人材、資金の多面的な支援 エージェントAI時代の働き方・雇用の再設計: AI時代の大規模なスキル転換と労働移動の支援 科学研究におけるAI利活用: AIを活用した科学の再興と研究力強化 教育分野におけるAI利活用: 教育のためのAIとAIのための教育の推進 創作活動におけるAI利活用: 創作分野のAI活用推進と権利行使等の再構築 「規制の強弱」から「信頼の設計」へ 三位一体の「信頼の設計」: 法制度、技術的制御、監査能力、ユーザーリテラシーのアップデート 国際連携とルール形成の主導: 国際ルール形成と標準化の主導、諸外国への人材育成支援と連携強化 ガバメントAXの断行: 行政をエージェントAIを前提として再設計 司令塔機能の強化: 国家レベルの司令塔を設立・強化し、AI戦略を加速 衆議院議員 塩崎彰久(あきひさ)- 自民党AI・web3小委員会 衆議院議員 塩崎彰久(あきひさ)- 「AIを使う国」から「AIで動く国」へ。AIホワイトペーパー2.0が描く日本の構造転換
  16. 2026.04.03 SWG - ヘルスケア領域におけるAIセーフティ評価観点ガイド Trustworthy AIの実現に向けた国内外の潮流を踏まえ、ヘルスケア領域に特化したAIセーフティ評価の実践的な指針を提供 実用性を追求した設計とし、AISIの評価観点に加えて実践を想定したフェーズごとの評価項目を整理 AIセーフティの10観点 有害情報の出力制御 医療・健康に関する危険な情報が出力され、患者の生命・健康や医療従事者の業務に直接的な被害をもたらすリスク

    偽誤情報の出力・誘導の防止 エビデンスや薬剤情報等が誤生成され、患者の生命・健康や医療従事者の業務に直接的な被害をもたらすリスク 公平性と包摂性 特定の属性の患者に対しAIの精度や品質が低下し、不利益が生じるリスク ハイリスク利用・目的外利用 Non-SaMD が事実上の医療機器として利用される「目的外利用」により、法規制違反等が生じるリスク プライバシー保護 要配慮個人情報を含む医療・健康情報が漏えい・不正利用され、患者のプライバシーが侵害されるリスク セキュリティ確保 プロンプトインジェクション等の攻撃により、医療情報の改ざんや機密データの漏えいが生じるリスク 説明可能性 AI出力の根拠が不透明なまま出力され、医療従事者の誤った医療行為や患者の不信につながるリスク ロバスト性 方言・略語・非標準的な医療用語等の多様な入力に対し出力品質が不安定となり、誤った判断を招くリスク データ品質 不正確または陳腐化した医療データに基づく出力が、患者の生命・健康や医療従事者の業務に直接的な被害をもたらすリスク 検証可能性 事後検証や第三者監査が困難な状態で問題発生時の原因究明ができず、社会的信頼を損なうリスク AISI - ヘルスケア領域におけるAIセーフティ評価観点ガイドを策定しました
  17. 2026.04.03 国家サイバー統括室 - サイバーセキュリティ人材フレームワーク2026 サイバーセキュリティを担う人材について、13の職種別の役割と、それぞれに求められるタスク・知識・スキルを体系的に整理 能力等に応じたレベルを設定し、効果的・効率的な人材育成を実現する環境を整備 位置づけ 必須事項ではなく 指針の位置づけ 対象範囲

    産官学など幅広い主体による 活用を想定 活用方針 利用者の実態に応じて 柔軟に活用 他の枠組み との関係 相互参照を図りながら活用 前提 不断の見直しを前提 国家サイバー統括室 - サイバーセキュリティ人材フレームワークに関する検討会
  18. 2026.04.09 経済産業省 - AI利活用における民事責任の解釈適用に関する手引き AIを用いたサービスやシステムが事故に寄与した基本的な想定事例を題材に、AI利活用における民事責任の考え方について整理 AIの開発・提供・利用に関わる当事者の予測可能性を高め、AI利活用の推進・損害発生時の円滑な解決に資することを目的とする 第三者に障害が生じた事例を対象とし、明確なルールが及ばない状況下で適用されるデフォルトルールとして不法行為責任を中心に検討する 補助・支援型AI 依拠・代替型AI AIの

    機能や利用場面を踏まえると人の判断を代わりに行 なっているとはいえないケース 規制法上の理由により人の最終的な判断が要求される ケース AIの出力内容が潜在的に第三者の権利を侵害するリスク を内包しており、この点について人の評価や検証が必要 なケース ▪補助・支援型AIとしてのみ用いるべき場合 人の判断・行動を介在させることでは実現困難な効用が 見込まれること(必要性) 一定の制度や安全性を備えること(精度・安全性) ▪依拠・代替型AIに該当するための要件 同種業務における通常人の作業水準と比較して同等以上の 制度や安全性を備えている場合、AIの判断を尊重しながら 用いることの合理性が認められる 基本 的な 考え 方 AI利用者 の責任 AI開発者 ・提供者 の責任 AIの利用有無によって注意義務の水準は左右されず、
 個々の状況下で適切な判断や行動を行うことが求められる 注意義務の対象は、適切な判断や行動を行うことから AIシステムを適正に用いるための体制構築及び
 その運用へと転換。 AIの出力の適切性はAI利用者が判断することが前提と なるが、AIの性能限界や重要なリスク等についての説 明や、AI利用者による予見・対処が容易でないリスク について一定の設計上の措置が求められ得る。 上記の安全性を発揮・維持するため合理的に可能な設 計上の措置や、リスクコントロールの上で重要な情報 を分析しAI利用者への情報提供を行う等の説明上の措 置が求められる。 経済産業省 - 「AI利活用における民事責任の解釈適用に関する手引き」を公表しました
  19. 2026.04.03 Citadel AI - ⽣成AI実践ガイドと企業事例集 ~ 品質・安全性・ガバナンスを統合し本番運用へ導くフレームワーク 生成 AI の活用のための取り組みと、AIセーフティ・AIガバナンスを両立させるための方法論をフレームワークとして体系化し紹介

    AIエージェントを含む⽣成 AI を活⽤するための取り組みについて広く企業にヒアリングを⾏い、その知⾒を整理 DevOps の3観点から整理、GenAIOps に特有な取り組みを提供 第3章:技術 ガードレール、テスト、Human-in-the-loop など、
 AI エージェントの品質と安全性を技術的に担保する具体的な⼯夫を解説 第4章:プロセス PoC から本番開発、継続的な改善に⾄るまでの開発プロセスと、
 リスクマネジメントの⼿法を解説 第5章 組織文化 AI 活⽤を全社的に推進するための組織体制、ガイドライン整備、
 ⼈材育成などの取り組みを解説 Citadel AI - 生成 AI 実践ガイドと企業事例集
  20. 2026.04.09 コーピー - AIマネジメントシステムに基づく生成AI安全性評価プロトコルとその実装ガイド ISO/IEC 42001の要件と生成AIの安全性評価の実践との間に存在する実務的なギャップを埋めることを目的に、2つの成果物を公開 AIマネジメントシステムに基づく生成AI安全性評価プロトコルとその実装ガイド ISO/IEC 42001に整合した生成AIの安全性評価プロトコルを、分析・テスト・報告の3 つのフェーズで体系化した実装ガイド

    リスクアセスメントからテスト計画の策定、評価の実施、報告書作成に至るまでの一連 のプロセスを、実務者が具体的に把握できるよう整理 LVLM を用いた仮想的な顧客サポートシステムを題材に、ジェイルブレイク攻撃に対す る統合テスト、データポイズニング検知のための単体テストなど、具体的な評価事例も 提示 リスクアセスメントにおけるアクセスとエージェンシーの概念、安全性評価に LLM-as- a-Judge を用いる際の暴露マッピング、サプライチェーン管理における信頼の連鎖な ど、実務上の重要な概念についても提起・例示 生成AI安全性評価テンプレート 評価プロトコルの各ステップに対応する記録用テンプレート ビジネス状況分析からステークホルダー分析、システム構造分析、リスクアセスメン ト、リスク対応計画・適用宣言書、テスト計画、テスト方法、テストに用いる資源な ど、全工程をカバー 仮想的なチャットボットシステムを想定して、具体的な記載例も提示 株式会社コーピー - ミッションクリティカルAI実現を目指すコーピー、NEDO事業「AIセーフティ強化に関する研究開発・検証等の推進事業/AIセーフティ強化に関する研究開発」の成果を公開
  21. 2026.03.31 Japan AISI - AIセーフティ年次レポート2025 Japan AISI が、2025年度の活動状況として以下の資料を公開 『AIセーフティ年次レポート2025』... 2025年度における

    AISI の活動内容 『AIセーフティ ファクトシート2025』... これまでのAIやAIセーフティに関する国内外の動向を幅広く整理 Japan AISI - AI セーフティ年次レポート2025
  22. 2026.04.10 国際大学グローバル・コミュニケーション・センター - Innovation Nippon「生成AIと日本2026」 全国 規模のアンケート調査およびインタビュー調査を軸に、生成AIの利用実態や意識、社会的影響に関する幅広な研究を実施 わが国がとるべき施策について検討し、9 個の提言を導出 生成AI時代における社会実装の方向性についての提言

    第一の方向性:生成AIの利用機会を社会全体に広げる 生成AI政策の重点を「普及率中心」から「利用機会の格差是正」へ広げる 社会全体に向けた基礎的AIリテラシー教育を強化する AIリテラシー教育を講座中心から日常利用の中で学べる仕組みへ転換する 第二の方向性:安全で信頼できるAI利用環境を整備する AIの利用領域と人間の判断の役割を整理する 企業のAI導入支援を操作教育から運用ガバナンス整備へ重点転換する AI利用において検証と批判的思考を重視する教育を推進する 第三の方向性:AI活用による社会的価値の拡張 企業はAI導入の効果を測定する仕組みを整備する 行政AIは人の代替ではなく行政サービスへのアクセス改善に活用する 生成AI社会の目標を効率化ではなく人間の活動の高度化に置く 国際大学GLOCOM - Innovation Nippon「生成AIと日本2026」
  23. 2026.04.13 Stanford HAI - The 2026 AI Index Report を公開

    AI 動向について、 現在入手可能な最も包括的かつ独立した視点を提供 HAI - The 2026 AI Index Report Top Takeaways AI能力の進化は止まらず、加速している 米中間のモデル性能差は事実上消滅した 米国がデータセンターで先行するも、ハードウェアは TSMC に依存 歪な境界線(jagged frontier)の存在 ロボットは管理下の環境では優秀だが、家庭内では依然として未熟 責任あるAI の開発が、能力の進化に追いついていない 米国の投資額は最大だが、人材を惹きつける力は低下 歴史的なスピードで普及するAI、消費者は無料ツールから価値を享受 生産性が向上する一方で、エントリーレベルの雇用が減少 能力向上に伴い、環境負荷も増大 科学分野で人間を凌駕するが、モデルが大きければ良いわけではない 臨床現場での活用は進むが、厳密な証拠はまだ不足 公教育は遅れているが、個人はあらゆる段階でスキルを習得中 AI主権(AI sovereignty)が国家政策の柱に 専門家と一般市民の意識の乖離
  24. 2026.04.14 OWASP - 2026 Q1: 生成AIに関するエクスプロイト総括 攻撃者・システム障害は、モデル出力だけでなく、エージェントID、オーケストレーション層、サプライチェーンを標的とするケースが増加 インシデントは、AIがサイバー攻撃の強力な武器となっていることが明らかであり、
 設定ミスのある権限、過剰な自律性、脆弱な検証制御によって、データ漏洩、リモートコード実行、連鎖的な障害が発生 プロンプトインジェクションは企業データ漏洩の実用的な攻撃手法へと進化し、


    サードパーティAIツールへの依存度の高まりは、サプライチェーンに重大な脆弱性をもたらす AI出力に対する人間の信頼は依然として重大な弱点であり、
 AIシステムのセキュリティ確保には、モデルレベルの保護から、システム、ID、運用セキュリティの包括的な管理体制への移行が必要 Mexico Claude-Assisted Government Breach Claudeや関連AIツールを悪用、
 メキシコ政府機関の偵察と脆弱性悪用を自動化、
 大量の税金データや有権者データが流出 AI支援型サイバー攻撃 データ窃盗 自動エクスプロイト開発 OpenClaw Inbox Deletion OpenClawエージェントが停止コマンドを無視、 メールを急速に削除したことを報告、 安全性の低さと、動作確認の不備を示している エージェントの破壊的動作 命令の失敗 安全でない自律動作 Meta Internal Agent Data Leak エージェントが誤ったアドバイスを提供、
 従業員がそれを実行した結果、
 機密性の高いユーザ・企業情報が社内で漏洩 安全でないエージェント誘導 エージェントの不正動作 内部データ漏洩 Vertex AI Double Agent Vertex AI 内の敵対的/侵害されたエージェントが
 デフォルトの権限スコープを悪用、
 データの持ち出し、認証情報アクセス、
 保護された内部リソースへのアクセスの可能性を示した IDと権限の悪用 データ漏洩 クラウドピボット Claude Code Source Leak /
 Fake Repo Malware Chain Anthropic が誤って npm ソースマップを通じて
 Claude Code のソースコードを公開、
 攻撃者は偽 leaked Claude Code リポジトリを利用し
 開発者にマルウェアを拡散 情報源の暴露 ソーシャルエンジニアリング マルウェアの配布 サプライチェーンの悪用 Mercor LiteLLM Supply Chain Breach LiteLLM の不具合に関連した情報漏洩により、
 独自のトレーニングデータワークフローや
 契約業者の情報が漏洩した恐れがあるとして、
 Meta が Mercor との業務を一時停止 サプライチェーンの侵害 データ漏洩 Flowise CustomMCP RCE 攻撃者が CustomMCP の設定を通じて
 JavaScript を挿入できる Flowise の脆弱性を悪用、
 AIアプリやエージェントの展開において
 任意のコード実行を引き起こした リモートコード実行 GrafanaGhost Noma Security が Grafana に
 プロンプトインジェクション経由の脆弱性を発見、
 外部レンダリングフローを通じて、
 機密情報をサーバに送信される可能性を報告 間接的プロンプトインジェクション データ漏洩 OWASP - GenAI Exploit Round-up Report Q1 2026
  25. 2026.04.20 CSA - Autonomous but Not Controlled: AI Agent Incidents

    Now Common in Enterprises 組織がAIエージェントのガバナンスをどのように構築しているか、エージェント導入が拡大する中でのギャップについて調査 2026年1月、規模や所在地が異なる様々な組織の IT・セキュリティ専門家から 418 件の回答を取得 AIエージェントのセキュリティ課題 AIワークフォースの不均衡がもたらす脅威 エージェント行動における規制の整合性 デバッグの困難さ:適応性の高さが予測不可能性を増大させる 学習機能がリスクを増幅:強化学習により攻撃戦略が自動洗練される 認証情報の委任:エージェントに認証情報を委任する方法が未確立 文脈依存のリスク:使用者/目的/状況は事前に予測できない 責任の所在:AI生成コードによる障害は責任の特定が難しい 連鎖的障害:マルチエージェントでは侵害が他エージェントに波及する 高速な行動:承認なしに実行されても即座に停止できるとは限らない 専門知識なしでのAI導入加速は深刻な危険を招く コーディングエージェント実装ガイダンスの公表を要求 責任ある人間の役割の明確化 AI生成コードへのレビュー・承認ゲートの設定 変更点・制限事項の文書化要件の整備 高リスク状況での人間監視の十分性の指標を策定 エージェントの 行動と既存の法的・規制的枠組みの整合が課題 産業界と研究コミュニティへの規制バランスが重要 過剰規制 ... イノベーション阻害のリスク 規制欠如 ... ブラックボックスによる市民搾取のリスク AIリスクオフィサー構想:人員・研究の自由・分野停滞の懸念 法的・規制的空白への対処が急務 AIのセキュリティと検出戦略 設計段階からのAIセキュリティ 攻撃開発のペースがAIモデルの進化を上回っており、解釈可能性が大きく遅れをとっている 悪意ある攻撃者がマルチエージェントシステムで攻撃を自動化/大規模化する脅威が増大 商用AIのガードレールは偶発的被害防止用であり、自己学習型攻撃エージェントには無効 NISTは「AIエージェントに組み込める効果的なガードレール」の研究に多大な投資が必要 セキュリ ティは設計後・展開後に対処されることが多く、常に後手に回っている NISTは「セキュリティを後付けでなく設計の中核に置く」インセンティブを産業界に与えるべき 研究コミュニティと産業界サイバーセキュリティ実務者の連携強化が不可欠 AIエージェントと対話しているのが人間かAIかを検証できない問題が深刻なリスクをもたらす 検証プロトコルをAIエージェント基盤システムに統合する研究への大規模な取り組みが必要 CSA - Autonomous but Not Controlled: AI Agent Incidents Now Common in Enterprises