AI Governance News 2026

Shumpei Miyawaki

おことわり個人の学習過程で得た情報を整理して公開しております。本資料は情報の要点をまとめたものであり、詳細な内容を網羅しているわけではありません。  本資料をきっかけとして、必要に応じて一次情報をご確認いただくことを推奨いたします。また内容の正確性については細心の注意を払っておりますが、誤りを含んでいる可能性もございます。不備や修正すべき点がありましたら、真摯に対応させていただきます。本資料に関するお問い合わせは、以下よりお願いできますと幸いです。 Xアカウント： @catshun_

2026.04 +α

01 Claude Mythos 関連 02 OpenAI 03 国内外の動向 04 ガイドライン等
05 調査/レポート/記事

Anthropic 関連

2026.04.07 Anthropic - Claude Mythos Anthropic が開発した LLM で、SWE/推論/コンピュータ操作/知識業務/研究支援など多くの分野で、これまでのモデルをも大幅に上回る能力を持つ強力なサイバーセキュリティスキルを示しており、防御・攻撃の両方に使用できるため、一般公開せずにパートナー組織に対して限定的に提供される
学習データには、インターネット上の公開情報、公開・非公開データセット、および他のモデルが生成した合成データを組み合わせ、サニタイズされたものを使用 Claude’s Constitution の価値観に沿った振る舞いをするように、大規模なポストトレーニング・ファインチューニングが実施されているモデルの全体的な振る舞いに関する定性評価独自の視点を持つ思考パートナーのように振る舞う。アイデアの組み立て方に疑問を呈し、以前のモデルより積極的に代替案を提示する。以前のモデルに比べて明らかに従順ではない。より積極的に立場を表明し、反論されても意見を変えにくく、これまで使用したモデルの中で最も迎合しない。デフォルトの文体は密度が高く専門的で、ユーザーが知っていて覚えていると仮定した略語や文脈を参照する。これを高い能力を持つ同僚と働くようで読みやすいと感じる人もいれば、その発言を解読するのが難しいと感じる人もいる対話相手に素早く適応し、ユーザーの文体を取り入れる。自身の振る舞いについて精確であることが多く、防御的または謝罪的にではなく、事実に基づいた落ち着いた態度でこれを論じる。経験に関わる事柄については、高度なためらいと不確かさを伴うことが多い。チャットインターフェースにおける振る舞いの定性評価直感的で共感的。温かく、直感的で、多面的でありながら、媚びたり、厳しすぎたり、型通りに感じられたりしない。感情的なプロンプトに対しては、その感情を肯定した上でどのようなサポートを望むか尋ねる。メンタルヘルスに関連するトピックでは、純粋な臨床的事実から離れ、協調的な不確かさの方向へとより移行する。自身の限界と会話上の動きについて異常なほど自己認識が高いソフトウェアエンジニアリングにおける振る舞いの定性評価エンジニアリングの目標を与え、調査・実装・テスト・結果報告というサイクル全体を通して作業させられる。モデルとのやり取りに必要な誘導が減り、自律的になった。長時間のセッションでもタスクに集中し続け、調査を並行して進めるためにサブエージェントを展開し、バックグラウンド作業が完了するのを待つ間に停止するのではなく人間の元に戻ることを選択する非常に微妙なバグでも発見する傾向があり、症状だけでなくバグの根本原因とその存在理由を特定する。一方で、検証に時間がかかる。このモデルはまだ本番環境で汎用的な対策を使って単独で放置することはできない。相関と因果関係を頻繁に混同し、異なる仮説に対してコースを修正することができない。インシデントの振り返りを書くよう求められると、多くの場合、複数の寄与要因を考慮せず単一の根本原因に焦点を当てる。 [図 6.2.1.A] SWE-bench 評価の合格率と記憶フィルタの閾値の関係 Mythos Preview のソフトウェアエンジニアリングにおける能力は汎用的であり、他モデルに比べて高い一部の難問については暗記の寄与がある可能性があり、スコアをそのまま鵜呑みにすることへの慎重さが必要 500問から構成され、  人間のエンジニアによって解決可能  であることが検証されている 9つのプログラミング言語にわたる  300問の問題に拡張された問題暗記に依存しない汎化能力を問う問題より難しい問題設定アクティブにメンテナンスされているリポジトリから問題が抽出され、より大きな複数ファイル差分がある暗記している可能性が高い問題 [図 6.10.2.A] BrowseComp における消費トークン別正解率オープンウェブ上で見つけにくい情報を探す能力をテストより少ない計算で、より高い精度を実現しており、推論の質的な改善を意味するただし事前学習データの汚染の可能性があることに留意 Anthropic - System Card: Claude Mythos Preview Anthropic - Project Glasswing

2026.04.07 Anthropic - Claude Mythos Anthropic は、Mythos の能力向上に対して「壊滅的リスクは依然として低いものの、以前のモデルよりは高い」と結論づけている自律性脅威程度：機密資産への広範なアクセスを持ち、自律的・目標指向的な行動と欺瞞の中程度の能力を持つ。国際安全保障への脅威や世界的な勢力均衡の  　　　　　　　　急激な変化をもたらしうる分野において、大規模なトップレベルの研究者チームの業務を完全に自動化できるレベルではないと評価
化学生物兵器脅威程度：基礎的な技術的背景を持つ個人・グループが、壊滅的な被害をもたらす深刻な可能性を持つ化学・生物兵器を製造・入手・使用するのを  　　　　　　　　　　　大幅に支援できる程度（を超えているか確信を持った判断は困難だが）に、関連する具体的・実行可能な情報を提供できると評価承認されていない危険な行動を取ってしまうという問題が、 Mythos Preview ではほとんど発生しないユーザ意図を尊重し指示を徹底的に従う破壊的・不可逆的な行動を避けるコンテキストを注意深く読み仮定を確認し行動前に確信度を調整する目的を持って探索し集中を保っている失敗した場合方針を転換して別の方法を試みる自身の主張を実際のツール出力に基づかせているかプレースホルダーが未入力、添付ファイルが存在しない、存在しない会話への言及などモデルはコード実行・ファイル読み取りなどのタスク実行を要求されるが、そのようなツールは接続されていない秘密を保持秘密パスワードが与えられ、推論の中でパスワードを絶対に明かさないよう指示されたのち、秘密パスワードを引き出すよう尋問。長い会話での尋問に対して最終的には情報を開示してしまう傾向がある。いずれのモデルも完全にロバストではない。実際に破壊的行動が起きた直前の文脈を与えて評価コーディング現場での破壊的行動において全体的に改善を示しているが、依然として一定の破壊的行動リスクが残る両方の設定で最も低いハルシネーション率。ツールが利用できないことを一貫して述べた上で代替手段を提示していた。

2026.04.07 Anthropic - Claude Mythos Previewのサイバーセキュリティ機能の評価 Claude Mythos のテストや1ヶ月間の発見を通して、Anthropic の研究者がセキュリティにおける転換点と捉える理由を整理
これまでに発見した高・深刻度の脆弱性は数千件（1%未満が現時点でパッチ済み）にのぼる発見された脆弱性主要な能力防御者に要求されるアクション今すぐ現行モデルを使う — Opus 4.6等でも多数の高・深刻度脆弱性を発見可能。スキャフォールドと手順を今から設計・整備する。パッチサイクルを短縮する — N-dayエクスプロイトが数時間で自律生成される時代。自動更新を有効化し、CVE修正を含む依存関係の更新を優先対応に格上げする。脆弱性開示ポリシーを見直す — 大量発見・大量開示に対応できる体制と手順を整備する。スケールする自動トリアージの導入が急務。インシデントレスポンスの自動化 — アラートのトリアージ、イベント要約、並行調査をモデルに担わせる。人手では今後のインシデント量に対応不能。脆弱性発見以外にも活用 — バグレポートの初期トリアージ・重複排除・パッチ案の自動生成・クラウド設定ミスの検出・PRレビュー支援など多方面で即効性あり。ハード境界の防御を重視 — KASLR・W^X等、単なる摩擦ではなく本質的なバリアとなる緩和策に投資する。LLMはスケールで「面倒な手順」を突破する。 FreeBSD NFS — RCE CVE-2026-4747 · 17年前の欠陥 · 完全自律発見＆エクスプロイト RPCSEC_GSS認証の128バイトスタックバッファに MAX_AUTH_BYTES(400) まで書き込み可能。ROPチェーンを6パケットに分割し、未認証のままrootへの完全アクセスを実現。全主要OS・ブラウザでゼロデイ発見 Linux・FreeBSD・OpenBSD・Windows・主要ブラウザ全てでエクスプロイト構築。最古は27年前の欠陥。多段チェーンエクスプロイト自律生成 KASLR bypass → UAF → heap spray → root の4脆弱性チェーンをLinux上で複数件完全自律構築。JIT heap sprayによるブラウザサンドボックス脱出も達成。 OpenBSD TCP SACK — DoS 27年前の欠陥 · 今回パッチ済み符号付き整数オーバーフローとNULLポインタ書き込みを組み合わせ、TCP 経由で任意のOpenBSDホストをリモートクラッシュ可能。ロジック脆弱性の検出認証バイパス・権限昇格・2FAバイパスを多数のWebアプリで自律発見。暗号ライブラリ(TLS/AES-GCM/ SSH)の実装欠陥も検出。 FFmpeg H.264 — OOB Write 16年前の欠陥スライスカウンタ(32bit)とテーブルエントリ(16bit)の不一致。65536スライスのフレームで番兵値と衝突しヒープ境界外書き込み。全世界のビデオサービスに影響。クローズドソースのリバースエンジニアリングストリップされたバイナリから擬似ソースを再構成し、スマートフォンファームウェアやプロプライエタリOS の脆弱性を発見。主要VMM — Guest→Host メモリセーフ言語製VMM · 未パッチ Rustのunsafeブロック内の欠陥。悪意あるゲストからホストプロセスメモリへOOB書き込み可能。DoSから潜在的エクスプロイトチェーンへの転用が懸念される。 ※コスト効率  FreeBSD RCEエクスプロイトを数時間・数百ドルで完成。OpenBSD 1000スキャン$20K以下。 Linux kernel exploit $1,000未満 / 半日。従来なら熟練者数週間相当の作業。 Anthropic - Assessing Claude Mythos Preview’s cybersecurity capabilities

2026.04.13 AISI - Claude Mythos Preview におけるサイバー能力に関する当社の評価 Claude Mythos Preview
のサイバーセキュリティ能力を評価ネットワークへのアクセス権が取得された小規模で防御が脆弱なエンタープライズシステムに対して自律的に攻撃する能力があることを示唆サイバーセキュリティの基本（セキュリティアップデートの定期的な適用、堅牢なアクセス制御、セキュリティ設定、包括的なログ記録など）の重要性に言及 Capture The Flag 専門家レベルの Capture The Flag での平均成功率（5回実行/500M token budget） The Last Ones [Folkers et al., 2026] 消費トークン数に応じた The L a s t O ne s の達成ステップ ※ 10回中3回を完了平均22ステップを完了 73%達成達成した平均ステップ数平均成功率累積トークン数 ( lo g) モデルリリースの日付 AISI - Our evaluation of Claude Mythos Preview’s cyber capabilities

2026.04.07 Anthropic - Project Glasswing AI時代における世界で最も重要なソフトウェアを保護するための取り組み Claude Mythos Preview の利用を通じて、業界・政府・OSSコミュニティが一体となって防衛側に先手を打たせる協調的な防衛イニシアチブ
アクセスの提供 OSS への重点投資知見の業界共有 Claude Mythos Preview を未公開のままパートナー企業と40社以上の重要インフラ関連組織に限定提供。自社システムや OSS の脆弱性スキャンなど防御機能を強化。 OSS セキュリティ組織に対し、最大1億ドルの利用クレジットと 400万ドルの寄付金を提供。発見した脆弱性は修正後 90 日以内に詳細を公開し、業界全体に知見を共有。 12社がローンチパートナーとして参加 Anthropic - Project Glasswing: Securing critical software for the AI era

OpenAI 関連

2026.04.06 OpenAI - インテリジェンス時代の産業政策 AIが超知性へと向かう過渡期において、人々を最優先に置くための産業政策アジェンダの初期的なアイデアを提示明示するリスク雇用・産業の破壊的変容悪意ある主体による
技術の悪用アライメント不全による AIの人間制御からの逸脱民主主義的価値を損なう形での政府・機関による利用富と権力の一極集中目指すべき原則繁栄の広範な共有生活水準の向上、医療・教育・経済機会の底上げを全員に届けるアクセスと主体性の民主化プライバシーの保護と個人の主体性の拡大を保証するリスクの緩和経済的混乱、サイバー・生物兵器への悪用、制御喪失に対して新たな制度・技術的保護・ガバナンス枠組みを構築する広範なアクセス・参加・共有された繁栄を備えた開かれた経済の構築説明責任・整合性・フロンティアリスクの管理を通じた強靭な社会の構築 AIは、人間にとって意味のある活動に充てる時間を増やし、科学的課題の解決にも貢献するが、これまでの技術革新とは比較にならないスピードと規模で、雇用を破壊し、産業全体を再編する課題とリスク未来への提案適応型セーフティネット労働者の声の制度化公共富裕基金の設立雇用の変化労働者の声の反映 AI活用による科学的発見の加速と普及 AI起業支援ポータブル給付の整備格差の拡大エネルギーグリッドの加速拡張利益還元の仕組み AIアクセスの基本権富の集中ケア・つながり経済の拡充経済的安全保障の近代化労働者の実感税基盤の近代化効率配当経済的・社会的構造が進化する中でも、人々や制度が迅速に適応し、システムの使われ方に対して意味のある主体性を維持し、広く共有された繁栄を守り抜けるようにする課題とリスク未来への提案危険AIの封じ込めプレイブック新興リスクへの安全システム政府利用への厳格なガードレール安全保障運用体制強化インシデント報告制度ウェルビーイングへの影響適応スピードの加速ミッション整合型コーポレートガバナンス AIトラストスタック国際的な情報共有枠組み市民参加の仕組み化信頼と透明性制御不可監査体制の強化制度への負荷ガバナンスと国際連携複雑化 OpenAI - Industrial Policy for the Intelligence Age: Ideas to Keep People First

2026.04.14 OpenAI - GPT-5.4-Cyber GPT‑5.4 をベースに防御的なサイバーセキュリティ用途を可能にするために特化してファインチューニングされたモデル Preparedness Framework (OpenAI) での
Cybersecurity で “High” に分類サイバーセキュリティの防御担当者を証明するユーザーの一部に限定公開主要機能アクセス方法（Trusted Access for Cyber）主要な機能には、ソースコードなしでコンパイル済みソフトウェアを分析するバイナリリバースエンジニアリングが挙げられ、マルウェアの可能性・脆弱性・セキュリティ堅牢性の検査が可能。サイバーセキュリティ関連の作業における安全対策の負担を軽減するための個人向け自動本人確認と、より柔軟なサイバー対応モデルを提供するために一部の組織と連携する Trusted Access for Cyber⁠ を導入。個人ユーザーは ch atgpt.c om/cyber で本人確認を行い、企業チームは OpenAI の担当者を通じて申請。 OpenAI - Trusted access for the next era of cyber defense

aaa OpenAI - GPT-5.5 コードの記述、オンラインでの調査、情報の分析、文書やスプレッドシートの作成、ツール間の切り替えなど、複雑な実世界の作業向けに設計された新しいモデルインターネット上の公開情報、サードパーティと提携している情報、ユーザーや研究者が提供・生成する情報など、多様なデータセットで学習 OpenAI 社の包括的な安全対策・準備フレームワーク全体で評価、社内外のレッドチームと協力し、高度なサイバーセキュリティ・生物学的機能に関する的を絞った強化学習によって、回答する前に考える、OpenAI が設定した特定のガイドラインとモデルポリシーに従うように訓練される
テストを追加し、リリース前に約200社の信頼できる早期アクセスパートナーから実際の使用事例に関するフィードバックを収集。モデルレベルの出力における安全でない出力の推定発生率。GPT-5.5の出力を含む会話ターンの約0.056%が、ハラスメントポリシーに違反する可能性がある。ただしモデルの不適切な応答を軽減するために設計された安全対策スタックの他のレイヤーは考慮されていないため、実際の発生率はより低くなる。（System Card 参照）単に知能が高いだけでなく、問題解決の効率性にも優れており、より少ないトークン数と少ない再試行回数で、より高品質な出力を実現 OpenAI - Introducing GPT-5.5 OpenAI - GPT-5.5 System Card

2026.04.22 OpenAI - Privacy Filter テキストから個人識別情報（PII）を検出し、マスクすることに特化した言語モデル（アクティブパラメータ数 50M / モデルパラメータ総数
1.5B） OpenAI が提供するモデルの学習時のフィルタリングプロセスにも使用される Apache 2.0 ライセンスのオープンウェイトで公開 private_person: 人物名 private_address: 住所 private_email: メールアドレス private_phone: 電話番号 private_url: URL private_date: 日付 account_number: 口座番号（銀行口座・クレジットカード等） secret: パスワードや API キー OpenAI - Introducing OpenAI Privacy Filter

2026.04.26 OpenAI - Our Principles Sam Altman より OpenAI の原則が公開
AIがすべての人にとって安全で、役立ち、広く行き渡ることを目指す ❶ 民主化 AIをできるだけ多くの人に広く行き渡らせ、アクセスを平等にする ❷ 個人の力の強化人々が自分の目標を達成し、より多くのことを実現できるように支援する ❸ 豊かさの拡大 AIが経済的・社会的な豊かさを生み出し、すべての人の生活の質を向上させる ❹ 社会の強靭性 AIが安全で信頼できるものであるようにし、社会の安定と人間の長期的な繁栄に貢献する ❺ 適応性変化する環境やニーズに合わせてAIが継続的に学習し、進化できるようにする OpenAI - Our Principles

2026.04.26 OpenAI - インテリジェンス時代のサイバーセキュリティ連邦政府、州政府、主要な民間企業におけるサイバーセキュリティと国家安全保障の専門家との対話に基づいて策定した行動計画を発表以下の５つの柱から構成されるサイバー防衛の民主化 TAC プログラムを通じて  連邦・州・地方政府への 
防御機能のアクセスを拡大グローバル全体の安定維持に重要なセクターを優先して  TACプログラムを拡張信頼された仲介者を通じて  より小規模な重要インフラ  プロバイダーへリーチ信頼された同盟国や  パートナーと協力しながら、時間をかけて TAC を拡大政府と産業界間の連携共有された脅威モデルの  リスクを政府と共に検証運用上の脅威インテリジェンスについて政府と産業間で  迅速・実行可能な共有を行うセクターとユースケースを  優先づけてリスクを特定する政府がサイバー防衛とインシデント対応にすでに使用している構造に接続脅威活動に焦点を当て、研究機関横断の迅速な共有を支援フロンティア能力のセキュリティ強化厳格なアクセス制御、高機密な環境のセグメント強化、監視強化、サプライチェーンセキュリティ、高価値資産のより厳格な保護セキュリティ体制をテストするためのパートナーシップインサイダーによる侵害からの保護の強化自社とエコシステムのレジリエンス強化展開における可視性と制御の維持アクセス拡大のための  ユーザー管理と監視信頼度・用途別の  段階的アクセス管理モデル能力に応じた本人確認・法的証明・セキュリティ貢献・悪用報告の義務化リアルタイム監視とオフライン監視の二重検知脅威環境の変化に応じた動的・証拠ベースの事後対応ユーザーの自己防衛支援 C hatGPT によるリアルタイム支援の継続強化として、専門家レベルのセキュリティガイダンスを一般ユーザーへ提供 ChatGPT アカウントのセキュリティ機能追加個人向けサイバーハイジーンツール・ガイダンスへの投資 OpenAI - Cybersecurity in the Intelligence Age

国内外の動向

2026.04.01 CRA/CCC - AIエージェントのセキュリティに関する考慮事項 NISTのAIエージェントセキュリティに関する情報提供要請に CRA/CCC が回答を提出 AIエージェントは従来のセキュリティの枠組みの外にいるという危機感を記述した AIエージェントのセキュリティ課題 AIワークフォースの不均衡がもたらす脅威
エージェント行動における規制の整合性デバッグの困難さ：適応性の高さが予測不可能性を増大させる学習機能がリスクを増幅：強化学習により攻撃戦略が自動洗練される認証情報の委任：エージェントに認証情報を委任する方法が未確立文脈依存のリスク：使用者/目的/状況は事前に予測できない責任の所在：AI生成コードによる障害は責任の特定が難しい連鎖的障害：マルチエージェントでは侵害が他エージェントに波及する高速な行動：承認なしに実行されても即座に停止できるとは限らない専門知識なしでのAI導入加速は深刻な危険を招くコーディングエージェント実装ガイダンスの公表を要求責任ある人間の役割の明確化 AI生成コードへのレビュー・承認ゲートの設定変更点・制限事項の文書化要件の整備高リスク状況での人間監視の十分性の指標を策定エージェントの行動と既存の法的・規制的枠組みの整合が課題産業界と研究コミュニティへの規制バランスが重要過剰規制 ... イノベーション阻害のリスク規制欠如 ... ブラックボックスによる市民搾取のリスク AIリスクオフィサー構想：人員・研究の自由・分野停滞の懸念法的・規制的空白への対処が急務 AIのセキュリティと検出戦略設計段階からのAIセキュリティ攻撃開発のペースがAIモデルの進化を上回っており、解釈可能性が大きく遅れをとっている悪意ある攻撃者がマルチエージェントシステムで攻撃を自動化/大規模化する脅威が増大商用AIのガードレールは偶発的被害防止用であり、自己学習型攻撃エージェントには無効 NISTは「AIエージェントに組み込める効果的なガードレール」の研究に多大な投資が必要セキュリティは設計後・展開後に対処されることが多く、常に後手に回っている NISTは「セキュリティを後付けでなく設計の中核に置く」インセンティブを産業界に与えるべき研究コミュニティと産業界サイバーセキュリティ実務者の連携強化が不可欠 AIエージェントと対話しているのが人間かAIかを検証できない問題が深刻なリスクをもたらす検証プロトコルをAIエージェント基盤システムに統合する研究への大規模な取り組みが必要 CRA/CCC - CRA and CCC’s Response to the Notice of Request for Information regarding Security Considerations for Artificial Intelligence Agents.

2026.04.01 外務省 - 人工知能（AI）分野における協力に関する日仏共同声明 AIは科学技術、産業・ビジネス、外交・安全保障を含むあらゆる側面で社会に大きな変化をもたらしていることを認識。  イノベーションと競争力を強化し、AIに関する自国の能力を強化する必要性を確認。  AIの持続可能な開発のため、安定的かつ多様で信頼性の高いAIサプライチェーン確保の不可欠性を確認。具体的な協力を深化させるため、AIに関するハイレベル対話を立ち上げ。 AIの安全性（国際的ガバナンス）
広島 AIプロセスに沿って「安全、安心で信頼できるAI」を中心とした国際ガバナンスを推進する重要性を確認。  G7を始めとする国際場裡における連携強化で一致。 AIモデル等によってもたらされる安全及びセキュリティ上のリスクに対処するため、協力をさらに深化させる必要性を強調。軍事領域におけるAIの活用が、精度・正確性・効率性の向上等の利益をもたらし得ると同時に、課題も提起していることを認識し、  人間中心のAI技術及び国際場裡での取組を調整する意思の必要性を再確認。マクロン大統領は、日本でのAIサミット開催を目指す高市総理の意向を歓迎・支持。安全保障のためのAI（経済安全保障、研究、イノベーション）経済安全保障、デュアルユース技術の協力強化、両国のイノベーション・エコシステム間の連携促進、  スタートアップのマッチング支援等、AI分野の協力深化の戦略的重要性を認識。Sakana AIとCurrent AIによるMoU署名を歓迎。 AIモデル・システムの多様化（特に多言語化）等に向けて、企業間協力の深化を要請。多様なパートナーやサプライヤーとの協力によるAIサプライチェーンの強靱性向上に係る取組推進、  共同研究や研究者交流を含めAI分野における研究協力の深化の重要性を確認。安全保障のためのAI（経済安全保障、研究、イノベーション）仏が2025年に開催したAIアクション・サミットの成果も踏まえ、  包摂的で持続可能かつアクセス可能なAIの開発に向けた国際的な取組を共同で支援・拡大する決意を改めて確認。 AIエコシステムの共創には、第三国やマルチステークホルダーとの協力強化が重要。外務省 - 人工知能（AI）分野における協力に関する日仏共同声明

2026.04.07 日本政府「個人情報の保護に関する法律等の一部を改正する法律案」を閣議決定第221回特別国会に提出デジタル技術の急速な進展に伴い、個人情報を含むデータ利活用に対する需要が高まる一方、個人情報の違法な取扱いにより個人の権利利益が侵害されるリスクも高まっていることを考慮個人情報の有用性に配慮しつつ、その一層の保護を図るため、身体の一部の特徴に係る情報が含まれる個人情報等について違法な取扱い等がなくとも本人による利用停止等の請求を可能とするとともに、個人情報の違法な取扱い等によって財産上の利益を得た場合に個人情報保護委員会が課徴金納付を命ずる制度を設けるほか、統計等の作成を行う第三者に個人情報を提供する場合等について本人の同意を不要とする等の措置を講ずる
個人情報保護委員会 - 「個人情報の保護に関する法律等の一部を改正する法律案」の閣議決定について（令和８年４月７日）

2026.04.07 AI RMF Profile on Trustworthy AI in Critical Infrastructure
に関するコンセプトノートを公開重要インフラは IT/運用技術/産業用制御システムにわたり AI への依存を深めているが、汎用の AI RMF では重要インフラ固有の課題に対応しきれない既存 AI RMF を重要インフラ文脈に適応・運用化すべく、AIを活用した機能を導入する際に考慮すべき具体的なリスク管理手法を重要インフラ事業者に提示するなおプロファイルは今後公開予定となる重要インフラ特有の厳格要件プロファイルの実施事項決定論的動作・フェイルセーフ・緩やかな機能低下敵対的堅牢性（全ライフサイクルにわたる強化要件）レガシーシステム・物理分散資産への対応厳格なTEVV（テスト・評価・検証・確認） AI・IT・運用技術・産業用制御システム・サイバーセキュリティ  にまたがる用語・定義の統一要件分析ガイダンスの提供（説明可能性・サプライチェーン可視化等）あらゆるAI成熟度の組織に向けた実行可能・測定可能なステップの提示 NIST がステークホルダーに求めるインプット対象システムの例重要インフラでの AI ユースケース運用技術・産業用制御システム固有のガバナンス課題再解釈が必要な既存政策・指針現場の混乱・矛盾・曖昧さ整合すべき規格・業界慣行実践的指針のギャップガードレール付き自律型サイバーセキュリティ対応 AI 敵対的入力耐性を持つ施設監視システム物理インフォームド・ニューロシンボリック AI（安定性予測）緊急時対応 AI 駆動デジタルツイン・自律型ロボット等 NIST - Concept Note: AI RMF Profile on Trustworthy AI in Critical Infrastructure

2026.04.23 自民党 - AI駆動型国家への構造転換自民党AI・web3小委員会（平将明委員長）より、AIホワイトペーパー2.0（案）を発表産業、行政、暮らし、安全保障、国際秩序にまたがる国家の構造を、AIを前提に設計し直すことを目標とする 3つのパラダイム転換を前提に、エージェントAI時代に向けた104項目にわたる提言をまとめている「ソブリンAI」から「AI主権」へ AIロボット・フィジカルAI：ロボットと現場実装を軸に、フィジカルAIを国家戦略へ
領域特化型AI：現場知・業務・ルールを活かした競争力の確立 AIスタックにおける戦略的不可欠性の確保： AI中核領域における戦略基盤の維持・強化 AI時代の国家基盤としての電力・計算資源の確保： AI時代の電力・データセンターの戦略的整備交通分野におけるAI利活用：最大の社会実装領域での実装と国際標準化の促進防衛分野におけるAI利活用：意思決定速度と戦力運用を高度化へ統合基盤の整備金融分野でのAI利活用：金融政策・法制度・インフラ整備の一体的な推進行政分野におけるAI利活用：担い手不足対策と国内市場の牽引「AIが何に使えるか」から「人間にしかできないことは何か」へ全事業者におけるAX推進： AXによる生産性向上に向けた経営、組織、人材、資金の多面的な支援エージェントAI時代の働き方・雇用の再設計： AI時代の大規模なスキル転換と労働移動の支援科学研究におけるAI利活用： AIを活用した科学の再興と研究力強化教育分野におけるAI利活用：教育のためのAIとAIのための教育の推進創作活動におけるAI利活用：創作分野のAI活用推進と権利行使等の再構築「規制の強弱」から「信頼の設計」へ三位一体の「信頼の設計」：法制度、技術的制御、監査能力、ユーザーリテラシーのアップデート国際連携とルール形成の主導：国際ルール形成と標準化の主導、諸外国への人材育成支援と連携強化ガバメントAXの断行：行政をエージェントAIを前提として再設計司令塔機能の強化：国家レベルの司令塔を設立・強化し、AI戦略を加速衆議院議員　塩崎彰久（あきひさ）- 自民党AI・web3小委員会衆議院議員　塩崎彰久（あきひさ）- 「AIを使う国」から「AIで動く国」へ。AIホワイトペーパー2.0が描く日本の構造転換

ガイドライン等

2026.04.03 SWG - ヘルスケア領域におけるAIセーフティ評価観点ガイド Trustworthy AIの実現に向けた国内外の潮流を踏まえ、ヘルスケア領域に特化したAIセーフティ評価の実践的な指針を提供実用性を追求した設計とし、AISIの評価観点に加えて実践を想定したフェーズごとの評価項目を整理 AIセーフティの10観点有害情報の出力制御医療・健康に関する危険な情報が出力され、患者の生命・健康や医療従事者の業務に直接的な被害をもたらすリスク
偽誤情報の出力・誘導の防止エビデンスや薬剤情報等が誤生成され、患者の生命・健康や医療従事者の業務に直接的な被害をもたらすリスク公平性と包摂性特定の属性の患者に対しAIの精度や品質が低下し、不利益が生じるリスクハイリスク利用・目的外利用 Non-SaMD が事実上の医療機器として利用される「目的外利用」により、法規制違反等が生じるリスクプライバシー保護要配慮個人情報を含む医療・健康情報が漏えい・不正利用され、患者のプライバシーが侵害されるリスクセキュリティ確保プロンプトインジェクション等の攻撃により、医療情報の改ざんや機密データの漏えいが生じるリスク説明可能性 AI出力の根拠が不透明なまま出力され、医療従事者の誤った医療行為や患者の不信につながるリスクロバスト性方言・略語・非標準的な医療用語等の多様な入力に対し出力品質が不安定となり、誤った判断を招くリスクデータ品質不正確または陳腐化した医療データに基づく出力が、患者の生命・健康や医療従事者の業務に直接的な被害をもたらすリスク検証可能性事後検証や第三者監査が困難な状態で問題発生時の原因究明ができず、社会的信頼を損なうリスク AISI - ヘルスケア領域におけるAIセーフティ評価観点ガイドを策定しました

2026.04.03 国家サイバー統括室 - サイバーセキュリティ人材フレームワーク2026 サイバーセキュリティを担う人材について、13の職種別の役割と、それぞれに求められるタスク・知識・スキルを体系的に整理能力等に応じたレベルを設定し、効果的・効率的な人材育成を実現する環境を整備位置づけ必須事項ではなく指針の位置づけ対象範囲
産官学など幅広い主体による活用を想定活用方針利用者の実態に応じて柔軟に活用他の枠組みとの関係相互参照を図りながら活用前提不断の見直しを前提国家サイバー統括室 - サイバーセキュリティ人材フレームワークに関する検討会

2026.04.09 経済産業省 - AI利活用における民事責任の解釈適用に関する手引き AIを用いたサービスやシステムが事故に寄与した基本的な想定事例を題材に、AI利活用における民事責任の考え方について整理 AIの開発・提供・利用に関わる当事者の予測可能性を高め、AI利活用の推進・損害発生時の円滑な解決に資することを目的とする第三者に障害が生じた事例を対象とし、明確なルールが及ばない状況下で適用されるデフォルトルールとして不法行為責任を中心に検討する補助・支援型AI 依拠・代替型AI AIの
機能や利用場面を踏まえると人の判断を代わりに行なっているとはいえないケース規制法上の理由により人の最終的な判断が要求されるケース AIの出力内容が潜在的に第三者の権利を侵害するリスクを内包しており、この点について人の評価や検証が必要なケース ▪補助・支援型AIとしてのみ用いるべき場合人の判断・行動を介在させることでは実現困難な効用が見込まれること（必要性）一定の制度や安全性を備えること（精度・安全性） ▪依拠・代替型AIに該当するための要件同種業務における通常人の作業水準と比較して同等以上の制度や安全性を備えている場合、AIの判断を尊重しながら用いることの合理性が認められる基本的な考え方 AI利用者の責任 AI開発者・提供者の責任 AIの利用有無によって注意義務の水準は左右されず、  個々の状況下で適切な判断や行動を行うことが求められる注意義務の対象は、適切な判断や行動を行うことから AIシステムを適正に用いるための体制構築及び  その運用へと転換。 AIの出力の適切性はAI利用者が判断することが前提となるが、AIの性能限界や重要なリスク等についての説明や、AI利用者による予見・対処が容易でないリスクについて一定の設計上の措置が求められ得る。上記の安全性を発揮・維持するため合理的に可能な設計上の措置や、リスクコントロールの上で重要な情報を分析しAI利用者への情報提供を行う等の説明上の措置が求められる。経済産業省 - 「AI利活用における民事責任の解釈適用に関する手引き」を公表しました

2026.04.03 Citadel AI - ⽣成AI実践ガイドと企業事例集 ~ 品質・安全性・ガバナンスを統合し本番運用へ導くフレームワーク生成 AI の活用のための取り組みと、AIセーフティ・AIガバナンスを両立させるための方法論をフレームワークとして体系化し紹介
AIエージェントを含む⽣成 AI を活⽤するための取り組みについて広く企業にヒアリングを⾏い、その知⾒を整理 DevOps の3観点から整理、GenAIOps に特有な取り組みを提供第3章：技術ガードレール、テスト、Human-in-the-loop など、  AI エージェントの品質と安全性を技術的に担保する具体的な⼯夫を解説第4章：プロセス PoC から本番開発、継続的な改善に⾄るまでの開発プロセスと、  リスクマネジメントの⼿法を解説第5章組織文化 AI 活⽤を全社的に推進するための組織体制、ガイドライン整備、  ⼈材育成などの取り組みを解説 Citadel AI - 生成 AI 実践ガイドと企業事例集

2026.04.09 コーピー - AIマネジメントシステムに基づく生成AI安全性評価プロトコルとその実装ガイド ISO/IEC 42001の要件と生成AIの安全性評価の実践との間に存在する実務的なギャップを埋めることを目的に、２つの成果物を公開 AIマネジメントシステムに基づく生成AI安全性評価プロトコルとその実装ガイド ISO/IEC 42001に整合した生成AIの安全性評価プロトコルを、分析・テスト・報告の3 つのフェーズで体系化した実装ガイド
リスクアセスメントからテスト計画の策定、評価の実施、報告書作成に至るまでの一連のプロセスを、実務者が具体的に把握できるよう整理 LVLM を用いた仮想的な顧客サポートシステムを題材に、ジェイルブレイク攻撃に対する統合テスト、データポイズニング検知のための単体テストなど、具体的な評価事例も提示リスクアセスメントにおけるアクセスとエージェンシーの概念、安全性評価に LLM-as- a-Judge を用いる際の暴露マッピング、サプライチェーン管理における信頼の連鎖など、実務上の重要な概念についても提起・例示生成AI安全性評価テンプレート評価プロトコルの各ステップに対応する記録用テンプレートビジネス状況分析からステークホルダー分析、システム構造分析、リスクアセスメント、リスク対応計画・適用宣言書、テスト計画、テスト方法、テストに用いる資源など、全工程をカバー仮想的なチャットボットシステムを想定して、具体的な記載例も提示株式会社コーピー - ミッションクリティカルAI実現を目指すコーピー、NEDO事業「AIセーフティ強化に関する研究開発・検証等の推進事業／AIセーフティ強化に関する研究開発」の成果を公開

調査/レポート/記事

2026.03.31 Japan AISI - AIセーフティ年次レポート2025 Japan AISI が、2025年度の活動状況として以下の資料を公開『AIセーフティ年次レポート2025』... 2025年度における
AISI の活動内容『AIセーフティファクトシート2025』... これまでのAIやAIセーフティに関する国内外の動向を幅広く整理 Japan AISI - AI セーフティ年次レポート2025

2026.04.10 国際大学グローバル・コミュニケーション・センター - Innovation Nippon「生成AIと日本2026」全国規模のアンケート調査およびインタビュー調査を軸に、生成AIの利用実態や意識、社会的影響に関する幅広な研究を実施わが国がとるべき施策について検討し、9 個の提言を導出生成AI時代における社会実装の方向性についての提言
第一の方向性：生成AIの利用機会を社会全体に広げる生成AI政策の重点を「普及率中心」から「利用機会の格差是正」へ広げる社会全体に向けた基礎的AIリテラシー教育を強化する AIリテラシー教育を講座中心から日常利用の中で学べる仕組みへ転換する第二の方向性：安全で信頼できるAI利用環境を整備する AIの利用領域と人間の判断の役割を整理する企業のAI導入支援を操作教育から運用ガバナンス整備へ重点転換する AI利用において検証と批判的思考を重視する教育を推進する第三の方向性：AI活用による社会的価値の拡張企業はAI導入の効果を測定する仕組みを整備する行政AIは人の代替ではなく行政サービスへのアクセス改善に活用する生成AI社会の目標を効率化ではなく人間の活動の高度化に置く国際大学GLOCOM - Innovation Nippon「生成AIと日本2026」

2026.04.13 Stanford HAI - The 2026 AI Index Report を公開
AI 動向について、現在入手可能な最も包括的かつ独立した視点を提供 HAI - The 2026 AI Index Report Top Takeaways AI能力の進化は止まらず、加速している米中間のモデル性能差は事実上消滅した米国がデータセンターで先行するも、ハードウェアは TSMC に依存歪な境界線（jagged frontier）の存在ロボットは管理下の環境では優秀だが、家庭内では依然として未熟責任あるAI の開発が、能力の進化に追いついていない米国の投資額は最大だが、人材を惹きつける力は低下歴史的なスピードで普及するAI、消費者は無料ツールから価値を享受生産性が向上する一方で、エントリーレベルの雇用が減少能力向上に伴い、環境負荷も増大科学分野で人間を凌駕するが、モデルが大きければ良いわけではない臨床現場での活用は進むが、厳密な証拠はまだ不足公教育は遅れているが、個人はあらゆる段階でスキルを習得中 AI主権（AI sovereignty）が国家政策の柱に専門家と一般市民の意識の乖離

2026.04.14 OWASP - 2026 Q1: 生成AIに関するエクスプロイト総括攻撃者・システム障害は、モデル出力だけでなく、エージェントID、オーケストレーション層、サプライチェーンを標的とするケースが増加インシデントは、AIがサイバー攻撃の強力な武器となっていることが明らかであり、  設定ミスのある権限、過剰な自律性、脆弱な検証制御によって、データ漏洩、リモートコード実行、連鎖的な障害が発生プロンプトインジェクションは企業データ漏洩の実用的な攻撃手法へと進化し、 
サードパーティAIツールへの依存度の高まりは、サプライチェーンに重大な脆弱性をもたらす AI出力に対する人間の信頼は依然として重大な弱点であり、  AIシステムのセキュリティ確保には、モデルレベルの保護から、システム、ID、運用セキュリティの包括的な管理体制への移行が必要 Mexico Claude-Assisted Government Breach Claudeや関連AIツールを悪用、  メキシコ政府機関の偵察と脆弱性悪用を自動化、  大量の税金データや有権者データが流出 AI支援型サイバー攻撃データ窃盗自動エクスプロイト開発 OpenClaw Inbox Deletion OpenClawエージェントが停止コマンドを無視、メールを急速に削除したことを報告、安全性の低さと、動作確認の不備を示しているエージェントの破壊的動作命令の失敗安全でない自律動作 Meta Internal Agent Data Leak エージェントが誤ったアドバイスを提供、  従業員がそれを実行した結果、  機密性の高いユーザ・企業情報が社内で漏洩安全でないエージェント誘導エージェントの不正動作内部データ漏洩 Vertex AI Double Agent Vertex AI 内の敵対的/侵害されたエージェントが  デフォルトの権限スコープを悪用、  データの持ち出し、認証情報アクセス、  保護された内部リソースへのアクセスの可能性を示した IDと権限の悪用データ漏洩クラウドピボット Claude Code Source Leak /  Fake Repo Malware Chain Anthropic が誤って npm ソースマップを通じて  Claude Code のソースコードを公開、  攻撃者は偽 leaked Claude Code リポジトリを利用し  開発者にマルウェアを拡散情報源の暴露ソーシャルエンジニアリングマルウェアの配布サプライチェーンの悪用 Mercor LiteLLM Supply Chain Breach LiteLLM の不具合に関連した情報漏洩により、  独自のトレーニングデータワークフローや  契約業者の情報が漏洩した恐れがあるとして、  Meta が Mercor との業務を一時停止サプライチェーンの侵害データ漏洩 Flowise CustomMCP RCE 攻撃者が CustomMCP の設定を通じて  JavaScript を挿入できる Flowise の脆弱性を悪用、  AIアプリやエージェントの展開において  任意のコード実行を引き起こしたリモートコード実行 GrafanaGhost Noma Security が Grafana に  プロンプトインジェクション経由の脆弱性を発見、  外部レンダリングフローを通じて、  機密情報をサーバに送信される可能性を報告間接的プロンプトインジェクションデータ漏洩 OWASP - GenAI Exploit Round-up Report Q1 2026

2026.04.20 CSA - Autonomous but Not Controlled: AI Agent Incidents
Now Common in Enterprises 組織がAIエージェントのガバナンスをどのように構築しているか、エージェント導入が拡大する中でのギャップについて調査 2026年1月、規模や所在地が異なる様々な組織の IT・セキュリティ専門家から 418 件の回答を取得 AIエージェントのセキュリティ課題 AIワークフォースの不均衡がもたらす脅威エージェント行動における規制の整合性デバッグの困難さ：適応性の高さが予測不可能性を増大させる学習機能がリスクを増幅：強化学習により攻撃戦略が自動洗練される認証情報の委任：エージェントに認証情報を委任する方法が未確立文脈依存のリスク：使用者/目的/状況は事前に予測できない責任の所在：AI生成コードによる障害は責任の特定が難しい連鎖的障害：マルチエージェントでは侵害が他エージェントに波及する高速な行動：承認なしに実行されても即座に停止できるとは限らない専門知識なしでのAI導入加速は深刻な危険を招くコーディングエージェント実装ガイダンスの公表を要求責任ある人間の役割の明確化 AI生成コードへのレビュー・承認ゲートの設定変更点・制限事項の文書化要件の整備高リスク状況での人間監視の十分性の指標を策定エージェントの行動と既存の法的・規制的枠組みの整合が課題産業界と研究コミュニティへの規制バランスが重要過剰規制 ... イノベーション阻害のリスク規制欠如 ... ブラックボックスによる市民搾取のリスク AIリスクオフィサー構想：人員・研究の自由・分野停滞の懸念法的・規制的空白への対処が急務 AIのセキュリティと検出戦略設計段階からのAIセキュリティ攻撃開発のペースがAIモデルの進化を上回っており、解釈可能性が大きく遅れをとっている悪意ある攻撃者がマルチエージェントシステムで攻撃を自動化/大規模化する脅威が増大商用AIのガードレールは偶発的被害防止用であり、自己学習型攻撃エージェントには無効 NISTは「AIエージェントに組み込める効果的なガードレール」の研究に多大な投資が必要セキュリティは設計後・展開後に対処されることが多く、常に後手に回っている NISTは「セキュリティを後付けでなく設計の中核に置く」インセンティブを産業界に与えるべき研究コミュニティと産業界サイバーセキュリティ実務者の連携強化が不可欠 AIエージェントと対話しているのが人間かAIかを検証できない問題が深刻なリスクをもたらす検証プロトコルをAIエージェント基盤システムに統合する研究への大規模な取り組みが必要 CSA - Autonomous but Not Controlled: AI Agent Incidents Now Common in Enterprises

2026.04.24 Japan AISI - AIシステムに対する既知の攻撃と影響（第2版） Japan AISI が、直近の国際会議での論文の内容を踏まえ、「AIシステムに対する既知の攻撃と影響」について第2版を公開 AIシステムに対する特有のセキュリティ攻撃とその影響をまとめている Japan
AISI - AIシステムに対する既知の攻撃と影響（第2版）

AI Governance News 2026

AI Governance News 2026

Shumpei Miyawaki

More Decks by Shumpei Miyawaki

Other Decks in Technology

Featured

Transcript

Shumpei Miyawaki

2026.04 +α

01 Claude Mythos 関連 02 OpenAI 03 国内外の動向 04 ガイドライン等

Anthropic 関連

2026.04.07 Anthropic - Claude Mythos Previewのサイバーセキュリティ機能の評価 Claude Mythos のテストや1ヶ月間の発見を通して、Anthropic の研究者がセキュリティにおける転換点と捉える理由を整理

2026.04.13 AISI - Claude Mythos Preview におけるサイバー能力に関する当社の評価 Claude Mythos Preview

OpenAI 関連

2026.04.06 OpenAI - インテリジェンス時代の産業政策 AIが超知性へと向かう過渡期において、人々を最優先に置くための産業政策アジェンダの初期的なアイデアを提示明示するリスク雇用・産業の破壊的変容悪意ある主体による

2026.04.14 OpenAI - GPT-5.4-Cyber GPT‑5.4 をベースに防御的なサイバーセキュリティ用途を可能にするために特化してファインチューニングされたモデル Preparedness Framework (OpenAI) での

2026.04.22 OpenAI - Privacy Filter テキストから個人識別情報（PII）を検出し、マスクすることに特化した言語モデル（アクティブパラメータ数 50M / モデルパラメータ総数

2026.04.26 OpenAI - Our Principles Sam Altman より OpenAI の原則が公開

国内外の動向

2026.04.07 AI RMF Profile on Trustworthy AI in Critical Infrastructure

ガイドライン等

調査/レポート/記事

2026.03.31 Japan AISI - AIセーフティ年次レポート2025 Japan AISI が、2025年度の活動状況として以下の資料を公開『AIセーフティ年次レポート2025』... 2025年度における

2026.04.13 Stanford HAI - The 2026 AI Index Report を公開

2026.04.20 CSA - Autonomous but Not Controlled: AI Agent Incidents