Amazon Bedrockで実現する堅牢なデータエンジニアリング

AWS活用 AI/ML/LLM #5 機械学習/大規模言語モデルデータエンジニアリング Amazon Bedrockで実現する堅牢なデータエンジニアリング株式会社BLUEISH 代表取締役CEO兼CTO
為藤アキラ @AkiraTameto

為藤アキラ (Akira Tameto) 株式会社BLUEISH 代表取締役 CEO兼CTO ・AWS歴12年・直近のAIプロジェクトマルチAIエージェントサービス
「BLUEISH Agents」の開発自己紹介

データエンジニアリングとは？データエンジニアリングの定義大規模データを収集 / 加工 / 保管 / 配信するためのシステムやインフラを設計 /
開発 / 運用し、組織の意思決定やデータ活用を支える基盤を構築する分野  データエンジニアリングの目2 1 大規模データを扱い、後続（分析・AI活用など）で使いやすい形にす 1 データ品質・セキュリティ・パフォーマンスを担保する

AI / ML観点でのデータエンジニアリングとは？基本的なデータエンジニアリングのプロセス生データの収集 ① 変換 ② 提供 ④
保存 ③

データ分析観点でのデータエンジニアリングとは？データ分析観点でのデータエンジニアリングのプロセス生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④ 保存 
(データウェアハウス/ データレイク) ③

データ分析観点でのデータエンジニアリングをAWS運用で当てはめるとデータ分析観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④
保存  (データウェアハウス/ データレイク) ③ { Amazon Kinesij { AWS Data Migration Servics { AWS IoT Core { AWS Glus { EM { Data Pipelins { Athena { Amazon S¢ { Amazon Redshif { AWS Lake Formation { Amazon QuickSigh { API Gatewaº { AWS Glue Data Catalog

AI / ML観点でのデータエンジニアリングをAWS運用で当てはめると AI / ML観点でのデータエンジニアリングのプロセス生データの収集 ① 変換 →
前処理  (特徴量抽出 /   ラベリング) ② 提供  (推論エンドポイント) ④ 保存  (学習用データセット) ③

AI / ML観点でのデータエンジニアリングをAWS運用で当てはめると AI / ML観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換 
(ETL/ELT処理) ② 提供 ④ 保存  (データウェアハウス/ データレイク) ③ Amazon Kinesio AWS Data Migration Servicx S3 AWS Glux EM SageMaker Processing S3 + SageMaker Ground Truth SageMaker Endpoint

LLM観点でのデータエンジニアリングとは？ LLM観点でのデータエンジニアリングのプロセス + LLM特有の工程非構造化データが多い! 生データの収集 ① 変換 → 前処理  (PIIマスキング/
  トークナイゼーション) ② 提供  (LLM推論エンドポイント / チャットサービス) ④ 保存  (データレイク/  ベクトル系のDB) ③

LLM観点でのデータエンジニアリングをAWS運用で当てはめると LLM観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④
保存  (データウェアハウス/ データレイク) ③ x Kinesis Firehosm x Glue Crawler x S3 x AWS Glum x EM x Amazon Comprehend x S3 x Amazon OpenSearch x Amazon Bedrock

生成AI時代のデータ課題やデータエンジニアリングの重要性 • 大規模言語モデル(LLM)の活用が企業で急増 • 不適切コンテンツ / 機密漏洩リスクが企業が抱える大きな課題 • 監視 /
アラート / ポリシー管理が必須 • インシデントが起きると信用問題 / 法的リスクに直結

Amazon Bedrock ガードレールとは？ • Amazon Bedrock のエンタープライズ向け機能の一つ • 生成AIの不適切な入力・出力を制御し、企業ポリシーに合わせてフィルタリングする仕組み •
モデル種類にかかわらず一貫した安全対策を適用可能アプリケーションユーザーガードレール Amazon Bedrock LLMモデル不適切な入力をブロックフィルタ出力入力

ガードレールの4つのフィルター 1. Denied topics 　 → 回答してはいけないトピックを自然言語ベースで設定 2. Content filters
　 → ヘイト・差別・暴力などを検知し自動遮断 3. Sensitive information filters (PIIフィルター) 　 → 個人情報・機密情報が出力されそうになったらブロック／マスク 4. Word filters 　 → 特定の単語やフレーズを指定してフィルタリング

LLMに関する、データパイプラインにおける主要課題生データからのデータパイプラインは様々な課題がある   (1) 機密情報を含む生データの扱い  ↓  (2) 不適切コンテンツ混入  ↓ (3) マルチモデル運用のポリシー管理負担
↓ (4) インシデント対応の難しさ

データパイプラインにおける主要課題生データからのデータパイプラインは様々な課題がある   (1) 機密情報を含む生データの扱い  　 → 「」で個人情報を自動マスキング  (2)
不適切コンテンツ混入  　 → 「」でリアルタイムでヘイト・差別・暴力を検出 (3) マルチモデル運用のポリシー管理負担　 → 「」で回答禁止領域をシステム的にブロック (4) インシデント対応の難しさ  　 → 「」で解決！ Sensitive information filters Content filters Denied topics 安全なAI Ops

Amazon Bedrock ガードレールの強みは「事前防御」 Amazon Bedrockのガードレールは、この「」を複数モデルに対して統一ポリシーで実行できるのが強みです。  「」とは、LLMに不適切な回答を渡す前に、不適切なやり取りや危険な内容が存在しないかを自動的にフィルタリング・ブロックする仕組みを指します。
事前防御事前防御アプリケーションユーザーカードレール Amazon Bedrock LLMモデル不適切な入力をブロックフィルタ出力入力事前防御！

Amazon Bedrock ガードレールによる保護体制の比較 vs 事前防御（Proactive Defense）事後防御（Reactive Defense）入力ガードレール出力ガードレール
LLMモデル安全な応答事前防御の特ユーザーに不適切なコンテンツが届く前に遮x 入出力の両方でフィルタリングを実m 問題が発生する前にリスクを低レビュテーションと信頼の保護に効果的事後防御の課Ú 不適切なコンテンツが既にユーザーに届いた後の対¹ 肥大が発生した後の修復は信頼回復が困º 問題検出までのタイムラグが発生する可能¤ レビュテーションリスクと法的リスクが高い応答(未フィルタ）  潜在的リスクありインシデント対応 LLMモデル問題への対応タイミングが異なるモニタリングで問題検出!

AI Opsとしての設計から運用までの流れガードレールをきちんと生かすには設計から運用まで多層的に考えるのが重要。 e` 初期設計で安全策を組み込む y` 多層防御と継続モニタリング Bedrock Guardrails＋
IAM/ネットワーク制御＋定期アセスメンo CloudWatchなどでコンテンツブロック数を監視、異常値を即発見 ` ハルシネーション対策・PII保護 RAG（検索拡張型）との併用や幻覚検出設定、PIIマスク設定のテスト Ç` インシデント対応計画もし不適切回答が漏れた場合、どのように修正・ユーザー通知・再発防止するかまでルール化 ú` 権限管理と変更管理の徹底ガードレールの設定変更には承認フローを導入し、CloudTrailでログを追跡システム全体でガードレールの導入を  前提にし、セキュリティ要件を明確化

AI Opsとしての設計から運用までの流れ (データエンジニアリング観点) ガードレールをきちんと生かすには設計から運用まで多層的に考えるのが重要。 yt 初期設計で安全策を組み込む t 多層防御と継続モニタリング Bedrock
Guardrails＋ IAM/ネットワーク制御＋定期アセスメン} CloudWatchなどでコンテンツブロック数を監視、異常値を即発見 §t ハルシネーション対策・PII保護 RAG（検索拡張型）との併用や幻覚検出設定、PIIマスク設定のテスト Õt インシデント対応計画もし不適切回答が漏れた場合、どのように修正・ユーザー通知・再発防止するかまでルール化 t 権限管理と変更管理の徹底ガードレールの設定変更には承認フローを導入し、CloudTrailでログを追跡システム全体でガードレールの導入を  前提にし、セキュリティ要件を明確化

まとめ fg データ分析 / ML / LLM でのデータエンジニアリングのアプローチの違G 2g Amazon
Bedrock ガードレール + 他サービスで安全なLLMのデータ運 g AI OpsにおけるデータエンジニアリングでのAI運用成功の為のサイクル

Thank You!

Amazon Bedrockで実現する堅牢なデータエンジニアリング

Amazon Bedrockで実現する堅牢なデータエンジニアリング

為藤アキラ

More Decks by 為藤アキラ

Other Decks in Technology

Featured

Transcript

AWS活用 AI/ML/LLM #5 機械学習/大規模言語モデルデータエンジニアリング Amazon Bedrockで実現する堅牢なデータエンジニアリング株式会社BLUEISH 代表取締役CEO兼CTO

為藤アキラ (Akira Tameto) 株式会社BLUEISH 代表取締役 CEO兼CTO ・AWS歴12年・直近のAIプロジェクトマルチAIエージェントサービス

データエンジニアリングとは？データエンジニアリングの定義大規模データを収集 / 加工 / 保管 / 配信するためのシステムやインフラを設計 /

AI / ML観点でのデータエンジニアリングとは？基本的なデータエンジニアリングのプロセス生データの収集 ① 変換 ② 提供 ④

データ分析観点でのデータエンジニアリングとは？データ分析観点でのデータエンジニアリングのプロセス生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④ 保存

データ分析観点でのデータエンジニアリングをAWS運用で当てはめるとデータ分析観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④

AI / ML観点でのデータエンジニアリングをAWS運用で当てはめると AI / ML観点でのデータエンジニアリングのプロセス生データの収集 ① 変換 →

AI / ML観点でのデータエンジニアリングをAWS運用で当てはめると AI / ML観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換

LLM観点でのデータエンジニアリングとは？ LLM観点でのデータエンジニアリングのプロセス + LLM特有の工程非構造化データが多い! 生データの収集 ① 変換 → 前処理  (PIIマスキング/

LLM観点でのデータエンジニアリングをAWS運用で当てはめると LLM観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④

生成AI時代のデータ課題やデータエンジニアリングの重要性 • 大規模言語モデル(LLM)の活用が企業で急増 • 不適切コンテンツ / 機密漏洩リスクが企業が抱える大きな課題 • 監視 /

Amazon Bedrock ガードレールとは？ • Amazon Bedrock のエンタープライズ向け機能の一つ • 生成AIの不適切な入力・出力を制御し、企業ポリシーに合わせてフィルタリングする仕組み •

ガードレールの4つのフィルター 1. Denied topics 　 → 回答してはいけないトピックを自然言語ベースで設定 2. Content filters

データパイプラインにおける主要課題生データからのデータパイプラインは様々な課題がある   (1) 機密情報を含む生データの扱い  　 → 「」で個人情報を自動マスキング  (2)

Amazon Bedrock ガードレールによる保護体制の比較 vs 事前防御（Proactive Defense）事後防御（Reactive Defense）入力ガードレール出力ガードレール

AI Opsとしての設計から運用までの流れガードレールをきちんと生かすには設計から運用まで多層的に考えるのが重要。 e` 初期設計で安全策を組み込む y` 多層防御と継続モニタリング Bedrock Guardrails＋

AI Opsとしての設計から運用までの流れ (データエンジニアリング観点) ガードレールをきちんと生かすには設計から運用まで多層的に考えるのが重要。 yt 初期設計で安全策を組み込む t 多層防御と継続モニタリング Bedrock

まとめ fg データ分析 / ML / LLM でのデータエンジニアリングのアプローチの違G 2g Amazon

Thank You!