Amazon Bedrockで実現する堅牢なデータエンジニアリング

Slide 1

Slide 1 text

AWS活用 AI/ML/LLM #5 機械学習/大規模言語モデルデータエンジニアリング Amazon Bedrockで実現する堅牢なデータエンジニアリング株式会社BLUEISH 代表取締役CEO兼CTO 為藤アキラ @AkiraTameto

Slide 2

Slide 2 text

為藤アキラ (Akira Tameto) 株式会社BLUEISH 代表取締役 CEO兼CTO ・AWS歴12年・直近のAIプロジェクトマルチAIエージェントサービス「BLUEISH Agents」の開発自己紹介

Slide 3

Slide 3 text

データエンジニアリングとは？データエンジニアリングの定義大規模データを収集 / 加工 / 保管 / 配信するためのシステムやインフラを設計 / 開発 / 運用し、組織の意思決定やデータ活用を支える基盤を構築する分野  データエンジニアリングの目2 1 大規模データを扱い、後続（分析・AI活用など）で使いやすい形にす 1 データ品質・セキュリティ・パフォーマンスを担保する

Slide 4

Slide 4 text

AI / ML観点でのデータエンジニアリングとは？基本的なデータエンジニアリングのプロセス生データの収集 ① 変換 ② 提供 ④ 保存 ③

Slide 5

Slide 5 text

データ分析観点でのデータエンジニアリングとは？データ分析観点でのデータエンジニアリングのプロセス生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④ 保存  (データウェアハウス/ データレイク) ③

Slide 6

Slide 6 text

データ分析観点でのデータエンジニアリングをAWS運用で当てはめるとデータ分析観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④ 保存  (データウェアハウス/ データレイク) ③ { Amazon Kinesij { AWS Data Migration Servics { AWS IoT Core { AWS Glus { EM { Data Pipelins { Athena { Amazon S¢ { Amazon Redshif { AWS Lake Formation { Amazon QuickSigh { API Gatewaº { AWS Glue Data Catalog

Slide 7

Slide 7 text

AI / ML観点でのデータエンジニアリングをAWS運用で当てはめると AI / ML観点でのデータエンジニアリングのプロセス生データの収集 ① 変換 → 前処理  (特徴量抽出 /   ラベリング) ② 提供  (推論エンドポイント) ④ 保存  (学習用データセット) ③

Slide 8

Slide 8 text

AI / ML観点でのデータエンジニアリングをAWS運用で当てはめると AI / ML観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④ 保存  (データウェアハウス/ データレイク) ③ Amazon Kinesio AWS Data Migration Servicx S3 AWS Glux EM SageMaker Processing S3 + SageMaker Ground Truth SageMaker Endpoint

Slide 9

Slide 9 text

LLM観点でのデータエンジニアリングとは？ LLM観点でのデータエンジニアリングのプロセス + LLM特有の工程非構造化データが多い! 生データの収集 ① 変換 → 前処理  (PIIマスキング/   トークナイゼーション) ② 提供  (LLM推論エンドポイント / チャットサービス) ④ 保存  (データレイク/  ベクトル系のDB) ③

Slide 10

Slide 10 text

LLM観点でのデータエンジニアリングをAWS運用で当てはめると LLM観点でのデータエンジニアリングのプロセス (AWS) 生データの収集 ① 変換  (ETL/ELT処理) ② 提供 ④ 保存  (データウェアハウス/ データレイク) ③ x Kinesis Firehosm x Glue Crawler x S3 x AWS Glum x EM x Amazon Comprehend x S3 x Amazon OpenSearch x Amazon Bedrock

Slide 11

Slide 11 text

生成AI時代のデータ課題やデータエンジニアリングの重要性 • 大規模言語モデル(LLM)の活用が企業で急増 • 不適切コンテンツ / 機密漏洩リスクが企業が抱える大きな課題 • 監視 / アラート / ポリシー管理が必須 • インシデントが起きると信用問題 / 法的リスクに直結

Slide 12

Slide 12 text

Amazon Bedrock ガードレールとは？ • Amazon Bedrock のエンタープライズ向け機能の一つ • 生成AIの不適切な入力・出力を制御し、企業ポリシーに合わせてフィルタリングする仕組み • モデル種類にかかわらず一貫した安全対策を適用可能アプリケーションユーザーガードレール Amazon Bedrock LLMモデル不適切な入力をブロックフィルタ出力入力

Slide 13

Slide 13 text

ガードレールの4つのフィルター 1. Denied topics 　 → 回答してはいけないトピックを自然言語ベースで設定 2. Content filters 　 → ヘイト・差別・暴力などを検知し自動遮断 3. Sensitive information filters (PIIフィルター) 　 → 個人情報・機密情報が出力されそうになったらブロック／マスク 4. Word filters 　 → 特定の単語やフレーズを指定してフィルタリング

Slide 14

Slide 14 text

LLMに関する、データパイプラインにおける主要課題生データからのデータパイプラインは様々な課題がある   (1) 機密情報を含む生データの扱い  ↓  (2) 不適切コンテンツ混入  ↓ (3) マルチモデル運用のポリシー管理負担 ↓ (4) インシデント対応の難しさ

Slide 15

Slide 15 text

データパイプラインにおける主要課題生データからのデータパイプラインは様々な課題がある   (1) 機密情報を含む生データの扱い  　 → 「」で個人情報を自動マスキング  (2) 不適切コンテンツ混入  　 → 「」でリアルタイムでヘイト・差別・暴力を検出 (3) マルチモデル運用のポリシー管理負担　 → 「」で回答禁止領域をシステム的にブロック (4) インシデント対応の難しさ  　 → 「」で解決！ Sensitive information filters Content filters Denied topics 安全なAI Ops

Slide 16

Slide 16 text

Amazon Bedrock ガードレールの強みは「事前防御」 Amazon Bedrockのガードレールは、この「」を複数モデルに対して統一ポリシーで実行できるのが強みです。  「」とは、LLMに不適切な回答を渡す前に、不適切なやり取りや危険な内容が存在しないかを自動的にフィルタリング・ブロックする仕組みを指します。事前防御事前防御アプリケーションユーザーカードレール Amazon Bedrock LLMモデル不適切な入力をブロックフィルタ出力入力事前防御！

Slide 17

Slide 17 text

Amazon Bedrock ガードレールによる保護体制の比較 vs 事前防御（Proactive Defense）事後防御（Reactive Defense）入力ガードレール出力ガードレール LLMモデル安全な応答事前防御の特ユーザーに不適切なコンテンツが届く前に遮x 入出力の両方でフィルタリングを実m 問題が発生する前にリスクを低レビュテーションと信頼の保護に効果的事後防御の課Ú 不適切なコンテンツが既にユーザーに届いた後の対¹ 肥大が発生した後の修復は信頼回復が困º 問題検出までのタイムラグが発生する可能¤ レビュテーションリスクと法的リスクが高い応答(未フィルタ）  潜在的リスクありインシデント対応 LLMモデル問題への対応タイミングが異なるモニタリングで問題検出!

Slide 18

Slide 18 text

AI Opsとしての設計から運用までの流れガードレールをきちんと生かすには設計から運用まで多層的に考えるのが重要。 e` 初期設計で安全策を組み込む y` 多層防御と継続モニタリング Bedrock Guardrails＋ IAM/ネットワーク制御＋定期アセスメンo CloudWatchなどでコンテンツブロック数を監視、異常値を即発見 ` ハルシネーション対策・PII保護 RAG（検索拡張型）との併用や幻覚検出設定、PIIマスク設定のテスト Ç` インシデント対応計画もし不適切回答が漏れた場合、どのように修正・ユーザー通知・再発防止するかまでルール化 ú` 権限管理と変更管理の徹底ガードレールの設定変更には承認フローを導入し、CloudTrailでログを追跡システム全体でガードレールの導入を  前提にし、セキュリティ要件を明確化

Slide 19

Slide 19 text

AI Opsとしての設計から運用までの流れ (データエンジニアリング観点) ガードレールをきちんと生かすには設計から運用まで多層的に考えるのが重要。 yt 初期設計で安全策を組み込む t 多層防御と継続モニタリング Bedrock Guardrails＋ IAM/ネットワーク制御＋定期アセスメン} CloudWatchなどでコンテンツブロック数を監視、異常値を即発見 §t ハルシネーション対策・PII保護 RAG（検索拡張型）との併用や幻覚検出設定、PIIマスク設定のテスト Õt インシデント対応計画もし不適切回答が漏れた場合、どのように修正・ユーザー通知・再発防止するかまでルール化 t 権限管理と変更管理の徹底ガードレールの設定変更には承認フローを導入し、CloudTrailでログを追跡システム全体でガードレールの導入を  前提にし、セキュリティ要件を明確化

Slide 20

Slide 20 text

まとめ fg データ分析 / ML / LLM でのデータエンジニアリングのアプローチの違G 2g Amazon Bedrock ガードレール + 他サービスで安全なLLMのデータ運 g AI OpsにおけるデータエンジニアリングでのAI運用成功の為のサイクル

Slide 21

Slide 21 text

Thank You!