Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

生成AIが変えるデータ分析の全体像

 生成AIが変えるデータ分析の全体像

生成AIの基礎から始まり、生成AIの活用によって可能となる企業が保持するデータ利活用、さらにはデータエンジニアリングやインサイトの自動化など、企業がこの技術を導入し、どのようにして競争力を高めていくかについて解説します。
Amazon Redshift のSQL から Amazon Bedrockの基盤モデル(AIモデル)を呼び出す新機能をご紹介しています。

Satoru Ishikawa

November 21, 2024
Tweet

More Decks by Satoru Ishikawa

Other Decks in Technology

Transcript

  1. 4 ブログ: データアナリティクス通信 弊社のブログにて、クラスメソッド データアナリティクス通信(AWSデ ータ分析編)を連載中です! グ ラ フ ィ

    カ ル ユ ー ザ ー イ ン タ ー フ ェ イ ス , Web サ イ ト 自 動 的 に 生 成 さ れ た 説 明 https://dev.classmethod.jp/referencecat/classmethod-da-news-aws-analytics/
  2. 5 アジェンダ • 生成AI(Generative AI) • プロンプトエンジニアリング • RAG(Retrieval-Augmented Generation)

    • 生成AIを支えるデータ分析基盤 • データ分析基盤を支える生成AI • 生成AIとデータ分析基盤の今後
  3. 8 生成AI、基盤モデル、大規模言語モデル 生成AIは、新しいコンテンツを生成できるAI技術全般を指します。 一方、基盤モデル(FM: Foundation Model)は、大規模なデータで事 前学習された汎用的なAIモデルを指します。 生成AIアプリを開発する際に特 定の基盤モデルを利用します。 基盤モデルの中で、特に自然言語

    処理に特化した大規模モデルを大 規模言語モデル(LLM: Large Language Models)呼びます。 AI(人工知能) 生成AI ML(機械学習) ニューラルネットワーク ディープラーニング (深層学習) AIモデル(基盤モデル)
  4. 9 AIサービスとAIモデル AIサービス AIモデル(基盤モデル) 提供元 ChatGPT GPT-4o、GPT-4o mini OpenAI Claude

    Claude 3.5 Sonnet v2、Claude 3.5 Haiku Anthropic Gemini Gemini Pro 1.5、Gemini Flash 1.5 Google 例. ChatGPTの場合 ChatGPTというAIサービスの中に、AIモデルのGPT-4oが存在します。 • ChatGPTはAIサービス全体の名称 • GPT-4oはそのAIサービス内で提供される特定のAIモデル(基盤モデル) です。 ※ AIサービスでは、複数のAIモデルがあり、それぞれ異なる特性と用途に応 じて使い分けることができます。
  5. 11 様々な生成AIの基盤モデル • テキストからテキストを生成 • GPT-4o、GPT-4o mini • Claude 3.5

    Sonnet v2、Claude 3.5 Haiku • Gemini 1.5 Pro、Gemini 1.5 Flash • テキストから画像を生成 • DALL·E 3 • Stable Diffusion(SD3 Large 1.0) • テキストから音楽を生成 • Jukebox • MusicLM
  6. 12 AIモデル(基盤モデル)の使い分け AIモデルを使い分ける際には、単に高性能なモデルが良いとは限りませ ん。それぞれ異なる特性と用途に応じて使い分けることが必要です。 複雑なタスク • 高性能モデル: GPT-4o, Claude 3.5

    Sonnet v2, Gemini Pro 1.5 単純なタスク、高速応答、コス ト効率 • 軽量モデル: GPT-4o mini, Claude 3.5 Haiku, Gemini Flash 1.5 モデル選定のポイント • タスクが単純、複雑であるか • 高速応答 • コスト効率 • コンテキストサイズ • 知識カットオフ • レートリミット リクエスト数/分(RPM)、トークン数/ 分(TPM)、トークン数/日(TPD)
  7. 13 AIモデル(基盤モデル)の比較(2024/11時点) AIサービス AIモデル 主な用途 価格(入力/出力 per 1M tokens) コンテキスト

    最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチ モーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタ スク $0.15 / $0.60 128K Claude Claude 3.5 v2 Sonnet 高性能とコストを両立、 コード生成 $3.00 / $15.00 200K (出力4K) Claude 3.5 Haiku 高速処理、コード生成 $1.00 / $5.00 200K (出力8K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K(~1M) Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K(~1M) 複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トーク ンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる
  8. 14 AIモデル(基盤モデル)の比較(2024/11時点) AIサービス AIモデル 主な用途 価格(入力/出力 per 1M tokens) コンテキスト

    最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチ モーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタ スク $0.15 / $0.60 128K Claude Claude 3.5 v2 Sonnet 高性能とコストを両立、 コード生成 $3.00 / $15.00 200K (出力4K) Claude 3.5 Haiku 高速処理、コード生成 $1.00 / $5.00 200K (出力8K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K(~1M) Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K(~1M) 複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トーク ンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる Google(Vertex AI) AWS(Bedrock)
  9. 17 プロンプトの種類 プロンプトは、AIシステムの全体的な動作や振る舞いを設定するための 指示するシステムプロンプト(カスタム指示) と ユーザーが直接AIに 入力する質問や指示するユーザープロンプトがあります。 システムプロンプト 例.あなたは親切丁寧な顧客サポート担当者です。 •

    独自の生成AIサービスではほぼ必須 • AIの役割や性格、応答スタイルを定義する • 対話全体を通じて一貫して適用される • ユーザーには通常表示されず、バックグラウン ドで機能する • AIの動作に関する制約や指針を提供する ユーザープロンプト 例.xxの1ヶ月の料金を教えて下さい。 • 生成AIサービスで具体的な質問や要求 を含む • 対話ごとに変化し、ユーザーの意図を 反映する • AIに特定のタスクや情報提供を求める • 対話の流れや方向性を決定する
  10. 18 プロンプトエンジニアリングとは プロンプトエンジニアリングは、AIモデルから期待する出力を得るため に、入力するプロンプト(指示文)を設計・最適化するプロセスです。 主に大規模言語モデル(LLM)とのコミュニケーションに使用され、AIモ デルが解釈し理解できるように指示を構造化する技術です。 • 状況・背景: タスクに関連する追加情報 •

    例. 「あなたは経験豊富なマーケティングコンサルタントです」 • 命令・指示: AIモデルに実行してほしいタスクの内容 • 例. 「次の問題に対する解決策を3つ提案してください」 • 入力データ: 具体的な処理対象となるデータ • 例. 「以下の顧客アンケート結果を分析してください:[アンケートデータ]」 • 出力形式: 期待する回答の形式や構造 • 例. 「結果を表形式で示し、各項目に対して100字以内で説明を加えてください」
  11. 20 代表的なプロンプトエンジニアリングの手法 AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニア リングの手法を適切に組み合わせることが重要です。 Chain-of-Thought Prompting • 中間的な推論ステップを提供することで、複雑な推論能力を向上させる手法 このグループの奇数を合計すると偶数になります。: 4、8、9、15、12、2、1。

    A: 奇数を全て加えると(9, 15, 1)25になります。答えはFalseです。 このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: 奇数を全て加えると(15, 5, 13, 7, 1) 41になります。答えはFalseです。
  12. 24 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必 要です。 方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3.

    AIモデルに存在しない知識の補完(プロンプト+RAG) 検索拡張生成(RAG: Retrieval-Augmented Generation) 3の方法は、AIモデルトレーニングはせずに、実行したいタスクに関連す るAIモデルが持たない情報をプロンプトとして含めることで、知識を補 完して、タスクを実行する方法。
  13. 25 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation

    (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。
  14. 26 通常の Naïve RAG と Advanced RAG 通常のNaïve RAG の

    Retrieval(検索)のプ ロセスに検索前処理 (pre-retrieval) と 検 索後処理 (post- retrieval) を加え、検 索の精度の向上させる 手法を Advanced RAGという。 引用: Amazon Web Services ブログ Amazon Kendra と Amazon Bedrock で構成した RAG システムに対する Advanced RAG 手法の精度寄与検証
  15. 27 非構造化データが表す意味を表現する「ベクトル化」 文章のような非構造化データから「データが表す意味」を表現する方法 として、ベクトル化がありベクトル埋め込みを用いてデータを数値で表 現します。ベクトル化されたデータはベクトルDBに保存されます。 • ベクトル化では、ベクトル埋め込みを用いてデータを数値で表現する • テキスト情報を数値化、単語間の意味とその関係性を表現できる •

    ベクトル埋め込みとは、データの意味や関係性を表現した数値化され た形式のことを指す • ベクトル化されたデータは、ユーザーの入力に意味的に近い要素を検 索するのに特化したベクトルDBに保存して利用する • 意味的検索(セマンティックサーチ)と呼び、ユーザーの入力内容に 対して類似度の高いデータを返すことができる
  16. 30 生成AIによるビジネス価値の創出 ビジネスに生成AIを導入する際には、こうした全体像を踏まえたアプロ ーチが重要になります。 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール

    ガバナンスツール 大量のデータを格納するためのストレージ 非構造化データも含めた大規模データの保管するデータストア ビジネス分析に最適化されたデータ保管・管理するデータベース 構造化されたデータを効率的に管理・利用するためのデータベース 異なるデータソースを連携させるためのソリューション データの品質管理や規制遵守を確保するための仕組み
  17. 32 生成AIにおけるデータ分析基盤 ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  18. 33 生成AIにおけるデータ分析基盤(RAG) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  19. 34 生成AIにおけるデータ分析基盤(フロントエンド) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  20. 35 生成AIにおけるデータ分析基盤(バックエンド) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  21. 36 生成AIにおけるデータ分析基盤(データ統合) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  22. 37 生成AIにおけるデータ分析基盤(データガバナンス) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  23. 39 生成AIによるデータ分析支援機能の潮流 昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支 援するサービスが次々と提供されています。今後は他のサービスへの拡 大、機能拡充、日本語対応などが期待されます。 ロール 機能 名前 ビジネスユーザー データ分析と可視化

    QuickSight の生成BI データアナリスト SQLクエリの生成 Amazon Redshift Query Editor v2 Amazon Q 生成 SQL SQLで基盤モデルを利 用する Amazon Bedrock と Amazon Redshift MLの統合 データエンジニア ETL処理の支援 AWS Glue と Amazon Q 統合 データスチュワート データマネジメント Amazon DataZone の説明に関するAIリコ メンデーション
  24. 40 昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支 援するサービスが次々と提供されています。今後は他のサービスへの拡 大、機能拡充、日本語対応などが期待されます。 ロール 機能 名前 ビジネスユーザー データ分析と可視化 QuickSight

    の生成BI データアナリスト SQLクエリの生成 Amazon Redshift Query Editor v2 Amazon Q 生成 SQL SQLで基盤モデルを利 用する Amazon Bedrock と Amazon Redshift MLの統合 データエンジニア ETL処理の支援 AWS Glue と Amazon Q 統合 データスチュワート データマネジメント Amazon DataZone の説明に関する AIリ コメンデーション 生成AIによるデータ分析支援機能の潮流
  25. 41 Amazon BedrockとRedshift MLの統合とは Amazon RedshiftのSQLで簡単にAmazon Bedrockの基盤モデル(AI モデル)を利用できる機能です。 • Amazon

    Redshift内のデータと共にシンプルなSQLコマンドからLLM を使用できる • 生成AIアプリケーションを迅速かつSQLで構築が可能になる • AnthropicのClaude、Amazon Titan、MetaのLlama 2、Mistral AIな どの人気のある基盤モデル(FM)を使用可能 • Amazon Redshiftのデータに対して言語翻訳、テキスト要約、テキス ト生成、顧客分類、感情分析などの生成AIタスクを実行できる
  26. 44 Amazon Redshift からAmazon Bedrock経由で LLM モデルを実行す るBedrockモデルを作成する 2. RedshiftにBedrockモデルを作成する

    Bedrockモデルを作成 システムプロンプトと、基盤モデルにClaude 3.5 sonnetを指定します。 Bedrockモデルの動作確認 生成AI(Claude 3.5 sonnet)が呼び出されていることを確認できました。
  27. 47 • Amazon RedshiftからデータレイクやRDS(Aurora 、MySQL、 PostgreSQL)のライブデータにアクセスして、それら統合したデータ を生成AIに活かすことができる • Amazon Redshiftが様々なデータにアクセスできるため、簡易の用途

    であればRAGが不要(RedshiftがRAGとして機能する) • データベースはカラムに意味があるため、構造化データから自然言語 の生成が容易 • Bedrockモデルを用いることで、将来的な基盤モデルやシステムプロ ンプトを変更が一箇所で済む • BIツールのカスタムSQLを利用することで、 BIツールから生成AIを利 用できるようになる • dbtなどによるデータ変換プロセスにおいても、SQLから生成AIが利用 できる Amazon BedrockとRedshift MLの統合
  28. 49 今後のデータ分析基盤 データ分析基盤は生成AI活用の源泉 • データは競合他社と差別化するために不可欠であるため、生成AI導入 の前提として、データ分析基盤の重要性が高まる • 生成AIを効果的に活用するためには、大量で質の高い、いつでも利用 可能なデータを準備する必要がある データ分析基盤開発においても生成AIスキルが求められる

    • 開発に生成AIを活用することで、開発効率や質の向上が期待できるた め、データエンジニアにとっても欠かせないスキルとなる 生成AIに最適化した新たなデータ分析基盤の設計・開発力 • AIが回答をするのに必要な環境、データを準備できるカが必要
  29. 50 今後の分析業務変化 生成AIによるデータ分析の効率化や高度化に伴い、データ分析の民主化 が加速する • 日常的なデータクレンジングやクエリ作成といったタスクは、生成AI によって効率化され、アナリストはデータの解釈や洞察の獲得に集中 できるようになる • 技術的な専門的な知識がなくてもデータ分析を行えるようになり、デ

    ータドリブンな意思決定がより広範囲に浸透する • データの品質管理やプライバシー保護、倫理的な配慮が高まる • 生成AIの出力を適切に評価し、バイアスや誤りを検出する能力が求め られる • データ分析の高度化に伴い、ドメインに対する深い理解必要
  30. 51