生成AIが変えるデータ分析の全体像

1 生成AIが変えるデータ分析の全体像 2024/11/20 AWS事業本部石川覚

2 自己紹介名前：石川覚（いしかわさとる）所属：AWS事業本部担当：コンサルタント、ブログ・登壇等経歴：メーカーでSE、研究開発 →ITベンチャーで製品開発、受託研究 →クラスメソッド（2014/6〜）
好きなサービス： Amazon Redshift/Athena/Bedrock、 Google BigQuery Sapporo 2024 Japan AWS Top Engineers 2024 Japan AWS All Certifications Engineers

3 弊社のYouTube公式チャネルの関連動画弊社のYouTube公式チャンネルにて、データ分析関連の動画を公開しています。 https://www.youtube.com/watch?v=xIHbDgVyeSI https://www.youtube.com/watch?v=-emu8f7POAk https://www.youtube.com/watch?v=G7weKwUE6KY

4 ブログ: データアナリティクス通信弊社のブログにて、クラスメソッドデータアナリティクス通信(AWSデータ分析編)を連載中です！グラフィ
カルユーザーインターフェイス , Web サイト自動的に生成された説明 https://dev.classmethod.jp/referencecat/classmethod-da-news-aws-analytics/

5 アジェンダ • 生成AI（Generative AI） • プロンプトエンジニアリング • RAG(Retrieval-Augmented Generation)
• 生成AIを支えるデータ分析基盤 • データ分析基盤を支える生成AI • 生成AIとデータ分析基盤の今後

生成AI（Generative AI） 6

7 生成AIとは生成AI（Generative AI）とは、人工知能（AI）の一種です。事前に学習したデータからテキスト、画像、音声、動画などの新しいコンテンツを生成する能力を持つAI技術です。この技術は、従来のAIとは異なり、単なるデータの整理や予測ではなく、生成AIは創造的な成果物を生み出す（生成する）
ことを目的としています。 AI（人工知能）生成AI ML（機械学習）ニューラルネットワークディープラーニング（深層学習） AIモデル（基盤モデル）

8 生成AI、基盤モデル、大規模言語モデル生成AIは、新しいコンテンツを生成できるAI技術全般を指します。一方、基盤モデル（FM: Foundation Model）は、大規模なデータで事前学習された汎用的なAIモデルを指します。生成AIアプリを開発する際に特定の基盤モデルを利用します。基盤モデルの中で、特に自然言語
処理に特化した大規模モデルを大規模言語モデル（LLM: Large Language Models）呼びます。 AI（人工知能）生成AI ML（機械学習）ニューラルネットワークディープラーニング（深層学習） AIモデル（基盤モデル）

9 AIサービスとAIモデル AIサービス AIモデル（基盤モデル）提供元 ChatGPT GPT-4o、GPT-4o mini OpenAI Claude
Claude 3.5 Sonnet v2、Claude 3.5 Haiku Anthropic Gemini Gemini Pro 1.5、Gemini Flash 1.5 Google 例. ChatGPTの場合 ChatGPTというAIサービスの中に、AIモデルのGPT-4oが存在します。 • ChatGPTはAIサービス全体の名称 • GPT-4oはそのAIサービス内で提供される特定のAIモデル（基盤モデル）です。 ※ AIサービスでは、複数のAIモデルがあり、それぞれ異なる特性と用途に応じて使い分けることができます。

10 生成AIサービス代表的な生成AIサービス（大規模言語モデル）は、ChatGPT、Claude、 Gemini等があり、以下の特徴があります。自然な対話 • 人間のように自然な対話形式で応答多言語対応 • 日本語をはじめとする様々な言語で
の対話が可能多機能 • 質問応答、文章の作成・要約・翻訳 • プログラミングコードの生成 • 画像認識 ChatGPTの例

11 様々な生成AIの基盤モデル • テキストからテキストを生成 • GPT-4o、GPT-4o mini • Claude 3.5
Sonnet v2、Claude 3.5 Haiku • Gemini 1.5 Pro、Gemini 1.5 Flash • テキストから画像を生成 • DALL·E 3 • Stable Diffusion(SD3 Large 1.0) • テキストから音楽を生成 • Jukebox • MusicLM

12 AIモデル（基盤モデル）の使い分け AIモデルを使い分ける際には、単に高性能なモデルが良いとは限りません。それぞれ異なる特性と用途に応じて使い分けることが必要です。複雑なタスク • 高性能モデル: GPT-4o, Claude 3.5
Sonnet v2, Gemini Pro 1.5 単純なタスク、高速応答、コスト効率 • 軽量モデル: GPT-4o mini, Claude 3.5 Haiku, Gemini Flash 1.5 モデル選定のポイント • タスクが単純、複雑であるか • 高速応答 • コスト効率 • コンテキストサイズ • 知識カットオフ • レートリミットリクエスト数/分（RPM）、トークン数/ 分（TPM）、トークン数/日（TPD）

13 AIモデル（基盤モデル）の比較（2024/11時点） AIサービス AIモデル主な用途価格（入力/出力 per 1M tokens）コンテキスト
最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチモーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタスク $0.15 / $0.60 128K Claude Claude 3.5 v2 Sonnet 高性能とコストを両立、コード生成 $3.00 / $15.00 200K (出力4K) Claude 3.5 Haiku 高速処理、コード生成 $1.00 / $5.00 200K (出力8K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K（~1M） Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K（~1M）複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トークンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる

14 AIモデル（基盤モデル）の比較（2024/11時点） AIサービス AIモデル主な用途価格（入力/出力 per 1M tokens）コンテキスト
最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチモーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタスク $0.15 / $0.60 128K Claude Claude 3.5 v2 Sonnet 高性能とコストを両立、コード生成 $3.00 / $15.00 200K (出力4K) Claude 3.5 Haiku 高速処理、コード生成 $1.00 / $5.00 200K (出力8K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K（~1M） Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K（~1M）複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トークンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる Google（Vertex AI） AWS（Bedrock）

プロンプトエンジニアリング 15

16 プロンプトとはプロンプトとは、生成AIに与える指示や入力のことを指します。プロンプトは、AIモデルに実行してほしいタスクを記述した指示文や自然言語テキストです。 • プロンプトの改善は、直ちに効果が確認できる • AIモデルのチューニングやRAGシステムの構築などと比較して、プロンプトの改善効果は費用対効果が高い
• 事実に基づかない情報を生成（ハルシネーション）の抑制生成エイアイはプロンプトに始まりプロンプトに終わる

17 プロンプトの種類プロンプトは、AIシステムの全体的な動作や振る舞いを設定するための指示するシステムプロンプト（カスタム指示）とユーザーが直接AIに入力する質問や指示するユーザープロンプトがあります。システムプロンプト例.あなたは親切丁寧な顧客サポート担当者です。 •
独自の生成AIサービスではほぼ必須 • AIの役割や性格、応答スタイルを定義する • 対話全体を通じて一貫して適用される • ユーザーには通常表示されず、バックグラウンドで機能する • AIの動作に関する制約や指針を提供するユーザープロンプト例.xxの1ヶ月の料金を教えて下さい。 • 生成AIサービスで具体的な質問や要求を含む • 対話ごとに変化し、ユーザーの意図を反映する • AIに特定のタスクや情報提供を求める • 対話の流れや方向性を決定する

18 プロンプトエンジニアリングとはプロンプトエンジニアリングは、AIモデルから期待する出力を得るために、入力するプロンプト（指示文）を設計・最適化するプロセスです。主に大規模言語モデル(LLM)とのコミュニケーションに使用され、AIモデルが解釈し理解できるように指示を構造化する技術です。 • 状況・背景: タスクに関連する追加情報 •
例. 「あなたは経験豊富なマーケティングコンサルタントです」 • 命令・指示: AIモデルに実行してほしいタスクの内容 • 例. 「次の問題に対する解決策を3つ提案してください」 • 入力データ: 具体的な処理対象となるデータ • 例. 「以下の顧客アンケート結果を分析してください：[アンケートデータ]」 • 出力形式: 期待する回答の形式や構造 • 例. 「結果を表形式で示し、各項目に対して100字以内で説明を加えてください」

19 代表的なプロンプトエンジニアリングの手法 AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニアリングの手法を適切に組み合わせることが重要です。 Zero-Shot Prompting • 具体的な例（ショット）を提供せずに、モデルに直接タスクを実行する最もシンプルな手法
犬: dog 机: desk 車: car りんご: アメリカ合衆国の首都は？ Few-Shot Prompting • 少数の例（ショット）を提供することで、特定のタスクを実行する手法ワシントンD.C りんご: apple

20 代表的なプロンプトエンジニアリングの手法 AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニアリングの手法を適切に組み合わせることが重要です。 Chain-of-Thought Prompting • 中間的な推論ステップを提供することで、複雑な推論能力を向上させる手法このグループの奇数を合計すると偶数になります。: 4、8、9、15、12、2、1。
A: 奇数を全て加えると(9, 15, 1)25になります。答えはFalseです。このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: 奇数を全て加えると(15, 5, 13, 7, 1) 41になります。答えはFalseです。

RAG(Retrieval-Augmented Generation) 21

22 生成AIの課題 AIモデルは学習したデータに基づき、一般的な回答を生成します。そのため、データが存在しない場合に以下の問題が発生します。ハルシネーション • 誤った情報を生成する曖昧な応答 • モデルは一般的な知識を持つが、社内情報のような特定ドメインの情
報に関しては持たない生成が難しいナレッジカットオフ • モデルの知識が学習時点のため古いため、古く誤った情報を生成してしまう

23 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必要です。方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3.
AIモデルに存在しない知識の補完上から順に、学習の複雑さやコスト、時間を要します。

24 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必要です。方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3.
AIモデルに存在しない知識の補完（プロンプト＋RAG）検索拡張生成（RAG: Retrieval-Augmented Generation） 3の方法は、AIモデルトレーニングはせずに、実行したいタスクに関連するAIモデルが持たない情報をプロンプトとして含めることで、知識を補完して、タスクを実行する方法。

25 RAG（検索拡張生成）とは Retrieval （検索）ユーザーのクエリに基づいて、膨大なデータセットやナレッジベースから関連する情報を探し出します。 Augmentation
（拡張）検索によって取得した情報をユーザーのプロンプトに追加し、AIモデルへの入力として送信する。 Generation （生成）拡張された情報を基に、 AIモデルで新しいテキストや回答を生成します。 RAG（Retrieval-Augmented Generation、検索拡張生成）は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答の精度と信頼性を向上させる技術です。

26 通常の Naïve RAG と Advanced RAG 通常のNaïve RAG の
Retrieval（検索）のプロセスに検索前処理 (pre-retrieval) と検索後処理 (post- retrieval) を加え、検索の精度の向上させる手法を Advanced RAGという。引用: Amazon Web Services ブログ Amazon Kendra と Amazon Bedrock で構成した RAG システムに対する Advanced RAG 手法の精度寄与検証

27 非構造化データが表す意味を表現する「ベクトル化」文章のような非構造化データから「データが表す意味」を表現する方法として、ベクトル化がありベクトル埋め込みを用いてデータを数値で表現します。ベクトル化されたデータはベクトルDBに保存されます。 • ベクトル化では、ベクトル埋め込みを用いてデータを数値で表現する • テキスト情報を数値化、単語間の意味とその関係性を表現できる •
ベクトル埋め込みとは、データの意味や関係性を表現した数値化された形式のことを指す • ベクトル化されたデータは、ユーザーの入力に意味的に近い要素を検索するのに特化したベクトルDBに保存して利用する • 意味的検索（セマンティックサーチ）と呼び、ユーザーの入力内容に対して類似度の高いデータを返すことができる

生成AIを支えるデータ分析基盤 28

29 生成AIによるビジネス価値の創出生成AIは単なる「新しい技術」ではなく、ビジネス価値を創出するための強力なツールであり、その応用方法と成果に注目することが本質です。生成AI ストレージデータレイクデータウェアハウスデータベースデータ統合ツール
ガバナンスツール

30 生成AIによるビジネス価値の創出ビジネスに生成AIを導入する際には、こうした全体像を踏まえたアプローチが重要になります。生成AI ストレージデータレイクデータウェアハウスデータベースデータ統合ツール
ガバナンスツール大量のデータを格納するためのストレージ非構造化データも含めた大規模データの保管するデータストアビジネス分析に最適化されたデータ保管・管理するデータベース構造化されたデータを効率的に管理・利用するためのデータベース異なるデータソースを連携させるためのソリューションデータの品質管理や規制遵守を確保するための仕組み

31 生成AIによるビジネス価値の創出生成AIは、データは競合他社と差別化するために、質が高く、大量のデータをいつでも利用可能なデータ分析基盤が欠かせません。大量のデータを格納するためのストレージ非構造化データも含めた大規模データの保管するデータストアビジネス分析に最適化されたデータ保管・管理するデータベース構造化されたデータを効率的に管理・利用するためのデータベース異なるデータソースを連携させるためのソリューションデータの品質管理や規制遵守を確保するための仕組み
生成AI アプリケーションデータ分析基盤生成AI ストレージデータレイクデータウェアハウスデータベースデータ統合ツールガバナンスツール

32 生成AIにおけるデータ分析基盤ユーザー生成AI 生成AIモデルストリーミング取り込み生成AI アプリケーション RDB/DWH
NoSQL (会話の状態/履歴) データソースバッチ取り込みベクトルDB データ統合データガバナンス

33 生成AIにおけるデータ分析基盤（RAG）ユーザー生成AI 生成AIモデルストリーミング取り込み生成AI アプリケーション RDB/DWH

34 生成AIにおけるデータ分析基盤（フロントエンド）ユーザー生成AI 生成AIモデルストリーミング取り込み生成AI アプリケーション RDB/DWH

35 生成AIにおけるデータ分析基盤（バックエンド）ユーザー生成AI 生成AIモデルストリーミング取り込み生成AI アプリケーション RDB/DWH

36 生成AIにおけるデータ分析基盤（データ統合）ユーザー生成AI 生成AIモデルストリーミング取り込み生成AI アプリケーション RDB/DWH

37 生成AIにおけるデータ分析基盤（データガバナンス）ユーザー生成AI 生成AIモデルストリーミング取り込み生成AI アプリケーション RDB/DWH

データ分析基盤を支える生成AI 38

39 生成AIによるデータ分析支援機能の潮流昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支援するサービスが次々と提供されています。今後は他のサービスへの拡大、機能拡充、日本語対応などが期待されます。ロール機能名前ビジネスユーザーデータ分析と可視化
QuickSight の生成BI データアナリスト SQLクエリの生成 Amazon Redshift Query Editor v2 Amazon Q 生成 SQL SQLで基盤モデルを利用する Amazon Bedrock と Amazon Redshift MLの統合データエンジニア ETL処理の支援 AWS Glue と Amazon Q 統合データスチュワートデータマネジメント Amazon DataZone の説明に関するAIリコメンデーション

40 昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支援するサービスが次々と提供されています。今後は他のサービスへの拡大、機能拡充、日本語対応などが期待されます。ロール機能名前ビジネスユーザーデータ分析と可視化 QuickSight
の生成BI データアナリスト SQLクエリの生成 Amazon Redshift Query Editor v2 Amazon Q 生成 SQL SQLで基盤モデルを利用する Amazon Bedrock と Amazon Redshift MLの統合データエンジニア ETL処理の支援 AWS Glue と Amazon Q 統合データスチュワートデータマネジメント Amazon DataZone の説明に関する AIリコメンデーション生成AIによるデータ分析支援機能の潮流

41 Amazon BedrockとRedshift MLの統合とは Amazon RedshiftのSQLで簡単にAmazon Bedrockの基盤モデル(AI モデル)を利用できる機能です。 • Amazon
Redshift内のデータと共にシンプルなSQLコマンドからLLM を使用できる • 生成AIアプリケーションを迅速かつSQLで構築が可能になる • AnthropicのClaude、Amazon Titan、MetaのLlama 2、Mistral AIなどの人気のある基盤モデル(FM)を使用可能 • Amazon Redshiftのデータに対して言語翻訳、テキスト要約、テキスト生成、顧客分類、感情分析などの生成AIタスクを実行できる

42 0. LLM アクセスを有効にする 1. プロンプトを準備する 2. RedshiftにBedrockモデルを作成する 3. SQLを実行して生成テキストを取得
Amazon BedrockとRedshift MLの統合の流れ

43 システムプロンプトシステムプロンプトは、Bedrockモデルを作成するときに使います。 1. プロンプトを準備するユーザープロンプトユーザープロンプトは、生成AIに問い合わせるときに使います。 <customer_name>や<purchase_history>の部分はクエリ結果の文字列を当てはめます。あなたは、大手通販企業「Shinano」の営業です。
<customer_name>さんは、過去に<purchase_history>などを購入しています。このお客様に嗜好を分析して他に商品をおすすめする文章を作成してください。

44 Amazon Redshift からAmazon Bedrock経由で LLM モデルを実行するBedrockモデルを作成する 2. RedshiftにBedrockモデルを作成する
Bedrockモデルを作成システムプロンプトと、基盤モデルにClaude 3.5 sonnetを指定します。 Bedrockモデルの動作確認生成AI（Claude 3.5 sonnet）が呼び出されていることを確認できました。

45 SQLのSELECTでユーザープロンプトにクエリ結果を当てはめる 3. SQL実行して生成テキストを取得 SQLで生成AIモデルを呼び出す返品を除いた売上
トップ10のユーザーのリストアップ

46 生成されたテキストは、お客様の過去の購入製品に基づき最適な商品がリコメンドされます。生成テキストの解説

47 • Amazon RedshiftからデータレイクやRDS（Aurora 、MySQL、 PostgreSQL）のライブデータにアクセスして、それら統合したデータを生成AIに活かすことができる • Amazon Redshiftが様々なデータにアクセスできるため、簡易の用途
であればRAGが不要（RedshiftがRAGとして機能する） • データベースはカラムに意味があるため、構造化データから自然言語の生成が容易 • Bedrockモデルを用いることで、将来的な基盤モデルやシステムプロンプトを変更が一箇所で済む • BIツールのカスタムSQLを利用することで、 BIツールから生成AIを利用できるようになる • dbtなどによるデータ変換プロセスにおいても、SQLから生成AIが利用できる Amazon BedrockとRedshift MLの統合

生成AIとデータ分析基盤の今後 48

49 今後のデータ分析基盤データ分析基盤は生成AI活用の源泉 • データは競合他社と差別化するために不可欠であるため、生成AI導入の前提として、データ分析基盤の重要性が高まる • 生成AIを効果的に活用するためには、大量で質の高い、いつでも利用可能なデータを準備する必要があるデータ分析基盤開発においても生成AIスキルが求められる
• 開発に生成AIを活用することで、開発効率や質の向上が期待できるため、データエンジニアにとっても欠かせないスキルとなる生成AIに最適化した新たなデータ分析基盤の設計・開発力 • AIが回答をするのに必要な環境、データを準備できるカが必要

50 今後の分析業務変化生成AIによるデータ分析の効率化や高度化に伴い、データ分析の民主化が加速する • 日常的なデータクレンジングやクエリ作成といったタスクは、生成AI によって効率化され、アナリストはデータの解釈や洞察の獲得に集中できるようになる • 技術的な専門的な知識がなくてもデータ分析を行えるようになり、デ
ータドリブンな意思決定がより広範囲に浸透する • データの品質管理やプライバシー保護、倫理的な配慮が高まる • 生成AIの出力を適切に評価し、バイアスや誤りを検出する能力が求められる • データ分析の高度化に伴い、ドメインに対する深い理解必要

生成AIが変えるデータ分析の全体像

生成AIが変えるデータ分析の全体像

More Decks by Satoru Ishikawa

Other Decks in Technology

Featured

Transcript