Slide 1

Slide 1 text

1 生成AIが変えるデータ分析の全体像 2024/11/20 AWS事業本部 石川 覚

Slide 2

Slide 2 text

2 自己紹介 名前:石川 覚(いしかわ さとる) 所属:AWS事業本部 担当:コンサルタント、ブログ・登壇等 経歴:メーカーでSE、研究開発 →ITベンチャーで製品開発、受託研究 →クラスメソッド(2014/6〜) 好きなサービス: Amazon Redshift/Athena/Bedrock、 Google BigQuery Sapporo 2024 Japan AWS Top Engineers 2024 Japan AWS All Certifications Engineers

Slide 3

Slide 3 text

3 弊社のYouTube公式チャネルの関連動画 弊社のYouTube公式チャンネルにて、データ分析関連の動画を公開して います。 https://www.youtube.com/watch?v=xIHbDgVyeSI https://www.youtube.com/watch?v=-emu8f7POAk https://www.youtube.com/watch?v=G7weKwUE6KY

Slide 4

Slide 4 text

4 ブログ: データアナリティクス通信 弊社のブログにて、クラスメソッド データアナリティクス通信(AWSデ ータ分析編)を連載中です! グ ラ フ ィ カ ル ユ ー ザ ー イ ン タ ー フ ェ イ ス , Web サ イ ト 自 動 的 に 生 成 さ れ た 説 明 https://dev.classmethod.jp/referencecat/classmethod-da-news-aws-analytics/

Slide 5

Slide 5 text

5 アジェンダ • 生成AI(Generative AI) • プロンプトエンジニアリング • RAG(Retrieval-Augmented Generation) • 生成AIを支えるデータ分析基盤 • データ分析基盤を支える生成AI • 生成AIとデータ分析基盤の今後

Slide 6

Slide 6 text

生成AI(Generative AI) 6

Slide 7

Slide 7 text

7 生成AIとは 生成AI(Generative AI)とは、人工知能(AI)の一種です。 事前に学習したデータからテキスト、画像、音声、動画などの新しいコ ンテンツを生成する能力を持つAI技術です。 この技術は、従来のAIとは異な り、単なるデータの整理や予測 ではなく、生成AIは創造的な 成果物を生み出す(生成する) ことを目的としています。 AI(人工知能) 生成AI ML(機械学習) ニューラルネットワーク ディープラーニング (深層学習) AIモデル(基盤モデル)

Slide 8

Slide 8 text

8 生成AI、基盤モデル、大規模言語モデル 生成AIは、新しいコンテンツを生成できるAI技術全般を指します。 一方、基盤モデル(FM: Foundation Model)は、大規模なデータで事 前学習された汎用的なAIモデルを指します。 生成AIアプリを開発する際に特 定の基盤モデルを利用します。 基盤モデルの中で、特に自然言語 処理に特化した大規模モデルを大 規模言語モデル(LLM: Large Language Models)呼びます。 AI(人工知能) 生成AI ML(機械学習) ニューラルネットワーク ディープラーニング (深層学習) AIモデル(基盤モデル)

Slide 9

Slide 9 text

9 AIサービスとAIモデル AIサービス AIモデル(基盤モデル) 提供元 ChatGPT GPT-4o、GPT-4o mini OpenAI Claude Claude 3.5 Sonnet v2、Claude 3.5 Haiku Anthropic Gemini Gemini Pro 1.5、Gemini Flash 1.5 Google 例. ChatGPTの場合 ChatGPTというAIサービスの中に、AIモデルのGPT-4oが存在します。 • ChatGPTはAIサービス全体の名称 • GPT-4oはそのAIサービス内で提供される特定のAIモデル(基盤モデル) です。 ※ AIサービスでは、複数のAIモデルがあり、それぞれ異なる特性と用途に応 じて使い分けることができます。

Slide 10

Slide 10 text

10 生成AIサービス 代表的な生成AIサービス(大規模言語モデル)は、ChatGPT、Claude、 Gemini等があり、以下の特徴があります。 自然な対話 • 人間のように自然な対話形式で応答 多言語対応 • 日本語をはじめとする様々な言語で の対話が可能 多機能 • 質問応答、文章の作成・要約・翻訳 • プログラミングコードの生成 • 画像認識 ChatGPTの例

Slide 11

Slide 11 text

11 様々な生成AIの基盤モデル • テキストからテキストを生成 • GPT-4o、GPT-4o mini • Claude 3.5 Sonnet v2、Claude 3.5 Haiku • Gemini 1.5 Pro、Gemini 1.5 Flash • テキストから画像を生成 • DALL·E 3 • Stable Diffusion(SD3 Large 1.0) • テキストから音楽を生成 • Jukebox • MusicLM

Slide 12

Slide 12 text

12 AIモデル(基盤モデル)の使い分け AIモデルを使い分ける際には、単に高性能なモデルが良いとは限りませ ん。それぞれ異なる特性と用途に応じて使い分けることが必要です。 複雑なタスク • 高性能モデル: GPT-4o, Claude 3.5 Sonnet v2, Gemini Pro 1.5 単純なタスク、高速応答、コス ト効率 • 軽量モデル: GPT-4o mini, Claude 3.5 Haiku, Gemini Flash 1.5 モデル選定のポイント • タスクが単純、複雑であるか • 高速応答 • コスト効率 • コンテキストサイズ • 知識カットオフ • レートリミット リクエスト数/分(RPM)、トークン数/ 分(TPM)、トークン数/日(TPD)

Slide 13

Slide 13 text

13 AIモデル(基盤モデル)の比較(2024/11時点) AIサービス AIモデル 主な用途 価格(入力/出力 per 1M tokens) コンテキスト 最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチ モーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタ スク $0.15 / $0.60 128K Claude Claude 3.5 v2 Sonnet 高性能とコストを両立、 コード生成 $3.00 / $15.00 200K (出力4K) Claude 3.5 Haiku 高速処理、コード生成 $1.00 / $5.00 200K (出力8K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K(~1M) Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K(~1M) 複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トーク ンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる

Slide 14

Slide 14 text

14 AIモデル(基盤モデル)の比較(2024/11時点) AIサービス AIモデル 主な用途 価格(入力/出力 per 1M tokens) コンテキスト 最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチ モーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタ スク $0.15 / $0.60 128K Claude Claude 3.5 v2 Sonnet 高性能とコストを両立、 コード生成 $3.00 / $15.00 200K (出力4K) Claude 3.5 Haiku 高速処理、コード生成 $1.00 / $5.00 200K (出力8K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K(~1M) Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K(~1M) 複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トーク ンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる Google(Vertex AI) AWS(Bedrock)

Slide 15

Slide 15 text

プロンプトエンジニアリング 15

Slide 16

Slide 16 text

16 プロンプトとは プロンプトとは、生成AIに与える指示や入力のことを指し ます。プロンプトは、AIモデルに実行してほしいタスクを 記述した指示文や自然言語テキストです。 • プロンプトの改善は、直ちに効果が確認できる • AIモデルのチューニングやRAGシステムの構築などと比 較して、プロンプトの改善効果は費用対効果が高い • 事実に基づかない情報を生成(ハルシネーション)の抑制 生 成 エ イ ア イ は プ ロ ン プ ト に 始 ま り プ ロ ン プ ト に 終 わ る

Slide 17

Slide 17 text

17 プロンプトの種類 プロンプトは、AIシステムの全体的な動作や振る舞いを設定するための 指示するシステムプロンプト(カスタム指示) と ユーザーが直接AIに 入力する質問や指示するユーザープロンプトがあります。 システムプロンプト 例.あなたは親切丁寧な顧客サポート担当者です。 • 独自の生成AIサービスではほぼ必須 • AIの役割や性格、応答スタイルを定義する • 対話全体を通じて一貫して適用される • ユーザーには通常表示されず、バックグラウン ドで機能する • AIの動作に関する制約や指針を提供する ユーザープロンプト 例.xxの1ヶ月の料金を教えて下さい。 • 生成AIサービスで具体的な質問や要求 を含む • 対話ごとに変化し、ユーザーの意図を 反映する • AIに特定のタスクや情報提供を求める • 対話の流れや方向性を決定する

Slide 18

Slide 18 text

18 プロンプトエンジニアリングとは プロンプトエンジニアリングは、AIモデルから期待する出力を得るため に、入力するプロンプト(指示文)を設計・最適化するプロセスです。 主に大規模言語モデル(LLM)とのコミュニケーションに使用され、AIモ デルが解釈し理解できるように指示を構造化する技術です。 • 状況・背景: タスクに関連する追加情報 • 例. 「あなたは経験豊富なマーケティングコンサルタントです」 • 命令・指示: AIモデルに実行してほしいタスクの内容 • 例. 「次の問題に対する解決策を3つ提案してください」 • 入力データ: 具体的な処理対象となるデータ • 例. 「以下の顧客アンケート結果を分析してください:[アンケートデータ]」 • 出力形式: 期待する回答の形式や構造 • 例. 「結果を表形式で示し、各項目に対して100字以内で説明を加えてください」

Slide 19

Slide 19 text

19 代表的なプロンプトエンジニアリングの手法 AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニア リングの手法を適切に組み合わせることが重要です。 Zero-Shot Prompting • 具体的な例(ショット)を提供せずに、 モデルに直接タスクを実行する最もシン プルな手法 犬: dog 机: desk 車: car りんご: アメリカ合衆国の首都は? Few-Shot Prompting • 少数の例(ショット)を提供することで、 特定のタスクを実行する手法 ワシントンD.C りんご: apple

Slide 20

Slide 20 text

20 代表的なプロンプトエンジニアリングの手法 AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニア リングの手法を適切に組み合わせることが重要です。 Chain-of-Thought Prompting • 中間的な推論ステップを提供することで、複雑な推論能力を向上させる手法 このグループの奇数を合計すると偶数になります。: 4、8、9、15、12、2、1。 A: 奇数を全て加えると(9, 15, 1)25になります。答えはFalseです。 このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: 奇数を全て加えると(15, 5, 13, 7, 1) 41になります。答えはFalseです。

Slide 21

Slide 21 text

RAG(Retrieval-Augmented Generation) 21

Slide 22

Slide 22 text

22 生成AIの課題 AIモデルは学習したデータに基づき、一般的な回答を生成します。その ため、データが存在しない場合に以下の問題が発生します。 ハルシネーション • 誤った情報を生成する 曖昧な応答 • モデルは一般的な知識を持つが、社内情報のような特定ドメインの情 報に関しては持たない生成が難しい ナレッジカットオフ • モデルの知識が学習時点のため古いため、古く誤った情報を生成して しまう

Slide 23

Slide 23 text

23 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必 要です。 方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3. AIモデルに存在しない知識の補完 上から順に、学習の複雑さやコスト、時間を要します。

Slide 24

Slide 24 text

24 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必 要です。 方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3. AIモデルに存在しない知識の補完(プロンプト+RAG) 検索拡張生成(RAG: Retrieval-Augmented Generation) 3の方法は、AIモデルトレーニングはせずに、実行したいタスクに関連す るAIモデルが持たない情報をプロンプトとして含めることで、知識を補 完して、タスクを実行する方法。

Slide 25

Slide 25 text

25 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。

Slide 26

Slide 26 text

26 通常の Naïve RAG と Advanced RAG 通常のNaïve RAG の Retrieval(検索)のプ ロセスに検索前処理 (pre-retrieval) と 検 索後処理 (post- retrieval) を加え、検 索の精度の向上させる 手法を Advanced RAGという。 引用: Amazon Web Services ブログ Amazon Kendra と Amazon Bedrock で構成した RAG システムに対する Advanced RAG 手法の精度寄与検証

Slide 27

Slide 27 text

27 非構造化データが表す意味を表現する「ベクトル化」 文章のような非構造化データから「データが表す意味」を表現する方法 として、ベクトル化がありベクトル埋め込みを用いてデータを数値で表 現します。ベクトル化されたデータはベクトルDBに保存されます。 • ベクトル化では、ベクトル埋め込みを用いてデータを数値で表現する • テキスト情報を数値化、単語間の意味とその関係性を表現できる • ベクトル埋め込みとは、データの意味や関係性を表現した数値化され た形式のことを指す • ベクトル化されたデータは、ユーザーの入力に意味的に近い要素を検 索するのに特化したベクトルDBに保存して利用する • 意味的検索(セマンティックサーチ)と呼び、ユーザーの入力内容に 対して類似度の高いデータを返すことができる

Slide 28

Slide 28 text

生成AIを支えるデータ分析基盤 28

Slide 29

Slide 29 text

29 生成AIによるビジネス価値の創出 生成AIは単なる「新しい技術」ではなく、ビジネス価値を創出するため の強力なツールであり、その応用方法と成果に注目することが本質です。 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール ガバナンスツール

Slide 30

Slide 30 text

30 生成AIによるビジネス価値の創出 ビジネスに生成AIを導入する際には、こうした全体像を踏まえたアプロ ーチが重要になります。 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール ガバナンスツール 大量のデータを格納するためのストレージ 非構造化データも含めた大規模データの保管するデータストア ビジネス分析に最適化されたデータ保管・管理するデータベース 構造化されたデータを効率的に管理・利用するためのデータベース 異なるデータソースを連携させるためのソリューション データの品質管理や規制遵守を確保するための仕組み

Slide 31

Slide 31 text

31 生成AIによるビジネス価値の創出 生成AIは、データは競合他社と差別化するために、質が高く、大量のデ ータをいつでも利用可能なデータ分析基盤が欠かせません。 大量のデータを格納するためのストレージ 非構造化データも含めた大規模データの保管するデータストア ビジネス分析に最適化されたデータ保管・管理するデータベース 構造化されたデータを効率的に管理・利用するためのデータベース 異なるデータソースを連携させるためのソリューション データの品質管理や規制遵守を確保するための仕組み 生成AI アプリケーション データ分析基盤 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール ガバナンスツール

Slide 32

Slide 32 text

32 生成AIにおけるデータ分析基盤 ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 33

Slide 33 text

33 生成AIにおけるデータ分析基盤(RAG) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 34

Slide 34 text

34 生成AIにおけるデータ分析基盤(フロントエンド) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 35

Slide 35 text

35 生成AIにおけるデータ分析基盤(バックエンド) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 36

Slide 36 text

36 生成AIにおけるデータ分析基盤(データ統合) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 37

Slide 37 text

37 生成AIにおけるデータ分析基盤(データガバナンス) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 38

Slide 38 text

データ分析基盤を支える生成AI 38

Slide 39

Slide 39 text

39 生成AIによるデータ分析支援機能の潮流 昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支 援するサービスが次々と提供されています。今後は他のサービスへの拡 大、機能拡充、日本語対応などが期待されます。 ロール 機能 名前 ビジネスユーザー データ分析と可視化 QuickSight の生成BI データアナリスト SQLクエリの生成 Amazon Redshift Query Editor v2 Amazon Q 生成 SQL SQLで基盤モデルを利 用する Amazon Bedrock と Amazon Redshift MLの統合 データエンジニア ETL処理の支援 AWS Glue と Amazon Q 統合 データスチュワート データマネジメント Amazon DataZone の説明に関するAIリコ メンデーション

Slide 40

Slide 40 text

40 昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支 援するサービスが次々と提供されています。今後は他のサービスへの拡 大、機能拡充、日本語対応などが期待されます。 ロール 機能 名前 ビジネスユーザー データ分析と可視化 QuickSight の生成BI データアナリスト SQLクエリの生成 Amazon Redshift Query Editor v2 Amazon Q 生成 SQL SQLで基盤モデルを利 用する Amazon Bedrock と Amazon Redshift MLの統合 データエンジニア ETL処理の支援 AWS Glue と Amazon Q 統合 データスチュワート データマネジメント Amazon DataZone の説明に関する AIリ コメンデーション 生成AIによるデータ分析支援機能の潮流

Slide 41

Slide 41 text

41 Amazon BedrockとRedshift MLの統合とは Amazon RedshiftのSQLで簡単にAmazon Bedrockの基盤モデル(AI モデル)を利用できる機能です。 • Amazon Redshift内のデータと共にシンプルなSQLコマンドからLLM を使用できる • 生成AIアプリケーションを迅速かつSQLで構築が可能になる • AnthropicのClaude、Amazon Titan、MetaのLlama 2、Mistral AIな どの人気のある基盤モデル(FM)を使用可能 • Amazon Redshiftのデータに対して言語翻訳、テキスト要約、テキス ト生成、顧客分類、感情分析などの生成AIタスクを実行できる

Slide 42

Slide 42 text

42 0. LLM アクセスを有効にする 1. プロンプトを準備する 2. RedshiftにBedrockモデルを作成する 3. SQLを実行して生成テキストを取得 Amazon BedrockとRedshift MLの統合の流れ

Slide 43

Slide 43 text

43 システムプロンプト システムプロンプトは、Bedrockモデルを作成するときに使います。 1. プロンプトを準備する ユーザープロンプト ユーザープロンプトは、生成AIに問い合わせるときに使います。 やの部分はクエリ結果の文字 列を当てはめます。 あなたは、大手通販企業「Shinano」の営業です。 さんは、過去になどを購 入しています。このお客様に嗜好を分析して他に商品をおすすめする文 章を作成してください。

Slide 44

Slide 44 text

44 Amazon Redshift からAmazon Bedrock経由で LLM モデルを実行す るBedrockモデルを作成する 2. RedshiftにBedrockモデルを作成する Bedrockモデルを作成 システムプロンプトと、基盤モデルにClaude 3.5 sonnetを指定します。 Bedrockモデルの動作確認 生成AI(Claude 3.5 sonnet)が呼び出されていることを確認できました。

Slide 45

Slide 45 text

45 SQLのSELECTで ユーザープロンプ トにクエリ結果を 当てはめる 3. SQL実行して生成テキストを取得 SQLで生成AIモデ ルを呼び出す 返品を除いた売上 トップ10のユー ザーのリストアッ プ

Slide 46

Slide 46 text

46 生成されたテキス トは、お客様の過 去の購入製品に基 づき最適な商品が リコメンドされま す。 生成テキストの解説

Slide 47

Slide 47 text

47 • Amazon RedshiftからデータレイクやRDS(Aurora 、MySQL、 PostgreSQL)のライブデータにアクセスして、それら統合したデータ を生成AIに活かすことができる • Amazon Redshiftが様々なデータにアクセスできるため、簡易の用途 であればRAGが不要(RedshiftがRAGとして機能する) • データベースはカラムに意味があるため、構造化データから自然言語 の生成が容易 • Bedrockモデルを用いることで、将来的な基盤モデルやシステムプロ ンプトを変更が一箇所で済む • BIツールのカスタムSQLを利用することで、 BIツールから生成AIを利 用できるようになる • dbtなどによるデータ変換プロセスにおいても、SQLから生成AIが利用 できる Amazon BedrockとRedshift MLの統合

Slide 48

Slide 48 text

生成AIとデータ分析基盤の今後 48

Slide 49

Slide 49 text

49 今後のデータ分析基盤 データ分析基盤は生成AI活用の源泉 • データは競合他社と差別化するために不可欠であるため、生成AI導入 の前提として、データ分析基盤の重要性が高まる • 生成AIを効果的に活用するためには、大量で質の高い、いつでも利用 可能なデータを準備する必要がある データ分析基盤開発においても生成AIスキルが求められる • 開発に生成AIを活用することで、開発効率や質の向上が期待できるた め、データエンジニアにとっても欠かせないスキルとなる 生成AIに最適化した新たなデータ分析基盤の設計・開発力 • AIが回答をするのに必要な環境、データを準備できるカが必要

Slide 50

Slide 50 text

50 今後の分析業務変化 生成AIによるデータ分析の効率化や高度化に伴い、データ分析の民主化 が加速する • 日常的なデータクレンジングやクエリ作成といったタスクは、生成AI によって効率化され、アナリストはデータの解釈や洞察の獲得に集中 できるようになる • 技術的な専門的な知識がなくてもデータ分析を行えるようになり、デ ータドリブンな意思決定がより広範囲に浸透する • データの品質管理やプライバシー保護、倫理的な配慮が高まる • 生成AIの出力を適切に評価し、バイアスや誤りを検出する能力が求め られる • データ分析の高度化に伴い、ドメインに対する深い理解必要

Slide 51

Slide 51 text

51