Slide 1

Slide 1 text

データ分析を支える技術 生成AI 再入門 2024.7.20 クラスメソッド 石川 覚

Slide 2

Slide 2 text

Xへの投稿の際は、 ハッシュタグ #devio2024 でお願いいたします。 2 お願い

Slide 3

Slide 3 text

3 自己紹介 名前:石川 覚(いしかわ さとる) 所属:データ事業本部 担当:コンサルタント、ブログ・登壇等 経歴:メーカーでSE、研究開発 →ITベンチャーで製品開発、受託研究 →クラスメソッド(2014/6〜) 好きなサービス: Amazon Redshift/Athena/Bedrock、 Google BigQuery Sapporo 2024 Japan AWS Top Engineers 2024 Japan AWS All Certifications Engineers

Slide 4

Slide 4 text

4 弊社のYouTube公式チャネルの関連動画 弊社のYouTube公式チャンネルにて、データ分析関連の動画を公開して います。 https://www.youtube.com/watch?v=xIHbDgVyeSI https://www.youtube.com/watch?v=-emu8f7POAk https://www.youtube.com/watch?v=G7weKwUE6KY

Slide 5

Slide 5 text

5 ブログ: データアナリティクス通信 弊社のブログにて、クラスメソッド データアナリティクス通信(AWSデ ータ分析編)を連載中です! https://dev.classmethod.jp/referencecat/classmethod-da-news-aws-analytics/

Slide 6

Slide 6 text

6 アジェンダ • 生成AI(Generative AI) • プロンプトエンジニアリング • RAG(Retrieval-Augmented Generation) • 生成AIを支えるデータ分析基盤 • データ分析基盤を支える生成AI • 生成AIとデータ分析基盤の今後

Slide 7

Slide 7 text

生成AI(Generative AI) 7

Slide 8

Slide 8 text

8 生成AIとは 生成AI(Generative AI)とは、人工知能(AI)の一種です。 事前に学習したデータからテキスト、画像、音声、動画などの新しいコ ンテンツを生成する能力を持つAI技術です。 この技術は、従来のAIとは異な り、単なるデータの整理や予測 ではなく、生成AIは創造的な 成果物を生み出す(生成する) ことを目的としています。 AI(人工知能) 生成AI ML(機械学習) ニューラルネットワーク ディープラーニング (深層学習) AIモデル(基盤モデル)

Slide 9

Slide 9 text

9 生成AI、基盤モデル、大規模言語モデル 生成AIは、新しいコンテンツを生成できるAI技術全般を指します。 一方、基盤モデル(FM: Foundation Model)は、大規模なデータで事 前学習された汎用的なAIモデルを指します。 生成AIアプリを開発する際に特 定の基盤モデルを利用します。 基盤モデルの中で、特に自然言語 処理に特化した大規模モデルを大 規模言語モデル(LLM: Large Language Models)呼びます。 AI(人工知能) 生成AI ML(機械学習) ニューラルネットワーク ディープラーニング (深層学習) AIモデル(基盤モデル)

Slide 10

Slide 10 text

10 AIサービスとAIモデル 例. ChatGPTの場合 ChatGPTというAIサービスの中に、AIモデルのGPT-4oが存在します。 • ChatGPTはAIサービス全体の名称 • GPT-4oはそのAIサービス内で提供される特定のAIモデル(基盤モデル) です。 ※ AIサービスでは、複数のAIモデルがあり、それぞれ異なる特性と用途に応 じて使い分けることができます。 AIサービス AIモデル(基盤モデル) 提供元 ChatGPT GPT-4o、GPT-4o mini OpenAI Claude Claude 3.5 Sonnet、Claude 3 Haiku Anthropic Gemini Gemini Pro 1.5、Gemini Flash 1.5 Google

Slide 11

Slide 11 text

11 生成AIサービス 代表的な生成AIサービス(大規模言語モデル)は、ChatGPT、Claude、 Gemini等があり、以下の特徴があります。 自然な対話 • 人間のように自然な対話形式で応答 多言語対応 • 日本語をはじめとする様々な言語で の対話が可能 多機能 • 質問応答、文章の作成・要約・翻訳 • プログラミングコードの生成 • 画像認識 ChatGPTの例

Slide 12

Slide 12 text

12 様々な生成AIの基盤モデル • テキストからテキストを生成 • GPT-4o、GPT-4o mini • Claude 3.5 Sonnet、Claude 3 Haiku • Gemini 1.5 Pro、Gemini 1.5 Flash • テキストから画像を生成 • DALL·E 3 • Stable Diffusion • テキストから音楽を生成 • Jukebox • MusicLM ※GPT-4o、Claude 3.5 Sonnet、Gemini 1.5はマルチモーダルです。

Slide 13

Slide 13 text

13 AIモデル(基盤モデル)の使い分け AIモデルを使い分ける際には、単に高性能なモデルが良いとは限りませ ん。それぞれ異なる特性と用途に応じて使い分けることが必要です。 複雑なタスク • 高性能モデル: GPT-4o, Claude 3.5 Sonnet, Gemini Pro 1.5 単純なタスク、高速応答、コス ト効率 • 軽量モデル: GPT-4o mini, Claude 3 Haiku, Gemini Flash 1.5 モデル選定のポイント • タスクが単純、複雑であるか • 高速応答 • コスト効率 • コンテキストサイズ • 知識カットオフ • レートリミット リクエスト数/分(RPM)、トークン数/ 分(TPM)、トークン数/日(TPD)

Slide 14

Slide 14 text

14 AIモデル(基盤モデル)の比較(2024/7時点) AIサービス AIモデル 主な用途 価格(入力/出力 per 1M tokens) コンテキスト 最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチ モーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタ スク $0.15 / $0.60 128K Claude Claude 3.5 Sonnet 高性能とコストを両立 $3.00 / $15.00 200K (出力4K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K(~1M) Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K(~1M) 複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トーク ンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる

Slide 15

Slide 15 text

15 AIモデル(基盤モデル)の比較(2024/7時点) AIサービス AIモデル 主な用途 価格(入力/出力 per 1M tokens) コンテキスト 最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチ モーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタ スク $0.15 / $0.60 128K Claude Claude 3.5 Sonnet 高性能とコストを両立 $3.00 / $15.00 200K (出力4K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K(~1M) Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K(~1M) 複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トーク ンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる Google(Vertex AI) AWS(Bedrock)

Slide 16

Slide 16 text

プロンプトエンジニアリング 16

Slide 17

Slide 17 text

17 プロンプトとは プロンプトとは、生成AIに与える指示や入力のことを指し ます。プロンプトは、AIモデルに実行してほしいタスクを 記述した指示文や自然言語テキストです。 • プロンプトの改善は、直ちに効果が確認できる • AIモデルのチューニングやRAGシステムの構築などと比 較して、プロンプトの改善効果は費用対効果が高い • 事実に基づかない情報を生成(ハルシネーション)の抑制 生 成 エ イ ア イ は プ ロ ン プ ト に 始 ま り プ ロ ン プ ト に 終 わ る

Slide 18

Slide 18 text

18 プロンプトとは 生成AIに対して、適切なプロンプトを与えないと、 • AIモデルとのやり取り増加によるコスト増 • 生成AIから創造的で有用な結果を得られない • 期待する結果が安定して返らない • 出力する内容や品質の低下 後は、 いい感じで ヨロシク♪ コノヒト、 ナニ、 イッテルノ?

Slide 19

Slide 19 text

19 プロンプトエンジニアリングとは プロンプトエンジニアリングは、AIモデルから期待する出力を得るため に、入力するプロンプト(指示文)を設計・最適化するプロセスです。 主に大規模言語モデル(LLM)とのコミュニケーションに使用され、AIモ デルが解釈し理解できるように指示を構造化する技術です。 • 状況・背景: タスクに関連する追加情報 • 例. 「あなたは経験豊富なマーケティングコンサルタントです」 • 命令・指示: AIモデルに実行してほしいタスクの内容 • 例. 「次の問題に対する解決策を3つ提案してください」 • 入力データ: 具体的な処理対象となるデータ • 例. 「以下の顧客アンケート結果を分析してください:[アンケートデータ]」 • 出力形式: 期待する回答の形式や構造 • 例. 「結果を表形式で示し、各項目に対して100字以内で説明を加えてください」

Slide 20

Slide 20 text

20 代表的なプロンプトエンジニアリングの手法 AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニア リングの手法を適切に組み合わせることが重要です。 Zero-Shot Prompting • 具体的な例(ショット)を提供せずに、 モデルに直接タスクを実行する最もシン プルな手法 犬: dog 机: desk 車: car りんご: アメリカ合衆国の首都は? Few-Shot Prompting • 少数の例(ショット)を提供することで、 特定のタスクを実行する手法 ワシントンD.C りんご: apple

Slide 21

Slide 21 text

21 代表的なプロンプトエンジニアリングの手法 AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニア リングの手法を適切に組み合わせることが重要です。 Chain-of-Thought Prompting • 中間的な推論ステップを提供することで、複雑な推論能力を向上させる手法 このグループの奇数を合計すると偶数になります。: 4、8、9、15、12、2、1。 A: 奇数を全て加えると(9, 15, 1)25になります。答えはFalseです。 このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: 奇数を全て加えると(15, 5, 13, 7, 1) 41になります。答えはFalseです。

Slide 22

Slide 22 text

22 その他のプロンプト作成方法 AIモデルを効果的に使用するため、適切なプロンプトをAIモデル自身に 作成させるメタプロンプトという手法もあります。 お客様との打ち合 わせを文字起こし したテキストがあ ります。このテキ ストから議事録を 作成するための Claude3用のプロ ンプトを作成して ください。 あなたは経験豊富な議事録作成の専門家です。以下の文字起こしテキストを基に、簡潔で 明確な議事録を作成してください。 議事録作成の際は、以下の点に注意してください: 1. 会議の基本情報(日時、場所、参加者、目的)を冒頭に記載する 2. 主要な議題や決定事項を明確に特定し、箇条書きで記載する 3. 各議題について、主な議論のポイントや結論を簡潔にまとめる 4. 重要な行動項目やフォローアップ事項を特定し、担当者と期限を明記する 5. 技術的な用語や略語は、必要に応じて簡単な説明を付ける 6. 議論の流れや文脈を保ちつつ、冗長な部分は省略する 7. 客観的な表現を使用し、個人的な意見や感情的な表現は避ける 最後に、次回の会議日程や未解決の問題点があれば記載してください。 文字起こしテキスト: [ここに文字起こしテキストを挿入] 上記の指示に従って、プロフェッショナルな議事録を作成してください。

Slide 23

Slide 23 text

23 プロンプトは生成AIにおける「要件定義」 プロンプトは生成AIにとっての要件定義と言えます。要件定義で培われ たプラクティスは、生成AIのプロンプトの質の向上に活かせます。 指示の明確化 • プロンプトエンジニアリングでは生成AIが達成すべき出力を明確にし ます。 詳細な指示の提供 • プロンプトエンジニアリングでは具体的なプロンプトを設計して生成 AIに提供します。 反復的なプロセス • プロンプトエンジニアリングでは、最初のプロンプトは不完全である ことが多く、反復的に修正・改善が行われます。

Slide 24

Slide 24 text

RAG(Retrieval-Augmented Generation) 24

Slide 25

Slide 25 text

25 生成AIの課題 AIモデルは学習したデータに基づき、一般的な回答を生成します。その ため、データが存在しない場合に以下の問題が発生します。 ハルシネーション • 誤った情報を生成する 曖昧な応答 • モデルは一般的な知識を持つが、社内情報のような特定ドメインの情 報に関しては持たない生成が難しい ナレッジカットオフ • モデルの知識が学習時点のため古いため、古く誤った情報を生成して しまう

Slide 26

Slide 26 text

26 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必 要です。 方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3. AIモデルに存在しない知識の補完 上から順に、学習の複雑さやコスト、時間を要します。

Slide 27

Slide 27 text

27 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必 要です。 方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3. AIモデルに存在しない知識の補完 1と2はAIモデルのパラメータを変更する方法。自社で独自のデータセ ットを用意して、AIモデルのトレーニングをする学習プロセスの管理が 必要です。

Slide 28

Slide 28 text

28 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必 要です。 方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3. AIモデルに存在しない知識の補完(プロンプト+RAG) 検索拡張生成(RAG: Retrieval-Augmented Generation) 3の方法は、AIモデルトレーニングはせずに、実行したいタスクに関連す るAIモデルが持たない情報をプロンプトとして含めることで、知識を補 完して、タスクを実行する方法。

Slide 29

Slide 29 text

29 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。

Slide 30

Slide 30 text

30 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。

Slide 31

Slide 31 text

31 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。

Slide 32

Slide 32 text

32 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。

Slide 33

Slide 33 text

33 通常の Naïve RAG と Advanced RAG 通常のNaïve RAG の Retrieval(検索)のプ ロセスに検索前処理 (pre-retrieval) と 検 索後処理 (post- retrieval) を加え、検 索の精度の向上させる 手法を Advanced RAGという。 引用: Amazon Web Services ブログ Amazon Kendra と Amazon Bedrock で構成した RAG システムに対する Advanced RAG 手法の精度寄与検証

Slide 34

Slide 34 text

34 データが表す意味を表現する方法「ベクトル化」 文章のような非構造化データから「データが表す意味」を表現する方法 として、ベクトル化がありベクトル埋め込みを用いてデータを数値で表 現します。ベクトル化されたデータはベクトルDBに保存されます。 • ベクトル化では、ベクトル埋め込みを用いてデータを数値で表現する • テキスト情報を数値化、単語間の意味とその関係性を表現できる • ベクトル埋め込みとは、データの意味や関係性を表現した数値化され た形式のことを指す • ベクトル化されたデータは、ユーザーの入力に意味的に近い要素を検 索するのに特化したベクトルDBに保存して利用する • 意味的検索(セマンティックサーチ)と呼び、ユーザーの入力内容に 対して類似度の高いデータを返すことができる

Slide 35

Slide 35 text

生成AIを支えるデータ分析基盤 35

Slide 36

Slide 36 text

36 生成AIによるビジネス価値の創出 生成AIは単なる「新しい技術」ではなく、ビジネス価値を創出するため の強力なツールであり、その応用方法と成果に注目することが本質です。

Slide 37

Slide 37 text

37 生成AIによるビジネス価値の創出 生成AIは単なる「新しい技術」ではなく、ビジネス価値を創出するため の強力なツールであり、その応用方法と成果に注目することが本質です。 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール ガバナンスツール

Slide 38

Slide 38 text

38 生成AIによるビジネス価値の創出 生成AIは単なる「新しい技術」ではなく、ビジネス価値を創出するため の強力なツールであり、その応用方法と成果に注目することが本質です。 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール ガバナンスツール

Slide 39

Slide 39 text

39 生成AIによるビジネス価値の創出 ビジネスに生成AIを導入する際には、こうした全体像を踏まえたアプロ ーチが重要になります。 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール ガバナンスツール 大量のデータを格納するためのストレージ 非構造化データも含めた大規模データの保管するデータストア ビジネス分析に最適化されたデータ保管・管理するデータベース 構造化されたデータを効率的に管理・利用するためのデータベース 異なるデータソースを連携させるためのソリューション データの品質管理や規制遵守を確保するための仕組み

Slide 40

Slide 40 text

40 生成AIによるビジネス価値の創出 生成AIは、データは競合他社と差別化するために、質が高く、大量のデ ータをいつでも利用可能なデータ分析基盤が欠かせません。 大量のデータを格納するためのストレージ 非構造化データも含めた大規模データの保管するデータストア ビジネス分析に最適化されたデータ保管・管理するデータベース 構造化されたデータを効率的に管理・利用するためのデータベース 異なるデータソースを連携させるためのソリューション データの品質管理や規制遵守を確保するための仕組み 生成AI アプリケーション データ分析基盤 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール ガバナンスツール

Slide 41

Slide 41 text

41 生成AIにおけるデータ分析基盤 ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 42

Slide 42 text

42 生成AIにおけるデータ分析基盤(RAG) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 43

Slide 43 text

43 生成AIにおけるデータ分析基盤(フロントエンド) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 44

Slide 44 text

44 生成AIにおけるデータ分析基盤(バックエンド) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 45

Slide 45 text

45 生成AIにおけるデータ分析基盤(データ統合) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 46

Slide 46 text

46 生成AIにおけるデータ分析基盤(データガバナンス) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス

Slide 47

Slide 47 text

データ分析基盤を支える生成AI 47

Slide 48

Slide 48 text

48 生成AIによるデータ分析支援機能の潮流 昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支 援するサービスが次々と提供されています。今後は他のサービスへの拡 大、機能拡充、日本語対応などが期待されます。 ロール 機能 名前 ビジネスユーザー データ分析と可視化 Generative BI in Amazon QuickSight データアナリスト SQLクエリの生成 Amazon Q Generative SQL in Amazon Redshift Query Editor データエンジニア ETL処理の支援 Amazon Q data integration in AWS Glue データスチュワート データマネジメント Al recommendations for descriptions in Amazon DataZone

Slide 49

Slide 49 text

生成AIとデータ分析基盤の今後 49

Slide 50

Slide 50 text

50 今後のデータ分析基盤 データ分析基盤は生成AI活用の源泉 • データは競合他社と差別化するために不可欠であるため、生成AI導入 の前提として、データ分析基盤の重要性が高まる • 生成AIを効果的に活用するためには、大量で質の高い、いつでも利用 可能なデータを準備する必要がある データ分析基盤開発においても生成AIスキルが求められる • 開発に生成AIを活用することで、開発効率や質の向上が期待できるた め、データエンジニアにとっても欠かせないスキルとなる 生成AIに最適化した新たなデータ分析基盤の設計・開発力 • AIが回答をするのに必要な環境、データを準備できるカが必要

Slide 51

Slide 51 text

51 今後の分析業務変化 生成AIによるデータ分析の効率化や高度化に伴い、データ分析の民主化 が加速する • 生成AIが雛形を作成、例示が進むことで技術的ハードルが下がる • ビジネスユーザー、データアナリスト、データエンジニアの同化がよ り一層進む可能性がある • データの理解と生成AIに問い合わせるプロンプトテクニックが求めら れる • データ分析の高度化に伴い、ドメインに対する深い理解必要

Slide 52

Slide 52 text

おわりに 52

Slide 53

Slide 53 text

No content

Slide 54

Slide 54 text

54