Slide 1

Slide 1 text

ChatGPT APIの Embedding カスタマイズ入門 伊串涼平 | Ryohei Igushi

Slide 2

Slide 2 text

ChatGPTの問題点

Slide 3

Slide 3 text

嘘つき!

Slide 4

Slide 4 text

ChatGPT使えないじゃん

Slide 5

Slide 5 text

そんなことない!

Slide 6

Slide 6 text

情報ソースを与える方法がある! 1.Fine-tuning ChatGPTモデル自体に情報を学習させる方法 2.Embedding 命令文(プロンプト)に情報を入れておく方法

Slide 7

Slide 7 text

Fine-tuning 大量のデータが必要でコストも高い。 GPT3までの対応。。 https://platform.openai.com/docs/guid es/fine-tuning/preparing-your-dataset

Slide 8

Slide 8 text

Embedding 今回はこちらに焦点を当てた話! https://platform.openai.com/doc s/guides/embeddings

Slide 9

Slide 9 text

Embeddingとは

Slide 10

Slide 10 text

なぜベクトル化するのか? コンピューターが言語データを効率的に扱うため 言語データ ベクトルデータ

Slide 11

Slide 11 text

ベクトルの使用例 Google検索は、ベクトル検索だから速い。 https://cloud.google.com/blog/ja /topics/developers- practitioners/find-anything- blazingly-fast-googles-vector- search-technology

Slide 12

Slide 12 text

ベクトル検索の仕組み 「りんご」 「りんご」の情報 ベクトルデータベース ベクトル化 (Embedding) 一番近いベクトルの情報を取って、高速で返却

Slide 13

Slide 13 text

ベクトル検索で、 どう独自データを扱うの?

Slide 14

Slide 14 text

次のスライドが超重要

Slide 15

Slide 15 text

ChatGPT バックエンド 「日本の首相は誰?」 ①「日本の首相は誰?」をベクトル化 ②一番近い文脈をデータベースから取得 ③文脈を加えたプロンプトをChatGPTに投げる 自作の データベース ユーザー プロンプト 文脈に沿って、質問に答えてください 文脈 : { 日本の首相は岸田文雄です。 1957年7月29日生まれで、65歳で す。・・・} 質問 : { 日本の首相は誰?} 答え : 答え:日本の首相は岸田文雄です プロンプトに文脈を埋め込む!

Slide 16

Slide 16 text

概念がわかったので 作ってみましょう!

Slide 17

Slide 17 text

Embeddingの使い方 実は、Tutorialで解説されている!詳しくはそちらで https://platform.openai.com/doc s/tutorials/web-qa-embeddings

Slide 18

Slide 18 text

Embeddingの使い方 text-embedding-ada-002モデルを利用 ①事前にデータベースを全てベクトル化して保存

Slide 19

Slide 19 text

Embeddingの使い方 ②今回の質問もベクトル化

Slide 20

Slide 20 text

Embeddingの使い方 ③質問とデータベースのベクトル距離を計算

Slide 21

Slide 21 text

Embeddingの使い方 ④関連度順に並べて、近いものを文脈として返却

Slide 22

Slide 22 text

Embeddingの使い方 ⑤プロンプトに質問と文脈を埋め込んで完了!

Slide 23

Slide 23 text

カスタマーサポートに 応用してみた!

Slide 24

Slide 24 text

準備 大量のFAQ情報をベクトル化

Slide 25

Slide 25 text

デモ https://youtu.be/KEz-Phz9aus

Slide 26

Slide 26 text

Embedding系サービスはどんどん登場 Chatbase ChatPDF chatbase.co chatpdf.com

Slide 27

Slide 27 text

Embedding大変そう

Slide 28

Slide 28 text

すごいライブラリがある!

Slide 29

Slide 29 text

LlamaIndex Embeddingを簡単に利用できる! https://github.com/jerryjliu/ llama_index

Slide 30

Slide 30 text

これだけで動く

Slide 31

Slide 31 text

LlamaHub あらゆる独自データを連携できるコードが公開中!! https://llamahub.ai/

Slide 32

Slide 32 text

ChatGPTの展開 Input Output

Slide 33

Slide 33 text

ChatGPTの展開 Input Output 独自データ Embedding, LlamaIndex

Slide 34

Slide 34 text

ChatGPTの展開 Input Output 独自データ 行動ができる Plugin, LangChain Embedding, LlamaIndex

Slide 35

Slide 35 text

ChatGPTの展開 Input Output 独自データ Plugin, LangChain Embedding, LlamaIndex 画像・音声も取り込み GPT4, Whisper 行動ができる

Slide 36

Slide 36 text

ChatGPTの展開 Input Output 独自データ Plugin, LangChain Embedding, LlamaIndex 画像・音声も取り込み GPT4, Whisper 画像・音声の出力 StableDiffusion, Midjourney RVC, EllevenLab, Play.ht 行動ができる

Slide 37

Slide 37 text

ChatGPTの展開 Input Output 独自データ Plugin, LangChain Embedding, LlamaIndex 画像・音声も取り込み GPT4, Whisper 自分で修正できる Auto-GPT, BabyAGI 画像・音声の出力 StableDiffusion, Midjourney RVC, EllevenLab, Play.ht 行動ができる

Slide 38

Slide 38 text

おまけ

Slide 39

Slide 39 text

AI面接官をリリース いいね!RTお願いします!

Slide 40

Slide 40 text

AI面接官の技術構成 Input Output 音声入力 Speech to Text Deepgram Azure 音声出力 Text to Speech

Slide 41

Slide 41 text

凄い技術の波が来ている。 どんどん開発しましょう!

Slide 42

Slide 42 text

自己紹介: 伊串涼平 東大法卒、三井物産でロンドン勤務を経て退職 後、東大FoundXに参加。G's ACADEMYを経て、 カスタマーサポートAI、AI面接官を開発中。 @ryoheiigushi ・ChatGPT活用に興味がある企業の方 ・開発に興味があるエンジニアの方 ぜひご連絡ください!