ChatGPT/OpenAI問わず生成AI関連サービス構築方法・応用例を紹介する

Slide 1

Slide 1 text

ChatGPT／OpenAI問わず生成AI関連サービス構築方法・応用例を紹介する 2023年07月28日大原陽宣

Slide 2

Slide 2 text

Who am i 2 名前：大原陽宣（Hironobu Ohara）ロール：Public Cloud Customer Reliability Engineer（CRE） ※ Amazon Web Services、Alibaba Cloud、Google Cloud、Azureなどの技術検証や、お客さまからのCloud上での疑問点をなくす取り組みをしています技術領域：データベース、データ分析、ストリーミング、Kubernetes、IaC、サーバレス、機械学習（異常検知、 In-Database Analytics、検索技術系） Apache HBaseやHive、Impala、IcebergなどのASFやTrinoDB、ClickHouseなどの OSSに貢献したり、最近は育児の合間にCNCF Landscapeのデータベース開発を手伝っています最近の実績：ソフトバンクグループ企業間での生成AIコンテスト1回目で2位

Slide 15

Slide 15 text

ニューラル検索：Neural Search 15 Retriever 検索基盤 ②質問・クエリ ⑨回答返却 ④類似度で関連文抽出 ⑤関連文返却 Reader ③検索クエリ ⑥関連文 ⑦質問文と関連文 ⑧関連性の高い答えを抽出しながら回答 ①高次元ベクトル化ニューラル検索の流れ： 1. Transformerモデル（BERTやGPTなど）を使用しながら、データセット内の全てのテキスト文を高次元ベクトルデータに変換 2. ユーザ質問文も同様ベクトル化し、データセット内のテキスト文と比較可能な形に揃えてから、関連性のあるテキスト文を検索（Retriever） 3. 関連性の高い情報から、具体的な回答を生成（Reader）特徴：  セマンティック検索の上位版であり、ユーザの質問に対する具体的な回答を生成可能  キーワードではなく、クエリと文書の意味的な関連性を考慮  データを表現するためにニューラルネットワーク（深層学習）を使用しながら、それらの表現間の類似性（または距離）を計算するため、モデル学習には大量の訓練データが必要で計算負荷が高い質問（クエリ）と回答例：  “ドラゴンボールZのセル編の概要を教えてください。” ⇒最強の戦士の遺伝子からDr.ゲロによって作られた人工生命体セルとの孫空とその仲間たちの戦いを中心に展開する。セルは完璧な姿になり地球を破壊することを目指し、数々の戦いと悟飯のスーパーサイヤ人2への変身を引き起こす。  “ドラゴンボールにおけるパワーレベルと変身の関係は？” ⇒ドラゴンボールでは、変身はしばしばパワーレベルの大幅な上昇を表す。例えば、サイヤ人がスーパーサイヤ人に変身すると、そのパワーレベルは倍増する。しかし、変身にはより大きなエネルギーコントロールが必要で、長時間使用すると体に負担がかかる。  “ドラゴンボールはどういう意味ですか？” ⇒ドラゴンボールは、すべて集めると神龍が現れて任意の願いを一つだけ叶えてくれるという、シリーズの中心的なアイテム。

Slide 32

Slide 32 text

Query-Guided Generation 32 全体的な流れ：  ユーザからの質問を処理し、その意味を解釈・理解しながら、生成したい回答文を実現するクエリを作成（質問文に対する補完）  Retrieverが解釈済の質問に対し、可能性のある関連文を検索  ReaderはRetrieverが見つけた関連文から質問に対する適切な回答内容を人間の文章として自然言語ベースで生成、返却特徴： クエリに対する具体的な回答文をカスタマイズ生成するため、ユーザが望んでいる情報をより正確に回答 一部のモデルでは、一度に多くの情報を探索し、それに基づいて最適な回答を生成するため、データ利用が向上 複雑な質問や抽象的な指示に対する理解が難しく、また訓練データにない質問や情報に対する対応が難しい場合がある質問（クエリ）と回答例：  “孫悟空の妻は誰ですか？” ⇒孫悟空の妻はチチです。彼女はオックスキングの娘で、ドラゴンボールシリーズでは二人の子供、孫悟飯と孫悟天の母としても知られています。  “ドラゴンボールの原作でクリリンを殺したのは誰ですか？” ⇒ドラゴンボールの原作では、クリリンは初めてピッコロ大魔王の手下であるタンバリンによって殺されます。その後、ドラゴンボールによって復活します。 Retriever 検索基盤 ①質問・クエリ ⑪回答返却 ⑤関連のある文を抽出 ⑥関連文返却 Generation AI (LLM) ④検索クエリ ⑦関連文 ②質問文の理解と解釈 ③検索に必要な質問クエリ文を作成 Reader ⑧質問文と関連文 ⑨回答に必要で自然な文章を生成 ⑩質問に対する回答

Slide 36

Slide 36 text

LLM導入でどれだけ精度があがったか？ 36 質問：孫悟空の妻は誰ですか？質問：ドラゴンボールZのセル編の概要を教えてください。質問：ドラゴンボールのクリリンを殺したのは誰ですか？ Non- LLM セマンティック検索牛魔王の娘・チチと再会しその場で結婚人造人間・セル編フリーザニューラル検索試合では、少年時代に出会った際に「嫁にもらう」と約束していた牛魔王の娘・チチと再会しその場で結婚。人造人間17号と人造人間18号を吸収することで完全体となったセルは地球の命運を賭けた武道会「セルゲーム」の開催を全世界に宣言する。悟空らは天界にある1日で1 年の修行が行えるも過酷な環境に晒される「精神と時の部屋」で修行し、強さを増してセルゲームに臨むが、悟空はこのセルとの闘いの中で地球を守るために命を落とす。だが、その遺志を受け継いだ息子・悟飯が超サイヤ人2へと覚醒、父・悟空の幻影と共にかめはめ波を放ちセルを撃破。セルゲームを制した悟飯たちは、ドラゴンボールによりセルに殺された人々を蘇生させるが、悟空は自分が悪人を引き寄せているという理由で生き返りを拒否し、あの世に残ることを選ぶ。彼がタンバリンに殺された時には悟空はただちに仇討に向かい「ぶっ殺してやる!!」とタンバリンに突撃。質疑応答検索チチセルという名前の敵が登場しながらセルゲームをします。タンバリン Use LLM Retrieval Augmented Generation 孫悟空の妻はチチです。彼女はオックスキングの娘で、二人は結婚し、二人の子供を育てました。ドラゴンボールZのセル編では、セルという生物が地球に現れ、自身を強化するために他の生物の力を吸収します。彼は最終的にパーフェクトセルとして自己進化し、孫悟飯との壮絶な戦闘を繰り広げます。この戦いの中で孫悟飯はスーパーサイヤ人2に変身し、最終的にセルを倒します。ドラゴンボールの原作では、クリリンはタンバリンによって初めて殺されました。そのあと、フリーザによって殺されました。 Query-Guided Generation 孫悟空の妻はチチです。彼女はオックスキングの娘で、ドラゴンボールシリーズでは二人の子供、孫悟飯と孫悟天の母としても知られています。セル編は、バイオロジカルアンドロイドのセルが登場するストーリーラインです。セルは、地球を破壊するために来たが、その目的は究極の力を得て完全体になることです。彼は途中で様々な戦士を吸収し、その力を吸収して強くなります。この編では孫悟空が超サイヤ人を超える新たな形態、超サイヤ人2になる悟飯の力が発揮されます。最終的に悟飯は父の助けを借りてセルを倒します。ドラゴンボールの原作では、クリリンは初めてピッコロ大魔王の手下であるタンバリンによって殺されました。その後、ドラゴンボールによって復活しました。 LLM導入前 LLM導入後

Slide 37

Slide 37 text

LLM導入でどれだけ精度があがったか？ 37 質問：孫悟空の妻は誰ですか？質問：ドラゴンボールZのセル編の概要を教えてください。質問：ドラゴンボールのクリリンを殺したのは誰ですか？ Non- LLM セマンティック検索牛魔王の娘・チチと再会しその場で結婚人造人間・セル編フリーザニューラル検索試合では、少年時代に出会った際に「嫁にもらう」と約束していた牛魔王の娘・チチと再会しその場で結婚。人造人間17号と人造人間18号を吸収することで完全体となったセルは地球の命運を賭けた武道会「セルゲーム」の開催を全世界に宣言する。悟空らは天界にある1日で1 年の修行が行えるも過酷な環境に晒される「精神と時の部屋」で修行し、強さを増してセルゲームに臨むが、悟空はこのセルとの闘いの中で地球を守るために命を落とす。だが、その遺志を受け継いだ息子・悟飯が超サイヤ人2へと覚醒、父・悟空の幻影と共にかめはめ波を放ちセルを撃破。セルゲームを制した悟飯たちは、ドラゴンボールによりセルに殺された人々を蘇生させるが、悟空は自分が悪人を引き寄せているという理由で生き返りを拒否し、あの世に残ることを選ぶ。彼がタンバリンに殺された時には悟空はただちに仇討に向かい「ぶっ殺してやる!!」とタンバリンに突撃。質疑応答検索チチセルという名前の敵が登場しながらセルゲームをします。タンバリン Use LLM Retrieval Augmented Generation 孫悟空の妻はチチです。彼女はオックスキングの娘で、二人は結婚し、二人の子供を育てました。ドラゴンボールZのセル編では、セルという生物が地球に現れ、自身を強化するために他の生物の力を吸収します。彼は最終的にパーフェクトセルとして自己進化し、孫悟飯との壮絶な戦闘を繰り広げます。この戦いの中で孫悟飯はスーパーサイヤ人2に変身し、最終的にセルを倒します。ドラゴンボールの原作では、クリリンはタンバリンによって初めて殺されました。そのあと、フリーザによって殺されました。 Query-Guided Generation 孫悟空の妻はチチです。彼女はオックスキングの娘で、ドラゴンボールシリーズでは二人の子供、孫悟飯と孫悟天の母としても知られています。セル編は、バイオロジカルアンドロイドのセルが登場するストーリーラインです。セルは、地球を破壊するために来たが、その目的は究極の力を得て完全体になることです。彼は途中で様々な戦士を吸収し、その力を吸収して強くなります。この編では孫悟空が超サイヤ人を超える新たな形態、超サイヤ人2になる悟飯の力が発揮されます。最終的に悟飯は父の助けを借りてセルを倒します。ドラゴンボールの原作では、クリリンは初めてピッコロ大魔王の手下であるタンバリンによって殺されました。その後、ドラゴンボールによって復活しました。

Slide 38

Slide 38 text

LLM導入でどれだけ精度があがったか？ 38 質問：孫悟空の妻は誰ですか？質問：ドラゴンボールZのセル編の概要を教えてください。質問：ドラゴンボールのクリリンを殺したのは誰ですか？ Non- LLM セマンティック検索牛魔王の娘・チチと再会しその場で結婚人造人間・セル編フリーザニューラル検索試合では、少年時代に出会った際に「嫁にもらう」と約束していた牛魔王の娘・チチと再会しその場で結婚。人造人間17号と人造人間18号を吸収することで完全体となったセルは地球の命運を賭けた武道会「セルゲーム」の開催を全世界に宣言する。悟空らは天界にある1日で1 年の修行が行えるも過酷な環境に晒される「精神と時の部屋」で修行し、強さを増してセルゲームに臨むが、悟空はこのセルとの闘いの中で地球を守るために命を落とす。だが、その遺志を受け継いだ息子・悟飯が超サイヤ人2へと覚醒、父・悟空の幻影と共にかめはめ波を放ちセルを撃破。セルゲームを制した悟飯たちは、ドラゴンボールによりセルに殺された人々を蘇生させるが、悟空は自分が悪人を引き寄せているという理由で生き返りを拒否し、あの世に残ることを選ぶ。彼がタンバリンに殺された時には悟空はただちに仇討に向かい「ぶっ殺してやる!!」とタンバリンに突撃。質疑応答検索チチセルという名前の敵が登場しながらセルゲームをします。タンバリン Use LLM Retrieval Augmented Generation 孫悟空の妻はチチです。彼女はオックスキングの娘で、二人は結婚し、二人の子供を育てました。ドラゴンボールZのセル編では、セルという生物が地球に現れ、自身を強化するために他の生物の力を吸収します。彼は最終的にパーフェクトセルとして自己進化し、孫悟飯との壮絶な戦闘を繰り広げます。この戦いの中で孫悟飯はスーパーサイヤ人2に変身し、最終的にセルを倒します。ドラゴンボールの原作では、クリリンはタンバリンによって初めて殺されました。そのあと、フリーザによって殺されました。 Query-Guided Generation 孫悟空の妻はチチです。彼女はオックスキングの娘で、ドラゴンボールシリーズでは二人の子供、孫悟飯と孫悟天の母としても知られています。セル編は、バイオロジカルアンドロイドのセルが登場するストーリーラインです。セルは、地球を破壊するために来たが、その目的は究極の力を得て完全体になることです。彼は途中で様々な戦士を吸収し、その力を吸収して強くなります。この編では孫悟空が超サイヤ人を超える新たな形態、超サイヤ人2になる悟飯の力が発揮されます。最終的に悟飯は父の助けを借りてセルを倒します。ドラゴンボールの原作では、クリリンは初めてピッコロ大魔王の手下であるタンバリンによって殺されました。その後、ドラゴンボールによって復活しました。生成AI-LLMで質問に対する回答表現・精度が向上

Slide 39

Slide 39 text

しかし・・・ 39 質問：孫悟空の妻は誰ですか？質問：ドラゴンボールZのセル編の概要を教えてください。質問：ドラゴンボールのクリリンを殺したのは誰ですか？ Non- LLM セマンティック検索牛魔王の娘・チチと再会しその場で結婚人造人間・セル編フリーザニューラル検索試合では、少年時代に出会った際に「嫁にもらう」と約束していた牛魔王の娘・チチと再会しその場で結婚。人造人間17号と人造人間18号を吸収することで完全体となったセルは地球の命運を賭けた武道会「セルゲーム」の開催を全世界に宣言する。悟空らは天界にある1日で1 年の修行が行えるも過酷な環境に晒される「精神と時の部屋」で修行し、強さを増してセルゲームに臨むが、悟空はこのセルとの闘いの中で地球を守るために命を落とす。だが、その遺志を受け継いだ息子・悟飯が超サイヤ人2へと覚醒、父・悟空の幻影と共にかめはめ波を放ちセルを撃破。セルゲームを制した悟飯たちは、ドラゴンボールによりセルに殺された人々を蘇生させるが、悟空は自分が悪人を引き寄せているという理由で生き返りを拒否し、あの世に残ることを選ぶ。彼がタンバリンに殺された時には悟空はただちに仇討に向かい「ぶっ殺してやる!!」とタンバリンに突撃。質疑応答検索チチセルという名前の敵が登場しながらセルゲームをします。タンバリン Use LLM Retrieval Augmented Generation 孫悟空の妻はチチです。彼女はオックスキングの娘で、二人は結婚し、二人の子供を育てました。ドラゴンボールZのセル編では、セルという生物が地球に現れ、自身を強化するために他の生物の力を吸収します。彼は最終的にパーフェクトセルとして自己進化し、孫悟飯との壮絶な戦闘を繰り広げます。この戦いの中で孫悟飯はスーパーサイヤ人2に変身し、最終的にセルを倒します。ドラゴンボールの原作では、クリリンはタンバリンによって初めて殺されました。 Query-Guided Generation 孫悟空の妻はチチです。彼女はオックスキングの娘で、ドラゴンボールシリーズでは二人の子供、孫悟飯と孫悟天の母としても知られています。セル編は、バイオロジカルアンドロイドのセルが登場するストーリーラインです。セルは、地球を破壊するために来たが、その目的は究極の力を得て完全体になることです。彼は途中で様々な戦士を吸収し、その力を吸収して強くなります。この編では孫悟空が超サイヤ人を超える新たな形態、超サイヤ人2になる悟飯の力が発揮されます。最終的に悟飯は父の助けを借りてセルを倒します。ドラゴンボールの原作では、クリリンは初めてピッコロ大魔王の手下であるタンバリンによって殺されました。その後、ドラゴンボールによって復活しましたが、フリーザに殺されました。 OpenAI Embeddingsを使った各種検索をしても、なぜ精度が上がらないのか？ ※答えは「タンバリン」と「フリーザ」、「魔人ブウ」、「人造人間17号（GT）」 ⇒

Slide 68

Slide 68 text

ベクトルデータへ変換し保存するデータ層はどこにすべきか？ 68 BM25 TF-IDF ベクトル化（Embedding）メリットデメリット Elasticsearch Support Support Support  Full-text検索エンジンとして高パフォーマンス  柔軟なデータスキーマとクエリDSL  水平スケーラビリティと高可用性  高次元ベクトルデータの処理には不向き  メモリやCPU等リソースを食いやすい FAISS × × Support  高次元のベクトルデータに対して高速ANN（近似最近傍探索：ANN）を提供  GPUの活用が可能で、大量のデータに対するスケーラビリティが高い  メモリ依存仕様なのでリソースを食いやすい  データの永続化や分散処理のための機能がシビア In-Memory Database（Redis等） Support Support Support  データへのアクセスが非常に高速で、低レイテンシ  データ構造が柔軟で、多様なデータ型を扱えれる  メモリ上にデータを保存およびデータ永続化の手段およびストレージ容量が限定的 chroma × × Support  高次元ベクトルデータに対して、高速でANN（近似最近傍探索）を提供  ベクトル表現に文脈情報をエンコードできるため、レコメンデーションや高度な検索が可能  比較的まだ新しいベクトルデータベースなので、ソースコードを解読しながら対応 PostgreSQL × Support pgvector プラグイン必須  ACID特性があり、トランザクションをサポート SQLクエリと関数をサポートし、高度な分析が可能  高次元ベクトルデータの処理には不向きスケールアウト（水平スケーリング）が困難 Qdrant × × Support  高次元ベクトルデータに対して、高速でANN（近似最近傍探索）を提供  大規模ベクトルデータベース対応、軽量で早い  比較的まだ新しいベクトルデータベースなので、ソースコードを解読しながら対応 Weaviate Support Support Support  自動的にデータをベクトル化し、ANN（近似最近傍探索）だけでなく機械学習による意味的な検索が可能  GraphQLやRESTful APIを介した直感的なクエリ言語を提供  Weaviate専用のカスタムクエリ言語があり、一部学習コストが生じる

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text