Slide 1

Slide 1 text

GraphRAGの仕組みまるわかり JAWS-UG AI/ML #27:Generative AI / ML LT大会

Slide 2

Slide 2 text

とすり@tosuri13 自称雑用系エンジニア
 AWS基盤の運用とかをやってます

Slide 3

Slide 3 text

GraphRAGの仕組みを理解しよう!

Slide 4

Slide 4 text

GraphRAGとは? GraphRAGとは、ある知識をグラフで表現したナレッジグラフを活用して、コ ンテキストの探索 + テキスト生成までを行うRAG手法の一つです。 ユーザ LLM ナレッジグラフ JAWS-UGについて教えて! ナレッジグラフを探索してきますネ

Slide 5

Slide 5 text

ナレッジグラフってなんなんだ...? これがナレッジグラフだ!

Slide 6

Slide 6 text

ナレッジグラフを構成する要素 ナレッジグラフは、実体を表すエンティティと関係性を表すリレーションの集 合で構成されています。補足情報としてプロパティを追加することもできます。 サメ 海 生息する 丸がエンティティ(Node)、矢印がリレーション(Edge)
 このような「主語 → 述語 → 目的語」となる組をトリプルという プロパティの例 Entity ID ・a94d-be14... Description ・サメは危険な生物で... Vector ・[0.15, 0.43, ...] Entity ID ・a94d-be14... Description ・サメは危険な生物で... Vector ・[0.15, 0.43, ...] サメ

Slide 7

Slide 7 text

ナレッジグラフの利用 ナレッジグラフは、Neo4j、Amazon NeptuneなどのGraphDBに格納して利用 します。また、CypherなどのグラフDB向けクエリ言語を用いることで、ナ レッジグラフ内の要素を探索することが可能です。 Cypher Query MATCH (n:Entity { value: "サメ" })-[r]->(m) RETURN n, r, m Cypher Query MATCH (n:Entity { value: "サメ" })-[r]->(m) RETURN n, r, m サメ 海 生息する サメ 海 生息する GraphDB サメのEntityから始まるトリプルを探索

Slide 8

Slide 8 text

GraphRAGは何を解決するの? GraphRAGではナレッジグラフの探索により、従来のRAG(Native RAG)で発生す る断片的な情報しか取得できないという課題を緩和することができます。 JAWS-UG AWS サメ 勉強会 関連する 運営する 開催する アイコンを持つ Amazon 日本のAWSコミュニティで〜 サメをモチーフにしたロゴ サメをモチーフにしたロゴ 勉強会の開催を行なっている 日本のAWSコミュニティ 日本のAWSコミュニティ サメ好きの集団らしいでス 意味的類似性のみしか考慮しないため、
 関連するコンテキストを取得できないことがある ナレッジグラフを探索することによって、
 関連するコンテキストを取得できる!!

Slide 9

Slide 9 text

GraphRAGの具体的な処理を見てみよう!!

Slide 10

Slide 10 text

GraphRAGの難解ポイント ① どうやってドキュメントからナレッジグラフを構築するの? ② どうやってナレッジグラフから関連するコンテキストを取得するの? ① ② ドキュメント ナレッジグラフ LLMアプリケーション この2つの処理はAIフレームワークで特に隠蔽されてしまいがちな部分...
 (LangChainのLLMGraphTransformerなどはお世話になった人も多いはず)

Slide 11

Slide 11 text

ナレッジグラフの構築について

Slide 12

Slide 12 text

ナレッジグラフの構築について ドキュメントが構造化されているかどうかで、ナレッジグラフの構築に使用す るトリプルの抽出方法が大きく変わります。 ・構造化ドキュメント
  - CSV(Excel)、JSON、Parquetなど  - コードベースや章立てされたファイルなどにも対応できる ・非構造化ドキュメント  - PDF、Markdown、Word、プレーンテキストなど

Slide 13

Slide 13 text

ナレッジグラフの構築 (構造化) 構造化されたドキュメントの場合、ドキュメントに含まれる行と列の関係や階 層構造に着目してトリプルを手動で抽出します。 君の名は 新海誠 DIRECTED_BY 君の名は 新海誠 DIRECTED_BY 最終的に実現したい内容によって
 グラフの構造を決定する必要がある

Slide 14

Slide 14 text

ナレッジグラフの構築 (構造化の派生) グラフとして表現できるナレッジであれば何でもよく、木構造で表現できる コードベースなどをトリプルとして抽出することもできます。 root src xxx.py README yyy.py src xxx.py yyy.py CONTAINS CONTAINS src xxx.py yyy.py CONTAINS CONTAINS プロパティにコードや要約などを入れておくとよい

Slide 15

Slide 15 text

ナレッジグラフの構築 (非構造化) 非構造化ドキュメントの場合、トリプルをアルゴリズムで抽出するのは困難で あるため、LLMを活用してチャンクからトリプルを抽出します。 LLMを利用して抽出 Claudeを使った抽出例

Slide 16

Slide 16 text

コンテキストの取得方法について

Slide 17

Slide 17 text

コンテキストの取得方法はたくさんある! ナレッジグラフからコンテキストを取得する方法は、AIフレームワーク・サー ビスごとに大きく異なります。今回は代表的なものを二つ紹介します。 ・クエリ生成パターン
  - LangChain(GraphCypherQAChain)が採用しているパターン
 ・グラフ探索パターン  - Mastra、Knowledge Basesが採用しているパターン

Slide 18

Slide 18 text

コンテキストの取得 (クエリ生成パターン) LLMにCypherクエリを生成させてナレッジグラフを探索する方法です(T2C)。 対象となるナレッジグラフが比較的単純で小規模な場合に有効です。 Searchable Triplets (Company) - [OPERATES] -> (Service) (Community) - [RELATED_TO] -> (Service) (Community) - [ORGANIZES] -> (Event) (Community) - [HAS_ICON] -> (Motif) Searchable Triplets (Company) - [OPERATES] -> (Service) (Community) - [RELATED_TO] -> (Service) (Community) - [ORGANIZES] -> (Event) (Community) - [HAS_ICON] -> (Motif) Cypher Query MATCH (:Community)-[:HAS_ICON] -> (m) RETURN m.value Cypher Query MATCH (:Community)-[:HAS_ICON] -> (m) RETURN m.value LLM 検索可能なトリプルのリスト
 (クエリで取得 or 事前に定義する) LLMが生成したCypherクエリを実行する このクエリを実行してくださイ

Slide 19

Slide 19 text

コンテキストの取得 (グラフ探索パターン) ベクトル・キーワード検索で取得したノードの近隣を探索する方法です。テキ スト生成モデルを使用しないため、レイテンシ・コストの面で優れています。 JAWS-UG AWS サメ 勉強会 関連する 運営する 開催する Amazon Cypher Query MATCH (start)--(neighbor)
 WHERE start.nodeId = $nodeId
 RETURN neighbor LIMIT 5 Cypher Query MATCH (start)--(neighbor)
 WHERE start.nodeId = $nodeId
 RETURN neighbor LIMIT 5 アイコンを持つ 一番近いノードはこれでス Mastraなど検索前にベクトルDBから
 グラフを構築するパターンもあります ベクトル検索で得られたノードの
 近隣ノードを探索するクエリ

Slide 20

Slide 20 text

その他、GraphRAGに関する情報

Slide 21

Slide 21 text

GraphRAGの課題 ・有効なナレッジグラフを構築するのが難しい!
  → ドキュメントの性質に大きく依存するため、汎用的な処理では上手く取り 扱えないことが多い  → 対象となるドキュメントと地道に向き合う必要がある ・Native RAGと比較してコストが高い!  → 特にナレッジグラフの構築には、LLMを使用した処理が大量に挟まるため 大きなコストがかかる
  → 個人でGraphRAGを検証する場合は要注意

Slide 22

Slide 22 text

AWSが提供している高度なGraphRAG AWS公式からGraphRAG Toolkitというフレームワークが公開されています。
 より高度なグラフ構築・検索を利用したい方はチェックしてみてください。

Slide 23

Slide 23 text

まとめ

Slide 24

Slide 24 text

今回は、ナレッジグラフの構築から探索まで、GraphRAGの細かい仕組みにつ いて紹介しました。 一見難しく見えるその仕組みも、実際にリポジトリを観察する、触ってみる、 自分で実装してみるなどすると一気に理解が深まるので、ぜひご自身で試して みてください! まとめ

Slide 25

Slide 25 text

Thank you for listening!! 定期的にAI・クラウド系の技術発信をしてるので、よかったらTwitterフォローしてください。 @tosuri13