BASTA! 2024: Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen

Slide 1

Slide 1 text

Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Sebastian Gingter [email protected] Developer Consultant

Slide 2

Slide 2 text

▪ Was Sie ERWARTET ▪ Hintergrundwissen und Theorie zu RAG ▪ Überblick über Semantische Suche ▪ Probleme die auftreten können ▪ Pragmatische Methoden für die Verwendung eigener Daten im RAG ▪ Demos (Python) ▪ Was Sie NICHT erwartet ▪ ChatGPT, CoPilot(s) ▪ Grundlagen von ML ▪ Deep Dives in LLMs, Vektor-Datenbanken, LangChain Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen

Slide 3

Slide 3 text

▪ Generative AI in business settings ▪ Flexible and scalable backends ▪ All things .NET ▪ Pragmatic end-to-end architectures ▪ Developer productivity ▪ Software quality [email protected] @phoenixhawk https://www.thinktecture.com Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Sebastian Gingter Developer Consultant @ Thinktecture AG

Slide 4

Slide 4 text

Special Day Generative AI für Business-Anwendungen Thema Sprecher Datum, Uhrzeit Large Language Models: Typische Use Cases & Patterns für Business- Anwendungen - in Action Christian Weyer DI, 17. September 2024, 10.45 bis 11.45 Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Sebastian Gingter DI, 17. September 2024, 12.15 bis 13.15 Von 0 zu Smart: SPAs mit Generative AI aufwerten Max Marschall DI, 17. September 2024, 15.30 bis 16.30 Deep Dive in OpenAI Hosted Tools Rainer Stropek DI, 17. September 2024, 17.00 bis 18.00

Slide 5

Slide 5 text

7 ▪ Ein bisschen Hintergrund-Info & Theorie ▪ Überblick über das Themengebiet Semantische Suche ▪ Probleme und mögliche Strategien ▪ Pragmatische Ansätze für die eigenen Daten ▪ Kein C#, sondern Python ▪ Kein Deep-Dive in ▪ LLMs ▪ Vektor-Datenbanken ▪ LangChain Was Euch erwartet (und was nicht): Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 6

Slide 6 text

8 ▪ Short Introduction to RAG ▪ Embeddings (and a bit of theory ) ▪ Vector-Databases ▪ Indexing ▪ Retrieval ▪ Not good enough? – Indexing II ▪ HyDE & alternative indexing methods ▪ Conclusion Agenda Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 7

Slide 7 text

9 Introduction Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG

Slide 8

Slide 8 text

10 Use-case: Talk to my internal data Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen

Slide 9

Slide 9 text

Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Retrieval-augmented generation (RAG) Indexing & (Semantic) search Cleanup & Split Text Embedding Question Text Embedding Save Query Relevant Text Question LLM Vector DB Embedding model Embedding model Indexing / Embedding QA

Slide 10

Slide 10 text

12 ▪ Classic search: lexical ▪ Compares words, parts of words and variants ▪ Classic SQL: WHERE ‘content’ LIKE ‘%searchterm%’ ▪ We can search only for things where we know that its somewhere in the text ▪ New: Semantic search ▪ Compares for the same contextual meaning ▪ “Das Rudel rollt das runde Gerät auf dem Rasen herum” ▪ “The pack enjoys rolling a round thing on the green grass” ▪ “Die Hunde spielen auf der Wiese mit dem Ball” ▪ “The dogs play with the ball on the meadow” Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Semantic Search

Slide 11

Slide 11 text

13 ▪ How to grasp “semantics”? ▪ Computers only calculate on numbers ▪ Computing is “applied mathematics” ▪ AI also only calculates on numbers ▪ We need a numeric representation of meaning ➔ “Embeddings” Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Semantic Search

Slide 12

Slide 12 text

14 Embeddings Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG

Slide 13

Slide 13 text

15 Embedding (math.) Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen ▪ Topologic: Value of a high dimensional space is “embedded” into a lower dimensional space ▪ Natural / human language is very complex (high dimensional) ▪ Task: Map high complexity to lower complexity / dimensions ▪ Injective function ▪ Similar to hash, or a lossy compression

Slide 14

Slide 14 text

16 ▪ Embedding model (specialized ML model) converting text into a numeric representation of its meaning ▪ Representation is a vector in an n-dimensional space ▪ n floating point values ▪ OpenAI ▪ “text-embedding-ada-002” uses 1536 dimensions ▪ “text-embedding-3-small” 512 and 1536 ▪ “text-embedding-3-large” 256, 1024 and 3072 ▪ Huggingface models have a very wide range of dimensions Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Embeddings https://huggingface.co/spaces/mteb/leaderboard & https://openai.com/blog/new-embedding-models-and-api-updates

Slide 15

Slide 15 text

17 ▪ Embedding models are unique ▪ Each dimension has a different meaning, individual to the model ▪ vectors from different models are incompatible with each other ▪ Some embedding models are multi-language, but not all ▪ In an LLM, also the first step is to embed the input into a lower dimensional space Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Embeddings

Slide 16

Slide 16 text

18 ▪ Mathematical quantity with a direction and length ▪ Ԧ 𝑎 = 𝑎𝑥 𝑎𝑦 Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: What is a vector? https://mathinsight.org/vector_introduction

Slide 17

Slide 17 text

19 Vectors in 2D Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Ԧ 𝑎 = 𝑎𝑥 𝑎𝑦

Slide 18

Slide 18 text

20 Vectors in 3D Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Ԧ 𝑎 = 𝑎𝑥 𝑎𝑦 𝑎𝑧

Slide 19

Slide 19 text

21 Vectors in multidimensional space Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Ԧ 𝑎 = 𝑎𝑢 𝑎𝑣 𝑎𝑤 𝑎𝑥 𝑎𝑦 𝑎𝑧

Slide 20

Slide 20 text

22 Calculation with vectors Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen

Slide 21

Slide 21 text

23 𝐵𝑟𝑜𝑡ℎ𝑒𝑟 − 𝑀𝑎𝑛 + 𝑊𝑜𝑚𝑎𝑛 ≈ 𝑆𝑖𝑠𝑡𝑒𝑟 Word2Vec Mikolov et al., Google, 2013 Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Man Woman Brother Sister https://arxiv.org/abs/1301.3781

Slide 22

Slide 22 text

24 Embedding-Model Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen ▪ Task: Create a vector from an input ▪ Extract meaning / semantics ▪ Embedding models usually are very shallow & fast Word2Vec is only two layers ▪ Similar to the first step of an LLM ▪ Convert text to values for input layer ▪ This comparison is very simplified, but one could say: ▪ The embedding model ‘maps’ the meaning into the model’s ‘brain’

Slide 23

Slide 23 text

25 Embedding-Model Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen 0

Slide 24

Slide 24 text

26 Embedding-Model Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen [ 0.50451 , 0.68607 , -0.59517 , -0.022801, 0.60046 , -0.13498 , -0.08813 , 0.47377 , -0.61798 , -0.31012 , -0.076666, 1.493 , -0.034189, -0.98173 , 0.68229 , 0.81722 , -0.51874 , -0.31503 , -0.55809 , 0.66421 , 0.1961 , -0.13495 , -0.11476 , -0.30344 , 0.41177 , -2.223 , -1.0756 , -1.0783 , -0.34354 , 0.33505 , 1.9927 , -0.04234 , -0.64319 , 0.71125 , 0.49159 , 0.16754 , 0.34344 , -0.25663 , -0.8523 , 0.1661 , 0.40102 , 1.1685 , -1.0137 , -0.21585 , -0.15155 , 0.78321 , -0.91241 , -1.6106 , -0.64426 , -0.51042 ] http://jalammar.github.io/illustrated-word2vec/

Slide 25

Slide 25 text

28 Embedding-Model Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen http://jalammar.github.io/illustrated-word2vec/

Slide 26

Slide 26 text

29 ▪ Embedding model: “Analog to digital converter for text” ▪ Embeds the high-dimensional natural language meaning into a lower dimensional-space (the model’s ‘brain’) ▪ No magic, just applied mathematics ▪ Math. representation: Vector of n dimensions ▪ Technical representation: array of floating point numbers Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Recap Embeddings

Slide 27

Slide 27 text

Embeddings Sentence Transformers, local embedding model Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen DEMO

Slide 28

Slide 28 text

31 Vector-Databases Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG

Slide 29

Slide 29 text

32 ▪ Mostly document-based ▪ Index: Embedding (vector) ▪ Document (content) ▪ Metadata ▪ Query functionalities Vector-Databases Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 30

Slide 30 text

▪ Pinecone ▪ Milvus ▪ Chroma ▪ Weaviate ▪ Deep Lakee ▪ Qdrant ▪ Elasticsearch ▪ Vespa ▪ Vald ▪ ScaNN ▪ Pgvector (PostgreSQL Extension) ▪ Faiss ▪ … Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Vector-Databases ▪ … (probably) coming to a relational database near you soon(ish) SQL Server Example: https://learn.microsoft.com/en-us/samples/azure-samples/azure-sql-db-openai/azure-sql-db-openai/

Slide 31

Slide 31 text

34 ▪ (Search-)Algorithms ▪ Cosine Similarity 𝑆𝐶(a,b) = a ∙𝑏 𝑎 × 𝑏 ▪ Manhatten Distance (L1 norm, taxicab) ▪ Euclidean Distance (L2 norm) ▪ Minkowski Distance (~ generalization of L1 and L2 norms) ▪ L∞ ( L-Infinity), Chebyshev Distance ▪ Jaccard index / similarity coefficient (Tanimoto index) ▪ Nearest Neighbour ▪ Bregman divergence ▪ … Vector-Databases Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 32

Slide 32 text

Vector database LangChain, Chroma, local embedding model Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen DEMO

Slide 33

Slide 33 text

36 Indexing Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG

Slide 34

Slide 34 text

37 ▪ Loading ▪ Clean-up ▪ Splitting ▪ Embedding ▪ Storing Indexing Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 35

Slide 35 text

38 ▪ Import documents from different sources, in different formats ▪ LangChain has very strong support for loading data ▪ Support for cleanup ▪ Support for splitting Loading Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: https://python.langchain.com/docs/integrations/document_loaders

Slide 36

Slide 36 text

39 ▪ HTML Tags ▪ Formatting information ▪ Normalization ▪ lowercasing ▪ stemming, lemmatization ▪ remove punctuation & stop words ▪ Enrichment ▪ tagging ▪ keywords, categories ▪ metadata Clean-up Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 37

Slide 37 text

40 ▪ Document is too large / too much content / not concise enough Splitting (Text Segmentation) Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: ▪ by size (text length) ▪ by character (\n\n) ▪ by paragraph, sentence, words (until small enough) ▪ by size (tokens) ▪ overlapping chunks (token-wise)

Slide 38

Slide 38 text

41 ▪ Indexing Vector-Databases Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Splitted (smaller) parts Embedding- Model Embedding 𝑎 𝑏 𝑐 … Vector- Database Document Metadata: Reference to original document

Slide 39

Slide 39 text

42 Retrieval (Search) Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG

Slide 40

Slide 40 text

43 Retrieval Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Embedding- Model Embedding 𝑎 𝑏 𝑐 … Vector- Database “What is the name of the teacher?” Query Doc. 1: 0.86 Doc. 2: 0.84 Doc. 3: 0.79 Weighted result … (Answer generation)

Slide 41

Slide 41 text

Store and retrieval LangChain, Chroma, local embedding model, OpenAI GPT Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen DEMO

Slide 42

Slide 42 text

45 Indexing II Not good enough? Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Introduction Embeddings Vector-DBs Indexing Retrieval Indexing II RAG

Slide 43

Slide 43 text

46 Not good enough? Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: ?

Slide 44

Slide 44 text

47 ▪ Semantic search still only uses your index ▪ It’s just as good as your embeddings ▪ All chunks need to be ▪ Sh*t in, sh*t out Not good enough? Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 45

Slide 45 text

48 ▪ Search for a hypothetical Document HyDE (Hypothetical Document Embedddings) Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: LLM, e.g. GPT-3.5-turbo Embedding 𝑎 𝑏 𝑐 … Vector- Database Doc. 3: 0.86 Doc. 2: 0.81 Doc. 1: 0.81 Weighted result Hypothetical Document Embedding- Model Write a company policy that contains all information which will answer the given question: {QUERY} “What should I do, if I missed the last train?” Query https://arxiv.org/abs/2212.10496

Slide 46

Slide 46 text

49 ▪ Downside of HyDE: ▪ Each request needs to be transformed through an LLM (slow & expensive) ▪ A lot of requests will probably be very similar to each other ▪ Each time a different hyp. document is generated, even for an extremely similar request ▪ Leads to very different results each time ▪ Idea: Alternative indexing ▪ Transform the document, not the query What else? Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 47

Slide 47 text

50 Alternative Indexing HyQE: Hypothetical Question Embedding Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: LLM, e.g. GPT-3.5-turbo Transformed document Write 3 questions, which are answered by the following document. Chunk of Document Embedding- Model Embedding 𝑎 𝑏 𝑐 … Vector- Database Metadata: content of original chunk

Slide 48

Slide 48 text

51 ▪ Retrieval Alternative Indexing Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG: Embedding- Model Embedding 𝑎 𝑏 𝑐 … Vector- Database Doc. 3: 0.89 Doc. 1: 0.86 Doc. 2: 0.76 Weighted result Original document from metadata “What should I do, if I missed the last train?” Query

Slide 49

Slide 49 text

Compare embeddings LangChain, Qdrant, OpenAI GPT Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen DEMO

Slide 50

Slide 50 text

53 Conclusion Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 51

Slide 51 text

Slide 52

Slide 52 text

55 ▪ Tune text cleanup, segmentation, splitting ▪ HyDE or HyQE or alternative indexing ▪ How many questions? ▪ With or without summary ▪ Other approaches ▪ Only generate summary ▪ Extract “Intent” from user input and search by that ▪ Transform document and query to a common search embedding ▪ HyKSS: Hybrid Keyword and Semantic Search https://www.deg.byu.edu/papers/HyKSS.pdf ▪ Always evaluate approaches with your own data & queries ▪ The actual / final approach is more involved as it seems on the first glance Recap: Not good enough? Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 53

Slide 53 text

59 ▪ Semantic search is a first and fast Generative AI business use-case ▪ Quality of results depend heavily on data quality and preparation pipeline ▪ RAG pattern can produce breathtaking good results without the need for user training Conclusion Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Real-World RAG:

Slide 54

Slide 54 text

Thank you! Sebastian Gingter https://thinktecture.com/sebastian-gingter Demos: https://github.com/thinktecture-labs/basta-2024-advanced-rag

Slide 55

Slide 55 text

Real-World RAG: Eigene Daten & Dokumente mit semantischer Suche & LLMs erschließen Sebastian Gingter [email protected] Developer Consultant Slides & Code https://www.thinktecture.com/de/sebastian-gingter