Slide 1

Slide 1 text

qaware.de Java-basierte KI auf Kubernetes Von der Entwicklung bis zum Deployment mit Leichtigkeit Mario-Leander Reimer [email protected] @LeanderReimer @qaware #CloudNativeNerd #gerneperdude

Slide 2

Slide 2 text

2 Mario-Leander Reimer Managing Director | CTO @LeanderReimer #cloudnativenerd #qaware #gernperDude

Slide 3

Slide 3 text

"Laut Gartner scheitern 80% der PoCs auf dem Weg in die produktive Anwendung." https://www.qaware.de/ki-vom-proof-of-concept-poc-zur-entwicklung/

Slide 4

Slide 4 text

The 80% Fallacy of AI projects. 4 QAware Juan Pablo Bottaro, LinkedIn Engineering Blog

Slide 5

Slide 5 text

The 60% Fallacy of production ready AI projects. 5 QAware Wichtige Qualitätsattribute und Architekturtreiber werden aufgeschoben oder vernachlässigt.

Slide 6

Slide 6 text

Key Challenges: Technologie, Modelle und Tools, Scaling. Source: https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2023-generative-ais-breakout-year ■ Je nach Maturity werden je nach Gruppe andere Herausforderungen gesehen ■ AI Newcomer unterschätzen oft die Komplexität der Technologien, Modelle und Tools ■ Production und Scaling Challenges behindern häufig die Production Readiness ■ Hohe Cognitive Load und Mangel an Expertise sind ebenfalls Treiber für scheiternde Projekte 6

Slide 7

Slide 7 text

vs

Slide 8

Slide 8 text

Chatbots and AI Assistants: Je spezifischer der Use Case, desto komplexer wird es. ChatGPT or comparable with world knowhow ChatGPT with organisational context knowledge Specialized AI Assistent ■ Retrieval Augment Generation ■ Transfer Learning ■ Speziell trainierte Modell ■ Prozess-Automatisierung Complexity Benefit ■ Einfach zu realisieren und relativ kosteneffizient ■ Benötigt Richtlinien zu Datenschutz und Compliance 8 QAware

Slide 9

Slide 9 text

Conceptual Demo Showcase Architecture 9 QAware REST Beer Service Chatbot Easy RAG Web UI Websockets gRPC Beer Service Ollama Model Llama 3.1 OpenAI Chat Service OpenAI Proxy REST Ollama Chat Service REST REST REST

Slide 10

Slide 10 text

qaware/k8s-native-java-ai

Slide 11

Slide 11 text

Quarkus Starter 11 QAware

Slide 12

Slide 12 text

RAG in a Nutshell. 12 QAware Index, e.g. Vector DB Indexing (Chunking & Embedding) Documents Ingestion Phase Query Encoding Retrieval Phase Context Prompt LLM with world knowhow Response

Slide 13

Slide 13 text

RAG Flavours in LangChain4j 13 QAware https://docs.langchain4j.dev/tutorials/rag/#rag-flavours-in-langchain4j https://docs.quarkiverse.io/quarkus-langchain4j/dev/easy-rag.html ■ Easy RAG: der einfachste Weg, um mit RAG zu beginnen ■ Naive RAG: eine grundlegende Implementierung von RAG unter Verwendung einer Vektorsuche ■ Advanced RAG: ein modulares RAG-Framework, das zusätzliche Schritte wie die Umwandlung von Suchanfragen, das Abrufen von Daten aus mehreren Quellen und die Neueinstufung ermöglicht

Slide 14

Slide 14 text

Die Kubernetes Cluster Topology erfordert genaue Planung. Sonst gehen einem die Kosten durch die Decke! 14 QAware ■ Es gibt unterschiedliche GPU Maschinen ■ Nicht alle Typen stehen in allen Regionen zur Verfügung ■ Die Preise unterscheiden sich drastisch, eine genaue Recherche ist empfohlen ■ Zusätzliche lokale SSDs sind empfohlen ■ Zu entscheiden: – alles Nodes mit GPU – unterschiedliche Nodes optimiert für normale als auch GPU Workloads https://cloud.google.com/compute/gpus-pricing?hl=de#other-gpu-models

Slide 15

Slide 15 text

Integration & Delivery Plane Service Plane Platform Plane Resource Plane Quality Plane Compliance Plane Foundation Foundation Interfaces Domain Services Domain Services Domain Services

Slide 16

Slide 16 text

Compliance Plane Integration & Delivery Plane Service Plane Platform Plane Operability Resource Plane Compute Data: Local SSD Integration Security Delivery FinOps Quality Plane Data Plane Model Plane User Serving Plane Access Plane Data Modelling Pl.

Slide 17

Slide 17 text

Compliance Plane Integration & Delivery Plane Service Plane Platform Plane Operability Resource Plane Compute Data: Local SSD Integration Security Delivery FinOps Quality Plane Data Plane Model Plane User Serving Plane Access Plane Data Modelling Pl. 💡Don't forget to Test: Crafting Reliable Chatbots mit Marcus Ciolkowski

Slide 18

Slide 18 text

Compliance Plane Integration & Delivery Plane Service Plane Platform Plane Operability Resource Plane Compute Data: Local SSD Integration Security Delivery FinOps Quality Plane Data Plane Model Plane User Serving Plane Access Plane Data Modelling Pl.

Slide 19

Slide 19 text

QAware GmbH | Aschauer Straße 30 | 81549 München | GF: Dr. Josef Adersberger, Michael Stehnken, Michael Rohleder, Mario-Leander Reimer Niederlassungen in München, Mainz, Rosenheim, Darmstadt | +49 89 232315-0 | [email protected] Thank you!