“Hello, AI?!” - Real-time interactions with language models

by Christian Liebel

Slide 1

Slide 1 text

“Hello, AI?!” Real-time interactions with language models Christian Liebel @christianliebel Consultant

Slide 2

Slide 2 text

Google Developer Expert Angular & Web W3C WebML CG & WG X: @christianliebel Bluesky: @christianliebel.com Email: [email protected] Hello, it’s me. “Hello, AI!?“ Real-time interactions with language models Christian Liebel

Slide 3

Slide 3 text

Overview “Hello, AI!?“ Real-time interactions with language models Generative AI Text OpenAI GPT Mistral … Audio/Music Musico Soundraw … Images DALL·E Firefly … Video Sora Runway … Speech Whisper tortoise-tts …

Slide 4

Slide 4 text

Slide 5

Slide 5 text

“Hello, AI!?“ Real-time interactions with language models Large Language Models

Slide 6

Slide 6 text

“Hello, AI!?“ Real-time interactions with language models Multimodal Models DEMO

Slide 7

Slide 7 text

“Hello, AI!?“ Real-time interactions with language models DEMO

Slide 8

Slide 8 text

“Hello, AI!?“ Real-time interactions with language models Multimodal Realtime Models DEMO

Slide 9

Slide 9 text

“Hello, AI!?“ Real-time interactions with language models DEMO

Slide 10

Slide 10 text

– Process speech input and output natively (transcription optional) – Multiple languages and output voices are supported – Tool/function calling are supported – Voice Activity Detection (VAD) activated automatically (model waits for a period of silence before responding) – Model can be interrupted – Use cases: Phone agents, ticket machines, alternative input methods for accessibility and other speech-based user experiences “Hello, AI!?“ Real-time interactions with language models Realtime Models

Slide 11

Slide 11 text

Gemini Live API (Preview) Half-cascade (better for tools) – Gemini Live 2.5 Flash – Gemini 2.0 Flash Live 001 Native audio dialog (reasoning) – Gemini 2.5 Flash OpenAI Realtime API (Beta) – GPT-4o Realtime – GPT-4o mini Realtime “Hello, AI!?“ Real-time interactions with language models Realtime Models

Slide 12

Slide 12 text

Gemini Live API (Preview) – 40+ lanugages – Supports speech, text and video input – Supports speech and text output – Supports WebSockets – No JS SDK yet, integration is ~1300 LOC OpenAI Realtime API (Beta) – 57+ languages – Supports speech and text input – Supports speech and text output – Supports WebRTC and WebSockets – No JS SDK yet, WebRTC integration is ~50 LOC “Hello, AI!?“ Real-time interactions with language models APIs

Slide 13

Slide 13 text

– Bi-directional communication protocol based on TCP – Reduces overhead by eliminating repeated HTTP headers “Hello, AI!?“ Real-time interactions with language models WebSockets https://ai.google.dev/gemini-api/docs/live

Slide 14

Slide 14 text

getUserMedia() – JavaScript APIs for accessing media devices – Captures video and/or audio input – W3C Candidate Recommendation – Supported by all major browsers for several years (Chrome 21, Edge 12, Safari 11, Firefox 17) “Hello, AI!?“ Real-time interactions with language models Media Capture & Streams API

Slide 15

Slide 15 text

“Hello, AI!?“ Real-time interactions with language models Gemini Live Messages Client Server setup model, system message, modalities, voice configuration, tools realtimeInput setupComplete

Slide 16

Slide 16 text

“Hello, AI!?“ Real-time interactions with language models Gemini Live Events Client Server audio interrupted toolcall

Slide 17

Slide 17 text

“Hello, AI!?“ Real-time interactions with language models Function calling

Slide 18

Slide 18 text

– Realtime models unlock new, exciting opportunities for natural language interfaces beyond chat boxes – Bidirectional, multilingual, minimum latency – All available models (OpenAI Realtime/Gemini Live) in beta or preview – Quality is good, but not perfect – Pricing seems quite high – Fun! – No science fiction, try it today! “Hello, AI!?“ Real-time interactions with language models Summary

Slide 19

Slide 19 text

Thank you for your kind attention! Christian Liebel @christianliebel [email protected]