Video: https://video.linux.it/w/6HoHhhyrnfqYnzZiM9sRx5?start=4m56&stop=25m27
Demo: https://huggingface.co/spaces/deepset/search-all-the-docs
Codice: http://github.com/silvanocerza/search-all-the-docs
La documentazione spesso non è facilmente accessibile per i nuovi arrivati all'interno di un progetto: renderla facile da ricercare è un requisito fondamentale per ottenere un progetto opensource di successo.
In questo intervento per risolvere questo problema e facilitare la reperibilità della nostra documentazione, scopriamo insieme come costruire un sistema di elaborazione del linguaggio naturale (NLP) composto da tre componenti principali: recupero delle informazioni, comprensione del testo e generazione del linguaggio per fornire risposte accurate alle ricerche dell'utente.
Vediamo come parallelizzare questi flussi di elaborazione in una pipeline RAG (Retrieval Augmented Generation) e come ottenere il risultato atteso grazie all'uso di LLM (Large Language Model), ossia di un tipo di modello addestrato su una vasta quantità di testo.
Silvano Cerza — Tra i principali sviluppatori di Haystack di Deepset, esperto in Python e C++ con esperienze in Arduino e Pitch