Search-Driven Applications

Search-Driven Applications Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

Agenda Anwendungsfälle Aufbau der Such-Datenstruktur Fallstricke Motivation

Was ist Suche?

• Suche ist mehr als Volltextsuche • Suche funktioniert im
Kleinen wie im Großen • Suche kann auch bei klassischen Anwendungsfällen unterstützen Was wollen wir in diesem Vortrag zeigen http://www.morguefile.com/archive/display/861760

Strukturiert Strukturierte vs. unstrukturierte Daten • Datenbanken • LDAP •
Spreadsheets • (teilweise) Applikations- / API-Daten • Web Seiten • Email • Text- und Office- Dokumente • PDF-Dokumente • Log-Files Unstrukturiert Quelle: Search-Based Applications: At the Confluence of Search and Database Technologies

• Daten-Silos  Konsolidierung Daten • Daten-Menge steigt immer weiter
 Skalierbarkeit • Häufige Änderungen  Flexibles Schema und Abfragen Probleme klassischer Applikationen

Suchserver vs. Datenbank Eigenschaft Suchserver Datenbank Semantisches Modell Dokumenten-Modell Relationales
Modell Speicherstruktur Index Tabelle Ablage der Daten Denormalisiert Normalisiert

Search-Driven Applications Suche ist Kernbestandteil Suchserver als zentraler Lesespeicher

Vom Inhalt zum Index Document Analyzing Aufbau Struktur

Input-Dokumente

• Verarbeitung der Inputdokumente • Preprocessing vor der Ablage •
Entfernen, modifizieren, hinzufügen von Termen Text-Analyzing

Beispiel Text-Analyzing Suchgetriebene Suchgetriebene Applikationen Applikationen suchgetriebene applikationen suchgetrieb applikation
Source Standard Tokenizer Lowercase Filter German-Light- Stem-Filter

• Invertierter Index • Inputfeld kann auf unter- schiedliche Weise
abgelegt werden • Suchterm zu Dokument zuordnen Der Indexaufbau

Die Indexstruktur suchgetrieb applikation Doc 1 Doc 2 enterpris Doc
1 Doc 2 Kraft Doc 1 Hopf Doc 1 Doc 2

Das Mapping

• Dokumentenmodell • Datenablage anhand geplanter Abfragen • Duplizierte Datenablage
Modellierung des Index http://www.morguefile.com/archive/display/12788

• Inkrementell Indexieren • Änderungen auch im Cluster schnell verfügbar
• Onlineabfragen für Facetting / Aggregationen Near Realtime http://www.morguefile.com/archive/display/196583

Suche ist zentraler Bestandteil der Applikation Anwendung DB CMS Weitere
Systeme Suchserver Indexierungen Abfragen Pflege Verwaltung Dateisystem

Vereinheitlichung von verschiedenen Quellen News  title  message 
created Document  filename  created Payload  binary Report  title  abstract  published Suchengine • Vereinheitlichung über Index • Entsprechendes Mapping Index-Prozess Relationale DB • Vereinheitlichung in einer Ansicht/Liste ist schwierig ?

Listen für CRUD-Dialoge Geschäft Vertrieb

Listen für CRUD-Dialoge Geschäft Vertrieb Aussendienst

Facetten für den Drilldown von Events

7 SQL-Abfragen für den Aufbau der Facetten …

Facette mit Elasticsearch

• Verschachtelungen / Hierarchien Personalisierung und Berechtigungen

Anwendungsfälle für E-Commerce

Der Suchserver rückt in den Mittelpunkt Anwendung DB Suchserver Abfragen

Kategorien-Navigation Bücher /Bücher Bücher/Fachbücher /Bücher/Fachbücher /Bücher /select?q=*:*&facet=on&facet.field=category&rows=0

Produktlisting /select?q=*:*&fq=category:/Bücher/Fachbücher/Informatik &sort=inStock desc, price asc

• Sharding / Verteilung Umgang mit großen Datenmengen

Realtime Analysis am Beispiel ´Javaland´

• Synchronisierung Systeme • Fehlersuche • Mehrere `Verursacher` • Nachstellen
Produktionsprobleme • Entwicklungssetup Komplexität der Architektur steigt http://www.morguefile.com/archive/display/591261

• Analyzing ist verlustbehaftet • Update einzelner Felder schwierig •
Originalinhalt für Anpassungen weiter zugreifbar Daten http://www.morguefile.com/archive/display/183870

• Testunterstützung ist vorhanden • SolrtestCaseJ4 • Elasticsearch Test Framework
• Relevanz ist subjektiv • Analyzing-Prozess kann komplexer werden • Rollback in Tests Testbarkeit http://www.morguefile.com/archive/display/87396

Betrieb • Security • Separate Installation • Verfügbarkeit • Verteilte
Logfiles • Monitoring

Transaktionen

Was bringt die Umsetzung von Applikations-Logik mit Suchmaschinen? • Abfragen
sind teilweise einfacher • Flexibler für Erweiterungen • Performance-Vorteile • Neue Anwendungsszenarien Fazit

Vielen Dank! Florian Hopf, @fhopf Tobias Kraft, @tokraft

Search-Driven Applications

Search-Driven Applications

More Decks by exensio

Other Decks in Technology

Featured

Transcript