Save 37% off PRO during our Black Friday Sale! »

Intelligente Textanalyse & Enterprise Search

7c61dd08cacb66024f77fc45f51899f9?s=47 Karakun
November 23, 2021

Intelligente Textanalyse & Enterprise Search

Auf intelligenter Sprachanalyse und Enterprise Search basierende Technologien durchdringen mehr und mehr alle Unternehmensbereiche. Diese ermöglichen die Umsetzung von Digitalisierungs- und Automatisierungsstrategien. Ihr Beitrag zur Optimierung Dokumenten-basierter Prozesse und einer verbesserten Customer Experience ist essentiell, damit Unternehmen, Politik, Behörden und die Öffentlichkeit die fortschreitende digitale Transformation erfolgreich steuern und mitgestalten können.

Enterprise Search Systeme, die auf modernen KI Technologien basieren, spielen eine dabei wichtige Rolle. Mittels ihnen können die rasant wachsenden Datenmengen aus unterschiedlichen Quellen einfach und effizient verarbeitet werden. Die Hibu-Plattform von Karakun bietet ein erprobtes, ausgereiftes Toolset, das zur Entwicklung maßgeschneiderter Lösungen für die Erschließung text-basierter Inhalte eingesetzt werden kann. Hibu basiert auf einer hochmodernen Analyseplattform, die NLP Verfahren mit denen der KI und des Maschinellen Lernens verbindet. Die Plattform wird aktiv mit wiederkehrenden Kundenanforderungen erweitert und weiterentwickelt.

In diesem Vortrag gehen Iryna Dohndorf und Christopher Keibel auf die technischen Möglichkeiten von Sprachanalysen und Enterprise Search ein und zeigen, wie Hibu-Plattform zur effizienten Erschliessung von Inhalten eingesetzt werden kann. Anhand von Praxisbeispielen erläutern sie, wie Verfahren der Textklassifikation und der intelligenten semantischen Suche zur Entwicklung von smarten Funktionen und automatisierten Workflows, wie z.B. automatisierte Rechnungsläufe, beitragen.

7c61dd08cacb66024f77fc45f51899f9?s=128

Karakun

November 23, 2021
Tweet

Transcript

  1. 1 Intelligente Textanalyse und Enterprise Search Iryna Dohndorf und Christopher

    Keibel
  2. 2 • Software Engineer, Karakun GmbH • Ehemaliges Forschungsmitglied des

    Institut für Internetsicherheit if(is) Christopher Keibel christopher.keibel@karakun.com
  3. 3 • Software Engineer, Karakun GmbH • Operations Research Expertin,

    Dr.-Ing. 2017 TU Dortmund • Buchautorin • Internationale Sprecherin Iryna Dohndorf iryna.dohndorf@karakun.com
  4. 4 1. Einleitung 2. Enterprise Search, Textanalyse und Prozessautomatisierung 3.

    HIBU-Plattform 4. Kundenbeispiele 5. Demo 6. KI in Dokumentenklassifikation und Informationsextraktion iryna.dohndorf@karakun.com Inhaltsverzeichnis
  5. 5 Language Analystics - typische Aufgaben Textklassifikation Informationsextraktion Themenerkennung iryna.dohndorf@karakun.com

  6. 6 Textklassifikation • Dem Text passende Kategorie(n) zuweisen • Vordefinierte

    Kategorienmenge (Taxonomie) Beispiele: Vertrag, Gebrauchsanleitung, Rechnung, CV, Kontoauszug, Versicherungsschreiben iryna.dohndorf@karakun.com
  7. 7 Informationsextraktion • Im Text relevante Informationen identifizieren • Entitäten,

    Wörter, Werte usw. Beispiele: Personen, Organisationen, Orte, Gebühren, Software, Bevölkerung, Datum, Geldbeträge, Messwerte iryna.dohndorf@karakun.com
  8. 8 Themenerkennung • Dem Text ein Label zuweisen, das sein

    zentrales Thema zusammenfasst • Begriffe aus dem Text verwenden Beispiele: Jahresrechnung Strom 2021 iryna.dohndorf@karakun.com
  9. 9 HIBU-Plattform iryna.dohndorf@karakun.com

  10. 10 Wo HIBU Ihnen hilft iryna.dohndorf@karakun.com

  11. 11 Use Cases: Search Solutions • Produkte/Dokumente Suchen • Einfache,

    intelligente und übersichtliche Suche iryna.dohndorf@karakun.com
  12. 12 Use Cases: Document processing Betrag: Währung: RechnNr.: Zahlungsziel: IBAN:

    Empfänger: 171.19 CHF 2020/AB-773 October 25, 2020 xxxx xxxx xxxx xxxx Musterfirma AG Typ: Rechnung iryna.dohndorf@karakun.com
  13. 13 Use Cases: Smart actions Betrag: Währung: RechnNr: Zahlungsziel: IBAN:

    Empfänger: 171.19 CHF 2020/AB-773 October 25, 2020 xxxx xxxx xxxx xxxx x Musterfirma AG iryna.dohndorf@karakun.com Zahlungserinnerung vor dem 11.11.2021 senden
  14. 14 Lösungskomponenten iryna.dohndorf@karakun.com Sentimentanalyse Namenserkennung Intelligente Suche Tabellenextraktion Informationsextraktion Themenerkennung

    Textklassifikation Kombination von Komponenten OCR Ähnlichkeitsbestimmung Recommender-Systeme Annotation
  15. 15 Kundenbeispiel Covalo - Google für die chemische Industrie •

    Suchmaschine und Vermarktungsplattform für chemische Inhaltsstoffe • Effiziente Touchpoints zwischen potentiellem Käufer und Hersteller • Weitestgehend automatisierte Datensammlung und –aufbereitung • Einfache, intelligente und übersichtliche Suche iryna.dohndorf@karakun.com
  16. 18 Dswiss – Volltextsuche in digitalen Safes • Indexierung von

    Kundendokumenten in mehrfach verschlüsselter Umgebung • Volltextsuche für Dokumente in Kundensafes, auf die NUR der Kunde Zugriff hat • Sichere Prozesse integriert in eine Hochsicherheitsumgebung iryna.dohndorf@karakun.com
  17. 19 Dswiss - Lösung • Sichere Suche in verschlüsselten digitalen

    Kundensafes • Effiziente Suche durch Verwendung interaktiver Filter wie • Dokumenttypen • Anwendungsspezifische semantische Kategorien iryna.dohndorf@karakun.com https://bit.ly/3c0qFIk
  18. 20 KI-basierte Textanalyse christopher.keibel@karakun.com

  19. Künstliche Intelligenz (KI) Definition: KI-Systeme erfüllen Aufgaben, die normalerweise menschliche

    Intelligenz erfordern. Regelbasiert Statistisch Neuronal Maschinelles Lernen christopher.keibel@karakun.com
  20. Regelbasierte KI Festgeschriebener Algorithmus sucht nach Mustern in Daten Beispiel:

    IBAN DE23 1000 0000 Länderkennzeichen + Prüfziffer Bankleitzahl Kontonummer (max. 10 Stellen in Deutschland) [A-Za-z]{2}[0-9]{2} [0-9\s]{10} 1234 5678 90 christopher.keibel@karakun.com
  21. Maschinelles Lernen • Algorithmus erlernt selbstständig das Erkennen von Mustern

    • Bekanntester Ansatz: Künstliche Neuronale Netze (Deep Learning) • Klassifikationen von langen Texten /Dokumenten • Aufgabenbereich: Natural Language Processing (NLP) Künstliche Intelligenz Deep Learning NLP Maschinelles Lernen christopher.keibel@karakun.com
  22. Umwandlung von Text in Zahlen - Künstliche Neuronale Netze können

    rohe Texte nicht verarbeiten ? christopher.keibel@karakun.com
  23. Umwandlung von Text in Zahlen • Künstliche Neuronale Netze können

    rohe Texte nicht verarbeiten • Texte müssen in Zahlenwerte umgewandelt werden -> Vektoren ? ? ? ? christopher.keibel@karakun.com
  24. Umwandlung von Text in Zahlen • Künstliche Neuronale Netze können

    rohe Texte nicht verarbeiten • Texte müssen in Zahlenwerte umgewandelt werden -> Vektoren • Vektoren sollten Beziehungen zwischen Wörtern Abbilden können (z.B.: Hund, Katze & Haustier haben eine ähnliche Bedeutung) ? ? ? ? ? ? ? ? christopher.keibel@karakun.com
  25. Umwandlung von Text in Zahlen (Stark Vereinfacht) Hat zwei Augen

    0.96 0.941 0.002 Hat vier Räder 0.001 0.01 0.97 Ist ein Lebewesen 0.979 0.981 0.01 *in der Realität werden die Vektoren durch ein Neuronales Netz codiert Eigenschaften Hund Katze Auto christopher.keibel@karakun.com
  26. Räumliche Darstellung der Wörter Hat zwei Augen Ist ein Lebewesen

    Hat vier Räder *Eigenschaften sind Dimensionen im Raum christopher.keibel@karakun.com
  27. Künstliche Neuronale Netze • Kleine Recheneinheiten mit gewichteten Verbindungen •

    Training mittels Datensatz • Datensatz besteht aus x- und zugehörigen y-Werten (Eingabe- und Zielwerte) f(x) x y christopher.keibel@karakun.com
  28. Klassifikation von Texten • Künstliche Neuronale Netze* lesen Eingaben nur

    in eine Richtung • Gut, bei Vorhersage des nächsten Wortes in einem Satz • Bildet kein "Verständnis" für den eingegebenen Text => Lösung: Transformer-Architektur (BERT) f( ) = ? *Rekurrente Netze christopher.keibel@karakun.com
  29. Transformer und BERT • BERT: Bidirectional Encoder Representations from Transformers

    • Liest Eingaben aus beiden Richtungen, um den Kontext besser zu verstehen Wir alle nutzen es täglich christopher.keibel@karakun.com
  30. Transformer und BERT Umwandlung von Text in Zahlen stark Kontextbezogen

    Beispiel: Bank zum Sitzen hat eine andere Bedeutung als die Bank, bei der ich mein Geld abhebe christopher.keibel@karakun.com
  31. Training • BERT ist ein vortrainiertes Neuronales Netz • Datensatz

    Wikipedia und 10.000 Büchern • Nutzt Maskierungen für Anfang einer Eingabe, Ende eines Satzes und Eingabepositionen christopher.keibel@karakun.com
  32. Training Training auf zwei unterschiedliche Arten: 1. Weglassen von Worten

    im Satz (Masked Language Modeling) 2. Eingabe von zwei Sätzen - Vorhersage, ob diese aufeinander Folgen Ich gehe heute in die zum Einkaufen. christopher.keibel@karakun.com
  33. Fine Tuning • BERT für eigene Problemstellung nutzbar • Anhängen

    einer Neuronen Schicht an vortrainiertes BERT Modell • "Neues" Modell mit eigenem Datensatz trainieren christopher.keibel@karakun.com
  34. Fazit • Es gibt unterschiedliche Use Cases für regelbasierte und

    ML basierte Verfahren • ML ist ausgereift und bereit für den Einsatz im Enterprise • Durch BERT und weitere (Open Source) Modelle kann auf vortrainierte Verfahren zurückgegriffen werden • Insellösungen sind nicht mehr nötig christopher.keibel@karakun.com
  35. Zusammenführung • Durch Plattformen (HIBU) werden gängige Workflows und Funktionen

    bereitgestellt • Individuelle Anpassungen durch Schnittstellen und ML Integration jederzeit möglich • ML Expertise kann über (externe) Experten in Projekte einfließen • Hybride Lösungen und Verfahren haben sich in der Praxis etabliert • ML und Enterprise Search im Enterprise etabliert und angekommen
  36. Karakun GmbH Selkamp 12 44287 Dortmund Deutschland T. E. W.

    +49 231 3970 9753 info@karakun.com www.karakun.com