Deep Learning – der Generalschlüssel für Dokumentanalysen? (Teil 2)

Maschinelle Lernverfahren – auf dem neuesten Stand der Technik

Komplexe Lernverfahren benötigen eine leistungsfähige Hardware. Die entsprechenden Algorithmen erfordern massiv parallele Operationen. Da hierfür die Anzahl der Kerne in heutigen CPUs noch nicht ausreichen, werden zunehmend  Grafikarten eingesetzt, die mehrere tausend Gleitkommaoperation gleichzeitig ausführen können.

Das dies unabdingbar ist, lässt sich an einem kleinen Zahlenbeispiel verdeutlichen. In einem mittelständischen Unternehmen sollen 100 Mio. Dokumente analysiert werden. Das ist eine typische Größenordnung für Unternehmen oder Behörden mit mehreren tausend Mitarbeitern. Wenn man für diese Analysen nur 1 Sekunde pro Dokument benötigt, würde man bei einer sequenziellen Abarbeitung über 3 Jahre Analysezeit benötigen. An diesem Beispiel sieht man schnell, dass es unerlässlich ist, effektive Methoden einzusetzen und auf dem neuesten Stand der Technik zurückzugreifen.

Neuronale Netze – moderne Lösungen für semantische Analysen

Einen großen Durchbruch versprechen seit einigen Jahren Verfahren auf der Grundlage spezieller neuronaler Netze, deren Anwendung oft unter dem Begriff Deep Learning zusammengefasst werden.

Mit Deep Learning wurden große Fortschritte beim automatischen Übersetzen, bei Bildanalysen und bei semantischen Analysen von Texten erzielt. Im Fall der semantischen Analyse von Dokumenten gibt es schon seit vielen Jahren Ansätze für den Einsatz neuronaler Netze. Insbesondere durch Veröffentlichungen von Google[1], hat dieser Anwendungsfall seit 2013 einen deutlichen Schub erfahren. Durch eine geschickte Kombination bereits lang bekannter Verfahren, konnte Google ein Toolkit für Textanalysen bereitstellen (Word2Vec[2]), mit dem sich auf moderner Hardware sehr performant semantische Relation zwischen Wörtern ermitteln lassen.

Bei aller Euphorie sollte man nicht vergessen, dass semantische Analysen vielfältig sind und nicht ein Toolkit alle Zwecke abdecken kann.

Dokumentanalysen haben zum Teil völlig unterschiedliche Zielstellungen, wie

  • Extraktion von Eigenschaften (Metadaten) für die Verschlagwortung und für die Bereitstellung von Filterkriterien für die Suche
  • Klassifikation von Dokumenten nach bestimmten Kategorien
  • Finden semantischer Beziehungen zwischen Begriffen, Themen und verschiedenen Dokumenten
  • Automatischer Aufbau eines unternehmensspezifischen Thesaurus
  • Statistiken über verschiedenste Eigenschaften der Dokumentinhalte
  • Automatisches Übersetzen

und anderes mehr.

deep learning

Deep Learning als moderne Form semantischer Analysen

Deep Learning ist eine moderne Form semantischer Analysen. Zur Aufbereitung digitaler Dokumente gehören seit je her Analysen (oder neudeutsch „Analytics“). Neben der Untersuchung der Dokumentinhalte und ihrer sonstigen Eigenschaften zählt dazu auch die Analyse der Verwendung der Dokumente (Zugriffshäufigkeiten etc.). Texte werden mit verschiedensten Verfahren analysiert und bedeutungstragende Begriffe (Personennamen, E-Mail-Adressen, Produktbezeichnungen, Auftragsnummern etc.) extrahiert. Neben neuronalen Netzen werden hierfür auch klassische statische und regelbasierte Verfahren eingesetzt.

Die Ergebnisse semantischer Analysen werden in einem Knowledge Graphen gespeichert. Er bildet die Wissensbasis für Assistenten und alle anderen Formen der Benutzerführung. Hieran wird deutlich, dass Analytics nicht auf die Visualisierung (Charts) statistischer Daten reduziert werden kann.

Analytische Funktionen – angepasst an Anwendungsszenarien

All diese wunderbaren neuen Möglichkeiten, die uns Deep Learning eröffnet, müssen nahtlos in einfach benutzbare Anwendungen integriert werden. Die verschiedenen Anwendungsszenarien erfordern dementsprechend unterschiedliche semantische Funktionen:

Discovery & Monitoring

Um bei fortlaufenden Recherchen nicht immer die gleichen Tätigkeiten ausführen zu müssen, bietet es sich an über hinterlegte Anfragen wiederkehrende Recherchen automatisch ablaufen zu lassen und die Rechercheergebnisse in einem Dashboard bzw. Cockpit oder in Reports automatisch zur Verfügung zu stellen (z.B. finde alles oder finde neues zum Thema XYZ). Die vorangegangenen Analysen stellen die relevanten Metadaten und Kategorien für solche Abfragen bereit.

Exploration

Um sich einen großen und eher unbekannten Informationsbestand zu erschließen, wird eine Navigation anhand hierarchischer Strukturen benötigt. Filterketten (Facetten) und Visualisierungen der Strukturen, z.B. in Hyperbolischen Bäumen, sind dabei sehr hilfreich. Solche Strukturen sind schwer automatisch zu gewinnen, aber mittels Klassifikation lassen sich Dokumente in vorgegebene Strukturen automatisch einordnen.

Ad-hoc-Suche

Die häufigste Form der Recherche ist die spontane Suche nach vermeintlich vorhanden Informationen. Suchprozesse lassen sich sehr gut durch Analyseergebnisse mit Hilfe von Assistenten und Empfehlungsmechanismen (Recommendations) steuern.

Methodische Aspekte beim Erwerb von Strukturwissen

Bisher gebräuchliche Vokabular-basierte Computer Linguistik-Methoden sind oft blind gegenüber neuen Aspekten in den analysierten Inhalten.

Hingegen können Synonyme, verwandte Konzepte und begriffliche Analogien sehr gut mit Hilfe neuronaler Netze automatisch gelernt werden und für die Benutzerführung und Vorschlagsassistenten eingesetzt werden.

Die Aufgabe besteht darin, automatisch gelernte Bergriffe und Zusammenhänge mit bekanntem Strukturwissen in Einklang zu bringen. Automatische Verfahren müssen auf unternehmensspezifischen Aspekten aufsetzen. Hierfür gibt es kein Patentrezept, aber ein grundsätzliches Herangehen.

Im Mittelpunkt stehen Organisationsstruktur, Geschäftsprozesse, Themen und natürlich Personen im eigenen Unternehmen  oder bei Geschäftspartnern. Erste Basisbeziehungen sind bereits in Datenstrukturen enthalten. Sie werden bei der Einbindung der Systeme auf ein systemübergreifendes Informationsmodell abgebildet. Die Organisationsstruktur lässt sich ebenfalls aus Verzeichnisdiensten oder ähnlichem ableiten. Lediglich wenige Grundkonzepte, die strukturübergreifend wirken und sich nicht aus vorhandenen Datenquellen gewinnen lassen, müssen in einem Informationsmodell explizit hinterlegt werden, sprich redaktionell gepflegt werden.

Begriffe im Kontext verstehen

Die Anwendung der durch Deep Learning erzeugter Wort-Modelle lässt sich am besten an einem Beispiel verdeutlichen. Gibt ein Nutzer bei der Suche nach Informationen „Tor“ ein, kann man von diesem einzelnen Suchterm allein noch keine Rückschlüsse ziehen auf das, was der Nutzer mit Tor meint. Bei diesem Begriff kann ein konkretes Tor in einem Fußballspiel, ein Garagentor oder eine Sehenswürdigkeit gemeint sein. Analysiert man vor der Suche alle zur Verfügung stehenden Informationen (im vorliegenden Beispiel handelt es sich Zeitungsartikel), kann man diese unterschiedlichen Begriffsbedeutungen automatisch lernen und die in den vorhandenen Informationen tatsächlich enthaltenen Begriffe zum Thema dem Suchenden als Vorschlag für die Verfeinerung seiner Suche anbieten.

Im Bild sind Begriffe mit unterschiedlichem Kontext verschiedenfarbig eingefärbt: Blau – andere Flexionen von Tor, Rot – Begriffe für Tor im Sinne von Tür/Eingang, Grün – Tor im Kontext von Fußball (a). Da es sehr viele Begriffe zu Tor im Kontext von Fußball gibt, hat sich noch ein lila Cluster gebildet, mit Sekundärbegriffen aus dem Kontext Fußball, die nur indirekt etwas mit dem Tor an sich zu tun haben.

Semantischer Kontext des Suchterms „Tor“

Ist genau dieser lila Kontext von Interesse, wird man durch einen Klick auf einen der lila Begriffe zu einer erweiterten Wortwolke (b) geführt, die noch mehr Begriffe zu möglichen Informationen rund um den Fußball bietet. Der Suchende wird so trotz eines für eine zielgerichtete Suche unzulänglichen Suchbegriffs automatisch zu den in verschiedenen Kontexten vorhandenen Informationen gelenkt. Dieser Anwendungsfall von Deep Learning ist sehr einfach in eine Suche integrierbar und liefert einen hohen Nutzen, da alle notwendigen Kontextbeschreibungen automatisch erlernt werden.

Sekundarbegriffe aus dem Kontext „Fußball“

Fazit

Deep Learning auf der Basis neuronaler Netze besitzt ein hohes Potential für die Analyse digitaler Inhalte. In Kombination mit anderen Analyseverfahren und dank der Leistungsfähigkeit heutiger Hardware lassen sich zunehmend wirtschaftliche Lösungen für die Unterstützung von Geschäftsprozessen realisieren.

[1] T. Mikolov, K. Chen, G. Corrado and J. Dean. Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781, 2013
[2] https://en.wikipedia.org/wiki/Word2vec

(Veröffentlicht im DOK.magazin, Ausgabe 4/ 2016)