Semantische Suche für den intergator

Semantische Suche zur Verbesserung der unternehmensweiten Suche

Als ich vor 16 Monaten meinen letzten Blog-Artikel verfasste, hätte ich nicht gedacht, dass ich der interface projects GmbH so lange erhalten bleiben würde. Gleichwohl wurde mir nach meinem Praktikum nicht nur eine Werkstudentenstelle, sondern im Anschluss auch die Möglichkeit geboten, meine Diplomarbeit über die semantische Suche hier zu schreiben.

Was im Hintergrund meiner Praktikumsaufgabe gestanden hatte, ließ mich auch hier nicht los: Wie kann für die Unternehmenssuche eine bessere semantische Unterstützung erreicht werden? Dazu existieren zahlreiche Anwendungsfälle: Wenn jemand nach Bank sucht, möchte er auch Ergebnisse zu Geldinstitut finden, ein anderer möchte Ergebnisse zur gleichnamigen Sitzgelegenheit. Wenn jemand im Unternehmen nach books* sucht, möchte er auch Documentation Reader oder Docreader finden, wenn ein anderer im allgemeinen Kontext nach books sucht, möchte er auch Bücher finden…

Unterschiedliche Problemstellungen spielen hier eine Rolle: Disambiguation, domänen-, unternehmens- und bereichsspezifische Bezeichnungen und Begriffsprägungen oder auch die Suche über verschiedene Sprachen hinweg. Ein derzeit viel diskutierter Lösungsansatz ist die Projektion der Bedeutung eines Wortes auf einen mehrdimensionalen Vektorraum. Das maschinelle Erlernen dieser Projektion erfolgt mithilfe neuronaler Netze und lokaler Wort-Kontext-Betrachtungen in großen Textmengen.

Was kann man nun konkret mit diesen Wortvektoren anfangen? Betrachten wir die Beispielanfrage „Tor“ (die nächste Fußball-Meisterschaft kommt schneller als man denkt!). Erst einmal ist unklar, worauf die Anfrage abzielt: sollen Ergebnisse zu Spielverläufen im Fußball angezeigt werden? Ist jemand auf der Suche nach einem neuen Garagentor? Oder schwelgt er in Urlaubserinnerungen und kann sich nicht an den Namen des Pariser Wahrzeichens, des Arc de Triomphe, erinnern? Wurden die Wortvektoren entsprechend auf Texten trainiert, die diese Verbindungen enthalten, besteht die Möglichkeit, diese anhand des Suchwortes auch wiederzufinden.

Ein Modell spiegelt die Inhalte seines Korpus wider. Das kann im spezifischen Kontext eines Unternehmens ein echter Vorteil sein – denn meistens suchen meine Kollegen nicht nach Büchern, wenn sie „books“ eingeben.

In meiner Arbeit hatte ich Gelegenheit, die Grundlagen und Parameter näher zu erforschen, die die innere Struktur dieser Vektorraummodelle beeinflussen. Es hat sehr viel Spaß gemacht, die Hindernisse und Entdeckungen mit meinen ebenso begeisterten Kollegen zu diskutieren. Leider führt mich mein Weg erst einmal weg aus dem wunderschönen Dresden, aber das Gute vergisst man nicht so schnell 🙂 Ein großes Dankeschön an meinen Chef und meine Kollegen für diese spannende Zeit!

*ehemalige/interne Bezeichnung des Documentation Readers