Zeitungsrecherche mit intergator und PPS_Finder

Die intelligente Suche in digitalen Zeitungsarchiven

Moderne Zeitschriften- und Verlagshäuser verfügen häufig über große Datenbestände an Publikationen, die zunehmend auch digitalisiert werden und dadurch für umfassende Recherchen zur Verfügung stehen. Problematisch sind dabei jedoch Zeitungen und Magazine, die noch aus der Zeit vor dem Computerzeitalter stammen und häufig nur in Papierformat vorhanden sind. Diese werden in groß angelegten Projekten mit speziellen Scannern erfasst und digitalisiert. Derzeit endet der Prozess jedoch häufig mit der reinen Digitalisierung und lässt die Inhaltserfassung außen vor.

Gemeinsam mit der hessischen PPS PREPRESS SYSTEME GmbH wurde intergator für die Anforderungen einer Recherche in Archiven von Zeitungen und Zeitschriften angepasst. Mit den Erfahrungen aus Enterprise Search-Projekten einerseits und dem Know-How aus Digitalisierungsprozessen andererseits, wurde der PPS_Finder dabei zu einem umfassenden Recherche-Werkzeug entwickelt.

Der PPS_Finder als Recherche-Werkzeug

Der PPS_Finder als Recherche-Werkzeug

Die Recherche im Detail

Zentraler Einstieg in die Recherche ist wie bei jeder Suche ein Sucheingabefeld, in den ein Suchbegriff eingegeben wird. Die Suchergebnisse werden anschließend übersichtlich aufgelistet, wobei jedem Treffer neben einigen META Daten noch ein Vorschaubild vorangestellt wird. Da alle Dateninhalte automatisch per OCR digitalisiert und in das PDF Format gewandelt werden, ist die Zeitung sofort über einen Reader aufrufbar. Der Suchbegriff wird dabei farblich markiert und erleichtert dem Nutzer das sofortige Auffinden der Fundstelle innerhalb des Dokuments. Die Suche und ihre Ergebnisse bleibt dabei unberührt, d.h. eine erneute Recherche ist nicht nötig, sondern kann umgehend fortgesetzt werden.

Dokumentenvorschau mit Ausschnitt der Fundstelle

Dokumentenvorschau mit Ausschnitt der Fundstelle

Über Facetten, die frei konfigurierbar sind, können Suchergebnisse sinnvoll eingegrenzt werden. Neben Jahrgängen, Quellen (wenn bspw. ein Verlag mehrere Publikationen herausgibt), Autoren können sogar Ressorts als Filter für die Recherche genutzt werden. Die gewählten Facetten können jederzeit über einen einfachen Klick deaktiviert werden, ohne die Suche erneut starten zu müssen. Zusätzlich sind die Facetten auch für Ausschlüsse einsetzbar – sucht man bspw. nach einem Begriff und möchte explizit einen Jahrgang vermeiden, kann dieser als ausschließende Facette ausgegrenzt werden. Zusätzliche Facetten, wie bspw. die Filterung nach Agenturmeldungen oder Regionalausgaben sind prinzipiell möglich.

Eingrenzung der Suchergebnisse mit Facetten

Eingrenzung der Suchergebnisse mit Facetten

Während der Indexierung werden die Elemente mit Annotationen versehen. Bei der späteren Suche können über eine einfache Verschlagwortung Treffer für spätere Suchen zusätzlich angereichert werden. So lassen sich Ergebnisse für spätere Recherchen gezielt einbeziehen. Die Schlagworte verbleiben auch nach der Suche beim Treffer, können aber jederzeit auch wieder entfernt werden. Damit werden gerade komplexere Themen, die sich mitunter erst aus einem Zusammenhang ergeben, einfacher recherchierbar.

Erweiterbare Detailinformationen

Erweiterbare Detailinformationen

Neben der einfachen Suche im primären Suchfeld, kann diese durch weitere Felder erweitert und die Ergebnisse bereits beim Start eingegrenzt werden. Diese Parameter lassen sich auch ähnlich wie bei der Google Suche in der Standardsuche über spezielle Abkürzungen direkt eingeben. Suchen nach dem Dateityp, einem Datum, einem Autor, etc. erlauben dem geübten Nutzer schnelle Recherchen. Auch Boolsche Operatoren (UND, ODER, NICHT, etc.) lassen sich zur Suche einsetzen.

Boolsche Suche mit den Begriffen "Rostock" und "Marteria"

Boolsche Suche mit den Begriffen „Rostock“ und „Marteria“

Machine Learning als Teil der Suche

Mit Methoden des maschinellen Lernens lassen sich Dokumente zukünftig noch einfacher für eine effizientere Suche aufbereiten. Mit verschiedenen Machine Learning-Methoden werden Dokumente nicht mehr nur indexiert und Fundstellen katalogisiert, sondern „verstanden“. Dabei wird auch der Suchansatz radikal verändert. Waren bisher Häufigkeiten und das Vorkommen Dreh- und Angelpunkt für eine Suchmaschine, erkennt die intelligente Suchmaschine eigenständig die relevanten Begriffe eines Dokuments und setzt diese zueinander in Beziehung. Nach einer kurzen Anlernphase mit Trainingsinhalten, entscheidet die Maschine ab einer gewissen Zeit selbstständig, worüber es sich bei dem Dokument handelt und wie es eingeordnet werden muss. Die Ergebnisse maschinellen Lernens können anschließend dem jeweiligen Dokument zugeordnet werden und so der Inhalt über bspw. META-Daten mit weiteren Informationen angereichert werden.

Auch Bilder können nun mit Methoden maschinellen Lernens in eine Suche übertragen werden. War bisher die manuelle Verschlagwortung die einzige Möglichkeit den Inhalt eines Bildes einer Suchmaschine begreiflich zu machen, erkennt die trainierte Maschine jetzt den Inhalt ohne menschlichen Zutun. Auch hier bedarf eines anfänglichen Trainings.

Gerade große Datenmengen lassen sich mit Machine Learning leichter kategorisieren, durchsuchen und sinnvoll in Beziehung bringen. Verlage mit umfangreichen Archiven und Bildbeständen, die sich bisher lediglich auf die Digitalisierung, aber nicht auf die anschließende Nutzbarmachung konzentriert haben, bekommen mit dem PPS_Finder ein wirksames Werkzeug für die Recherche. Die Entwicklung maschineller Lernmethoden im Bereich kognitiver Suche ist in den letzten beiden Jahren rasant fortgeschritten und einzelne Elemente befinden sich bereits heute im intergator und damit auch im PPS_Finder.