Zur Tagung des Netzwerk Recherche ist die Suchmaschine Open Semantic Desktop Search VM zum unabhängigen und datenschutzfreundlichen Erschliessen und Analysieren von Dokumentenbergen nun erstmals auch als deutschsprachige Version (Special Edition zur Netzwerk Recherche Tagung) verfügbar.
Dank mächtiger Open Source Basis kann die freie Software als unter Linux, Windows oder Mac lauffähige virtuelle Maschine kostenlos heruntergeladen, genutzt, weitergegeben und weiterentwickelt werden.
Ob grösserer Leak oder Zusammenwürfeln oder (wieder) Erschliessen umfangreicherer (kollaborativer) Recherche(n) oder Archive: Hin und wieder müssen größere Datenberge bzw. Dokumentenberge erschlossen werden, die so viele Dokumente enthalten, dass Mensch diese Masse an Dokumenten nicht mehr alle nacheinander durchschauen und einordnen kann. Auch bei kontinuierlicher Recherche zu Fachthemen sammeln sich mit der Zeit größere Mengen digitalisierter oder digitaler Dokumente zu grösseren Datenbergen an, die immer weiter wachsen und deren Informationen mit einer Suchmaschine für das Archiv leichter auffindbar bleiben.
Moderne Tools zur Datenanalyse in Verbindung mit Enterprise Search Suchlösungen und darauf aufbauender Recherche-Tools helfen (halb)automatisch.
Unabhängiges Durchsuchen und Analysieren grosser DatenmengenDamit können investigativ arbeitende Journalisten selbstständig und auf eigener Hardware datenschutzfreundlich hunderte, tausende, hunderttausende oder gar Millionen von Dokumenten oder hunderte Megabyte, Gigabytes oder gar einige Terabytes an Daten mit Volltextsuche durchsuchbar machen.
Automatische Datenanreicherung und Erschliessung mittels Hintergrundwissen
Zudem wird anhand von konfigurierbaren Hintergrundwissen automatisch eine interaktive Navigation zu in Dokumenten enthaltenen Namen von Bundestagsabgeordneten oder Orten in Deutschland generiert oder anhand Textmustern strukturierte Informationen wie Geldbeträge extrahiert.
Mittels Named Entities Manager für Personen, Organisationen, Begriffe und Orte können eigene Interessenschwerpunkte konfiguriert werden, aus denen dann automatisch eine interaktive Navigation (Facettensuche) und aggregierte Übersichten generiert werden.
Automatische Datenvisualisierung
Diese lassen sich auch visualisieren: So z.B. die zeitliche Verteilung von Suchergebnissen als Trand Diagramm oder durch gleichzeitige Nennung in Dokumenten abgeleitete Verbindungen als Netzwerk bzw. Graph.
Dokumente, die nicht im Textformat, sondern als Grafiken vorliegen, wie z.B. Scans (auch innerhalb von PDF-Dateien) werden automatisch durch automatische Texterkennung (OCR) angereichert und damit auch der extrahierte Text durchsuchbar.
Ansonsten ist auch das Recherche-Tool bzw. die Such-Applikation "Suche mit Listen" integriert, mit denen sich schnell und komfortabel abgleichen lässt, ob es zu den einzelnen Einträgen in Listen jeweils Treffer in der durchsuchbaren Dokumentensammlung gibt.
Mittels unscharfer Suche findet das Tool auch Ergebnisse, die in fehlerhaften oder unterschiedlichen Schreibweisen vorliegen.
Im Recherche, Textanalyse und Document Mining Tutorial zu den enthaltenen Recherche-Tools und verschiedenen kombinierten Methoden zur Datenanalyse, Anreicherung und Suche wird ausführlicher beschrieben, wie auch eine große heterogene und unstrukturierte Dokumentensammlung bzw. eine grosse Anzahl von Dokumenten in verschiedenen Formaten leicht durchsucht und analysiert werden kann.
Die nun auch deutschsprachig angebotene und mit deutschen Daten wie Ortsnamen oder Bundestagsabgeordneten vorkonfigurierte virtuelle Maschine Open Semantic Desktop Search ermöglicht nun auch auf einzelnen Desktop Computern oder Notebooks mit Windows oder iOS (Mac) die Suche und Analyse von Dokumenten mit der Suchmaschine Open Semantic Search.
Dank einer virtuellen Maschine lässt sich ein solche Suchmaschine so nicht nur auf einem gemeinsam nutzbaren Linux Server oder für besonders sensible Dokumente mit dem verschlüsselten Live-System InvestigateIX als abgeschottetes System auf verschlüsselten externen Datenträgern installieren, sondern mit der Suchlösung Open Semantic Desktop Search auch einfach als virtuelle Maschine auch unter Windows oder auf einem Mac in der bzgl. weiterer Software und Daten bereits existierenden Systemumgebung betreiben.
Datenschutz & Unabhängigkeit: Grössere Unabhängigkeit von zentralen IT-Infrastrukturen und IT-Fachleuten
Damit ist investigatives Recherchieren weitmöglichst unabhängig möglich: ohne teure, zentrale und von Administratoren abhängige Server, ohne von der Dokumentenanzahl abhängige teure Software-Lizenzen, ohne Internet und ohne spionierende Cloud-Dienste. Und weil die Einrichtung und Konfiguration möglichst einfach gehalten ist, ist das System auch für IT-Laien in Redaktionen und freie Journalisten einsetzbar, die nicht über Suchmaschinen- und IT-Spezialisten verfügen.
Datenanalyse und Suche finden auf dem eigenen Computer statt, nicht wie bei vielen anderen Lösungen in der sogenannten Cloud.