Kristin Oswald

Online-Redakteurin, Kultur & Geisteswissenschaften, Erfurt

7 Abos und 4 Abonnenten
Artikel

Semantic Web - das Wissen der Welt vernetzten

Informationen zu sammeln ist evolutionär, ja beinahe als eine jener Eigenschaften des Menschen anzusehen, die ihn einzigartig machen. Je mehr Informationen über seine Umwelt der Mensch hatte, desto größer waren seine Chancen, in einer noch nicht kontrollierbaren Welt zu überleben. Auch heute ist Wissen Macht. Der Umfang des Wissens ist jedoch auf eine Größe gewachsen, die kaum mehr zu bewältigen ist. Niklas Luhmann, der Erfinder der Systemtheorie, sammelte sein Wissen 40 Jahre lang in einem Zettelkatalog. Dieser umfasste bei seinem Tod 20.000 Zettel und gilt als so bedeutend, dass sich seine Erben sich jahrelang darum stritten. Das Besondere daran: er ist mit einem Querverweis-System sortiert, das bis zu zwölf Stellen hatte und sich mit beinahe jedem Thema beschäftigte. Das Problem: er ist für einen Außenstehenden kaum zu verstehen und enthält trotz seines Umfanges nur einen Bruchteil des verfügbaren Wissens. Luhmanns Kategorisierung und Verschlagwortung waren subjektiv, die Idee dahinter scheint nun jedoch in greifbare Nähe zu rücken - in Form des Semantic Web. Auf das soziale Web 2.0 folgt das semantische Web 3.0. Ziel ist die einheitliche Verknüpfung alles verfügbaren Wissens.


Warum ein Web 3.0?

Im Jahr 2010 gab es im SurfaceWeb, d.h. dem nicht durch Passwörter gesperrten, zugänglichen Teil des Internets, bereits über 10 Millionen Gigabyte Daten, im DeepWeb, also in geschlossenen Online-Informationssystemen, noch ca. 550 mal mehr. Trotzdem ist durch die derzeitige Struktur des Internet auch das offene Wissen nicht problemlos auffindbar. Grund hierfür ist die Suche nach Schlagworten, also nach einer Aneinanderreihung von Symbolen, die in möglichst derselben Aneinanderreihung gefunden werden sollen. Weder Kontext noch Relevanz spielen dabei eine Rolle, weswegen die Suche derzeit häufig noch ein nervenaufreibendes Gräuel sein kann. Hinzu kommen Probleme wie Sprachbarrieren, die Verwendung von Synonymen oder schlicht andere Formulierungen für denselben Sachverhalt. Vor allem auf der Suche nach, die nicht dem entsprechen, was der Durchschnitt im Netz zu finden versucht und eines größeren Kontextes bedürfen, erweist sich das Internet zuweilen als wenig ergiebig.


Auf diesem Problem fußt das Semantic Web. Dessen Basis ist eine einheitliche, formalisierte Sprache, die Daten mit Metadaten, also Daten über Daten, versieht. Auf diese Weise wird aus den Aneinanderreihungen von Symbolen, die wir als Sprache verstehen, Wissen. Metadaten sind ein Kategorie- und Hierarchiesystem, das die Informationen in einen größeren Zusammenhang einordnet und so mit anderen Informationen verknüpft. Beziehungen und Kontexte werden erzeugt. Dazu dienen verschiedene Computerlinguistiken, die auf Logik und Ontologien beruhen. Ontologien dienen in der Philosophie wie in der Informatik dazu, die Welt zu beschreiben. Sie verbinden ein Wort mit der Sache, auf die es sich bezieht und können dieses, computerlinguistisch aufgearbeitet, auch einer Maschine verständlich machen. Ontologien geben aneinander gereihten Symbolen Bedeutung und ordnen sie in ein größeres System ein. Dadurch werden Ungenauigkeiten und Mehrdeutigkeiten vermieden und Synonyme mit dem gleichen Begriff verbunden. In Anbetracht des Umfanges der derzeitigen Wissensflut scheint die Systematisierung der Welt in Form von Metadaten vereinfacht und bisweilen etwas unpräzise und bestreitbar. Nicht jede Aussage ist explizit. Über die Hierarchisierung nicht nur des Wissens, sondern auch der Quellen ist es aber auch im Semantic Web möglich, die Vertrauenswürdigkeit von Aussagen einzuschränken und aus ihnen Theorien oder Vermutungen zu machen. Zudem ist es nicht nur möglich, die Inhalte von Texten aufzubereiten und sie aus ihrem technischen Symbolgefängnis zu befreien, auch Bilder und Videos können inhaltlich erschlossen werden.


Aus der Suche nach Worten wird die Suche nach Wissen

Das Semantic Web verbessert nicht nur die Vernetzung durch Vereinheitlichung über Sprachbarrieren und Formulierungsgrenzen hinaus, sondern auch die Suche selbst. Anstatt Dokumente auf Schlagworte zu überprüfen, können wirkliche Fragestellungen als Basis dienen. Die Antworten darauf werden von semantischen Suchmaschinen aus den im Moment der Abfrage online verfügbaren Daten zusammengestellt und graphisch, tabellarisch oder textuell umgesetzt. Das Ergebnis ist nicht mehr eine Liste von Websites, sondern ein Informationsbild, eine dynamische Seite, die mit jeder Anfrage neu entsteht. Natürlich können in diesem weiterhin die Quellen der Informationen, Links oder Autoren ausgegeben werden sowie zugehörige Dokumente, Videos oder Bilder.


Dies ist neben den vereinheitlichten und verknüpften Metadaten auch durch Reification möglich. Da einmal online zur Verfügung gestellte Daten in dasselbe Kategoriesystem eingeordnet werden können, wie bereits bestehende Informationen, und zwar unabhängig vom Ausgangsformat, ist ein Zusammenführen der Daten mehrerer Seiten problemlos und automatisiert möglich. Dabei werden aufgrund von Logik einzeln verfügbare Fakten durch das Hierarchiesystem verbunden und indirekt neue Fakten erschlossen, die automatisch in das Suchergebnis eingespeist werden. Ebendies gilt auch für logische Ausschlüsse, Einschränkungen oder Beziehungen über Eck. Indirekt verbundene Daten können zur Suchanfrage hinzugezogen werden, um z.B. den Kontext zu erweitern oder weitere Quellen zu erschliessen, die dem Suchenden vorher nicht bekannt waren.


Die LinkedDataCloud zeigt, wieviele vernetzte semantische Daten es bereits gibt. Eine der größten Quellen für verknüpftes Wissen ist die Wikipedia als in sich querverlinkte Datenbank von Texten, Bildern und Literaturverweisen. Zudem enthält die Übersichtsbox jedes Artikels bereits dessen Grundlagen in semantischer Form und kann von entsprechenden Suchmaschinen verarbeitet werden. Auch für die Wissenschaft ist das interessant, weil Wikipedia ihre ursprünglich demokratische Idee heute nur noch umsetzt, wenn es um den Zugriff auf das dort gespeicherte Wissen geht. Die Mitarbeit an diesem Wissensschatz ist allerdings wesentlich schwieriger geworden. Es kann längst nicht mehr jeder Autor schreiben, was er will. Die starke Selbstregulierung hat zu einer qualitativen und quantitativen Verbesserung der Inhalte geführt. Bereits 2005 attestierte Nature der Wikipedia die gleiche Qualität wie der Encyclopaedia Britannica. Mit dem Umfang des wikipedianischen Wissens kann jedoch weder dieses allgemeine noch ein themenspezifisches Lexikon mithalten.


Für die Herangehensweise des Semantic Web und gerade für die Nutzbarkeit dieser Technologien für die Wissenschaft von Bedeutung ist die Aktualität. Wikipedia ist kein Forschungsinstitut und präsentiert auch keine diskutablen Ergebnisse, jedoch kann neues gesichertes Wissen jederzeit eingespeist werden. Das gleiche gilt für jede andere semantische Wissenressource im Internet. So pflegen nicht nur die Deutsche Nationalbibliothek und das Bundesarchiv einen Teil ihrer Daten regelmäßig in die Wikipedia ein, auch das Deutsche Archäologische Institut hat einen Wikipedian in Residence, der sich um die Aktualität und Vollständigkeit der thematischen Beiträge kümmert.


Damit Wissenschaftler spezifisches, für sie relevantes Wissen finden können, wurde die Idee der OpenData oder OpenKnowledge entwickelt. Sie steht in engem Zusammenhang mit dem sozialen Faktor des Web 2.0. Wer Wissen zur Verfügung stellt, bekommt von der Community Wissen zurück. Diese Community kann auch eine wissenschaftliche sein und Informationen veröffentlichen, die den wissenschaftlichen Ansprüchen gerecht werden und von Kollegen genutzt werden können. Da es möglich ist, die Primär- und auch Sekundärquellen für Informationen anzugeben, den Kontext, d.h. die Diskussionspunkte und Theorien semantisch darzulegen und schließlich das wissenschaftliche und das nicht-wissenschaftliche Wissen mit unterschiedlicher Vertrauenswürdigkeit einzustufen, kann falschen Annahmen oder übereilten Schlüssen rechtzeitig vorgebeugt werden. Auch die Aktualisierung durch neue Ergebnisse bedeutet nicht, dass jeder beliebig den Wissensvorrat verfälschen kann, da die Daten anderer nicht verändert, sondern nur ergänzt werden können.


Die Vielzahl der derzeitigen Digital Humanities Projekte legt den Grundstein für eine umfangreiche, verfügbarer Online-Speicher von Fachwissen. Dank der Ergänzung mit Metadaten ist es möglich, die Datenbanken der einzelnen Projekte zu kombinieren und das vernetzte Wissen zu erweitern, ohne nachträglich auf komplizierte Vereinheitlichungstechniken zurückgreifen zu müssen. Fachübergreifende Fragestellungen auf Basis breiter Datenmengen werden dann möglich, an die bei der herkömmlichen Methodik aufgrund des zeitlichen Aufwands nicht zu denken war. Zentral bleiben auch hier Methodik und Fragestellung des einzelnen Wissenschaftlers. Ohne ihn sind die Datensätze wertlos, ohne ihn sucht niemand die weißen Flecken auf der Weltkarte des Wissens.

Für die Geschichte und Archäologie bedeutet das Semantic Web: Typologien können jederzeit angepasst werden, zugleich können neue Beispiele und Querverbindungen einzelner Beispiele zu den Fundumständen eingefügt und verglichen werden, auch zu Begleitfunden usw. Historische Quellen, ihr Hintergrund, ihre Umstände, Quellen mit ähnlichen oder entgegensetzten Aussagen und deren Zeitstellung können über eine erweiterte Suche entdeckt werden. Parallelitäten von Entwicklungen, aber auch Unterschiede und Spezifitäten können durch einen unendlichen Reichtum an Detailwissen aufgedeckt werden. Interdisziplinarität wird wesentlich vereinfacht und auch die Literaturrecherche erheblich leichter. “Ideal wäre es” nach Paul Otlet, “[...] jeden Artikel und jedes Buchkapitel von sprachlichen Feinheiten, Wiederholungen und Ausschmückungen zu befreien, und das, was neu ist und eine Vermehrung des Wissens darstellt, separat auf Karten zu sammeln.” (Paul Otlet, International Organization and Dissemination of Knowledge. Selected Essays of Paul Otlet, New York 1990, 17). Dies erhoffen sich die Entwickler des Semantic Web. Durch lingustisce-informatische Text-Mining-Verfahren können auch bereits digitalisierte, aber nicht entsprechend aufbereitete Bücher in den semantischen Wissensvorrat eingespeist werden. “Die auf der Welt vorhandene Information zu organisieren” um sie “allgemein zugänglich und nützlich zu machen”, wäre dann nicht mehr nur die Definition der eigenen Aufgabe von Google , sondern von jedem, der Informationen online zugänglich macht.


Vernetztes Wissen und Demokratie

Was Wikipedia der Wissenschaft voraus hat, ist die Aufbereitung des Fachwissens für eben jene, für die es eigentlich gemacht wird: die Gesellschaft. Sie erwartet in Anbetracht der Probleme der Globalisierung, aus den Details der Fächer anwendbare Schlüsse für Kultur, Politik und Wirtschaft ziehen zu können. Und darauf hat sie ein Recht. Zwar sind Ergebnisse theoretisch über Bibliotheken oder den Kauf von Fachliteratur für jeden zugänglich, aber nicht entsprechend aufbereitet. Zudem wird der Erwerb von Fachbüchern und –zeitschriften selbst für Bibliotheken beinahe unerschwinglich und die Online-Versionen sind meist nur mit einem speziellen Zugang einsehbar. In diesem Sinne setzt das Semantic Web dazu an, die “Krise der wissenschaftlichen Informationsversorgung” zu bekämpfen – und Wissen auch für Wissenschaftler leichter, übersichtlicher und dauerhaft zugänglich zu machen. Gerade kleine Fächer, die stets um Anerkennung von gesellschaftlicher Seite – und damit um ihr Überleben – kämpfen, deren Wissen aber häufig auf verzweigten Theorien und Grundlagen auch anderer, angrenzender Bereiche beruht, ist dies eine große Chance. Naturwissenschaften hingegen können ihre häufig schwer verständlichen, aber im großen Kontext bedeutungsvollen Ergebnisse einfach präsentieren. Die Wissenschaft verliert mit dem Semantic Web keineswegs ihre Autorität.


“Die mit öffentlichen Mitteln finanzierten Bibliotheken kaufen die mit öffentlichen Geldern publizierten Ergebnisse zurück, um sie wiederum der Wissenschaft und der interessierten Öffentlichkeit zur Verfügung zu stellen.” (Heike Andermann, Andreas Degkwitz) Nicht nur wegen ihrer leichten Zugänglichkeit wird Wikipedia also von der Allgemeinheit häufiger zu Rate gezogen, als ein Fachlexikon. Die Querverlinkungen helfen, sich auch Überblick über schwierige Themenfelder verschaffen und das Entscheidende herauspicken zu können. Zugleich ist Forschung natürlich die Quelle für das Wissen, das sich in Wikipedia findet – wenn es auch nicht von Forschern dort hineingestellt wird. Wikipedias präsentiert die „Weisheit der Vielen“. Diese Idee greift das Semantic Web auf: das Wissen der Welt zu vernetzen und die für den Einzelnen interessanten Informationen aufzubereiten. Die Devise lautet: Finden statt Suchen.

Zum Original