torial Blog

Utting am Ammersee

Artikel

torial Blog | Kommt mit Big Data das Ende der Experten?

Kommt mit Big Data das Ende der Experten?

"With Big Data comes the end of the pundit." Mit Big Data haben Experten ausgedient.

Diesen Spruch habe ich vor Jahren auf der Strata Conference aufgeschnappt - dem Treffen der Data Science und Big Data Community. Wie funktioniert die "Data Democracy", wie Avinash Kaushik, Vorsitzender der Amerikanischen Statistikergesellschaft Big Data nennt? Menschen hinterlassen überall digitale Spuren. Selbst wenn wir versuchen, uns unauffällig zu bewegen, nichts auf Facebook, Linkedin oder Twitter schreiben, sind wir dennoch mit anderen Menschen sozial verbunden und werden dadurch indirekt durch Daten abgebildet. Viele dieser Daten sind zu einem bestimmten Zweck gesammelt worden: Leute schreiben in Social Media, was ihnen gerade in den Sinn kommt, Menschen stellen ihre Urlaubsbilder auf Flickr, ein Unternehmen stellt eine Stellenanzeige ins Netz.

All diese Datenspuren können wir, das heißt jeder von uns, von den Plattformen abrufen, auf denen sie gesammelt werden. Mit einem Webcrawler, einem kleinen Programm, das Inhalte aus dem Web einsammelt, können wir praktisch alles, was im Netz veröffentlicht wird, für uns nutzbar machen. Solche Crawler gibt es als fertige Software, wie z.B. den frei verfügbaren Httrack. Oder man nutzt eines der zahlreichen Pakete für die gängigen Programmiersprachen, wie z.B. Beautifulsoup und Scrapy für die Programmierung in Python (das inzwischen zur gängisten Sprache für Data Science geworden ist). Viele Plattformen wie Twitter oder Flickr stellen außerdem sogenannte Programmierschnittstellen (API's) zur Verfügung, das sind Funktionen, mit denen man auf einfache Weise die vorhandenen Daten sogar strukturiert abrufen kann. Das funktioniert über Befehle wie twitter_api.statuses.show, die den Twitter-Server dazu anweisen, die entsprechenden Daten als Dokument an den Browser von dem die Funktion aufgerufen wurde, zurückzusenden. (Ein how-to für Twitter gibt es z.B. hier).

Typisches Big Data Beispiel: Strukturen aus Daten erkennen die nicht dafür gesammelt wurden. Hier eine Karte von Berlin aus Geodaten von Tweets (blau) und Flickr-Bildern (orange) von Eric Fischer (CC-BY-SA)

Die dafür notwendige Software gibt es inklusive detaillierter Anleitung im Netz (ein Anwendungsbeispiel für GoogleBooks gibt es außerdem hier). Selbst Laien können dadurch zu "Datensammlern" werden. Ein Beispiel mag die Macht dieser frei verfügbaren Daten illustrieren: es ist einfach, mit einem Webcrawler die Abstracts, d.h. die Zusammenfassungen von wissenschaftlichen Artikeln zu sammeln. Mit diesen Texten können alle möglichen Analysen gefahren werden: welche Wörter oder Wortpaare kommen plötzlich häufiger vor, als vor einem Jahr? Welche Autoren schreiben über welche Themen? Das liefert einen guten Hinweis auf aktuelle Trends in dem betreffenden Forschungsgebiet.

Diese Auswertungen lassen sich selbstverständlich auch mit Patentschriften oder Zeitungsartikeln machen. Dieses Vorgehen verzichtet völlig auf ein semantisches Verständnis der Texte - es wird einfach ausgezählt. Damit funktionieren diese Verfahren unabhängig davon, ob man die Sprache des Textes versteht. Es reicht also aus, eine interessante Stelle, die man so identifiziert hat, dann in Ruhe zu übersetzen. Der Aufwand, Nachrichtenquellen oder Fachartikel zu verfolgen, und zwar sogar in beliebigen Sprachen, wird dadurch so weit reduziert, dass es zB. einem einzelnen Journalisten möglich ist, auf dem Laufenden zu bleiben, wenn sich etwas ungewöhnliches tut.

Das ist der Paradigmenwechsel von Big Data: Daten zu erforschen, Muster in Daten zu suchen, Daten von ihrem ursprünglichen Zweck umzuwidmen, etwas Neues daraus machen - und zwar transparent und nachvollziehbar, ohne Geheimwissenschaft und arkanes Expertentum. So wird Big Data tatsächlich zur "Daten-Demokratie".

Zum Original