Christian Honey

Wissenschafts- und Investigativjournalist, Berlin

1 Abo und 2 Abonnenten
Artikel

Neuronale Netzwerke: Wie ein künstliches Gehirn das Träumen lernt

Die bizarren Bilder aus Googles neuronalen Netzwerken gehen um die Welt. Ursprünglich sollten sie Forschern helfen, ihre eigene Künstliche Intelligenz zu verstehen.

Selten haben sich Computer so schön geirrt wie zuletzt die in Googles Labor. Mitte Juni hatten Google-Forscher eindrucksvoll demonstriert, welch fantastische Bilder künstliche neuronale Netze erzeugen, wenn man ihnen ihre verborgenen Suchmuster entlockt. Die surrealen Werke gingen um die Welt, woraufhin Google einen Code veröffentlichte, mit dem sich diese Netzwerke auch am heimischen Rechner simulieren lassen.

Seither gibt es geradezu einen Wettstreit um die spektakulärsten Foto- und sogar Videomanipulationen, auf Twitter werden sie verbreitet unter dem Hashtag#DeepDream. Ein wenig in den Hintergrund gerückt ist die Frage, was die Google-Forscher mit ihren "Traumbildern" eigentlich bezweckten. Dabei ist die Antwort ebenso faszinierend: Sie wollten besser verstehen, wie die von ihnen selbst geschaffene künstliche Intelligenz überhaupt funktioniert.

Inception heißt das Netzwerk, das die zauberhaften Welten geschaffen hat. Im vorigen Jahr hat Inception den Large Scale Visual Recognition Challenge gewonnen, in dem neuronale Netze darum wettstreiten, die meisten Fotos richtig zu klassifizieren; ist es ein Gesicht, ein Hund, ein Vogel, ein Auto, eine Landschaft? Bei dieser Sortierarbeit setzte das Netzwerk von Google "einen neuen Standard", wie die Schöpfer von Inception stolz in einem Fachartikel schrieben.

"Dabei gibt es die Art von Netzwerken schon lange," sagt Aditya Khosla, Forscher am Labor für Computerwissenschaften und künstliche Intelligenz des Massachusetts Institute of Technology (MIT). Khosla hat ein zweites Netzwerk mitentwickelt, das die Google-Forscher neben Inception verwendet haben, um ihre Traumbilder zu erschaffen. Er weiß also genau, was neuronale Netzwerke können. "Klar, es gab in den letzten paar Jahren massive Verbesserungen bei der Kategorisierung von Objekten, neuerdings auch einige von Google und Facebook. Aber wirklich neu oder überraschend ist an der Visualisierung von Google nichts", sagt er.

Das Konzept neuronaler Netze erdachten die Neurowissenschaftler Warren McCullogh und Walter Pitts von der Universität Chicago im Jahr 1943. Statt Transistoren schlugen McCullogh und Pitts als Recheneinheiten künstliche Nervenzellen (Neurone) vor, die miteinander zu Schaltkreisen verbunden sind. Anders als bei Transistoren, die Nullen und Einsen verrechnen, schicken künstliche Neurone erst dann ein Signal ab, wenn die Summe ihrer Inputs einen gewissen Schwellenwert überschreitet. Sie arbeiten also nicht mit binärer Logik, wie jeder heutige Computer, sondern mit Schwellenwert-Logik. Allerdings werden heutige künstliche neuronale Netze auf Computern simuliert, die binäre Logik stellt also die Schwellenwert-Logik dar.

Wer verstehen will, wie Inception und ähnliche Netzwerke arbeiten, schaut sich am besten den generellen Aufbau künstlicher neuronaler Netze an. Ihre Architektur folgt fast immer denselben Prinzipien: Hunderte oder Tausende künstliche Neuronen sitzen in übereinanderliegenden Schichten und sind über (simulierte) Leitungen verbunden. Ein Neuron kann die Nachbarn in seiner eigenen Schicht und Zellen der darüberliegenden Schicht über seine Leitungen aktivieren. Die oberste oder Input-Schicht funktioniert gleichsam als Sensor, der mit jenen Daten gefüttert wird, die das Netzwerk sortieren soll. Im Fall von Inception sind das Bilder, in anderen Netzwerken können das aber auch Geräusche sein. Jeder Bildpunkt aktiviert genau ein Neuron in der Input-Schicht. Die tiefste oder Output-Schicht dagegen hat meist nur eine Handvoll Neurone, für jede Bild-Kategorie eins. Diese Neurone zeigen an, zu welcher Kategorie ein Bild gehört, das der Input-Schicht präsentiert wurde.

Training für das Netzwerk

Doch bevor so ein Netzwerk diese Aufgabe gut erledigt, muss es trainiert werden. "Mit jedem Bild läuft eine Aktivitätswelle durch das ganze Netzwerk, von der Input- zur Output-Schicht", sagt Khosla. "Wenn die Output-Schicht das Bild aber der falschen Kategorie zuordnet, bekommt sie das mitgeteilt und schickt ein Fehler-Signal zurück durch das Netzwerk. Das nennt man beaufsichtigtes Lernen." Das Fehler-Signal führe dazu, das sich die Leitungen zwischen den Neuronen im gesamten Netzwerk so anpassen, dass der Fehler weniger wahrscheinlich wird. Durch diese Fehlerbehebung werden die künstlichen Neurone sozusagen auf bestimmte Bildeigenschaften abgerichtet.

Googles Inception gehört zu den sogenannten Konvolutionsnetzwerken. In dieser Art von Netzwerk reagieren die Neurone der zweiten Schicht nach erfolgreichem Training auf Hell-Dunkel-Kontraste in einer bestimmten Orientierung, also etwa auf die geraden Kanten eines Hausumrisses oder von Fenstern. Die nächsttiefere Schicht reagiert auf Kombinationen dieser Kanten, zum Beispiel hausähnliche Konturen und so weiter. Je tiefer die Schicht im Netzwerk, desto komplexer sind die Strukturen im Bild, auf die dann die Neurone reagieren.

Bei tiefen neuronalen Netzwerken (Deep Neural Networks) wie Inception mit seinen 22 Schichten ist jedoch oft nicht klar, auf welche Formen genau sich die Neurone in den tieferen Schichten einschießen. Das ist der Punkt, an dem die Google-Forscher nicht genau vorhersagen können, was ihre künstliche Intelligenz tut. Im neuronalen Netz sind zwar alle Regeln definiert und mathematisch simpel. Jedes Neuron aber vollführt eine nicht-lineare Funktion: Es kann auf kleine Input-Änderungen mit starken Output-Änderungen reagieren. So verhält sich das gesamte Netzwerk auf nicht-lineare Weise, und es lässt zwar in der Summe, aber nicht im Einzelnen vorherberechnen, was im Netzwerk beim Training geschieht.

"Deshalb haben viele Gruppen in den letzten Jahren Methoden entwickelt, um die Eigenschaften der tiefen Neurone visuell darzustellen," sagt Khosla. So wollen sie verstehen, wann und wie Fehlinterpretationen ausgelöst werden."Dabei zeigt man einem gut trainierten Netzwerk ein Bild und lässt die Aktivitätswelle durch das Netz laufen. Anstatt aber ein Fehlersignal zurückzuschicken, überaktiviert man die Zellen in jener tiefen Schicht, deren Eigenschaften einen interessieren. Das so manipulierteSignal läuft dann durch das Netzwerk zurück bis zur Input-Schicht." So werden im Originalbild genau jene Eigenschaften überzeichnet, die die tiefe Schicht am stärksten angesprochen haben.

Zum Original