Künstliche Intelligenz: Wie frühe Hirnforschung moderne KI beeinflusst hat
Algorithmen ermöglichen Sprachassistenten oder autonomes Fahren, beherrschen Strategiespiele besser als die stärksten menschlichen Spieler, erstellen Krankheitsdiagnosen aus medizinischen Bildaufnahmen und vieles mehr: Deep Learning hat in den vergangenen Jahren große Erfolge gefeiert und den Forschungszweig der künstlichen Intelligenz (KI) geprägt.
Der Begriff leitet sich ab vom Einsatz künstlicher neuronaler Netze, deren zahlreiche Neuronen in relativ vielen Schichten ( "deep" ) angeordnet sind.
Ihren Aufstieg verdanken diese Algorithmen zu einem großen Teil steigender Rechenkapazität und großen Mengen an online verfügbaren Trainingsdaten. Konzeptionell haben sich jedoch auch die modernsten neuronalen Netzwerke überraschend wenig von ihrem Urahn, dem Perzeptron aus den 1950er Jahren, entfernt.
Das anatomische Verständnis des Gehirns in der Mitte des 20. Jahrhunderts hat die Modelle der künstlichen Intelligenz geprägt, die wir heute noch – und mehr denn je – verwenden. In den letzten sechzig Jahren hingegen wurde die Informatik kaum noch aus den Neurowissenschaften beeinflusst.
Von der Rechenmaschine zur KI
Die frühen Ursprünge der künstlichen Intelligenz ebenso wie die der Neurowissenschaften reichen zurück bis ins 19. Jahrhundert. Während Erfinder immer ausgeklügeltere mechanische Rechenmaschinen konstruierten, reifte bei Mathematikern die Erkenntnis, dass solche Apparate im Prinzip auch jenseits der reinen Arithmetik eingesetzt werden können.
Der Engländerin Ada Lovelace wird die Idee zugeschrieben, dass Rechenmaschinen nicht nur wie bis dahin üblich automatische Webstühle steuern, sondern auch typische Leistungen menschlicher Intelligenz vollbringen könnten. Häufig wird sie für ihren Vorschlag aus den 1840er Jahren(öffnet im neuen Fenster) zitiert, geeignet programmierte Rechner könnten eigenständig Musikstücke komponieren – ein Gedanke, der gerade heute besonders hellsichtig erscheint, da diese Anwendung durch Deep Learning in den letzten Jahren zu praktischer Relevanz gekommen ist.
Parallel dazu wuchs auf Seiten der Biologie im 19. Jahrhundert das anatomische Verständnis von Neuronen als den Körperzellen, auf denen die kognitiven Leistungen des Gehirns beruhen. Der spanische Hirnforscher und spätere Nobelpreisträger Santiago Ramón y Cajal postulierte(öffnet im neuen Fenster) bereits in den 1890er Jahren, dass sich die Verknüpfungen zwischen solchen Neuronen(öffnet im neuen Fenster) im Laufe des Lebens ständig ändern und damit die biologische Grundlage des Lernens schaffen.
KI: Der Funke springt über
Einen wichtigen Impuls gab die Hirnforschung der Informatik in den 1940er Jahren: Der Neurologe Warren S. McCulloch und der Logiker Walter Pitts beschrieben ein extrem vereinfachtes Modell für Gehirnzellen ( Original (hinter Paywall)(öffnet im neuen Fenster) / Nachdruck(öffnet im neuen Fenster) ), um zu untersuchen, welche Rechenoperationen von ihnen durchgeführt werden können.
Ihr künstliches Neuron empfängt Signale aus einer Reihe anregender und hemmender Eingangskanäle, wobei zu einem gegebenen Zeitpunkt über jeden der Kanäle nur eine Null oder eine Eins übertragen werden kann. Außer den Eingängen verfügt das Neuron über einen Ausgangskanal, über den es seinen Zustand an seine Umwelt kommunizieren kann.
Das Neuron führt die folgende Rechenoperation aus: Falls die Anzahl der Einsen an seinen anregenden Eingängen einen bestimmten Schwellenwert überschreitet und falls an keinem der hemmenden Eingänge eine Eins anliegt, sendet das Neuron eine Eins über seinen Ausgangskanal, andernfalls eine Null.
Heute verwendete künstliche Neuronen verarbeiten anstatt der binären Signale normalerweise reelle Zahlen und ihre Eingänge werden mit Gewichtungsfaktoren multipliziert. Außerdem wird das Ausgangssignal durch eine nichtlineare Funktion, die sogenannte Aktivierungsfunktion, skaliert. Ansonsten unterscheiden sich die künstlichen Neuronen heutiger Algorithmen aber nicht grundlegend von ihren fast achtzig Jahre alten Vorfahren.
Das künstliche Neuron feuert
Ein künstliches Neuron kann man sich als einen Musterdetektor vorstellen, der auf eine bestimmte auffällige Konstellation in einem Strom von Eingangsdaten anschlägt. Das Neuron ist wie oben beschrieben über mehrere Eingänge – in der Biologie Synapsen genannt – mit verschiedenen Signalquellen verbunden.
Diese Quellen können externe Daten sein, wenn beispielsweise die Farbwerte von bestimmten Pixeln eines Bildes an die Eingänge des Neurons gelegt werden. Die Quellen können aber auch die Ausgangskanäle anderer Neuronen sein, die schon eine gewisse Vorverarbeitung der Ursprungsdaten durchgeführt haben. In jedem Falle legen diese Verknüpfungen der Eingänge sozusagen das Lieblingsmuster des Neurons fest, also die Kombination von Eingangssignalen, auf die es am stärksten reagiert.
Je nach Wahl der Aktivierungsfunktion zeigt die Reaktion des Neurons eine gewisse Toleranz gegenüber Abweichungen von diesem Lieblingsmuster, was der Robustheit der Rechenergebnisse zugutekommt. Die Aktivierungsfunktion ist meist so gewählt, dass das Neuron erst aktiv wird und eine positive Zahl aussendet, wenn seine Anregung durch die Eingangskanäle einen bestimmten Schwellwert übersteigt. In Analogie zu den elektrischen Entladungen in biologischen Neuronen sagt man dann, das Neuron feuert.
Durch sein Feuern meldet das Neuron, dass es sein Muster im Eingangssignal erkannt hat, und dies kann entweder das Endergebnis einer Berechnung darstellen (z. B. "Katze im Bild erkannt" ) oder seinerseits als Eingangssignal für andere künstliche Neuronen dienen.
Ein typisches Beispiel, welches sowohl im Gehirn (öffnet im neuen Fenster) als auch in künstlichen neuronalen Netzen (PDF) (öffnet im neuen Fenster) relevant ist, sind Kantendetektoren für die Vorverarbeitung von visuellen Daten. Natürliche Bilder sind nämlich bei weitem keine beliebigen Ansammlungen von Pixeln, sondern ihre Bildpunkte weisen untereinander starke und sehr komplexe statistische Zusammenhänge auf. Insbesondere sind kurze gerade Kanten zwischen einer hellen und einer dunklen Fläche ein häufig anzutreffendes Muster.
Entsprechend finden sich sowohl in den unteren Schichten von künstlichen neuronalen Netzen als auch im primären visuellen Cortex des Gehirns Neuronen, die jeweils auf eine solche Kante an einer bestimmten Stelle im Sichtfeld reagieren.
Hirnforschung und KI: Ein Flirt und sein Ende
Schon früh war klar, dass die relativ einfach gestrickten künstlichen Neuronen erst dann wirklich interessante Leistungen vollbringen können, wenn viele von ihnen in einem Netzwerk verbunden werden. Im Jahre 1956 fand der legendäre Dartmouth Workshop (öffnet im neuen Fenster) statt, in dem gemeinhin die Geburtsstunde der KI-Forschung als eigenständiges akademisches Fachgebiet gesehen wird.
Die neue Disziplin machte sich hoffnungsvoll mit einem Einsteigerpaket von Methoden ans Werk, das neben den regelbasierten Verfahren der sogenannten symbolischen KI auch schon einfache neuronale Netze enthielt. Letztere wurden in den 50er Jahren unter dem Namen Perzeptron bekannt (PDF)(öffnet im neuen Fenster) , zunächst noch bestehend aus einer überschaubaren Zahl künstlicher Neuronen.
Aus dem Perzeptron entwickelte sich das mehrschichtige neuronale Netz : Die Eingangsdaten werden zunächst von mehreren separaten künstlichen Neuronen der ersten Schicht verarbeitet, die sich als Detektoren für unterschiedliche Muster spezialisiert haben. Deren Ausgabekanäle stellen nun den Input für eine weitere Gruppe von Neuronen in der zweiten Schicht dar(öffnet im neuen Fenster) , die nun also gewissermaßen Muster von Mustern erkennen.
Deren Ausgabe wird wiederum an die dritte Schicht weitergeleitet und so weiter. Mit jeder zusätzlichen Schicht von Neuronen steigt also die Komplexität der Muster, die erkannt werden können: Im Falle von Bildern werden beispielsweise von Schicht zu Schicht erst kleine Kanten oder Farbflecken identifiziert, dann einfache geometrische Formen und schließlich Gesichter oder andere Objekte.
Wichtig für das Verständnis künstlicher neuronaler Netze ist die Tatsache, dass sie einen Trainingsprozess durchlaufen müssen, bevor sie eine bestimmte Aufgabe lösen können. Dabei werden die Stärken der synaptischen Verbindungen so eingestellt, dass von den einzelnen Neuronen relevante Muster erkannt werden und das Ergebnis – also der Output der letzten Schicht – der zu lösenden Aufgabe entspricht.
In den meisten Fällen wird dafür sogenanntes überwachtes Lernen eingesetzt, das heißt, es existiert ein Datensatz mit Beispielen, für die das jeweilige Problem bereits gelöst wurde. Soll ein neuronales Netz beispielsweise handgeschriebene Ziffern erkennen, so wird eine gewisse Zahl von annotierten Bildern benötigt, zu denen jeweils die korrekte Ziffer maschinenlesbar gespeichert ist.
Die Algorithmen, die solche Sätze von Trainingsdaten in fein abgestimmte Gewichte zwischen den Neuronen verwandeln, stellen das Herzstück des maschinellen Lernens mit neuronalen Netzen dar.
Getrennte Wege
Nach dem kurzen Flirt gegen Mitte des letzten Jahrhunderts entwickelten sich Hirnforschung und künstliche Intelligenz weitgehend unabhängig voneinander weiter – abgesehen davon, dass natürlich Computer wichtige Werkzeuge für Experimente und Simulationen in den Neurowissenschaften sind.
In der Informatik erforschte man unterschiedliche Architekturen, die sich aus künstlichen Neuronen aufbauen lassen, und entwickelte immer ausgefeiltere Algorithmen, um diese Netzwerke erfolgreich zu trainieren. Der Fokus lag dabei üblicherweise mehr auf der praktischen Anwendbarkeit als auf der biologischen Plausibilität der Modelle, so dass sich die künstliche Intelligenz konzeptionell wieder von ihrem biologischen Vorbild entfernte.
Theoretische Schwierigkeiten(öffnet im neuen Fenster) und die begrenzte Rechenkapazität der verfügbaren Computer ließen die Entwicklung immer wieder ins Stocken kommen, was zu abnehmendem Interesse und damit den KI-Wintern (öffnet im neuen Fenster) der 1970er und späten 1980er Jahre führte.
Schließlich jedoch ermöglichten die jahrzehntelang exponentiell zunehmende Rechenleistung, insbesondere durch den Einsatz von Grafikkarten und anderer spezialisierter Hardware, sowie massenhaft online verfügbare Trainingsdaten den breiten Einsatz des Deep Learning in der Praxis.
Die Neurowissenschaften kommen schnell voran ...
Die Neurowissenschaften schritten unterdessen vor allem auf der experimentellen Seite zügig voran. Eine Vielzahl neuer Techniken ermöglichte es, tief ins Innere des Gehirns zu blicken und die Vorgänge dort auf unterschiedlichen Zeit- und Größenskalen zu beobachten.
War man anfangs noch auf lichtmikroskopische Untersuchungen von Gewebeschnitten oder recht grob aufgelöste Messungen elektrischer Felder auf der Kopfhaut mittels Elektroenzephalografie (EEG) angewiesen, so eröffneten sich seit Mitte des 20. Jahrhunderts zunehmend Möglichkeiten, Vorgänge im lebenden Hirngewebe detailliert und bis hin zum Verhalten einzelner Neuronen zu beobachten.
Dank der fortschreitenden Entwicklung an Mikroelektroden können heute die elektrischen Aktivitäten Tausender Einzelneuronen parallel gemessen(öffnet im neuen Fenster) werden. Seit den 1990er Jahren erlaubt es die funktionelle Magnetresonanztomographie (fMRI), die Aktivierung unterschiedlicher Hirnareale hochaufgelöst, dreidimensional und in Echtzeit anhand ihres Sauerstoffumsatzes zu verfolgen.
Mit diesen und vielen weiteren Methoden wurde eine enorme Menge an experimentellen Daten zu biologischen Gehirnen generiert und unterschiedlichste Phänomene beobachtet.
So wurden neben den schon erwähnten Kantendetektoren auch Neuronen gefunden, die beim Anblick bestimmter Objekte oder Personen aktiv werden – darunter auch das berühmt-berüchtigte Jennifer-Aniston-Neuron (öffnet im neuen Fenster) (das bei einer bestimmten Versuchsperson immer bei Hinweisen auf die namengebenden Schauspielerin feuerte). Bei anderen Hirnzellen wurde beobachtet, dass ihre Aktivierung abhängig ist von der Position eines Versuchstieres im Raum, der Blickrichtung seines Kopfes oder der relativen Position einer Belohnung.
... und wissen immer mehr über das Gehirn
Neben derartigen Ergebnissen für einzelne Zellen existiert eine unüberschaubare Vielfalt empirischer Beobachtungen zur kollektiven Dynamik des Hirngewebes, die sich zum Beispiel in unterschiedlichsten Arten von Wellenausbreitungen und Schwingungen äußert.
Interessanterweise bedient sich die Hirnforschung mittlerweile auch an den Methoden der künstlichen Intelligenz, zum Beispiel um die massenhaft generierten Mikroskopiebilder von Hirnschnitten automatisiert auszuwerten und daraus die genauen Verbindungen zwischen Neuronen (das sogenannte Konnektom).
Allgemein anerkannte theoretische Modelle, die ein konzeptionelles Verständnis der im Gehirn ablaufenden Algorithmen ermöglichen würden, sind allerdings äußerst rar. Selbst Grundlegendes wie die Art der Darstellung von Information im Gehirn – also dem Analogon zu Nullen und Einsen im Computer – ist im Wesentlichen unbekannt.
Algorithmen: Es bleibt viel zu tun
Die Hirnforschung hat zwar in den letzten Jahrzehnten viele neue Beobachtungen geliefert, doch ist es bislang nicht gelungen, diese in der KI nutzbar zu machen. Allen Erfolgen zum Trotz unterliegt der Einsatz künstlicher neuronaler Netze auch heute noch ernsthaften Limitationen.
Die steigende Genauigkeit der Algorithmen wurde zu einem wesentlichen Teil durch immer größere Mengen an Trainingsdaten erkauft: Aktuelle Megamodelle wie GPT-3 (öffnet im neuen Fenster) verfügen über Hunderte Millionen freier Parameter und trainieren auf Terabytes von Bilddaten oder Textsammlungen, welche die gesamte Wikipedia enthalten und noch weit darüber hinausgehen.
Entsprechend hoch sind die Anforderungen solcher Modelle an Hardware und Energieverbrauch: Während ein menschliches Gehirn mit rund 20W (öffnet im neuen Fenster) nicht mehr Energie verbraucht als eine Energiesparlampe, kann das Training eines einzigen Megamodells die Kapazität ganzer Rechencluster und damit Hunderttausende von Kilowattstunden in Anspruch nehmen.
Gleichzeitig ist es nicht einfach, das einmal gelernte Wissen auf neue Gebiete zu übertragen. Gerade in sehr spezifischen Anwendungsgebieten führt dies zu Schwierigkeiten, da beispielsweise im medizinischen Bereich oft nicht genügend Trainingsdaten aus Studien zur Verfügung stehen.
Und selbst, wenn man keine Energiekosten und Mühen der Datenaufbereitung scheut, ist der Erfolg eines Deep-Learning-Projektes keinesfalls sicher: Belastbare Angaben zur Genauigkeit eines Modells lassen sich normalerweise erst dann machen, wenn das Training bereits abgeschlossen ist, was die Projektrisiken gerade beim Einsatz in der Unternehmenspraxis deutlich erhöht.
Die aktuelle KI-Forschung beschäftigt sich intensiv damit, wie künstliche neuronale Netze trotz dieser Einschränkungen in der Praxis eingesetzt werden können. Beispielsweise werden Methoden entwickelt, um Sätze von Trainingsdaten künstlich zu vergrößern, indem reale Datenpunkte auf verschiedene Weisen wirklichkeitsnah abgewandelt werden.
Bei dem als Data Augmentation (öffnet im neuen Fenster) bekannten Verfahren werden etwa Bilder auch in gedrehter, skalierter oder auf sonstige Weise veränderter Form zum Training verwendet, um die Robustheit des neuronalen Netzes gegen derartige Transformationen zu erhöhen. Alternativ kann man Trainingsdaten in manchen Fällen auch komplett künstlich erzeugen und arbeitet dann mit sogenannten synthetischen Daten(öffnet im neuen Fenster) .
Braucht es neue Algorithmen
Ebenfalls von hohem Interesse sind Algorithmen, die auch mit Trainingsdaten zurechtkommen, wenn diese unzuverlässig oder gar nicht annotiert sind ( " weakly supervised(öffnet im neuen Fenster) " bzw. " self supervised(öffnet im neuen Fenster) " ).
Um Algorithmen schneller auf neue Wissensgebiete anzuwenden, können vortrainierte Netze verwendet werden, die mit überschaubarem Bedarf an Trainingsdaten nur noch in ihren neuen Aufgabenbereich eingelernt werden müssen. Hinter dieser als Transfer Learning (öffnet im neuen Fenster) bekannten Idee steckt die Einsicht, dass beispielsweise im Bereich der Bilderkennung Objekte praktisch immer aus Kanten, Farbflecken und einfachen geometrischen Formen bestehen und daher die entsprechenden Detektor-Neuronen nicht für jeden Anwendungsfall neu gelernt werden müssen.
Angesichts der Vielzahl von Methoden, deren Auflistung hier bei weitem nicht vollständig ist, stellt sich die Frage: Ist die KI der Zukunft wirklich eine immer größere Sammlung von Tricks, um tiefe neuronale Netze auf stetig zunehmenden Datenmengen zu trainieren, oder müssen fundamental neue Algorithmen gefunden werden?
Gerade der Vergleich mit biologischen Gehirnen und ihrer enormen Flexibilität und Leistungsfähigkeit bei minimalem Energieverbrauch deutet auf letzteres hin.
Teil 2: Einfacher denken! Teil 3: Wie sich Deep Learning vom Gehirn unterscheidet
Helmut Linde(öffnet im neuen Fenster) leitete verschiedene Data-Science-Teams in deutschen Konzernen und ist nun bei der Covestro AG für die Digitalisierung von Forschung und Entwicklung verantwortlich. Als Mathematiker und Physiker ist er fasziniert von naturwissenschaftlichen Themen sowie der Anwendung und der Zukunft der künstlichen Intelligenz.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



