Vom MRT ins Sprachmodell: Aus Hirndaten mentale Bilder dekodieren
Inhalt
Dieser Golem-Plus-Text ist 24 Stunden lang frei verfügbar.
Keine Gehirn-Computer-Schnittstelle und kein neurowissenschaftlicher Ansatz kann Gedanken lesen. Daher weiß auch Tomoyasu Horikawa nicht genau, was im Kopf seiner Probanden vorgeht. Allerdings hat er mit einer neuen Methode Szenen rekonstruiert, die sich Probanden in einem Magnetresonanztomografen (MRT) vorstellten, und ließ sie einen Computer in Worte fassen(öffnet im neuen Fenster).
Die Methode komme "näher an tatsächliche Denkprozesse", sagt Oliver Bendel, Professor für Wirtschaftsinformatik, Informationsethik und Maschinenethik in der Schweiz, der nicht an der Studie beteiligt war. Ein weiterer Schritt in der Forschung wäre es nun, mentale Inhalte zu "dekodieren" – der wissenschaftliche Begriff für etwas, das außerhalb von Expertenkreisen schnell als Gedankenlesen gilt(öffnet im neuen Fenster).
Überzeugender neuer Ansatz
Horikawa betonte im Gespräch mit Golem mehrfach, dass er nicht die private mentale Welt seiner Probanden auslesen könne. Sein Ansatz "interpretiere" eher, welche Bedeutung hinter bestimmten Mustern an Gehirnaktivität liegt. Der Unterschied ist in etwa vergleichbar damit, ob jemand weiß, was eine Person genau denkt oder nur, welche Bilder ihr ungefähr durch den Kopf gehen.
Das Interpretieren mache den neuen Ansatz besonders "methodisch überzeugend", sagte Bendel Golem. Denn er unterscheide klar zwischen der messbaren Aktivität des Gehirns und dem Text, den ein Sprachmodell daraus produziert. Gedanken seien nämlich selten Sätze. Im Gehirn seien sie eher als "Bedeutungen, Beziehungen und visuelle Vorstellungen organisiert". Und das wollte Horikawa versuchen, zu entschlüsseln.
Sauerstoff im Gehirn verrät nicht alles
Die neue Methode verrät also nicht, was jemand denkt, aber sie nähert sich dem an, worauf die Hirnaktivität hinweist, die mit einer Erfahrung korreliert. Damit verfolgt Horikawa eine der wichtigen Fragen der kognitiven Neurowissenschaft: Wie entstehen Erfahrungen aus unserer Gehirnaktivität?
Um das zu erforschen, erhob Horikawa funktionale Hirndaten mit einem MRT – wie die meisten seiner Vorgänger. Er maß das Blood-Oxygendation-Level-Dependent-Signal (Bold), das zeigt, wie viel Sauerstoff Hämoglobin-Moleküle im Blut der Probanden in bestimmte Hirnregionen transportieren. Forscher schließen daraus indirekt, wie aktiv diese Teile des Gehirns gerade sind.
Diese physikalische Größe ist aber weit von unseren sich rasant entwickelnden mentalen Bildern entfernt. Weil das Bold-Signal aus mehreren biologischen Prozessen bestehe, die sich fast 10 Sekunden lang im Gehirn abspielen, sagt Bendel, und weil das Signal "kein subjektives Erleben oder Empfinden" beschreibe.
Die Bedeutung von Hirnaktivität dekodieren
In seinem Artikel erklärt Horikawa, wie er aus solchen Hirndaten trotzdem die mentalen Bilder seiner Probanden dekodiert. Dazu schauten sie im MRT zuerst 2.180 kurze Videos: Alltagsmomente, Animationen, lustige Tiervideos und allerlei sonst. Insgesamt erfasste Horikawa so etwa 17 Stunden Hirndaten je Proband. Zudem ließ er Freiwillige 20 Beschreibungen jedes Videos generieren.
Als Nächstes verwandelte Horikawa mit dem Sprachmodell Deberta(öffnet im neuen Fenster) jede Beschreibung in einen einzelnen Punkt in einem hoch-dimensionalen Raum an möglichen Bedeutungen. Ähnliche Inhalte, wie "ein Hund rennt am Strand entlang" und "ein Hund spielt am Meer" liegen in diesem Raum näher beieinander.
Aber es fehlte noch ein Weg, die Hirnaktivität als Punkt in demselben Raum zu kodieren. Wie sich herausstellte, interpretierte hier ein einfacher linearer Decoder die Hirndaten besser als ein Deep-Learning-Modell. Dass dies mit einem simplen Algorithmus gelang, sei "überraschend und überzeugend" gewesen, sagt Horikawa. Denn das mache es wahrscheinlicher, dass das dekodierte Signal tatsächlich Informationen aus den Hirnströmen wiedergibt.
Indem er die Hirnaktivität in denselben hoch-dimensionalen Raum wie die Beschreibungen der Videos übersetzte, stellte der Decoder eine Verbindung zur Gehirnaktivität einzelner Probanden her, während sie ein bestimmtes Video schauten. Horikawa schloss dabei klassische Sprachregionen aus der Analyse aus. Das mache es weniger wahrscheinlich, dass der Text, den er aus den Hirnströmen produziert, auf linguistische Information im Gehirn zurückgreift.