Chemie-Nobelpreis 2024: KI revolutioniert die Biochemie

Die Erforschung und das Verständnis der grundlegenden Bausteine des Lebens stehen am Beginn einer Revolution: Die 2024 mit dem Chemienobelpreis ausgezeichneten Arbeiten zur Vorhersage und zum Design von Proteinstrukturen markieren einen Meilenstein in der Wissenschaft. Sie eröffnen nicht nur neue Horizonte für die Biologie und Medizin, sondern schaffen auch innovative Werkzeuge, um globale Herausforderungen wie Umweltverschmutzung und Krankheiten zu bewältigen.
Was genau diese Entdeckungen bedeuten, wie sie funktionieren und warum sie die Zukunft prägen könnten, erklären wir im Detail in diesem Artikel.
Zwei Nobelpreise für KI-Forschung
Gleich zwei Nobelpreise werden in diesem Jahr für hervorragende Leistungen auf dem Gebiet der künstlichen Intelligenz vergeben: Bei der Verleihung am 10. Dezember nehmen John Hopfield und Geoffrey Hinton den Preis für Physik entgegen , mit dem sie für ihre grundlegenden Arbeiten zur Entwicklung künstlicher neuronaler Netze geehrt werden. Am selben Tag erhalten David Baker, Demis Hassabis und John Jumper den Preis für Chemie(öffnet im neuen Fenster) in Anerkennung ihrer Leistungen bei der Vorhersage von Proteinstrukturen (Hassabis und Jumper) bzw. dem Design neuartiger Proteine (Baker).
In diesem Artikel beleuchten wir die Hintergründe ihrer bahnbrechenden Entwicklungen. Wir müssen dazu einen recht weiten Bogen schlagen von den Grundlagen der Biochemie bis hin zu den aktuellen Methoden der künstlichen Intelligenz. Zuerst gilt es dabei zu verstehen, wie die Information im Erbgut von Lebewesen verwendet wird, um komplizierte Biomoleküle - die Proteine - zu erzeugen(öffnet im neuen Fenster) .
Die DNA als Bauplan des Lebens
Im Jahr 1953 publizierten James Watson und Francis Crick die berühmte Doppelhelix-Struktur der Desoxyribonukleinsäure (PDF)(öffnet im neuen Fenster) (abgekürzt als DNA für den englischen Begriff deoxyribonucleic acid). Es handelt sich dabei um das große Molekül, das im Kern einer jeden pflanzlichen oder tierischen Körperzelle vorkommt und die Erbinformationen des Lebewesens trägt.
Die DNA ist ein lineares Polymer, also ein Molekül mit sich wiederholenden Einheiten, die eine sehr lange Kette bilden. Das Rückgrat des Moleküls bilden zwei Zucker-Phosphat-Ketten, die sich in schier unendlichen und immer gleichen Windungen wie eine Wendeltreppe umeinander schlängeln ( hier ein Bild(öffnet im neuen Fenster) ).
Die eigentliche Erbinformation ist in Basenpaaren enthalten, die wie Treppenstufen die beiden Molekülketten in gleichmäßigen Abständen verbinden. Es kommen dabei die vier Basen Adenin, Cytosin, Guanin und Thymin (abgekürzt A, C, G und T) mit ihrer jeweils eigenen Molekülstruktur vor. Zu jeder der vier Basen gibt es einen festgelegten Partner, mit dem ein Basenpaar - also eine Treppenstufe in der DNA-Helix - gebildet werden kann: Adenin ist immer gepaart mit Thymin und Guanin mit Cytosin.
Speichern und Kopieren
Diese Struktur ermöglicht die beiden wichtigen Aufgaben der DNA: das Speichern von Information und das Kopieren derselben.
Gespeichert wird die Information in der Abfolge der Basen entlang eines Strangs, also einer Sequenz wie beispielsweise GACTTCACTTCTA, wobei die gesamte Sequenz mit mehr als drei Milliarden Buchstaben(öffnet im neuen Fenster) im Falle des menschlichen Genoms Tausende von Büchern füllen würde.
Das Kopieren der Information wird dadurch ermöglicht, dass nur festgelegte Kombinationen von Basen ein Paar bilden können. Teilt sich das DNA-Molekül der Länge nach, wobei jedes Basenpaar in der Mitte aufgetrennt wird, dann enthält jeder der beiden Einzelstränge die vollständige Information, um aus einer Hälfte wieder ein vollständiges DNA-Molekül zu erzeugen. Dies ist genau der Prozess, der bei der Zellteilung abläuft.
Wie wird nun die Erbinformation der DNA verwendet, um ein Lebewesen aufzubauen und es am Leben zu erhalten?
Vom Bauplan zur molekularen Maschine: Wie Proteine das Leben steuern
Dafür ist eine komplizierte biochemische Maschinerie notwendig, in der Proteine zentrale Rollen spielen: Man kann sie sich als kleine Bauteile eines Lebewesens vorstellen, die jeweils eine spezielle mechanische oder chemische Funktion übernehmen oder dem Organismus helfen, Information zu verarbeiten.
Manche Proteine transportieren Stoffe durch den Körper, so wie zum Beispiel der rote Blutfarbstoff Hämoglobin Sauerstoff von der Lunge zu den Organen bringt ( hier abgebildet(öffnet im neuen Fenster) ). Andere Proteine sind als kleine Pumpen in Zellwände eingebaut, um bestimmte Ionen in Zellen hinein oder heraus zu befördern.
Wieder andere Proteine, Enzyme genannt, stellen winzige Chemiefabriken dar, die innerhalb von Organismen die Umwandlung von Stoffen in andere ermöglichen. Und in einem endlosen Kreislauf sind es auch Proteine, welche die Information aus der DNA auslesen und daraus wieder neue Proteine produzieren. Und wie dieser Prozess funktioniert, wird im Folgenden beschrieben.
Wichtig ist, dass alle hier beschriebenen Vorgänge chemische Reaktionen sind, die aufgrund der physikalischen Naturgesetze - letztlich basierend auf der Quantenphysik - so ablaufen, wie sie es tun. Wenn wir zum Beispiel in unserer Heizung Erdgas verbrennen, werden dabei Methanmoleküle aufgespalten und reagieren mit dem Luftsauerstoff zu Wasser und Kohlendioxid. Diese Reaktion findet von alleine statt, wenn Erdgas und Luft bei ausreichender Temperatur im richtigen Mischungsverhältnis zusammenkommen.
In genau diesem Sinne ist es auch zu verstehen, wenn gesagt wird, dass ein DNA-Molekül ausgelesen wird oder Proteine hergestellt werden. All diese Vorgänge laufen von alleine ab, wenn bestimmte Moleküle in einer geeigneten Umgebung miteinander wechselwirken.
Vom Erbgut zum Protein
Das Auslesen der Erbinformation verläuft also auf diese natürliche Weise in einem Prozess, der als Transkription(öffnet im neuen Fenster) bezeichnet wird. Im DNA-Strang sind durch spezielle Sequenzen von Basenpaaren Abschnitte markiert, die Gene genannt werden und die jeweils die Bauanleitung für ein bestimmtes Protein enthalten.
Ein spezielles Protein - nämlich ein Enzym namens RNA-Polymerase, das zuvor genau auf dem Weg entstanden ist, wie es im Folgenden beschrieben wird - bindet sich an den Startpunkt eines Gens und bewegt sich entlang des DNA-Strangs. Dabei trennt es den Doppelstrang lokal wie einen Reißverschluss in zwei Einzelstränge auf und liest die Abfolge der Basen eines Strangs aus.
Anhand dieser Basenabfolge erzeugt die RNA-Polymerase ein neues kettenförmiges Molekül, das im Wesentlichen eine Kopie des ausgelesenen Gens darstellt. Es handelt sich dabei um eine Ribonucleinsäure (RNA), die ähnlich wie die DNA aus einem langen Rückgrat einer sich stets wiederholenden Molekülstruktur besteht, an dem eine Sequenz von vier verschiedenen Basen als Informationsträger angeheftet ist ( hier ein Bild(öffnet im neuen Fenster) ).
Man bezeichnet sie auch genauer als messenger-RNA (mRNA): Als Bote verlässt sie den Zellkern, um den sogenannten Ribosomen im Inneren der Zelle eine Abschrift der DNA-Information zu überbringen. Diese Ribosomen sind sehr große Molekülkomplexe, die ihrerseits wieder aus Proteinen und RNA-Molekülen bestehen und die man sich als winzige Chemiefabriken zur Herstellung von Molekülketten vorstellen kann. Die von der messenger-RNA übermittelte Information verwenden sie als eine Bauanleitung, um neue Proteine herzustellen.
Ein biologisches Bandlaufwerk liest den genetischen Code
Die Ribosomen lesen die mRNA auf eine Weise, die stark an ein altes Tonbandgerät erinnert: Die mRNA-Kette wird durch einen Spalt im Ribosom gezogen und dabei schrittweise ausgelesen, wobei parallel dazu ein neues Kettenmolekül (öffnet im neuen Fenster) - das Protein - aufgebaut wird.
Proteine sind komplexe Moleküle, die man sich wie eine Perlenkette aus kleineren Bausteinen - den Aminosäuren - vorstellen kann. Jede Perle kann dabei aus einer von 20 verschiedenen Aminosäuren bestehen, die in natürlichen Organismen vorkommen, und von denen jede eine einzigartige chemische Struktur und Eigenschaften hat.
Die Reihenfolge, in der diese Aminosäuren im Protein angeordnet sind, wird durch die Sequenz der Basen in der mRNA bestimmt: Während das "Tonbandgerät" Ribosom den mRNA-Strang einliest, wird immer für drei aufeinanderfolgende Basen der mRNA eine bestimmte Aminosäure an das neu gebildete Protein angehängt. Durch diesen genetischen Code könnte also mit vier verschiedenen Basen theoretisch aus 4 3 = 64 verschiedenen Aminosäuren ausgewählt werden. Die Natur schöpft aber nur einen Teil davon aus, da alle Proteine eben nur aus 20 verschiedenen Aminosäuren aufgebaut sind (siehe Bild 1).
Ein einzelnes Proteinmolekül kann aus einigen wenigen bis zu mehreren Tausend Aminosäuren bestehen. Durch die Verknüpfung der Aminosäuren in der von der mRNA vermittelten Reihenfolge entsteht letztlich das spezifische Protein, das ursprünglich durch die DNA codiert war.
Erst die Faltung macht Proteine nützlich
Bevor das neu erzeugte Protein seine Aufgaben als molekulare Maschine übernehmen kann, muss etwas äußerst Wichtiges passieren: Es muss sich in eine bestimmte dreidimensionale Struktur falten (siehe Bild 2). Man beachte, dass sich bis hierhin alles um Codes in linearen Abfolgen verschiedener Molekülbausteine drehte - zunächst als Basen in der DNA, dann in der mRNA und schließlich als Aminosäuren im Protein.
Diese abstrakten Codes kann man als unterschiedliche Versionen eines Bauplans für eine Nanomaschine auffassen. Doch erst die Proteinfaltung macht aus dem Bauplan eine echte Maschine mit einer dreidimensionalen Struktur und bestimmten Funktionen. In Begriffen der Informatik ausgedrückt ist die Abfolge der Aminosäuren also die Software, durch die sich ihr Datenträger - das Kettenmolekül - selbst zur Hardware zusammenfaltet.
Diese Faltung geschieht spontan und wird durch die physikalischen und chemischen Eigenschaften jeder einzelnen Aminosäure bestimmt. Unter anderem sind ihre gegenseitige Anziehung oder Abstoßung, ihre Affinität zu Wasser und die Bildung von Wasserstoffbrücken (öffnet im neuen Fenster) entscheidend dafür, welche geometrische Form das Protein einige Sekunden oder Minuten nach seiner Herstellung annimmt.
Die beschriebenen Vorgänge sind äußerst komplex, doch sie bilden die Grundlage allen Lebens auf der Erde. Daher fasst Bild 3 das oben Gesagte nochmal in einer Übersicht der wesentlichen Schritte zur Erzeugung von Proteinen zusammen.
Die einmal erreichte gefaltete Form des Proteins ist nicht starr, sondern kann sich verändern und so auf biologische Signale oder Veränderungen in der Umgebung reagieren. Diese Flexibilität ermöglicht es Proteinen, eine Vielzahl von Funktionen auszuführen, wie das Binden an andere Moleküle, das Katalysieren von chemischen Reaktionen oder das Übertragen von Signalen innerhalb einer Zelle. Die Fähigkeit zur Selbstorganisation in eine spezifische dreidimensionale Struktur macht also Proteine zu vielseitigen und effizienten Werkzeugen, die in allen lebenden Organismen eine zentrale Rolle spielen.
Tunnel in der Zellwand
Ionenkanäle sind ein hervorragendes Beispiel für Proteine, bei denen die Verbindung zwischen Form und Funktion besonders offensichtlich ist. Diese Proteine bilden Tunnel oder Poren in den Zellmembranen, durch die Ionen wie Natrium oder Kalium ein- und ausströmen können. Die dreidimensionale Struktur der Ionenkanäle ist entscheidend dafür, welche Ionen durchgelassen werden und wie der Ionenfluss reguliert wird.
Zusätzlich können Ionenkanäle auch "Tore" haben, die sich in Reaktion auf bestimmte Signale öffnen oder schließen, wie zum Beispiel Änderungen im elektrischen Membranpotenzial, die Bindung spezifischer Moleküle oder mechanische Deformationen. Solche Schließmechanismen (öffnet im neuen Fenster) erlauben eine präzise Kontrolle des Ionenein- und -ausstroms und erzeugen damit beispielsweise das charakteristische "Feuern" von Nervenzellen.
Das Vorhersagen der dreidimensionalen Struktur eines Proteins aus seiner Aminosäuresequenz, bekannt als das Proteinfaltungsproblem, ist eine der großen Herausforderungen in der Biochemie. Auch wenn die Abfolge der Aminosäuren im Prinzip die Struktur bestimmt, ist es extrem schwierig abzuschätzen, wie ein Protein sich falten wird. Dies liegt daran, dass die Faltung von einer enormen Anzahl von Wechselwirkungen innerhalb des Moleküls und von seiner Umgebung beeinflusst wird.
Das Protein im Labor
Die Sequenz eines Proteins kann heutzutage im Labor mit überschaubarem Aufwand bestimmt werden. Wissenschaftler nutzen dazu Methoden wie die Massenspektrometrie oder den sogenannten Edman-Abbau.
Bei der Massenspektrometrie wird das Protein in kleinere Bestandteile gespalten, die dann ionisiert und durch ein Massenspektrometer geführt werden. Die Messung ihrer Masse und der Vergleich mit bekannten Massen erlaubt es, auf die Aminosäuresequenz des Proteins zu schließen. Beim Edman-Abbau wird das Protein schrittweise abgebaut, indem die Aminosäuren eine nach der anderen abgespalten und identifiziert werden, was ebenfalls eine Sequenzierung ermöglicht.
Die 3D-Struktur eines Proteins experimentell zu bestimmen, ist hingegen deutlich aufwendiger. Traditionelle Methoden zur Strukturaufklärung von Proteinen umfassen hauptsächlich die Röntgenkristallografie und die Kernspinresonanz-(NMR-)Spektroskopie.
Bei der Röntgenkristallografie wird das Protein zuerst in eine kristalline Form überführt. Dies ist selbst schon eine Herausforderung, da man das Molekül zunächst in ausreichender Menge herstellen muss und weil nicht alle Proteine leicht kristallisieren. Ein Röntgenstrahl wird dann durch den Proteinkristall gesendet und das entstehende Beugungsmuster analysiert, um auf die Position der Atome im Protein zurückschließen zu können.
NMR-Spektroskopie hingegen verwendet die Reaktion der Atomkerne im Protein auf äußere Magnetfelder, um Informationen über die räumliche Anordnung der Atome zu sammeln. Beide Techniken erfordern umfangreiche Ausrüstung und Expertise und sind zeitaufwendig.
Dies hat dazu geführt, dass bis 2020 zwar Milliarden von Proteinsequenzen in unterschiedlichsten Lebewesen entschlüsselt waren, aber nur zu rund 100.000 davon die 3D-Struktur bekannt war (PDF)(öffnet im neuen Fenster) .
Computer berechnen Proteinstrukturen
Mit der Entwicklung der Informationstechnologie begann der Einsatz von Computern zur Lösung des Proteinfaltungsproblems. In den 1970er Jahren begannen Wissenschaftler, einfache Modelle und Algorithmen zu entwickeln, um die Proteinstruktur vorherzusagen. Diese Modelle wurden im Laufe der Zeit immer weiter verfeinert und seit den 1990er Jahren in einer Art Wettbewerb systematisch miteinander verglichen.
Doch erwies sich das Proteinfaltungsproblem als äußerst hartnäckig: Zwar kennt man prinzipiell die physikalischen Gesetze, denen die langkettigen Moleküle gehorchen. Doch scheitern genaue Computersimulationen an der benötigten Rechenkapazität angesichts der schieren Anzahl beteiligter Atome und der komplexen Wechselwirkungen sowohl innerhalb des Moleküls als auch zwischen ihm und seiner Umgebung.
Dementsprechend verbesserte sich die Erfolgsquote der Computervorhersagen nur gemächlich - bis 2018 Demis Hassabis mit Google Deepmind(öffnet im neuen Fenster) in den Wettbewerb einstieg.
Ein unerwarteter Akteur steigt in den Ring
Hassabis, promovierter Neurowissenschaftler mit Berufserfahrung als Programmierer von Computerspielen, hatte Deepmind im Jahr 2010 zusammen mit zwei Kollegen in London gegründet. Die Firma widmete sich überaus erfolgreich der Entwicklung künstlicher Intelligenz - zunächst in Zusammenhang mit Computerspielen.
Deepmind wurde 2014 von Google aufgekauft und erreichte im Jahr 2016 internationale Berühmtheit, als das von ihm entwickelte Programm Alpha Go den damals weltbesten menschlichen Go-Spieler Lee Sidol schlug .
Deepminds Strategie bestand darin, neue Methoden der künstlichen Intelligenz zuerst unter leicht kontrollierbaren Bedingungen an (Computer-)Spielen zu entwickeln und danach auf die viel unübersichtlicheren Probleme der realen Welt zu übertragen. Dieser Plan ging glänzend auf, als man sich dem Problem der Proteinfaltung zuwandte.
Die Grundidee von Hassabis und seinem Team bestand darin, die Geometrie des Proteinmoleküls durch ein tiefes neuronales Netzwerk vorhersagen zu lassen, das zuvor auf den Daten von experimentell bestimmten Proteinstrukturen trainiert wurde. Das System (PDF)(öffnet im neuen Fenster) , das unter dem Namen Alphafold veröffentlicht wurde , funktioniert so:
Neuronale Netze lernen Molekül-Origami
Zu Tausenden von Proteinen mit bekannter 3D-Struktur wurden jeweils die räumlichen Abstände aller Paare von Aminosäuren (also von je zwei Gliedern der Molekülkette) ebenso wie die Krümmungswinkel entlang der Kette berechnet. Im Prinzip könnte man damit ein tiefes neuronales Netz trainieren, das aus der bekannten Abfolge von Aminosäuren eines neuen Proteins die entsprechenden Winkel und paarweisen Abstände abschätzt. Sobald diese bekannt sind, kann man relativ leicht eine Faltung des Proteins berechnen, welche diese Winkel und Abstände möglichst gut annähert.
Um die Vorhersage der Abstände und Winkel zu verbessern, wird jedoch noch auf zusätzliche biochemische Informationen zurückgegriffen: Es ist bekannt, dass viele natürlich vorkommende Proteine über streckenweise sehr ähnliche Sequenzen verfügen. Dies liegt daran, dass sie sich im Laufe der Evolution durch einzelne Veränderungen an den Aminosäuren aus einem gemeinsamen Vorläufer entwickelt haben.
Wenn ein Protein im Laufe der Evolution seine Funktion ändert, dann ist es plausibel, dass geometrisch nah beieinanderliegende Kettenglieder sich gemeinsam verändern, selbst wenn auf der Kette vielleicht viele Glieder zwischen ihnen liegen: Wenn ein Bereich des Proteins zum Beispiel wasserabweisend werden muss, um seine neue Funktion auszuüben, werden eventuell mehrere Aminosäuren in dieser räumlichen Region gegen stärker wasserabweisende Alternativen getauscht.
Umgekehrt kann man also aus den Korrelationen zwischen den veränderten Aminosäuren Vermutungen anstellen, welche Kettenglieder nach der Faltung nah beieinanderliegen sollten. Entsprechend gibt man diese Information - die Unterschiede einzelner Aminosäuren zwischen ansonsten sehr ähnlichen Proteinen - dem neuronalen Netzwerk als zusätzliche Eingangsparameter mit. Der Algorithmus verwendet diese Informationen zur Verbesserung seiner Vorhersagen, ohne dass man ihm evolutionäre oder chemische Annahmen explizit mitgeben müsste (siehe Bild 4).
Durchbruch mit Alphafold 2
Mit dem beschriebenen Ansatz sprang das Team von Deepmind im Jahr 2018 aus dem Stand auf das Siegerpodest des Casp-Wettbewerbs(öffnet im neuen Fenster) , in dem seit 1994 alle zwei Jahre die weltweit führenden Forschungsgruppen um die beste Vorhersage von Proteinstrukturen konkurrieren.
Doch trotz dieses großen Erfolges waren die bis dahin verfügbaren Vorhersagen zur Proteinfaltung immer noch nicht genau genug, um in der praktischen Arbeit von Biochemikern und Arzneimittelforschern große Bedeutung einzunehmen. Weitere zwei Jahre Arbeit waren nötig, bis Deepmind auf der Casp 2020 seine Nachfolgerversion Alphafold 2 einreichen konnte, welche den wahren Durchbruch brachte und das 50 Jahre alte Problem der Proteinfaltung im Wesentlichen löste (PDF)(öffnet im neuen Fenster) .
Eine entscheidende Rolle bei dieser Verbesserung nahm der Physiker und Chemiker John Jumper ein, der dafür gemeinsam mit Hassabis mit dem Nobelpreis ausgezeichnet wird. Als Mitarbeiter von Deepmind war er bereits an der Entwicklung von Alphafold beteiligt und leitete später zusammen mit Hassabis die Entwicklung der Nachfolgeversion.
Mit Alphafold 2 wurde die Architektur des Systems grundlegend verändert(öffnet im neuen Fenster) . Ausgangspunkt ist auch hier die Aminosäuresequenz des gesuchten Proteins zusammen mit den Sequenzen ähnlicher Proteine, die man existierenden Datenbanken entnehmen kann. Vorhergesagt werden nun jedoch nicht mehr Abstände und Winkel, sondern direkt die Raumkoordinaten und Ausrichtungen der einzelnen Kettenglieder.
Parallele zu ChatGPT
Eine wesentliche Neuerung in der Architektur des neuronalen Netzwerkes besteht darin, dass Alphafold 2 eine spezielle Art der sogenannten Transformer-Architektur verwendet, die seit dem berühmten " Attention is all you need(öffnet im neuen Fenster) "-Paper von 2017 in vielen KI-Verfahren eingeführt wurde und u. a. auch die Grundlage für ChatGPT bildet .
Trotz vieler Neuerungen auf technischer Ebene blieb die Grundidee von Alphafold auch in Version 2 erhalten: Die aus Experimenten bekannten Faltungen Tausender von Proteinen wurden verwendet, um eine Kombination aus neuronalen Netzen zu trainieren, die dann neue Faltungen nur aus den Abfolgen von Aminosäuren vorhersagen können. Doch in Summe bewirkten die Verbesserungen, dass nun Proteinstrukturen mit einer Genauigkeit vorhergesagt werden konnten, die in etwa der Genauigkeit der viel aufwendigeren experimentellen Verfahren entspricht.
Dank der Arbeit von Deepmind kann nun also die Form von Proteinen aus ihrer Struktur vorhergesagt werden. Doch was ist mit der umgekehrten Richtung? Ist es möglich, eine Abfolge von Aminosäuren zu bestimmen, die eine gewünschte Molekülgeometrie erzeugt? Kann man Proteine am Reißbrett entwerfen?
Neue Proteine aus dem Labor
Diese Fragen sind höchst interessant. Die abstrakte Erbinformation der DNA wird ja wie oben beschrieben mittels RNA in Proteinmoleküle übersetzt, aus denen durch Faltung eine reale, dreidimensionale Nanomaschine entsteht. Da es Methoden gibt, RNA mit einer beliebigen Basensequenz im Labor zusammenzusetzen, lassen sich auf diesem Weg künstlich Moleküle mit nützlichen Eigenschaften erzeugen.
Ein prominentes Beispiel sind die mRNA-Impfstoffe(öffnet im neuen Fenster) , die während der Coronapandemie extrem schnell entwickelt werden konnten: Geimpft wird hier mit künstlich hergestellten mRNA-Molekülen, aus denen der Körper dann nach dem oben beschriebenen Verfahren selbst Proteine herstellt. Diese Proteine entsprechen denen des Virus, so dass das Immunsystem Zeit hat, sich auf ihre Erkennung und Bekämpfung einzustellen, bevor ein echter Virus in den Körper eindringt.
Im Falle des Impfstoffes gibt der Virus die Sequenzen für mRNA und Protein vor. Doch in anderen Anwendungen muss die richtige Sequenz gefunden werden, um das gewünschte Protein zu erzeugen. Solche künstlichen Proteine werden als Werkzeuge in der Biotechnologie oder als Medikamente eingesetzt und sie könnten in Zukunft noch größere Bedeutung dabei gewinnen, giftige Abfälle zu zersetzen, Chemikalien zu produzieren oder als Sensoren für Umweltbedingungen zu dienen.
Schon seit den 1970 Jahren versuchten Forscher, neue Proteine zu entwickeln, und setzten seit den 1990 Jahren dafür auch Computerprogramme ein. Aufgrund der Komplexität des Problems beschränkte sich dies jedoch auf sehr einfache Moleküle mit kleinen Kettenlängen oder Proteine mit großer Ähnlichkeit zu natürlichen Vorbildern.
Das erste gänzlich neue Designer-Protein
Einen Durchbruch erreichte David Baker - neben Hassabis und Jumper der dritte diesjährige Nobelpreisträger - mit seinem Team im Jahr 2003. Sie stellten einen Algorithmus vor, der zu einer vorgegebenen Geometrie eine Folge aus 93 Aminosäuren berechnete. Es gelang der Arbeitsgruppe, dieses völlig neue Protein tatsächlich im Labor herzustellen und mittels Röntgenkristallografie nachzuweisen, dass es sich tatsächlich in die beabsichtigte Form faltete (PDF)(öffnet im neuen Fenster) .
Wie gelang Baker und seinem Team dieser Erfolg? Eine wichtige Komponente war ihr Rosetta-Algorithmus(öffnet im neuen Fenster) , den sie bereits einige Jahre zuvor entwickelt hatten. Das Ziel von Rosetta war es, Proteinfaltungen vorherzusagen - also genau das Problem zu lösen, das später von Deepmind geknackt werden sollte. Tatsächlich nahm Rosetta bereits 1998 an dem oben schon erwähnten Casp-Wettbewerb teil - mit achtbaren Ergebnissen, aber natürlich weit von der Leistungsfähigkeit eines Alphafold entfernt.
Im Gegensatz zu Alphafold, welches im Wesentlichen ein selbstlernendes System ist, basiert Rosette auf vielen chemischen Annahmen und detailliertem Wissen über die Wechselwirkungen innerhalb eines Moleküls.
Viele praktische Anwendungen erwartet
Baker kombinierte diese Vorhersage der Faltung mit einem Verfahren, um die Sequenzen zu optimieren. Iterativ konnte so die Sequenz verbessert werden, bis sich die von Rosetta vorhergesagte Geometrie dem Zielbild näherte.
In den folgenden Jahren verbesserten Baker und seine Gruppe die Verfahren weiter, so dass sie immer komplexere Proteinstrukturen entwerfen konnten. Im Jahr 2008 berichteten Baker und seine Mitarbeiter über die ersten Versuche in der Entwicklung neuartiger Enzyme - also Proteine mit der speziellen Funktion, chemische Reaktionen anderer Moleküle - zu ermöglichen.
Die unendliche Vielfalt möglicher Proteine ist weiterhin Gegenstand äußerst intensiver Forschung. Die Arbeiten von Baker, Hassabis, Jumper und ihren Kollegen haben der Wissenschaft wertvolle Werkzeuge an die Hand gegeben, um schneller als je zuvor Fortschritte zu erzielen. Das Verständnis der natürlichen Proteine in unserem Körper und die Möglichkeit, solche molekularen Maschinen künstlich herzustellen, geben Grund zur Hoffnung auf unzählige weitere künftige Anwendungen in Medizin, Chemie, Materialwissenschaften und Technik.
Helmut Linde leitete verschiedene Data-Science-Teams in deutschen Konzernen und ist nun bei seinem Arbeitgeber für die Digitalisierung von Forschung und Entwicklung verantwortlich. Als Mathematiker und Physiker ist er fasziniert von naturwissenschaftlichen Themen sowie der Anwendung und der Zukunft der künstlichen Intelligenz.



