ESMFold: Meta stellt KI-System für Vorhersage der Proteinfaltung vor

Ein weiterer Internetkonzern beschäftigt sich mit Proteinen: Ein Team von Meta hat ein System entwickelt, das mit Künstlicher Intelligenz (KI) die Struktur von Proteinen vorhersagen kann.
Meta AI, die KI-Abteilung des früher als Facebook bekannten Konzerns, hat nach eigenen Angaben(öffnet im neuen Fenster) einen KI-Durchbruch erzielt, "der die Proteinfaltung beschleunigt – den Prozess der Vorhersage der Form eines Moleküls. Unsere Forscher haben damit eine Datenbank mit den Molekularstrukturen von Proteinen erstellt, die die Bausteine des Lebens auf der Erde sind."
In der Datenbank seien 617 Millionen Strukturen gespeichert. Damit sei der ESM Metagenomic Atlas(öffnet im neuen Fenster) deutlich größer als bisherige Datenbanken dieser Art. Sie sei zudem die Erste ihrer Art, die sich auf die weitgehend unerforschte Welt der metagenomischen Proteine konzentriere.
Die Struktur bestimmt die Funktion eines Proteins
Proteine, auch Eiweiße genannt, sind biologische Makromoleküle aus Aminosäuren, die praktisch alle Körperfunktionen steuern. Die meisten Proteine bestehen aus 100 bis 300 Aminosäuren. Einige sind aus mehreren Tausend Aminosäuren zusammengesetzt. Ein Protein kann sich an der Schnittstelle zweier Aminosäuren falten. Ein derart komplexes Molekül kann demnach sehr viele verschiedene Formen annehmen. Die 3D-Struktur eines Proteins bestimmt, welche Funktion es im Körper übernimmt.

Für Wissenschaftler ist es wichtig, die 3D-Struktur eines Proteins vorhersagen zu können. Sie erhoffen sich davon ein besseres Verständnis, welche Rolle die Proteine im Körper haben, sowie Ansätze für die Diagnose und Behandlung von Krankheiten wie Alzheimer, Parkinson, Huntington und Mukoviszidose. Diese werden, so wird vermutet, durch falsch gefaltete Proteine verursacht.
Metagenomik(öffnet im neuen Fenster) beschäftigt sich genetischem Material, das aus der Umwelt und nicht aus angelegten Kulturen entnommen wird. "Dies sind die Strukturen, über die wir am wenigsten wissen. Es handelt sich um unglaublich mysteriöse Proteine. Ich denke, sie bieten das Potenzial für großartige Einblicke in die Biologie" , sagte Forschungsleiter Alexander Rives dem Fachmagazin Nature(öffnet im neuen Fenster) .
Das Meta-AI-Team nutzte für seine Vorhersagen ein sogenanntes Large Language Model (LLM). Diese werden normalerweise dafür eingesetzt, Text aus wenigen Buchstaben oder Wörtern vorherzusagen.
ESMFold vervollständigt Proteine
Das Team um Rives trainierte das System mit der Bezeichnung ESMFold mit Sequenzen bekannter Proteine, die durch Ketten von 20 verschiedenen Aminosäuren ausgedrückt werden können, die jeweils durch einen Buchstaben dargestellt werden. Das System lernte dann, Proteine, bei denen ein Teil der Aminosäuren verdeckt wurde, zu vervollständigen, wie das Team in einem Aufsatz beschreibt, der als Preprint auf dem Dokumentenserver Biorxiv abrufbar(öffnet im neuen Fenster) ist.
Das von Alphabet gekaufte britische Unternehmen Deepmind hat vor einigen Jahren bereits das KI-System Alphafold vorgestellt , das 3D-Modelle von Proteinen berechnet . ESMFold ist nicht ganz so genau wie Alphafold. Aber dafür sei es bei der Vorhersage von Strukturen deutlich schneller, sagte Rive Nature. "Das bedeutet, dass wir die Strukturvorhersage auf viel größere Datenbanken ausdehnen können."