Wie entstehen die Datenmassen in der Biomedizin?
Die verfügbaren biomedizinischen Daten sind sehr vielfältig und reichen von bildbasierten Methoden über Hochdurchsatz-Sequenzierungen bis zur Massenspektrometrie. Es ist möglich, per Massenbestimmung die vorhandenen Moleküle auszumachen, seien es Proteine in einer Zelle oder mögliche externe Substanzen einer Probe.
Insbesondere die Hochdurchsatz-Sequenzierung ist wichtig um die DNA, RNA und Kombinationen aus DNA, RNA und Proteinen auszulesen. Dies dient dem Verständnis von genetischen wie auch epigenetisch basierten biologischen Grundlagen und/oder Krankheitsursachen. Die DNA besteht aus einer Abfolge der vier Nukleotide Adenin, Cytosin, Guanin und Thymin, jeweils codiert mit ihren Anfangsbuchstaben als A, C, G und T. Das Auslesen der Nukleotid-Abfolge nennt man Sequenzieren.
Das heute am weitesten verbreitete Verfahren ist das Hochdurchsatz-Sequenzieren (high-throughput sequencing (HTS) / next-generation sequencing (NGS)), mit dem man etwa 300 Basenpaare lange Sequenzen, sogenannte Reads, in hoher Parallelität auslesen kann. Die leistungsfähigsten Sequenzierungsmaschinen können rund 7,5 Gigabasenpaare (Gigabasepairs, Gbp) pro Stunde auslesen.
Exponentielles Wachstum bei Nukleotiden-Daten
Betrachtet man die Anzahl der gespeicherten Rohdaten im Sequence Read Archive (SRA), zeigt sich ein exponentielles Wachstum. Hier ging es seit dem Start der Datenbank 2007 mit anfangs 20 Milliarden Nukleotiden auf mittlerweile 59 Billiarden Nukleotide (Stand: Ende November 2021).
Zum Vergleich: Das humane Genom besteht aus 3,1 Milliarden Nukleotiden (Gbp) und würde mehr als 18 Millionen Mal sequenziert werden müssen, um diese Menge an Rohdaten zu erstellen.
Die gespeicherten Rohdaten entsprechen circa 18 Petabyte an Daten. Um auf die oben genannten 306 Petabyte zu kommen, fehlen einige Hundert Petabyte an Daten. Das liegt daran, dass es nur 18 Petabyte an Rohdaten aus Hochdurchsatz-Sequenzierungen sind, die gespeicherten Daten aber auch prozessierte Daten und Daten aus anderen Quellen wie Proteinstrukturen, bildbasierte Daten oder auch Massenspektrometrie-Daten enthalten.
Zusätzlich werden bei Studien nicht nur die Rohdaten veröffentlicht, sondern oftmals auch intermediäre Daten und spezielle Dateiformate zur praktikablen Analyse.
Nicht alles, was nach Fehler aussieht, kann gelöscht werden
In einer Datenanalyse steht anfangs einiges an Vorarbeit an, bis man die Daten aufbereitet hat. So müssen beispielsweise die ausgelesenen Reads auf ihre Qualität geprüft werden. Oft wird in diesem Schritt die Rohdatenmenge fast verdoppelt, da an den Anfängen und Enden von Reads Nukleotide oftmals von geringer Qualität sind oder sie technische Artefakte enthalten. Da man aber die Rohdaten behalten will, verdoppelt sich der benötigte Speicherplatz.
In jedem weiteren Schritt sollten die erzeugten Daten nicht überschrieben werden, um jederzeit einzelne Teilschritte wiederholen oder eine alternative Analyse ausprobieren zu können. Dies lässt logischerweise den Speicherbedarf wachsen.
Eine fortlaufende Qualitätskontrolle der Daten ist von enormer Wichtigkeit. Biomedizinische Daten sind grundlegend fehlerbehaftet. Diese Fehler gilt es zu erkennen. Problematisch ist, dass nicht alles einfach gelöscht werden kann, was erstmal wie ein Fehler in den Daten aussieht.
Triviale Fehler, wie die oben genannte geringe Wahrscheinlichkeit der korrekten Sequenzierung einer Base, sind schnell identifiziert, aber eine von der Sequenzierungsmaschine als korrekt angegebene Base, die nicht zu den bekannten Daten passt?
Das kann ein Fehler sein, aber sich durchaus als korrekte Messung von bisher Unbekanntem erweisen und eine vorschnelle Löschung wäre somit kontraproduktiv. Dies gilt es in der Verarbeitung und Interpretation der Daten immer zu berücksichtigen.
Viele Möglichkeiten, viele Daten
Der zweite zentrale intermediäre Schritt von Hochdurchsatz-Sequenzierungsdaten ist das Mapping. Die einzelnen sequenzierten Reads müssen einer eindeutigen Lokalität im Genom zugeordnet werden; hierbei werden sogenannte Referenzgenome verwendet. Von den Rohdaten hin zu analysefähigen Daten kann sich die Datenmenge um den Faktor 10 bis 30 steigern.
Auch die 18 Million Mal, die ein humanes Genom in die bisher veröffentlichten Rohdaten passt, erscheinen erstmal nicht viel. Die komplette Sequenzierung eines Genoms ist eher selten, viel öfter werden konkrete Fragestellungen versucht zu beantworten, etwa: Ist das spezifische Gen XY aktiv? Deshalb beinhalten die SRA-Daten nicht einfach nur 18 Millionen Mal das humane Genom, sondern viele kleinere Datensätze mit einem speziellen Fokus.
Es reicht für viele Forschungsfragen zu wissen, dass das Produkt der Genaktivität, die messenger RNA (mRNA), vorhanden ist. Deshalb wird dann nur mRNA sequenziert, was eine viel geringere Datenmenge erzeugt. Zusätzlich muss auch nicht alle vorhandene mRNA sequenziert werden. Mittels spezifischer Templates kann eingeschränkt werden, was überhaupt sequenziert werden soll.
Auch die Organismen, mit denen gearbeitet wird, unterscheiden sich in der Größe. In der biomedizinischen Forschung wird oft mit Modellorganismen wie Mäusen oder der aus jeder mit Obst ausgestatteten Küche bekannten Fruchtfliege gearbeitet. Dies hat insbesondere den Vorteil, dass sich möglicherweise ethisch-problematische Experimente erheblich leichter oder überhaupt durchführen lassen. Gleichzeitig ist ein Mausgenom mit 2.7 Gpb kleiner als ein humanes mit 3.1 Gpb, und das einer Fruchtfliege hat nur 180 Mpb.
Ein kleineres Genom erzeugt weniger Daten im Verlauf einer similären Analyse. Dies führt dann auch dazu, dass die oben genannten 18 Millionen Mal humanes Genom nur eine untere Schätzung für die Anzahl der Experimente sein kann.
Die Hochdurchsatz-Sequenzierung ermöglicht die Messung von Genaktivitäten, die Position von Proteinen an der DNA, die dreidimensionale Struktur der DNA oder einfach nur einzelne Teilbereiche die DNA, um beispielsweise Mutationen zu finden. Bildbasierte Methoden reichen von einfachen Fotos bis zu komplexeren Liveaufnahmen aus dem Zellinneren mittels fluoreszierenden Markern.
All diese Möglichkeiten tragen zu einem sehr starken Wachstum der verfügbaren Datenmengen bei. Dies bringt ganz neue Probleme in die biomedizinische Wissenschaft.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Biomedizin: Terabytes für eine Zelle | Die Biomedizin braucht Hardware und ITler |
Ich weiß was Du damit sagen möchtest, aber ich muss Dir wiedersprechen. Ich arbeite an...
Man sollte vielleicht hinzufügen, dass "Bioinformatik" aus pragmatischen Gründen oft in...
Das Feld wird weitgehend als "Bioinformatik" bezeichnet. Ergänzend dazu gibt es noch...