Wie entstehen die Datenmassen in der Biomedizin?

Die verfügbaren biomedizinischen Daten sind sehr vielfältig und reichen von bildbasierten Methoden über Hochdurchsatz-Sequenzierungen bis zur Massenspektrometrie. Es ist möglich, per Massenbestimmung die vorhandenen Moleküle auszumachen, seien es Proteine in einer Zelle oder mögliche externe Substanzen einer Probe.

Stellenmarkt
  1. Network Architect / Network Engineer (m/w/d)
    IF-TECH AG, Passau, Ansbach, München
  2. IT-Administrator (m/w/d)
    SAGA IT-Services GmbH, Hamburg
Detailsuche

Insbesondere die Hochdurchsatz-Sequenzierung ist wichtig um die DNA, RNA und Kombinationen aus DNA, RNA und Proteinen auszulesen. Dies dient dem Verständnis von genetischen wie auch epigenetisch basierten biologischen Grundlagen und/oder Krankheitsursachen. Die DNA besteht aus einer Abfolge der vier Nukleotide Adenin, Cytosin, Guanin und Thymin, jeweils codiert mit ihren Anfangsbuchstaben als A, C, G und T. Das Auslesen der Nukleotid-Abfolge nennt man Sequenzieren.

Das heute am weitesten verbreitete Verfahren ist das Hochdurchsatz-Sequenzieren (high-throughput sequencing (HTS) / next-generation sequencing (NGS)), mit dem man etwa 300 Basenpaare lange Sequenzen, sogenannte Reads, in hoher Parallelität auslesen kann. Die leistungsfähigsten Sequenzierungsmaschinen können rund 7,5 Gigabasenpaare (Gigabasepairs, Gbp) pro Stunde auslesen.

Exponentielles Wachstum bei Nukleotiden-Daten

Betrachtet man die Anzahl der gespeicherten Rohdaten im Sequence Read Archive (SRA), zeigt sich ein exponentielles Wachstum. Hier ging es seit dem Start der Datenbank 2007 mit anfangs 20 Milliarden Nukleotiden auf mittlerweile 59 Billiarden Nukleotide (Stand: Ende November 2021).

Golem Karrierewelt
  1. Linux-Shellprogrammierung: virtueller Vier-Tage-Workshop
    04.-07.07.2022, Virtuell
  2. IT-Grundschutz-Praktiker mit Zertifikat: Drei-Tage-Workshop
    04.-06.07.2022, Virtuell
Weitere IT-Trainings

Zum Vergleich: Das humane Genom besteht aus 3,1 Milliarden Nukleotiden (Gbp) und würde mehr als 18 Millionen Mal sequenziert werden müssen, um diese Menge an Rohdaten zu erstellen. 

Die gespeicherten Rohdaten entsprechen circa 18 Petabyte an Daten. Um auf die oben genannten 306 Petabyte zu kommen, fehlen einige Hundert Petabyte an Daten. Das liegt daran, dass es nur 18 Petabyte an Rohdaten aus Hochdurchsatz-Sequenzierungen sind, die gespeicherten Daten aber auch prozessierte Daten und Daten aus anderen Quellen wie Proteinstrukturen, bildbasierte Daten oder auch Massenspektrometrie-Daten enthalten.

Zusätzlich werden bei Studien nicht nur die Rohdaten veröffentlicht, sondern oftmals auch intermediäre Daten und spezielle Dateiformate zur praktikablen Analyse.

Nicht alles, was nach Fehler aussieht, kann gelöscht werden

In einer Datenanalyse steht anfangs einiges an Vorarbeit an, bis man die Daten aufbereitet hat. So müssen beispielsweise die ausgelesenen Reads auf ihre Qualität geprüft werden. Oft wird in diesem Schritt die Rohdatenmenge fast verdoppelt, da an den Anfängen und Enden von Reads Nukleotide oftmals von geringer Qualität sind oder sie technische Artefakte enthalten. Da man aber die Rohdaten behalten will, verdoppelt sich der benötigte Speicherplatz.

In jedem weiteren Schritt sollten die erzeugten Daten nicht überschrieben werden, um jederzeit einzelne Teilschritte wiederholen oder eine alternative Analyse ausprobieren zu können. Dies lässt logischerweise den Speicherbedarf wachsen.

Eine fortlaufende Qualitätskontrolle der Daten ist von enormer Wichtigkeit. Biomedizinische Daten sind grundlegend fehlerbehaftet. Diese Fehler gilt es zu erkennen. Problematisch ist, dass nicht alles einfach gelöscht werden kann, was erstmal wie ein Fehler in den Daten aussieht.

Triviale Fehler, wie die oben genannte geringe Wahrscheinlichkeit der korrekten Sequenzierung einer Base, sind schnell identifiziert, aber eine von der Sequenzierungsmaschine als korrekt angegebene Base, die nicht zu den bekannten Daten passt?

Das kann ein Fehler sein, aber sich durchaus als korrekte Messung von bisher Unbekanntem erweisen und eine vorschnelle Löschung wäre somit kontraproduktiv. Dies gilt es in der Verarbeitung und Interpretation der Daten immer zu berücksichtigen.

Samsung 980 PRO 1 TB PCIe 4.0 (bis zu 7.000 MB/s) NVMe M.2 (2280) Internes Solid State Drive (SSD) (MZ-V8P1T0BW)

Viele Möglichkeiten, viele Daten

Der zweite zentrale intermediäre Schritt von Hochdurchsatz-Sequenzierungsdaten ist das Mapping. Die einzelnen sequenzierten Reads müssen einer eindeutigen Lokalität im Genom zugeordnet werden; hierbei werden sogenannte Referenzgenome verwendet. Von den Rohdaten hin zu analysefähigen Daten kann sich die Datenmenge um den Faktor 10 bis 30 steigern.

Auch die 18 Million Mal, die ein humanes Genom in die bisher veröffentlichten Rohdaten passt, erscheinen erstmal nicht viel. Die komplette Sequenzierung eines Genoms ist eher selten, viel öfter werden konkrete Fragestellungen versucht zu beantworten, etwa: Ist das spezifische Gen XY aktiv? Deshalb beinhalten die SRA-Daten nicht einfach nur 18 Millionen Mal das humane Genom, sondern viele kleinere Datensätze mit einem speziellen Fokus.

Es reicht für viele Forschungsfragen zu wissen, dass das Produkt der Genaktivität, die messenger RNA (mRNA), vorhanden ist. Deshalb wird dann nur mRNA sequenziert, was eine viel geringere Datenmenge erzeugt. Zusätzlich muss auch nicht alle vorhandene mRNA sequenziert werden. Mittels spezifischer Templates kann eingeschränkt werden, was überhaupt sequenziert werden soll.

Auch die Organismen, mit denen gearbeitet wird, unterscheiden sich in der Größe. In der biomedizinischen Forschung wird oft mit Modellorganismen wie Mäusen oder der aus jeder mit Obst ausgestatteten Küche bekannten Fruchtfliege gearbeitet. Dies hat insbesondere den Vorteil, dass sich möglicherweise ethisch-problematische Experimente erheblich leichter oder überhaupt durchführen lassen. Gleichzeitig ist ein Mausgenom mit 2.7 Gpb kleiner als ein humanes mit 3.1 Gpb, und das einer Fruchtfliege hat nur 180 Mpb.

Ein kleineres Genom erzeugt weniger Daten im Verlauf einer similären Analyse. Dies führt dann auch dazu, dass die oben genannten 18 Millionen Mal humanes Genom nur eine untere Schätzung für die Anzahl der Experimente sein kann.

Die Hochdurchsatz-Sequenzierung ermöglicht die Messung von Genaktivitäten, die Position von Proteinen an der DNA, die dreidimensionale Struktur der DNA oder einfach nur einzelne Teilbereiche die DNA, um beispielsweise Mutationen zu finden. Bildbasierte Methoden reichen von einfachen Fotos bis zu komplexeren Liveaufnahmen aus dem Zellinneren mittels fluoreszierenden Markern.

All diese Möglichkeiten tragen zu einem sehr starken Wachstum der verfügbaren Datenmengen bei. Dies bringt ganz neue Probleme in die biomedizinische Wissenschaft.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Biomedizin: Terabytes für eine ZelleDie Biomedizin braucht Hardware und ITler 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


Prypjat 16. Feb 2022

Ich weiß was Du damit sagen möchtest, aber ich muss Dir wiedersprechen. Ich arbeite an...

EaglePsyX 16. Feb 2022

Man sollte vielleicht hinzufügen, dass "Bioinformatik" aus pragmatischen Gründen oft in...

EaglePsyX 16. Feb 2022

Das Feld wird weitgehend als "Bioinformatik" bezeichnet. Ergänzend dazu gibt es noch...



Aktuell auf der Startseite von Golem.de
Prehistoric Planet
Danke, Apple, für so grandiose Dinosaurier!

Musik von Hans Zimmer, dazu David Attenborough als Sprecher: Apples Prehistoric Planet hat einen Kindheitstraum zum Leben erweckt.
Ein IMHO von Marc Sauter

Prehistoric Planet: Danke, Apple, für so grandiose Dinosaurier!
Artikel
  1. Künstliche Intelligenz: Wie erklären Menschen die Entscheidungen von Computern?
    Künstliche Intelligenz
    Wie erklären Menschen die Entscheidungen von Computern?

    Je komplexer eine KI, desto schwerer können Menschen ihre Entscheidungen nachvollziehen. Das ängstigt viele. Doch künstliche Intelligenz ist keine Blackbox mehr.
    Von Florian Voglauer

  2. Fahrgastverband Pro Bahn: Wo das 9-Euro-Ticket sicher gilt
    Fahrgastverband Pro Bahn
    Wo das 9-Euro-Ticket sicher gilt

    Die Farbe der Züge ist entscheidend, was bei der Reiseplanung in der Deutsche-Bahn-App wenig nützt. Dafür laufen Fahrscheinkontrollen ins Leere.

  3. Retro Gaming: Wie man einen Emulator programmiert
    Retro Gaming
    Wie man einen Emulator programmiert

    Warum nicht mal selbst einen Emulator programmieren? Das ist lehrreich und macht Spaß - wenn er funktioniert. Wie es geht, zeigen wir am Gameboy.
    Von Johannes Hiltscher

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 evtl. bestellbar • Prime Video: Filme leihen für 0,99€ • Gigabyte RTX 3080 12GB günstig wie nie: 1.024€ • MSI Gaming-Monitor 32" 4K günstig wie nie: 999€ • Mindstar (u. a. AMD Ryzen 5 5600 179€, Palit RTX 3070 GamingPro 669€) • Days of Play (u. a. PS5-Controller 49,99€) [Werbung]
    •  /