Biomedizin: Terabytes für eine Zelle

Die Biomedizin produziert inzwischen fast so viele Daten wie die Physik - und steht gerade erst am Anfang zu verstehen, wie sie damit umgehen soll.

Artikel von Joachim Wolff veröffentlicht am
Eine Labortechnikerin bei der Sequenzierung des Sars-COV-2-Genoms
Eine Labortechnikerin bei der Sequenzierung des Sars-COV-2-Genoms (Bild: CHRISTOPHE ARCHAMBAULT/AFP via Getty Images)

Die großen physikalischen Experimente gelten nicht zu Unrecht als führend bei der Erzeugung unfassbar großer Datenmengen. Doch die Biomedizin holt auf: Die biomedizinische Forschung erreicht mittlerweile ähnlich hohe Datenmengen wie das Leuchtturmprojekt am Cern, der Large Hadron Collider (LHC) in der Schweiz.

Denn seit immer mehr, auch kleinere, Labore Gensequenzen analysieren können, steigt die Menge der produzierten Daten in der Biomedizin exponentiell - was einige Probleme verursacht. Nicht selten fehlt es an Personal, das sich damit auskennt, an Speicherplatz und an Rechnerkapazität.

Jeder kann das Genom erforschen

Dass die Daten so rasant steigen, liegt daran, dass sich die technischen Methoden in der biomedizinischen Forschung in den vergangenen Jahrzehnten stark verbessert haben. In der Folge sind die Kosten gesunken.

Ausgangspunkt für diese Entwicklung war Mitte der 1980er Jahre das Human Genome Project. Die Idee war, das komplette humane Genom zu entschlüsseln, um verstehen zu können, wie unser Organismus genau funktioniert und wie es zu genetisch verursachten Krankheiten kommt. Drei Milliarden US-Dollar standen dafür zur Verfügung.

Stellenmarkt
  1. Specialist (m/w/d) Modern Workplace
    IT4IPM GmbH, München
  2. Projekt Manager FUTR HUT (m/w/d)
    Tegel Projekt GmbH, Berlin
Detailsuche

Auf dieser soliden finanziellen Basis nahm die Forschung Fahrt auf und die Methoden zur Sequenzierung wurden schnell effizienter. Ab Anfang der 1990er Jahre wurde beim Human Genome Project die DNA an sorgfältig definierten Bereichen zerschnitten und dann mit viel menschlicher Arbeit sowie mithilfe einer Chromosomenkarte wieder zusammengesetzt. Jedoch wurden so bis 1998 nur rund 3 Prozent des Genoms entschlüsselt. Von 1998 bis 2001 wurde mit der Zerstörung der DNA an zufälligen Punkten und die Sortierung per Algorithmen ein sehr viel schnelleres und erfolgreicheres Vorgehen gewählt.

Heute kostet die Sequenzierung eines Humangenoms je nach Quelle zwischen 300 und 1.000 US-Dollar. Bald sollen es nur noch etwas mehr als 100 US-Dollar sein.

Samsung 980 PRO 1 TB PCIe 4.0 (bis zu 7.000 MB/s) NVMe M.2 (2280) Internes Solid State Drive (SSD) (MZ-V8P1T0BW)

Kosten sinken, Datenmengen steigen rasant

Die stark sinkenden Kosten haben es in den vergangenen Jahren ermöglicht, dass jedes auch noch so kleine Labor am Verständnis der Funktionsweise des Genoms und den daraus ableitbaren Problemstellungen arbeiten kann.

Diese Möglichkeiten werden rege genutzt und die meisten Daten werden der Öffentlichkeit zur Verfügung gestellt. Dabei gibt es ein paar große Plattformen, die diese Daten sammeln und die man als Daten-Provider bezeichnet. Dazu gehören: das European Molecular Biology Laboratory (EMBL), das US-amerikanische National Center for Biotechnology Information (NCBI) und die DNA Data Bank of Japan (DDBJ).

Die bereitgestellten Informationen auf den Webseiten des NCBI sind vielfältig und verteilen sich über mehrere Datenbanken. Sie reichen von bereitgestellter Software über Publikationen und Bücher bis zu analysierten und bestätigten Daten wie Referenzgenomen (beispielsweise humane Referenzgenome) oder Daten aus konkreten Studien (beispielsweise für Rao et al. 2014 A three-dimensional map of the human genome at kilobase resolution reveals prinicples of chromatin looping) und auch die Rohdaten von Studien (für obrige Rao et al. Studie https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA268125&o=acc_s%3Aa). Die Daten dieser Studie gibt es auch über die europäische Plattform des EMBL oder über DDBJ.

Allein das Beispiel des EMBL zeigt, dass die Datenmenge erheblich zugenommen hat: Es baute seine verfügbare Speichermenge nämlich stark aus, und zwar von 260 Petabyte im Jahr 2017 auf 273 Petabyte im Jahr 2018 (PDF) und 306 Petabyte im Jahr 2019 (PDF).

Unter der vereinfachten Annahme, dass der Zuwachs an Speichermenge in etwa den hochgeladenen und veröffentlichten Datenmengen entspricht, sind das also plus 13 Petabyte im Jahr 2018 und plus 33 Petabyte 2019 - und damit mehr als beim LHC am CERN, das jährlich 15 Petabyte an Daten hervorbringt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Wie entstehen die Datenmassen in der Biomedizin? 
  1. 1
  2. 2
  3. 3
  4.  


Prypjat 16. Feb 2022

Ich weiß was Du damit sagen möchtest, aber ich muss Dir wiedersprechen. Ich arbeite an...

EaglePsyX 16. Feb 2022

Man sollte vielleicht hinzufügen, dass "Bioinformatik" aus pragmatischen Gründen oft in...

EaglePsyX 16. Feb 2022

Das Feld wird weitgehend als "Bioinformatik" bezeichnet. Ergänzend dazu gibt es noch...



Aktuell auf der Startseite von Golem.de
Cariad
Aufsichtsrat greift bei VWs Softwareentwicklung durch

Die Sorge um die Volkswagen-Softwarefirma Cariad hat den Aufsichtsrat veranlasst, ein überarbeitetes Konzept für die ehrgeizigen Pläne vorzulegen.

Cariad: Aufsichtsrat greift bei VWs Softwareentwicklung durch
Artikel
  1. Delfast Top 3.0: Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein
    Delfast Top 3.0
    Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein

    Ukrainische Infanteristen nutzen E-Motorräder, um leise und schnell zum Einsatz zu gelangen und die Panzerabwehrlenkwaffe NLAW zu transportieren.

  2. Überwachung: Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein
    Überwachung
    Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein

    In Rheinland-Pfalz werden Handynutzer am Steuer eines Autos automatisch erkannt. Dazu wird das System Monocam aus den Niederlanden genutzt.

  3. Love, Death + Robots 3: Mal spannend, mal tragisch, mal gelungen, mal nicht so
    Love, Death + Robots 3
    Mal spannend, mal tragisch, mal gelungen, mal nicht so

    Die abwechslungsreichste Science-Fiction-Serie unserer Zeit ist wieder da - mit acht neuen Folgen der von David Fincher produzierten Anthologie-Reihe.
    Von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Borderlands 3 gratis • CW: Top-Rabatte auf PC-Komponenten • Inno3D RTX 3070 günstig wie nie: 614€ • Ryzen 9 5900X 398€ • Top-Laptops zu Tiefpreisen • Edifier Lautsprecher 129€ • Kingston SSD 2TB günstig wie nie: 129,90€ • Samsung Soundbar + Subwoofer günstig wie nie: 228,52€ [Werbung]
    •  /