Biomedizin: Terabytes für eine Zelle
Die Biomedizin produziert inzwischen fast so viele Daten wie die Physik - und steht gerade erst am Anfang zu verstehen, wie sie damit umgehen soll.

Die großen physikalischen Experimente gelten nicht zu Unrecht als führend bei der Erzeugung unfassbar großer Datenmengen. Doch die Biomedizin holt auf: Die biomedizinische Forschung erreicht mittlerweile ähnlich hohe Datenmengen wie das Leuchtturmprojekt am Cern, der Large Hadron Collider (LHC) in der Schweiz.
- Biomedizin: Terabytes für eine Zelle
- Wie entstehen die Datenmassen in der Biomedizin?
- Die Biomedizin braucht Hardware und ITler
Denn seit immer mehr, auch kleinere, Labore Gensequenzen analysieren können, steigt die Menge der produzierten Daten in der Biomedizin exponentiell - was einige Probleme verursacht. Nicht selten fehlt es an Personal, das sich damit auskennt, an Speicherplatz und an Rechnerkapazität.
Jeder kann das Genom erforschen
Dass die Daten so rasant steigen, liegt daran, dass sich die technischen Methoden in der biomedizinischen Forschung in den vergangenen Jahrzehnten stark verbessert haben. In der Folge sind die Kosten gesunken.
Ausgangspunkt für diese Entwicklung war Mitte der 1980er Jahre das Human Genome Project. Die Idee war, das komplette humane Genom zu entschlüsseln, um verstehen zu können, wie unser Organismus genau funktioniert und wie es zu genetisch verursachten Krankheiten kommt. Drei Milliarden US-Dollar standen dafür zur Verfügung.
Auf dieser soliden finanziellen Basis nahm die Forschung Fahrt auf und die Methoden zur Sequenzierung wurden schnell effizienter. Ab Anfang der 1990er Jahre wurde beim Human Genome Project die DNA an sorgfältig definierten Bereichen zerschnitten und dann mit viel menschlicher Arbeit sowie mithilfe einer Chromosomenkarte wieder zusammengesetzt. Jedoch wurden so bis 1998 nur rund 3 Prozent des Genoms entschlüsselt. Von 1998 bis 2001 wurde mit der Zerstörung der DNA an zufälligen Punkten und die Sortierung per Algorithmen ein sehr viel schnelleres und erfolgreicheres Vorgehen gewählt.
Heute kostet die Sequenzierung eines Humangenoms je nach Quelle zwischen 300 und 1.000 US-Dollar. Bald sollen es nur noch etwas mehr als 100 US-Dollar sein.
Kosten sinken, Datenmengen steigen rasant
Die stark sinkenden Kosten haben es in den vergangenen Jahren ermöglicht, dass jedes auch noch so kleine Labor am Verständnis der Funktionsweise des Genoms und den daraus ableitbaren Problemstellungen arbeiten kann.
Diese Möglichkeiten werden rege genutzt und die meisten Daten werden der Öffentlichkeit zur Verfügung gestellt. Dabei gibt es ein paar große Plattformen, die diese Daten sammeln und die man als Daten-Provider bezeichnet. Dazu gehören: das European Molecular Biology Laboratory (EMBL), das US-amerikanische National Center for Biotechnology Information (NCBI) und die DNA Data Bank of Japan (DDBJ).
Die bereitgestellten Informationen auf den Webseiten des NCBI sind vielfältig und verteilen sich über mehrere Datenbanken. Sie reichen von bereitgestellter Software über Publikationen und Bücher bis zu analysierten und bestätigten Daten wie Referenzgenomen (beispielsweise humane Referenzgenome) oder Daten aus konkreten Studien (beispielsweise für Rao et al. 2014 A three-dimensional map of the human genome at kilobase resolution reveals prinicples of chromatin looping) und auch die Rohdaten von Studien (für obrige Rao et al. Studie https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA268125&o=acc_s%3Aa). Die Daten dieser Studie gibt es auch über die europäische Plattform des EMBL oder über DDBJ.
Allein das Beispiel des EMBL zeigt, dass die Datenmenge erheblich zugenommen hat: Es baute seine verfügbare Speichermenge nämlich stark aus, und zwar von 260 Petabyte im Jahr 2017 auf 273 Petabyte im Jahr 2018 (PDF) und 306 Petabyte im Jahr 2019 (PDF).
Unter der vereinfachten Annahme, dass der Zuwachs an Speichermenge in etwa den hochgeladenen und veröffentlichten Datenmengen entspricht, sind das also plus 13 Petabyte im Jahr 2018 und plus 33 Petabyte 2019 - und damit mehr als beim LHC am CERN, das jährlich 15 Petabyte an Daten hervorbringt.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Wie entstehen die Datenmassen in der Biomedizin? |
Ich weiß was Du damit sagen möchtest, aber ich muss Dir wiedersprechen. Ich arbeite an...
Man sollte vielleicht hinzufügen, dass "Bioinformatik" aus pragmatischen Gründen oft in...
Das Feld wird weitgehend als "Bioinformatik" bezeichnet. Ergänzend dazu gibt es noch...