Genetik

Big Data: Genomik als neuer Datenriese

Genforschung könnte schon in zehn Jahren mehrere Exabytes an Daten jährlich generieren

Die Genforschung erzeugt schon jetzt enorme Datenmengen - udn es werden immer mehr. © freeimages/ iStock.com

Datenexplosion: Die Genforschung könnte bald der größte Mitspieler im Big Data-Ozean werden. Denn DNA-Sequenzierungen von Pflanzen, Tieren und Menschen nehmen rapide zu und mit ihnen die anfallende Datenmenge. Schon in zehn Jahren könnten sie mehrere Exabyte jährlich umfassen – und Youtube und andere Datenriesen weit hinter sich lassen, wie die Forscher im Fachmagazin „PloS Biology“ berichten. Es sei daher dringend nötig, sich auf diese Herausforderung technisch vorzubereiten.

Wenn es um die schiere Menge an anfallenden Daten geht, dann liegen heute Youtube, Twitter und in der Forschung Astronomie und Teilchenphysik weit vorne. Allein auf Youtube werden jede Minute 300 Stunden Film hochgeladen, im Jahr müssen bis zu einem Exabyte an neuen Daten gespeichert werden – das entspricht einer Trillion Bytes oder einer Million Terabytes.

Explosion von DNA-Sequenzierungen

Doch bereits in zehn Jahren könnte ein neuer Mitspieler im Big Data-Bereich alle bisherigen überflügeln: die Genforschung. „Weil die Sequenzier-Technologie immer besser wird und die Kosten sinken, erwarten wir eine Explosion von DNA-Sequenzierungen, die eine gewaltige Flut von Daten erzeugen werden“, sagt Studienleiter Gene Robinson von der University of Illinois in Urbana-Champaign.

Sequenzierroboter in einem US-Labor © NHGRI

Schon jetzt verdoppelt sich die Menge der genetischen Daten alle sieben Monate, wie die Forscher berichten. Und dieser Trend wird sich fortsetzen. Denn allein in der Biologie haben mehrere Projekte das Ziel, das Erbgut möglichst aller bekannten Tier- und Pflanzenarten zu entschlüsseln. „Bis 2025 wird es nach unseren Schätzungen mindestens 2,5 Millionen komplett sequenzierte Genome von tierischen und pflanzlichen Organismen geben“, so die Wissenschaftler. Mehrere Millionen Genome von Mikroben kommen da noch dazu.

Bis zu 40 Exabyte an Gendaten – pro Jahr

Ein noch größerer Wachstumsmarkt aber sind DNA-Analysen beim Menschen. Schon jetzt kann jeder Mensch sein Erbgut auf bestimmte Gene durchforsten lassen und auch Komplett-Sequenzierungen werden immer günstiger. Mehrere Länder, darunter China, die USA, Großbritannien und Saudi-Arabien haben bereits angekündigt, die DNA von zwischen 100.000 und einer Million ihrer Bürger entschlüsseln und für Forschungszwecke erfassen zu wollen.

„Bis 2025 könnte daher nach unseren Schätzungen zwischen 120 Millionen und zwei Milliarden menschliche Genome sequenziert worden sein – das entspricht einem Wachstum von vier bis fünf Größenordnungen in zehn Jahren“, so die Forscher. Das aber bedeutet, dass 2025 jedes Jahr zwischen zwei und 40 Exabytes an neuen Gendaten anfallen könnten – allein für die menschlichen Genome. „Das übertrifft bei weitem das Wachstum der heutigen großen Datenproduzenten wie Youtube oder die Astronomie.“

Die Kosten für eine Sequenzierung sind rapide gefallen © Maggie Bartlett, NHGRI

Clouds für die Gendaten

Und die reinen DNA-Sequenzen sind nicht noch nicht alles: „Die Sequenzdaten müssen mit Hilfe von komplexen und oft computertechnisch anspruchsvollen Algorithmen analysiert werden“, erklärt Koautor Saurabh Sinha von der University of Illinois in Urbana-Champaign. Erst so lassen sich biologisch relevante Muster in den Gendaten finden und Vergleiche anstellen, die beispielsweise bei der Diagnostik von Krankheiten helfen können.

Hinzu kommt, dass die Gendaten an vielen Orten anfallen und weltweit über das Internet verteilt und abgerufen werden. Zukünftig werden daher immer mehr DNA-Daten in Clouds gespeichert werden, um den Austausch zu erleichtern. „All das macht das Ganze zu einer noch größeren Herausforderung als nur die DNA zu sequenzieren und diese Information zu speichern“, so Sinha.

Ein „vierköpfiges Biest“

Angesichts dieser auf uns zukommenden Datenschwemme rufen die Forscher dringend dazu auf, die digitale Infrastruktur rechtzeitig auf diese Herausforderungen einzustellen. „Die Genomik ist ein vierköpfiges Biest“, so Robinson und seine Kollegen. „Die Anforderungen in Datenaufnahme, Speicherung, Verteilung und Analyse werden zu den größten im gesamten Big Data-Bereich gehören.“

Nach Ansicht der Forscher könnte die Genomik damit zu den größten computertechnischen Herausforderungen gehören, die die Menschheit bisher bewältigen musste. Denn während die Datenmengen bei Youtube und Co allmählich und im Gleichschritt mit den Fortschritten in der Datenübertragung und Speichertechnologie gewachsen sind, könnte die Genomik die technische Entwicklung überholen. „Wir brauchen dramatische Innovationen in der Computertechnologie“, so Robinson. „Jetzt ist die richtige Zeit, damit zu beginnen.“ (PloS Biology, 2015; doi: 10.1371/journal.pbio.1002195)

(PLOS / University of Illinois, 08.07.2015 – NPO)

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Schriftzeichen

Ältestes Alphabet der Welt entdeckt?

Erstes Porträt eines extragalaktischen Sterns

Baby-Säbelzahnkatze im Permafrost entdeckt

Auch erwachsene Schimpansen spielen noch miteinander

Diaschauen zum Thema

Dossiers zum Thema

Bücher zum Thema

Im Fokus: Genetik - Dem Bauplan des Lebens auf der Spur Von Nadja Podbregar und Dieter Lohmann

Der erweiterte Phänotyp - Der lange Arm der Gene von Richard Dawkins

Der zweite Code - Epigenetik - oder wie wir unser Erbgut steuern können von Peter Spork

50 Schlüsselideen Genetik - von Mark Henderson

Die Macht der Gene - Schön wie Monroe, schlau wie Einstein von Markus Hengstschläger

Top-Clicks der Woche