Erbgut als Datenspeicher: Forscher haben eine Methode entwickelt, um auch größere Datenmengen auf dem Erbmolekül DNA zu speichern. 100 Megabyte an Daten passen so auf nur ein Picogramm DNA, wie die Kodierung einer Folge der TV-Serie „Biohackers“ belegt. Durch Einschließen der DNA-Stücke in Silikatkapseln sind diese Daten gut tausend Jahre haltbar – weit länger als auf jedem Computerspeicher.
Unsere Zivilisation erzeugt Unmengen an digitalen Daten – von Fotos, Videos oder Texten bis zu Social-Media-Posts. Doch all dies ist vergänglich, denn Festplatten und andere Datenspeicher überdauern bestenfalls einige Jahrzehnte. Deshalb suchen Forscher schon heute nach Möglichkeiten, Daten dauerhafter für die Nachwelt zu konservieren.
DNA-Basen statt Nullen und Einsen
Eine Lösung gegen das digitale Vergessen könnte der „Datenträger des Lebens“ sein – das Erbmolekül DNA. In allen Organismen kodiert die Abfolge der vier DNA-Basen die Bauanleitung für Proteine und enthält die Steuereinheiten für alle zellulären Prozesse. Doch dieser Code lässt sich auch sehr einfach nutzen, um digitale Bits und Bytes zu speichern – statt mit 0 und 1 mit den vier DNA-„Buchstaben“ A, C, G und T.
Forscher haben bereits lose DNA-Stränge, aber auch das Erbgut lebender Bakterien genutzt, um beispielsweise Texte oder Bilder abzuspeichern. Kapselt man die ohnehin relativ robusten DNA-Stränge dann noch in kleine Silikat-Kapseln ein, könnte sich dieser biochemische Datenträger mehr als tausend Jahre lang halten. Kodiert und abgelesen werden die Stränge dabei mithilfe automatisierter DNA-Sequenzer, wie sie in vielen Genlaboren stehen.
Gehen auch große Datenmengen?
Das Problem jedoch: Die synthetisch hergestellten DNA-Stränge lassen sich nur bis zu einer bestimmten Länge herstellen. Es ist daher nicht möglich, große Datenmengen einfach auf einem einzigen, langen Erbgutstrang abzuspeichern. „Stattdessen muss die digitale Information auf vielen kurzen, indizierten DNA-Sequenzen gespeichert werden“, erklären Reinhard Heckel von der Technischen Universität München und Robert Grass von der ETH Zürich.
Das aber bedeutet, dass die vielen kurzen Stränge beim Ablesen wieder in der richtigen Reihenfolge zusammengesetzt werden müssen, gleichzeitig steigt die Wahrscheinlichkeit von Kopier- oder Ablesefehlern. Heckel und seine Kollegen haben deshalb ein Verfahren entwickelt, das die Indexierung und Fehlerkorrektur optimiert und so das Kodieren und Dekodieren selbst großer Datenmenge mittels DNA ermöglicht.
Zur Demonstration dieser Technologie haben die Forscher die gesamte erst Folge der kürzlich erschienen TV-Serie „Biohackers“ in Form von synthetischer DNA gespeichert. Wie dies funktioniert und warum DNA-Datenspeicher eine lohende Zukunftstechnologie sein könnten, erklärt uns Reinhard Heckel im Interview.
Interview: „Wenn sich die Technologie durchsetzt, ist Großes möglich“
Herr Heckel, in „Biohackers“ geht es um eine Medizinstudentin, die sich an einer Professorin mit dunkler Vergangenheit rächen will – und um die Manipulation von DNA durch den Einsatz von Biotechnologie. Sie hatten den Auftrag, den Inhalt der Serie auf DNA zu speichern. Wie funktioniert so etwas?
Reinhard Heckel: Zunächst sprechen wir hier von künstlich generierter, also synthetischer DNA. DNA besteht aus vier Bausteinen: den Nukleotiden Adenin (A), Thymin (T), Guanin (G) und Cytosin (C). Computer-Daten sind wiederum als Nullen und Einsen kodiert. Die erste Folge von „Biohackers“ besteht aus einer Reihung von etwa 600 Millionen Nullen und Einsen.
Wollen wir jetzt beispielsweise die Reihe 01 01 11 00 in DNA speichern, legen wir fest, welche Zahlenkombination welchem Buchstaben entspricht, etwa: 00 ist A, 01 ist C, 10 ist G und 11 ist T. In unserem Beispiel ergibt sich dann die DNA-Sequenz CCTA. Nach diesem Prinzip des „DNA Data Storage“ haben wir die erste Folge der Serie auf DNA gespeichert.
Und um die Serie abspielen zu können, werden die Buchstaben einfach „zurückübersetzt“?
Heckel: So kann man sich das – sehr vereinfacht – vorstellen. Allerdings passieren beim Schreiben, Speichern und Lesen der DNA Fehler. Werden diese Fehler nicht korrigiert, gehen die Daten, die auf der DNA gespeichert sind, verloren. Um das Problem zu lösen, habe ich einen Algorithmus entwickelt, der auf Kanalkodierung basiert. Kanalkodierung beschäftigt sich damit, Fehler, die bei der Informationsübertragung passieren, zu korrigieren.
Die Idee dahinter ist, den Daten Redundanz hinzuzufügen. Stellen Sie sich Sprache vor: Wenn wir ein Wort mit fehlenden oder falschen Buchstaben lesen oder hören, schafft es die Rechenleistung unseres Gehirns trotzdem, das Wort zu verstehen. Der Algorithmus folgt dem gleichen Prinzip: Er encodiert die Daten so redundant, dass später auch von sehr fehlerhafter DNA Daten wiederhergestellt werden können.
Kanalkodierung wird in vielen Gebieten, auch in der Telekommunikation eingesetzt. Was war die Herausforderung bei der Entwicklung Ihrer Lösung?
Heckel: Die erste Herausforderung war, einen Algorithmus zu schaffen, der spezifisch für die in DNA vorkommenden Fehler ausgelegt ist. Die zweite Herausforderung bestand darin, den Algorithmus so effizient zu machen, dass möglichst viele Daten auf einer möglichst kleinen Menge DNA gespeichert werden können, und somit nur absolute notwendige Redundanz hinzugefügt wird. Wir haben gezeigt, dass unser Algorithmus in diesem Sinne optimal ist.
„DNA Data Storage“ ist sehr teuer, da die Herstellung von DNA und das Lesen sehr aufwändig sind. Was macht DNA dennoch als Speichermedium attraktiv?
Heckel: Zum einen ist die Informationsdichte auf DNA sehr hoch. Das ermöglicht die Speicherung riesiger Datenmengen auf kleinstem Raum. Im Fall der Serie sind es zwar „nur“ 100 Megabyte auf einem Picogram, also einem billionstel Gramm DNA. Theoretisch wären aber bis zu 200 Exabyte auf einem Gramm DNA möglich. Zum anderen hält sich DNA sehr lange. Zum Vergleich: Wenn Ihr PC und dessen Festplatte immer ausgeschaltet beziehungsweise unbeschrieben blieben, würden die Daten nach ein paar Jahren verschwinden. DNA hingegen, richtig verpackt, kann viele tausend Jahre stabil bleiben.
Auch Dank der von Ihnen entwickelten Methode, die DNA-Stränge robust, fast „unkaputtbar“ macht.
Heckel: Mein Kollege Robert Grass war der erste, der ein Verfahren entwickelt hat, das DNA-Stränge in Nanometer große Kügelchen aus Silica, eine Glas-Art, kapsuliert und sie damit stabil verpackt. Damit ist die DNA mechanisch geschützt. Gemeinsam haben wir bereits 2015 ein Paper verfasst, das unseren Algorithmus und Grass‘ Kapsulierung als das erste robuste DNA Data Storage vorstellt. Seitdem haben wir die Methode immer weiterentwickelt. In unserer jüngsten Publikation in Nature Protocols von Januar 2020 geben wir unsere Erfahrungen weiter.
Was sind Ihre nächsten Schritte? Hat das Speichern von Daten auf DNA Zukunft?
Heckel: Wir arbeiten daran, DNA Data Storage günstiger und schneller zu machen. „Biohackers“ war ein Meilenstein in Richtung Kommerzialisierung, doch es liegt noch ein weiter Weg vor uns. Wenn sich die Technologie durchsetzt, ist Großes möglich. Ganze Bibliotheken, sämtliche Filme, Fotos, Musik, Wissen jeglicher Art – soweit in Daten abbildbar – könnte auf DNA gespeichert werden und der Menschheit somit für immer zur Verfügung stehen. (Nature Protocols, 2020; doi: 10.1038/s41596-019-0244-5)
Quelle: Technische Universität München