Das wissenschaftliche Grid-Computing hat am Dienstag einen Meilenstein erreicht: Acht große Rechenzentren in Europa und den USA haben über zehn Tage einen kontinuierlichen Datenstrom von 600 Megabyte pro Sekunde ausgetauscht.
Diese Datenmenge über eine ISDN- Leitung zu verschicken würde etwa 3.000 Jahre dauern.
Die Daten wurden vom europäischen Forschungszentrum CERN in Genf verschickt. Mit diesem Test wurde der Datenaustausch simuliert, der ab dem Jahr 2007 notwendig ist, um die Daten eines internationalen wissenschaftlichen Großexperiments zu handhaben. Dann geht nämlich bei CERN der Large Hadron Collider (LHC) in Betrieb, ein Experiment der Elementarteilchenphysik, das über zehn Jahre rund um die Uhr einen Datenstrom von 1.500 Megabyte pro Sekunde liefern wird. Die deutsche Schaltstelle für das schnellste Rechnernetz der Welt ist das Forschungszentrum Karlsruhe. An dem jetzt erfolgreich abgeschlossenen Test waren außerdem zwei Rechenzentren in den USA und jeweils ein Rechenzentrum in Frankreich, Großbritannien, Italien und den Niederlanden beteiligt.
CERN sorgt für Datenflut
Bis zum Jahr 2007 wird beim europäischen Forschungszentrum CERN in Genf unter dem Namen LHC (Large Hadron Collider) der größte Beschleuniger der modernen Teilchenphysik aufgebaut. In einem 27 Kilometer langen, kreisförmigen Teilchenbeschleuniger werden dann Protonen oder Bleikerne mit nahezu Lichtgeschwindigkeit aufeinander geschossen. Beim Zusammenstoß werden Unmengen kleinerer Elementarteilchen entstehen und dadurch Einblick in die innerste Struktur der Materie geben. LHC wird zum datenintensivsten Experiment der Physik: In jeder Sekunde müssen über 100 Millionen Messdaten registriert werden. Drei Millionen Gigabyte an Daten müssen jährlich gespeichert und für weltweit verteilte Wissenschaftlergruppen aufbereitet werden. Auf CD-ROM gepresst ergäbe die Datenmenge einen Stapel, der doppelt so hoch ist wie die Zugspitze.
Die Physiker drohen in dieser Datenflut zu ertrinken. Ein einzelnes Rechenzentrum kann den Bedarf nicht mehr abdecken. So entstand die Idee, die Daten und die benötigte Rechenleistung in einer hierarchischen Schichtenstruktur über die ganze Welt zu verteilen und die einzelnen Standorte über eine besonders leistungsfähige Internetstruktur miteinander zu verknüpfen.
Erster Meilenstein erreicht
Der Aufbau dieser Internetstruktur ist mit einer Reihe von Meilensteinen verknüpft. Einer dieser Meilensteine wurde nun erreicht: Für zehn Tage verteilte das CERN einen Datenstrom von 500 Megabyte pro Sekunde an sieben große Rechenzentren in den USA und in Europa.
„Die gesamte dabei transportierte Datenmenge entspricht einem halben Petabyte – Peta ist eine Zahl mit fünfzehn Nullen“, erläutert Klaus- Peter Mickel, Leiter des Instituts für Wissenschaftliches Rechnen im Forschungszentrum Karlsruhe. „Um ein halbes Petabyte über eine ISDN- Leitung zu transportieren, braucht man 3000 Jahre, bei einer DSL- Leitung muss man immer noch rund 150 Jahre warten.“
Schichtweise zum vernetzten System
Die Daten-Infrastruktur ist in mehreren Schichten angelegt: Das CERN, definiert als Schicht 0, wo die Experimente durchgeführt werden, wird die Daten ab 2007 weltweit auf elf Rechenzentren der so genannten Schicht 1 verteilen, von dort laufen sie auf etwa 100 Zentren der Schicht 2, bis sie schließlich mit Schicht 3 in wissenschaftliche Institute und mit Schicht 4 auf mehrere tausend Arbeitsplätze der beteiligten Wissenschaftler verteilt sind.
Für die fünf-schichtige Rechnerstruktur, bei der Computer und Datenbanken über das Internet verknüpft werden, hat sich der Begriff „World Wide Grid“ oder einfach „Grid“ eingebürgert. Damit soll an das Elektrizitätsnetz (englisch: Grid) erinnert werden, aus dem man mittels einer Steckdose überall auf der Welt elektrische Leistung beziehen kann, ohne sich darum zu kümmern, wo sie entstanden ist.
Genauso soll die Arbeit im „World Wide Grid“ ablaufen: Ein Wissenschaftler wird seinen Rechner an das Grid anstöpseln und sein Problem formulieren. Das Grid wird mit Hilfe intelligenter Software, so genannter „Middleware“, selbständig feststellen, wo im globalen Netz die Daten abgelegt sind, in welchem angeschlossenen Rechenzentrum die benötigte Rechenkapazität zur Verfügung steht und wie die Datenübertragung am schnellsten geht. Die Ergebnisse werden dem Forscher direkt auf seinen Rechner geliefert.
Zur Entwicklung der LHC-Internetstruktur wurden vier Meilensteine definiert, um das World Wide Grid bis zum Jahr 2007 auf die erforderliche Leistungsfähigkeit zu bringen. Heute wurde der zweite erreicht. Der nächste wird im Sommer angepeilt: Dann sollen viele weitere Rechenzentren angebunden werden und ein stabiler Dauerbetrieb über drei Monate stattfinden.
(Forschungszentrum Karlsruhe, 27.04.2005 – NPO)