Die Aufklärung der Proteinstruktur ist entscheidend, um die Funktion der Biomoleküle nachvollziehen zu können und die molekularen Mechanismen in unserem Körper weiter zu verstehen. Dies ist vor allem für die Medikamentenentwicklung wichtig, denn wie der englische Name „structure-based drug design“ schon verrät, basieren die meisten Arzneimittel auf der Struktur des Proteins, an dem ihre Wirkung ansetzen soll – sei es an einem körpereigenen Rezeptor oder wie bei Antibiotika, am Protein eines Erregers.
Ein Beispiel sind gängige Medikamente gegen HIV, die ein entscheidendes Enzym des Virus blockieren. Für die Entwicklung dieser Mittel muss zuvor die Struktur des Zielproteins aufgeklärt werden – in diesem Fall der HIV-Protease.
Strukturaufklärung ist eine knifflige Angelegenheit
Die Aufklärung der dreidimensionalen Struktur eines Proteins erfolgte erstmals im Jahr 1958 durch John Kendrew, der die Struktur des Muskelproteins Myoglobin aufklärte. Diese Entschlüsselung der Faltung ist nur durch komplizierte und aufwendige Verfahren wie Röntgenkristallografie oder Kernspinresonanzspektroskopie (NMR-Spektroskopie) möglich. Die Strukturen der meisten Proteine in der Proteindatenbank PDB wurden mittels Röntgenbeugung an Proteinkristallen aufgeschlüsselt. Solche entstehen, wenn man eine Proteinlösung kontrolliert verdunsten lässt und somit die Proteinkonzentration in ihr langsam ansteigen lässt – die Proteine kristallisieren dann aus.
Die Proteinkristalle beugen Röntgenstrahlen auf eine charakteristische Art und Weise, die von Wissenschaftlern in ein Strukturmodell übersetzt werden kann. Doch die optimalen Bedingungen für eine Proteinkristallisation zu finden, folgt einem Trial-and-Error Ansatz und kann mitunter sehr lange dauern.
Besser wäre es daher, wenn man schon anhand der Aminosäure-Abfolge vorhersagen könnte, welche Form ein fertiges Protein einnehmen wird. Doch diese Strukturvorhersage ist eine der größten Herausforderungen der Biochemie. Denn bei Proteinen mit Hunderten von Aminosäuren gibt es astronomisch viele Kombinationen der räumlichen Anordnung, von denen aber nur eine die native Faltung des Proteins widerspiegelt.
Strukturanalytik mit künstlicher Intelligenz
Der besonderen Herausforderung der Strukturvorhersage nur auf Basis der Aminosäuresequenz, haben sich Software-Entwickler der Google-Tochter DeepMind mit der Entwicklung der künstlichen Intelligenz AlphaFold angenommen. Das KI-System beruht auf Deep Learning, einer speziellen Form des maschinellen Lernens, bei der neuronale Netzwerke mit bekannten Daten darauf trainiert werden, Regelmäßigkeiten zu erkennen und sie als allgemeingültige Gesetze zu begreifen.
So wurde AlphaFold beispielsweise mit 170.000 Proteinsequenzen und deren aufgeklärten Strukturen trainiert, sodass die KI, Gesetzmäßigkeiten in der Proteinfaltung erkennen kann. Wenn das neuronale Netzwerk nun nach dem Training eine unbekannte Aminosäuresequenz erhält, kann es dieser eine Proteinstruktur zuordnen, die den zuvor gelernten Regeln am ehesten entspricht.
Ihre herausragenden Ergebnisse hat das Team von DeepMind beim weltweiten CASP-Wettbewerb (Critical Assessment of Protein Structure Prediction) 2020 unter Beweis gestellt. Bei diesem Wettbewerb erhalten Forschungsgruppen die Aminosäuresequenz von Proteinen, deren Struktur zwar schon aufgeklärt, aber noch nicht veröffentlicht ist. Beim Vergleich der von AlphaFold getroffenen Vorhersagen mit den experimentellen Strukturdaten kam heraus: Die künstliche Intelligenz konnte für 70 von 100 Aminosäuresequenzen die Struktur präzise vorhersagen. Dafür hätten Strukturanalytiker mit experimentellen Methoden im Labor Jahre gebraucht.
Auch das KI-System RoseTTAFold von Forschern der University of Maryland hat es geschafft verborgene Gesetzmäßigkeiten der Proteinfaltung zu erkennen und schnitt beim CASP-Wettbewerb sehr gut ab. Beide zusammen wurden vom Fachmagazin „Science“ für das Entschlüsseln der Proteinstruktur mithilfe von KI-Systemen zum Durchbruch des Jahres 2021 gekürt.