©Das Bild wurde von ChatGPT zu Einzelzell-Grundlagenmodellen generiert.

Foundation Models in der Biomedizin

KI als Motor biomedizinischer Innovation

Von der Entschlüsselung der DNA bis zur klinischen Entscheidungsfindung – sogenannte Foundation Models, auf Deutsch Grundlagenmodelle, eröffnen neue Perspektiven für die biomedizinische Forschung, Diagnostik und Therapie.

Bekannte Modelle wie ChatGPT, Claude oder DALL·E haben in kürzester Zeit gezeigt, wie leistungsfähig moderne KI-Systeme sind. Sie basieren auf sogenannten Transformern – neuronalen Netzen, die aus riesigen Datenmengen lernen: Inhalte aus dem Internet, lizenzierte Daten, Beiträge von Partnern, kuratierte Materialien wie Bücher, Code oder Fachzeitschriften – teils auch künstlich erzeugte Daten.

Das Vortraining ist zeit- und rechenintensiv, doch der Aufwand lohnt sich: Einmal trainiert, lassen sich die Modelle flexibel anpassen – durch Feinabstimmung oder gezielte Eingaben, sogenannte Prompts. Dadurch können sie eine enorme Bandbreite an Aufgaben übernehmen: Texte schreiben, Programmfehler finden, Bilder generieren oder komplexe Fragen beantworten. Diese Entwicklung hat auch die biomedizinische Forschung beflügelt: Sie adaptiert die Modelle für ihre eigenen Zwecke.

Fortschritte in Medizin und Biologie

In der Biomedizin lernen Foundation Models, Muster über viele Ebenen hinweg zu erkennen – von klinischen Dokumenten und Röntgenbildern bis hin zu Genen, Proteinen und einzelnen Zellen.

  • Textbasierte medizinische Modelle wie ClinicalBERT oder BioBERT wurden auf umfangreichen Sammlungen klinischer Notizen, elektronischer Gesundheitsakten und Fachartikeln vortrainiert. Die Systeme erreichen in Bereichen wie Diagnostik oder Prognose annähernd Expertenniveau.
  • Auch in der medizinischen Bildanalyse erzielen solche Modelle ebenfalls bemerkenswerte Fortschritte: Systeme wie MedSAM, SAMed oder UNI wurden auf Millionen Radiologie- und Pathologie-Aufnahmen trainiert. Sie nutzen Methoden wie promptbasierte Segmentierung oder Unsicherheitsabschätzung, um die Genauigkeit bei Aufgaben wie Organsegmentierung, Tumorlokalisierung und Krankheitsklassifikation zu erhöhen.
  • In der Molekularbiologie helfen moderne Modelle, die „Grammatik“ der DNA zu entschlüsseln. Transformer wie DNABERT, Nucleotide Transformer oder das am L3S entwickelte GeneMask erkennen regulatorische Abschnitte und potenziell krankheitsrelevante Mutationen.
  • Proteinmodelle wie AlphaFold erreichen nahezu experimentelle Genauigkeit bei der Vorhersage von Proteinstrukturen. Modelle wie ProtGPT2 oder ProteinBERT, die auf Millionen Proteinsequenzen trainiert wurden, erkennen evolutionäre Muster und funktionale Eigenschaften. Sie können helfen, neue Proteine zu entwerfen, die bestimmte Funktionen erfüllen sollen – ein wichtiger Schritt für die Arzneimittelforschung und die synthetische Biologie.

Forschung am L3S und CAIMED: KI auf Zellebene

Am Niedersächsischen Zentrum für KI & Kausale Methoden in der Medizin (CAIMED) arbeitet Dr. Michelle Tang gemeinsam mit ihren Kollegen vom Forschungszentrum L3S an sogenannten Einzelzell-Grundlagenmodellen. Diese Modelle werden mit Hunderten Millionen Datenpunkten aus Einzelzellanalysen trainiert – also Messungen, die zeigen, welche Gene in einer einzelnen Zelle aktiv sind. So lernen die Modelle, Zelltypen zu unterscheiden, Krankheitsmechanismen zu verstehen oder vorherzusagen, wie Zellen auf Medikamente reagieren.

Die L3S-Forscher haben führende Modelle wie scGPT, scFoundation und Geneformer systematisch verglichen. Besonders scFoundation zeigte eine starke Leistung bei der Zelltyp-Erkennung und beim Übertragen von Wissen auf neue Datensätze.

„Wir planen nun, eigene Modelle zu entwickeln und sie in konkrete medizinische Anwendungen zu bringen“, sagt Tang. Die Zusammenarbeit in CAIMED spielt dabei eine zentrale Rolle.

Vom Labor in die Klinik

Biomedizinische Grundlagenmodelle stehen noch am Anfang ihrer Entwicklung. Künftig sollen sie energieeffizienter, transparenter und vielseitiger werden. Vielversprechend sind neue Architekturen, die Sprache, Bilder und Zeitverläufe gleichzeitig verarbeiten können. Auch Fragen zu Datenschutz, Fairness und regulatorischen Anforderungen müssen noch gelöst werden.

„Wenn solche Systeme sicher, erklärbar und verantwortungsvoll eingesetzt werden können, werden sie den Sprung in die klinische Praxis schaffen“, so Tang. Dann könnten sie die Medizin nachhaltig verändern.

Vorgestellte Projekte
Kontakt

Dr. Michelle Tang

Michelle Tang ist Wissenschaftlerin am L3S. Ihre Forschung bewegt sich an der Schnittstelle von künstlicher Intelligenz und Biomedizin, mit einem besonderen Schwerpunkt auf biologischen Foundation Models für medizinische Anwendungen.