Corona: Automatisierte Genomanalysen für SARS-Cov2

Seit Ende 2019 breitet sich das Virus SARS-Cov-2 aus, Ende Januar 2020 stand die vollständige Genomsequenz des Virusstamms zur Verfügung. Immer mehr Informationen werden in öffentliche Bioinformatik-Datenbanken integriert, die vom National Center for Biotechnology Information (NCBI) und dem Europäischen Bioinformatik-Institut (EBI) gehostet werden. Ein Forscherteam am Politecnico di Milano will Biologen bei der Interpretation der zunehmenden Informationen zu SARS-Cov-2 unterstützen. Die Forscher der Datenbankmanagementgruppe unter der Leitung von Professor Stefano Ceri haben im Rahmen des ERC Advanced Grants „Data-Driven Genomic Computing“ eine nutzerfreundliche Suchmaschinentechnologie für die Genomanalyse auf der Grundlage frei zugänglicher menschlicher Sequenzierungsdaten entwickelt – und, um einige davon vorzustellen, auch  eine Datenbanksprache für  genomische Daten: die GenoMetric Query Language (GMQL). Das Ziel ist, Daten verschiedener Experimente miteinander zu verbinden. Auf der Grundlage von GMQL entwickelten sie GenoSurf, eine im Web frei zugängliche Suchmaschine, die es Biowissenschaftlern mit begrenzten Informatikkenntnissen ermöglichen soll, alle oben genannten offenen Daten nach einer Vielzahl verfügbarer Kriterien abzufragen. Folglich erhöht GenoSurf die Interpretierbarkeit genomischer Daten, da es benutzerfreundlich ist und Biologen neue biologische Hypothesen aufstellen können.

In der gegenwärtigen Phase der Epidemie haben Forscher bereits 3500 vollständige oder nahezu vollständige Genomsequenzen von SARS-Cov-2 öffentlich zugänglich gemacht, wobei diese Zahl täglich steigt. Die Daten können zum Verständnis des Virus und seiner Ausbreitung beitragen. Zu diesem Zweck erweitert die Gruppe derzeit GenoSurf um Virusgenome – genannt ViruSurf - und beginnt mit frei zugänglichen Informationen über SARS-Cov-2. Das L3S ist an der Integration von Genomveränderungen in ViruSurf beteiligt und unterstützt Lernansätze für Daten, die eine maschinelle Erstellung biologischer Hypothesen ermöglichen. So können etwa Veränderungen aller verfügbaren SARS-Cov-2-Genome, die eine Lungenentzündung verursachen, gefiltert und dann mit In-vivo-Tierexperimenten validiert werden. Prof. Wolfgang Nejdl vom L3S wird vier Monate seines Forschungssemesters im Sommer 2020 am Politecnico di Milano verbringen.

Kontakt

Damianos Melidis

Damianos Melidis ist Doktorand am L3S und forscht im Bereich Datenströme, Data-Mining, Machine-Learning und Bioinformatik.