Direkt zum Inhalt

Coding of Sequencing Data

Neue Codierungsverfahren ermöglichen das Streamen von Sequenzierungsdaten

Beschreibung

Im Jahr 2003 wurde die vollständige Entschlüsselung, genauer Sequenzierung, des menschlichen Genoms verkündet. Dies war das Ende eines Projekts, welches fast 13 Jahre dauerte und etwa drei Milliarden Dollar kostete. Insbesondere ermöglichte die erstmalige Sequenzierung des menschlichen Genoms die tiefergehende Erforschung von Erb- und Infektionskrankheiten sowie molekularen Mechanismen der Krebsentstehung.

Durch das Aufkommen von parallelisierten Sequenzierungsverfahren innerhalb der letzten Jahre sind die Sequenzierungskosten drastisch gesunken: Während sie für die Sequenzierung eines ganzen menschlichen Genoms im Jahr 2008 noch bei rund einer Million Dollar lagen, sanken sie bis 2017 auf nur noch 1000 Dollar. Inzwischen werden demzufolge enorme Mengen an Daten erzeugt. Bei der derzeitigen Wachstumsrate (die Menge an weltweit erzeugten Sequenzierungsdaten verdoppelt sich etwa alle sieben Monate) wird erwartet, dass alleine im Jahr 2025 rund ein Zettabyte – das sind eine Milliarde Terabyte – an Sequenzierungsdaten erzeugt wird.

Motiviert durch diese Umstände arbeitet die Moving Picture Experts Group (MPEG) an einem neuen Standard zur Komprimierung, Speicherung und Übertragung von Sequenzierungsdaten: MPEG-G. Seit ihrer Gründung vor über 30 Jahren hat MPEG bereits mehrere Generationen erfolgreicher Standards entwickelt. Beispiele sind MP3 und AAC für Audio- und AVC/H.264 sowie HEVC/H.265 für Videodaten. In Analogie zu diesen Multimediastandards zielt MPEG-G darauf ab, die Nutzung von Sequenzierungsdaten – unter Berücksichtigung aller Anforderungen an den Datenschutz für Ärzte und Kliniken – so einfach wie das Streamen einer Audiodatei oder das Ansehen eines Films zu gestalten.

Am L3S/Institut für Informationsverarbeitung wird daher an neuen Verfahren zur Komprimierung, Speicherung und Verarbeitung von Sequenzierungsdaten gearbeitet. Diese Verfahren werden im Praxiseinsatz getestet, zum Beispiel im Rahmen des INDIRA-Projektes zur Risikobewertung des humanen respiratorischen Synzytial-Virus (RSV) – der häufigsten Ursache für akute Infektionen der unteren Atemwege bei Säuglingen.