Big Data und das verlorene Web

Das Internet vergisst nicht. Trotzdem sind viele Inhalte auf Anhieb unauffindbar – alte Webseiten zum Beispiel. Dabei gibt es Organisationen, die alte Seiten für die Nachwelt aufbewahren und zur Verfügung stellen, allen voran das Internet Archive in Kalifornien. Am L3S beschäftigen sich Forscher bereits seit 2014 intensiv mit Web-Archiven und erarbeiten neue Anwendungsfälle, Zugriffsmethoden und Analyseverfahren für diese interessanten Datensammlungen. Das L3S hat Zugang zu einer lokalen Kopie des gesamten deutschen Webs unter der Domäne .de, welches das Internet Archive bereits seit 1996 archiviert.

Eine Fragestellung, die die Forscher dabei beschäftigt: Wie kann der Zugang zu diesen archivierten Seiten für jeden von uns einfacher werden? Besonders durch den zeitlichen Aspekt, der im aktuellen Web kaum eine Rolle spielt, in einem Archiv jedoch höchste Priorität hat, ergeben sich neue Anforderungen an Suchmaschinen. Es ist nicht mehr nur wichtig, eine möglichst relevante Seite zu finden, sondern außerdem eine bestimmte Version einer Seite, die sich möglicherweise in der Zwischenzeit verändert hat oder gar nicht mehr verfügbar ist. Zwei Suchmaschinen, die vor diesem Hintergrund als Prototypen entstanden sind, jedoch noch weiterentwickelt und verbessert werden, können unter ArchiveSearch sowie Tempas - Temporal Archive Search bereits ausprobiert werden.

Das Interesse an Web-Archiven nimmt auch in anderen Wissenschaftsdisziplinen zu. Für Historiker, Politikwissenschaftler und andere, die früher weitestgehend mit analogen Daten gearbeitet haben, gewinnt das Web immer mehr an Bedeutung – und damit auch die archivierten Websites. Bei den riesigen Datenmengen ist es allerdings nicht mehr möglich, alle Dokumente zu lesen. Also sind neue Datenverarbeitungsmethoden notwendig. Auch daran forscht das L3S und bietet mit ArchiveSpark eines der meistgenutzten Tools für den effizienten Zugriff auf „historische“ Web-Kollektionen. Die Software entwickeln die Wissenschaftler am L3S gemeinsam mit dem Internet Archive, um auf möglichst einfache Weise Datenanalysen jeglicher Art in Web-Archiven zu ermöglichen.

Ein weiteres Projekt, das sich ebenfalls mit anderen großen Datenmengen beschäftigt, ist SoBigData. Gemeinsam mit anderen Wissenschaftlern aus Italien, Großbritannien, den Niederlanden, Estland, Finnland und der Schweiz entwickelt das L3S eine europäische Forschungsinfrastruktur für Big Data. Dabei werden Datensätze aus unterschiedlichen Quellen sowie verschiedene Tools für die Arbeit mit diesen Daten in einer offenen Plattform integriert. Zusätzlich werden Leitfäden sowohl für die praktische Arbeit mit den Daten als auch mit besonderem Fokus auf die rechtlichen und Datenschutz-relevanten Aspekte sowie umfassende Beispiele und Vorlagen über die SoBigData-Plattform geteilt. Auch die oben genannten Arbeiten zu Web-Archiven stellt das L3S anderen Wissenschaftlern aus ganz Europa auf diese Weise zur Verfügung.

Die wachsende Rolle von Daten bzw. Big Data ist nicht nur in der Forschung, sondern insbesondere auch in Wirtschaft und Industrie spürbar. Das Forschungszentrum L3S bietet mit seinen Arbeiten aus den Projekten ALEXANDRIA und SoBigData dabei die optimale Grundlage für einen leichten Einstieg in dieses komplexe Themenfeld. Da das Web immer mehr zur primären Medium zum Teilen von Nachrichten, Informationen und Daten wird, wird auch die Bedeutung von Web-Archiven als Zeugen dieser Entwicklung weiter zunehmen und auch in Bereiche Einzug halten, wo dies heute noch gar nicht absehbar ist. Diesen Weg zu ebnen, ist das Ziel von ALEXANDRIA. Die SoBigData-Infrastruktur als zentraler Anlaufpunkt für alle Fragen rund um Big Data ermöglicht, die Forschungsergebnisse anderen zugänglich zu machen und gemeinsam in Europa Ansätze für die Arbeit mit diesen und anderen Daten zu erarbeiten.

Vorgestellte Projekte

Kontakt

Prof. Dr. Avishek Anand

anand@l3s.de

Avishek Anand leitet am L3S die Projekte ALEXANDRIA und SoBigData.