Ziawasch Abedjan

Datenreinigung ist ein wichtiges Problem in der Integration von großen Datenmengen, um Daten für eine Applikation oder einer Analyse nutzbar zu machen. Es gibt verschiedene Reinigungsverfahren, die jeweils eine bestimmte Kategorie von Fehlern oder Datenqualitätsprobleme beheben können. Normalerweise muss man mehrere Verfahren nacheinander anwenden, um die gewünschte Datenqualität zu erreichen. Die Auswahl und Reihenfolge dieser Verfahren zu bestimmen, ist ein langwieriger und mühsamer manueller Prozess.
Das vorliegende Vorhaben hat zum Ziel, neue Datenreinigungsabläufe durch die Betrachtung von vorherigen Datenreinigungsabläufen, die auf ähnlich strukturierten und schmutzigen Daten erfolgreich durchgeführt wurden, vorzuschlagen. Die Herausforderungen hierbei sind
Unser Ansatz ist es, hierzu existierende Techniken des "Data Profilings" und der Aufwandseinschätzung ("Effort Estimation") bezüglich der sinnvollen Erstellung von Dataset Profiles auszutesten und herauszufinden, welche Dataset Profiles zur Beschreibung und zum Vergleich der Datenqualität eines Datensatzes genutzt werden können.