Direkt zum Inhalt

Datenreinigung ist ein wichtiges Problem in der Integration von großen Datenmengen, um Daten für eine Applikation oder einer Analyse nutzbar zu machen. Es gibt verschiedene Reinigungsverfahren, die jeweils eine bestimmte Kategorie von Fehlern oder Datenqualitätsprobleme beheben können. Normalerweise muss man mehrere Verfahren nacheinander anwenden, um die gewünschte Datenqualität zu erreichen. Die Auswahl und Reihenfolge dieser Verfahren zu bestimmen, ist ein langwieriger und mühsamer manueller Prozess.

 

Das vorliegende Vorhaben hat zum Ziel, neue Datenreinigungsabläufe durch die Betrachtung von vorherigen Datenreinigungsabläufen, die auf ähnlich strukturierten und schmutzigen Daten erfolgreich durchgeführt wurden, vorzuschlagen. Die Herausforderungen hierbei sind

 

  1. die Klassifizierung von vergleichbaren Datenqualittätsproblemen,
  2. die Entwicklung eines Ähnlichkeitsmaßes, "Dirtiness Similarity", auf dessen Basis Datensätze bezüglich des potenziellen Reinigungsaufwandes Identifizierung vergleichbar gemacht werden können,
  3. die automatische Vorhersage und Einschätzung der Performance eines Reinigungsalgorithmus auf einem neuen Datensatz. Hierzu werden Algorithmen implizit und durch ihren Zusammenhang zu gesäuberten Daten und ihren Profilen klassifiziert      und
  4. die Erarbeitung eines Lösungsvorschlages eines multivariaten Optimierungsproblems - unter Betrachtung der Ergebnisqualität und der Effizienz - und eine Zusammensetzung von Reinigungsalgorithmen für einen neuen Datensatz.

 

Unser Ansatz ist es, hierzu existierende Techniken des "Data Profilings" und der Aufwandseinschätzung ("Effort Estimation") bezüglich der sinnvollen Erstellung von Dataset Profiles auszutesten und herauszufinden, welche Dataset Profiles zur Beschreibung und zum Vergleich der Datenqualität eines Datensatzes genutzt werden können.

Coordinator
Begin
End