In einem praxisnahen Projekt hat ein Datenwissenschaftler eine robuste Datenbereinigungs-Pipeline entwickelt, um einen unordentlichen Datensatz von DoorDash zu transformieren. Ziel war es, die Grundlage für die Vorhersage von Lieferzeiten zu schaffen, indem typische Herausforderungen wie fehlende Werte und falsche Datentypen angegangen wurden. Dieser Prozess verdeutlicht die Bedeutung sorgfältiger Datenaufbereitung für aussagekräftige Analysen.
Schlüssel-Erkenntnisse
- Datenwissenschaftler verbringen bis zu 60% ihrer Zeit mit der Datenorganisation und -bereinigung.
- Eine strukturierte Pipeline ist entscheidend für die Bewältigung von Datenqualitätsproblemen.
- Methoden wie Datentyp-Konvertierung, Imputation und das Entfernen von NaN-Werten sind essenziell.
Datenexploration und Herausforderungen
Das Projekt begann mit der Untersuchung eines DoorDash-Datensatzes, der fast 200.000 Lieferdatensätze enthielt. Dieser Datensatz umfasste wichtige Merkmale wie Lieferzeiten, Artikelanzahl und Restaurantkategorien. Schon bei der ersten Betrachtung fielen fehlende Werte (NaNs) und Datentypen auf, die für die Analyse ungeeignet waren, insbesondere die Zeitstempel-Spalten, die als Objekte gespeichert waren.
Aufbau der Datenbereinigungs-Pipeline
Die Pipeline wurde in mehreren Schritten aufgebaut, um die Daten für die Modellierung vorzubereiten.
Korrektur von Datums- und Zeitspalten
Zuerst wurden die Spalten created_at und actual_delivery_time von Objekten in Datetime-Objekte umgewandelt. Dies ist unerlässlich, um korrekte Berechnungen der Lieferdauer zu ermöglichen.
Umgang mit fehlenden Werten in store_primary_category
Die Spalte store_primary_category wies die meisten fehlenden Werte auf. Anstatt Zeilen zu löschen, wurde eine intelligente Imputation angewendet. Dabei wurde für jede store_id die häufigste Kategorie ermittelt und fehlende Werte damit aufgefüllt. Als Fallback diente der globale Modus der Spalte.
Entfernen verbleibender NaN-Werte
Nach der Imputation der Kategorie-Spalte wurden die verbleibenden fehlenden Werte mithilfe der dropna()-Methode entfernt. Bei einem großen Datensatz wie diesem ist der Verlust einiger Zeilen akzeptabel, um die Datenintegrität zu gewährleisten.
Nächste Schritte
Nachdem der Datensatz bereinigt war, wurden mehrere nächste Schritte vorgeschlagen:
- Durchführung explorativer Datenanalysen (EDA), um Liefermuster zu verstehen.
- Erstellung neuer Merkmale (Feature Engineering), z. B. Lieferstunden.
- Analyse von Korrelationen zwischen Variablen.
- Entwicklung und Auswahl des besten Regressionsmodells zur Vorhersage der Lieferdauer.
Fazit
Das Projekt demonstrierte, wie durch eine systematische Datenbereinigungs-Pipeline selbst unordentliche reale Datensätze für die Analyse und Modellierung vorbereitet werden können. Es unterstrich die Wichtigkeit von Techniken zur Handhabung von Datentypen und fehlenden Werten, um die Qualität und Zuverlässigkeit von Datenwissenschaftsprojekten zu verbessern.