Ein neuer, kostenloser 7-Tage-Mini-Kurs mit dem Titel "Python for Data Science" wurde veröffentlicht und richtet sich speziell an Anfänger. Dieser Kurs bietet eine umfassende Einführung in die Grundlagen von Python, die für Datenanalyseaufgaben unerlässlich sind. Die Teilnehmer lernen, wie sie mit Kern-Python-Datenstrukturen arbeiten, Daten bereinigen und aufbereiten sowie einfache Datenprofilierungswerkzeuge erstellen können.
Wichtige Lernergebnisse
- Arbeiten mit grundlegenden Python-Datenstrukturen.
- Bereinigen und Aufbereiten von unordentlichen Textdaten.
- Zusammenfassen und Gruppieren von Daten mit Dictionaries.
- Schreiben von wiederverwendbaren Funktionen zur Code-Optimierung.
- Fehlerbehandlung zur Vermeidung von Skriptabstürzen.
- Erstellen eines einfachen Datenprofilierungswerkzeugs für CSV-Datensätze.
Tag 1: Variablen, Datentypen und Datei-E/A
Der Kurs beginnt mit den Grundlagen der Datenverarbeitung, einschließlich des Ladens und Verstehens von Rohdaten. Die Teilnehmer lernen grundlegende Python-Datentypen wie Strings, Integers, Floats, Booleans und None kennen. Es wird gezeigt, wie man Textdateien liest und schreibt, um Daten zu laden und zu verarbeiten. Ein Übungsteil fordert die Teilnehmer auf, ihr erstes Datenverarbeitungsskript zu schreiben, um eine Textdatei zu analysieren und eine bereinigte Version zu erstellen.
Tag 2: Grundlegende Python-Datenstrukturen
An Tag 2 liegt der Fokus auf vier wesentlichen Datenstrukturen in Python: Listen für Sequenzen, Tupel für feste Datensätze, Dictionaries für beschriftete Daten und Sets für eindeutige Werte. Anhand von Beispielen wird gezeigt, wie diese Strukturen zum Organisieren und Strukturieren von Daten für die Bereinigung und Analyse verwendet werden. Die Übung besteht darin, einen Mini-Dateninspektor zu erstellen, der Daten aus einer Datei liest und mithilfe von Dictionaries und Sets zusammenfasst.
Tag 3: Arbeiten mit Strings
Dieser Tag widmet sich der Bereinigung und Standardisierung von Textdaten, einem häufigen Problem in realen Datensätzen. Die Teilnehmer lernen, wie man Strings bereinigt, Werte standardisiert, Wörter zählt, Muster erkennt und Teile von Strings extrahiert. Die Übung beinhaltet die Bereinigung von Umfragekommentaren und die Berechnung von Statistiken wie der Gesamtzahl der Kommentare und der durchschnittlichen Wortanzahl.
Tag 4: Gruppieren, Zählen und Zusammenfassen mit Dictionaries
Der Kurs vertieft die Verwendung von Dictionaries zum Gruppieren, Zählen und Zusammenfassen von Daten, ähnlich wie bei Pivot-Tabellen oder SQLs GROUP BY. Es werden Techniken zum Gruppieren nach Feldern, zum Summieren von Feldern nach Kategorien und zur Ermittlung der Häufigkeit von Werten (Modus) vorgestellt. Die Übung besteht darin, ein Mitarbeiterdatensatz zu analysieren und die Anzahl der Mitarbeiter pro Stadt sowie das Durchschnittsgehalt pro Rolle zu ermitteln.
Tag 5: Schreiben von Funktionen
An Tag 5 lernen die Teilnehmer, wie sie ihren Code in wiederverwendbare Funktionen verpacken können, um die Lesbarkeit und Wartbarkeit zu verbessern. Es werden Funktionen zum Bereinigen von Texteingaben, zum Erstellen von Zeilendatensätzen und für Aggregationshilfen entwickelt. Die Übung fordert die Teilnehmer auf, die Lösungen von Tag 4 in modulare Funktionen zu refaktorieren.
Tag 6: Lesen, Schreiben und grundlegende Fehlerbehandlung
Dieser Tag konzentriert sich auf den Umgang mit unvollständigen oder fehlerhaften Datendateien. Die Teilnehmer lernen, wie man Dateien sicher liest und schreibt und wie man Fehler wie FileNotFoundError oder fehlerhafte Zeilen behandelt, ohne dass das Skript abstürzt. Die Übung besteht darin, einen fehlertoleranten Lader zu erstellen, der nur gültige Datensätze lädt und verarbeitet.
Tag 7: Erstellen eines Mini-Datenprofilers (Projekttag)
Am letzten Tag des Kurses wird ein eigenständiges Python-Skript erstellt, das eine CSV-Datei lädt, Spaltennamen und -typen erkennt, nützliche Statistiken berechnet und einen zusammenfassenden Bericht schreibt. Die Teilnehmer werden durch die Schritte zum Laden von CSV-Dateien, Erkennen von Datentypen, Profilieren von Spalten und Schreiben einer Zusammenfassung geführt. Die abschließende Übung besteht darin, diesen Profiler mit einer eigenen CSV-Datei zu verwenden.
Der Kurs schließt mit einer Zusammenfassung der erlernten Fähigkeiten und ermutigt die Teilnehmer, die Grundlagen als Ausgangspunkt für weiteres Lernen zu nutzen.