In einer Analyse von 816 Weinen, die von mindestens einer Methode als Ausreißer identifiziert wurden, fanden sich lediglich 32, die von allen Methoden einstimmig als ungewöhnlich eingestuft wurden. Diese Weine wiesen gemeinsame Merkmale auf.
Von Nate Rosidi, Spezialist für Markttrends und SQL-Inhalte, am 13. März 2026 im Bereich Datenwissenschaft.
Einleitung
In vielen Tutorials zur Datenwissenschaft wird die Erkennung von Ausreißern als ein einfaches Unterfangen dargestellt. Man entfernt einfach alle Werte, die mehr als drei Standardabweichungen vom Durchschnitt abweichen. Doch sobald man mit einem realen Datensatz arbeitet, der eine verzerrte Verteilung aufweist, und ein Stakeholder fragt: „Warum haben Sie diesen Datenpunkt entfernt?“, wird schnell klar, dass man keine schlüssige Antwort hat.
Um dies zu untersuchen, führten wir ein Experiment durch. Wir testeten fünf der am häufigsten verwendeten Methoden zur Ausreißererkennung an einem realen Datensatz von 6.497 portugiesischen Weinen, um herauszufinden, ob diese Methoden konsistente Ergebnisse liefern.
Die Ergebnisse waren uneinheitlich. Das, was wir aus den unterschiedlichen Ergebnissen lernten, war wertvoller als alles, was wir aus Lehrbüchern hätten erfahren können.
Vorbereitung der Analyse
Unsere Daten stammen aus dem Weinqualitätsdatensatz, der öffentlich über das UCI Machine Learning Repository verfügbar ist. Er umfasst physikalisch-chemische Messungen von 6.497 portugiesischen „Vinho Verde“-Weinen (1.599 Rotweine, 4.898 Weißweine) sowie Qualitätsbewertungen von Experten.
Wir wählten diesen Datensatz aus mehreren Gründen aus. Es handelt sich um Produktionsdaten und nicht um künstlich generierte Werte. Die Verteilungen sind verzerrt (sechs von elf Merkmalen weisen eine Schiefe von mehr als 1 auf), sodass die Daten nicht den Annahmen aus Lehrbüchern entsprechen. Zudem ermöglichen die Qualitätsbewertungen zu überprüfen, ob die erkannten „Ausreißer“ häufiger bei Weinen mit ungewöhnlichen Bewertungen auftreten.
Die erste Überraschung: Überhöhte Ergebnisse durch Mehrfachtests
Bevor wir die Methoden vergleichen konnten, stießen wir auf ein Problem. Bei elf Merkmalen führte der naive Ansatz (ein Sample aufgrund eines extremen Wertes in mindestens einem Merkmal zu kennzeichnen) zu extrem überhöhten Ergebnissen.
- IQR kennzeichnete etwa 23 % der Weine als Ausreißer.
- Z-Score kennzeichnete etwa 26 %.
Wenn fast jeder vierte Wein als Ausreißer gekennzeichnet wird, stimmt etwas nicht. Echte Datensätze haben keine 25 % Ausreißer. Das Problem lag darin, dass wir elf Merkmale unabhängig testeten, was die Ergebnisse aufblähte.
Die Mathematik ist einfach. Wenn jedes Merkmal eine Wahrscheinlichkeit von weniger als 5 % hat, einen „zufälligen“ extremen Wert zu haben, dann ergibt sich bei elf unabhängigen Merkmalen:
P(at least one extreme) = 1 – (0.95)^{11} ≈ 43 %
Einfach ausgedrückt: Selbst wenn jedes Merkmal perfekt normal verteilt ist, würde man erwarten, dass fast die Hälfte der Proben irgendwo einen extremen Wert hat, nur durch Zufall.
Um dies zu beheben, änderten wir die Anforderung: Ein Sample wird nur dann gekennzeichnet, wenn mindestens zwei Merkmale gleichzeitig extrem sind.
Vergleich von fünf Methoden an einem Datensatz
Sobald die Anpassung für Mehrfachtests vorgenommen wurde, zählten wir, wie viele Proben jede Methode kennzeichnete:
So richteten wir die ML-Methoden ein:
from sklearn.ensemble import IsolationForest
from sklearn.neighbors import LocalOutlierFactor
iforest = IsolationForest(contamination=0.05, random_state=42)
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.05)
Warum zeigen die ML-Methoden genau 5 %? Aufgrund des Kontaminationsparameters. Dieser erfordert, dass sie genau diesen Prozentsatz kennzeichnen. Es handelt sich um eine Quote, nicht um einen Schwellenwert. Mit anderen Worten, der Isolation Forest kennzeichnet 5 %, unabhängig davon, ob Ihre Daten 1 % oder 20 % echte Ausreißer enthalten.
Die wahre Differenz: Sie identifizieren unterschiedliche Dinge
Was uns am meisten überraschte, war die geringe Übereinstimmung zwischen den Methoden. Der Jaccard-Ähnlichkeitsindex lag zwischen 0,10 und 0,30, was auf eine schwache Übereinstimmung hinweist.
Von 6.497 Weinen:
- Nur 32 Proben (0,5 %) wurden von allen vier Hauptmethoden gekennzeichnet.
- 143 Proben (2,2 %) wurden von drei oder mehr Methoden gekennzeichnet.
- Die verbleibenden „Ausreißer“ wurden nur von einer oder zwei Methoden gekennzeichnet.
Man könnte denken, es sei ein Fehler, aber genau das ist der Punkt. Jede Methode hat ihre eigene Definition von „ungewöhnlich“:
Wenn ein Wein einen signifikant höheren Restzuckergehalt als der Durchschnitt aufweist, ist er ein univariater Ausreißer (Z-Score/IQR wird ihn erfassen). Wenn er jedoch von anderen Weinen mit ähnlichen Zuckergehalten umgeben ist, wird LOF ihn nicht kennzeichnen. Innerhalb des lokalen Kontexts ist er normal.
Die eigentliche Frage ist also nicht: „Welche Methode ist die beste?“, sondern: „Nach welcher Art von Ungewöhnlichem suche ich?“
Überprüfung der Plausibilität: Korrelieren Ausreißer mit der Weinqualität?
Der Datensatz enthält Qualitätsbewertungen von Experten (3-9). Wir wollten wissen: Tauchen erkannte Ausreißer häufiger bei Weinen mit extremen Qualitätsbewertungen auf?
Weine mit extremen Qualitätsbewertungen waren doppelt so häufig Konsensausreißer. Das ist ein guter Plausibilitätscheck. In einigen Fällen ist die Verbindung klar: Ein Wein mit zu viel flüchtiger Säure schmeckt essigartig, wird schlecht bewertet und als Ausreißer gekennzeichnet. Die Chemie treibt beide Ergebnisse an. Doch wir können nicht annehmen, dass dies jeden Fall erklärt. Es könnten Muster vorhanden sein, die wir nicht erkennen, oder verwirrende Faktoren, die wir nicht berücksichtigt haben.
Drei Entscheidungen, die unsere Ergebnisse prägten
- 1. Verwendung des robusten Z-Scores anstelle des Standard-Z-Scores: Ein Standard-Z-Score verwendet den Mittelwert und die Standardabweichung der Daten, die beide von den im Datensatz vorhandenen Ausreißern beeinflusst werden. Ein robuster Z-Score hingegen verwendet den Median und die Median Absolute Deviation (MAD), die beide nicht von Ausreißern beeinflusst werden. Infolgedessen identifizierte der Standard-Z-Score 0,8 % der Daten als Ausreißer, während der robuste Z-Score 3,5 % identifizierte.
- 2. Separates Skalieren von Rot- und Weißweinen: Rot- und Weißweine weisen unterschiedliche Basiswerte für Chemikalien auf. Wenn man Rot- und Weißweine in einem einzigen Datensatz kombiniert, kann ein Rotwein, der im Vergleich zu anderen Rotweinen eine perfekt durchschnittliche Chemie aufweist, allein aufgrund seines Schwefelgehalts im Vergleich zum kombinierten Mittelwert von Rot- und Weißweinen als Ausreißer identifiziert werden. Daher skalieren wir jeden Weintyp separat unter Verwendung des Medians und des Interquartilsbereichs (IQR) jedes Weintyps und kombinieren dann die beiden.
- 3. Wissen, wann man eine Methode ausschließen sollte: Elliptic Envelope geht davon aus, dass Ihre Daten einer multivariaten Normalverteilung folgen. Unsere Daten taten dies nicht. Sechs von elf Merkmalen wiesen eine Schiefe von über 1 auf, und ein Merkmal erreichte 5,4. Wir behielten die Elliptic Envelope in der Vergleichsanalyse zur Vollständigkeit bei, schlossen sie jedoch aus der Konsensbewertung aus.
Bestimmung der besten Methode für diesen Weindatensatz
Können wir einen „Gewinner“ bestimmen, angesichts der Eigenschaften unserer Daten (starke Schiefe, gemischte Population, keine bekannte Wahrheit)?
Robuster Z-Score, IQR, Isolation Forest und LOF gehen mit verzerrten Daten recht gut um. Wenn wir gezwungen wären, eine auszuwählen, würden wir den Isolation Forest bevorzugen: keine Verteilungsannahmen, berücksichtigt alle Merkmale gleichzeitig und geht gut mit gemischten Populationen um.
Doch keine einzelne Methode kann alles leisten:
- Der Isolation Forest kann Ausreißer übersehen, die nur in einem Merkmal extrem sind (Z-Score/IQR erfasst diese).
- Z-Score/IQR kann Ausreißer übersehen, die in mehreren Merkmalen ungewöhnlich sind (multidimensionale Ausreißer).
Der bessere Ansatz: Verwenden Sie mehrere Methoden und vertrauen Sie dem Konsens. Die 143 Weine, die von drei oder mehr Methoden gekennzeichnet wurden, sind weitaus zuverlässiger als alles, was nur von einer einzelnen Methode gekennzeichnet wurde.
Verständnis der Bedeutung für Ihre eigenen Projekte
Definieren Sie Ihr Problem, bevor Sie Ihre Methode auswählen. Nach welcher Art von „Ungewöhnlichem“ suchen Sie tatsächlich? Datenfehler sehen anders aus als Messanomalien, und beides unterscheidet sich von echten seltenen Fällen. Die Art des Problems deutet auf unterschiedliche Methoden hin.
Überprüfen Sie Ihre Annahmen. Wenn Ihre Daten stark verzerrt sind, werden der Standard-Z-Score und die Elliptic Envelope Sie in die Irre führen. Betrachten Sie Ihre Verteilungen, bevor Sie sich für eine Methode entscheiden.
Verwenden Sie mehrere Methoden. Proben, die von drei oder mehr Methoden mit unterschiedlichen Definitionen von „Ausreißer“ gekennzeichnet wurden, sind vertrauenswürdiger als Proben, die nur von einer gekennzeichnet wurden.
Gehen Sie nicht davon aus, dass alle Ausreißer entfernt werden sollten. Ein Ausreißer könnte ein Fehler sein. Er könnte auch Ihr interessantester Datenpunkt sein. Fachwissen ist erforderlich, um diese Entscheidung zu treffen, nicht Algorithmen.
Schlussfolgerungen
Es geht hier nicht darum, dass die Ausreißererkennung fehlerhaft ist. Es ist vielmehr so, dass „Ausreißer“ je nach Fragestellung unterschiedliche Bedeutungen hat. Z-Score und IQR erfassen Werte, die in einer Dimension extrem sind. Isolation Forest und LOF finden Proben, die sich im Gesamtmuster abheben. Elliptic Envelope funktioniert gut, wenn Ihre Daten tatsächlich gaußverteilend sind (was bei uns nicht der Fall war).
Überlegen Sie, wonach Sie wirklich suchen, bevor Sie eine Methode auswählen. Und wenn Sie sich nicht sicher sind? Führen Sie mehrere Methoden durch und verlassen Sie sich auf den Konsens.
Häufig gestellte Fragen
- 1. Welche Technik sollte ich zuerst verwenden? Ein guter Ausgangspunkt ist die Isolation Forest-Technik. Sie geht nicht davon aus, wie Ihre Daten verteilt sind, und verwendet gleichzeitig alle Ihre Merkmale. Wenn Sie jedoch extreme Werte für eine bestimmte Messung (z. B. sehr hohe Blutdruckwerte) identifizieren möchten, sind Z-Score oder IQR möglicherweise geeigneter.
- 2. Wie wähle ich eine Kontaminationsrate für Scikit-learn-Methoden? Das hängt von dem Problem ab, das Sie lösen möchten. Ein häufig verwendeter Wert ist 5 % (oder 0,05). Bedenken Sie jedoch, dass Kontamination eine Quote ist. Das bedeutet, dass 5 % Ihrer Proben als Ausreißer klassifiziert werden, unabhängig davon, ob tatsächlich 1 % oder 20 % echte Ausreißer in Ihren Daten vorhanden sind. Verwenden Sie eine Kontaminationsrate, die auf Ihrem Wissen über den Anteil der Ausreißer in Ihren Daten basiert.
- 3. Soll ich Ausreißer entfernen, bevor ich die Trainings-/Testdaten aufteile? Nein. Sie sollten ein Modell zur Ausreißererkennung auf Ihrem Trainingsdatensatz anpassen und dann das trainierte Modell auf Ihren Testdatensatz anwenden. Andernfalls beeinflusst Ihr Testdatensatz Ihre Vorverarbeitung, was zu einer Datenleckage führt.
- 4. Wie gehe ich mit kategorialen Merkmalen um? Die hier behandelten Techniken funktionieren bei numerischen Daten. Es gibt drei mögliche Alternativen für kategoriale Merkmale: Kodieren Sie Ihre kategorialen Variablen und fahren Sie fort; verwenden Sie eine Technik, die für gemischte Datentypen geeignet ist (z. B. HBOS); führen Sie die Ausreißererkennung separat für numerische Spalten durch und verwenden Sie frequenzbasierte Methoden für kategoriale.
- 5. Wie erkenne ich, ob ein gekennzeichneter Ausreißer ein Fehler oder einfach ungewöhnlich ist? Sie können allein anhand des Algorithmus nicht feststellen, ob ein identifizierter Ausreißer einen Fehler darstellt oder ob er einfach ungewöhnlich ist. Der Algorithmus kennzeichnet das, was ungewöhnlich ist, nicht das, was falsch ist. Ein Wein mit einem extrem hohen Restzuckergehalt könnte ein Datenfehler sein oder ein Dessertwein, der genau so süß sein soll. Letztendlich kann nur Ihr Fachwissen eine Antwort geben. Wenn Sie sich unsicher sind, markieren Sie ihn zur Überprüfung, anstatt ihn automatisch zu entfernen.
Nate Rosidi ist Datenwissenschaftler und in der Produktstrategie tätig. Er ist auch Dozent für Analytik und Gründer von StrataScratch, einer Plattform, die Datenwissenschaftlern hilft, sich auf ihre Interviews mit echten Interviewfragen von Top-Unternehmen vorzubereiten. Nate schreibt über die neuesten Trends auf dem Arbeitsmarkt, gibt Interviewtipps, teilt Datenwissenschaftsprojekte und behandelt alles rund um SQL.
Erhalten Sie das kostenlose E-Book „KDnuggets Artificial Intelligence Pocket Dictionary“ zusammen mit dem führenden Newsletter zu Datenwissenschaft, maschinellem Lernen, KI und Analytik direkt in Ihr Postfach.
Bildquelle: ai-generated-gemini