Tipps & Tricks

The Most Common Statistical Traps in FAANG Interviews

10 min Lesezeit
The Most Common Statistical Traps in FAANG Interviews

Einleitung

Bei Bewerbungen bei Meta (ehemals Facebook), Apple, Amazon, Netflix oder Alphabet (Google) – zusammen als FAANG bekannt – testen Vorstellungsgespräche selten, ob Sie Lehrbuchdefinitionen wiedergeben können. Vielmehr möchten die Interviewer sehen, ob Sie Daten kritisch analysieren und in der Lage sind, eine fehlerhafte Analyse zu erkennen, bevor sie in die Produktion geht. Statistische Fallstricke sind eine der zuverlässigsten Methoden, um dies zu überprüfen.

Diese Fallstricke spiegeln die Art von Entscheidungen wider, mit denen Analysten täglich konfrontiert sind: Eine Dashboard-Zahl, die gut aussieht, aber tatsächlich irreführend ist, oder ein Experimentsergebnis, das umsetzbar erscheint, aber einen strukturellen Fehler enthält. Der Interviewer kennt bereits die Antwort. Was sie beobachten, ist Ihr Denkprozess, einschließlich der Frage, ob Sie die richtigen Fragen stellen, fehlende Informationen bemerken und gegen eine Zahl argumentieren, die auf den ersten Blick gut aussieht. Kandidaten stolpern immer wieder über diese Fallstricke, selbst solche mit starkem mathematischen Hintergrund.

Wir werden fünf der häufigsten Fallstricke untersuchen.

Verstehen des Simpson-Paradoxons

Dieser Fallstrick zielt darauf ab, Personen zu fangen, die aggregierte Zahlen ohne Zweifel vertrauen.

Das Simpson-Paradoxon tritt auf, wenn ein Trend in verschiedenen Daten Gruppen sichtbar ist, aber verschwindet oder sich umkehrt, wenn diese Gruppen kombiniert werden. Ein klassisches Beispiel sind die Zulassungsdaten der UC Berkeley von 1973: Die Gesamtraten begünstigten Männer, aber bei der Aufschlüsselung nach Fachbereichen hatten Frauen gleichwertige oder bessere Zulassungsraten. Die aggregierte Zahl war irreführend, da Frauen sich in wettbewerbsfähigeren Fachbereichen beworben hatten.

Das Paradoxon ist unvermeidlich, wenn Gruppen unterschiedliche Größen und unterschiedliche Basisraten aufweisen. Das Verständnis dafür kann eine oberflächliche Antwort von einer tiefgründigen unterscheiden.

In Interviews könnte eine Frage so aussehen: „Wir haben einen A/B-Test durchgeführt. Insgesamt hatte Variante B eine höhere Konversionsrate. Wenn wir jedoch nach Gerätetyp aufschlüsseln, schnitt Variante A sowohl auf Mobilgeräten als auch auf Desktop besser ab. Was passiert hier?“ Ein starker Kandidat verweist auf das Simpson-Paradoxon, erläutert dessen Ursache (Gruppenverhältnisse unterscheiden sich zwischen den beiden Varianten) und fordert eine Aufschlüsselung an, anstatt der aggregierten Zahl zu vertrauen.

Interviewer nutzen dies, um zu überprüfen, ob Sie instinktiv nach Untergruppendaten fragen. Wenn Sie nur die Gesamtnummer berichten, haben Sie Punkte verloren.

Demonstration mit A/B-Testdaten

In der folgenden Demonstration mit Pandas können wir sehen, wie die aggregierte Rate irreführend sein kann.

import pandas as pd
# A gewinnt auf beiden Geräten einzeln, aber B gewinnt aggregiert
# weil B den meisten Verkehr von höher konvertierenden Mobilgeräten erhält.
data = pd.DataFrame({
 'device': ['mobile', 'mobile', 'desktop', 'desktop'],
 'variant': ['A', 'B', 'A', 'B'],
 'converts': [40, 765, 90, 10],
 'visitors': [100, 900, 900, 100],
})
data['rate'] = data['converts'] / data['visitors']
print('Pro Gerät:')
print(data[['device', 'variant', 'rate']].to_string(index=False))
print('\
Aggregiert (irreführend):')
agg = data.groupby('variant')[['converts', 'visitors']].sum()
agg['rate'] = agg['converts'] / agg['visitors']
print(agg['rate'])

Identifizierung von Selektionsbias

Dieser Test ermöglicht es Interviewern zu beurteilen, ob Sie darüber nachdenken, woher die Daten stammen, bevor Sie sie analysieren.

Selektionsbias tritt auf, wenn die Daten, die Sie haben, nicht repräsentativ für die Bevölkerung sind, die Sie zu verstehen versuchen. Da der Bias im Datenbeschaffungsprozess und nicht in der Analyse liegt, ist es einfach, ihn zu übersehen.

Betrachten Sie diese möglichen Interviewformulierungen:

  • Wir haben eine Umfrage unter unseren Nutzern durchgeführt und festgestellt, dass 80 % mit dem Produkt zufrieden sind. Sagt das uns, dass unser Produkt gut ist? Ein solider Kandidat würde darauf hinweisen, dass zufriedene Nutzer eher bereit sind, an Umfragen teilzunehmen. Die 80 % Zahl übertreibt wahrscheinlich die Zufriedenheit, da unzufriedene Nutzer wahrscheinlich nicht teilgenommen haben.
  • Wir haben die Kunden untersucht, die im letzten Quartal abgesprungen sind, und festgestellt, dass sie hauptsächlich schlechte Engagement-Werte hatten. Sollten wir uns auf das Engagement konzentrieren, um die Abwanderung zu reduzieren? Das Problem hier ist, dass Sie nur Engagement-Daten für abgewanderte Nutzer haben. Sie haben keine Engagement-Daten für die Nutzer, die geblieben sind, was es unmöglich macht zu wissen, ob ein niedriges Engagement tatsächlich die Abwanderung vorhersagt oder ob es sich nur um ein Merkmal von abgewanderten Nutzern handelt.

Eine verwandte Variante, die es wert ist, bekannt zu sein, ist der Überlebensbias: Sie beobachten nur die Ergebnisse, die durch einen Filter gelangt sind. Wenn Sie nur Daten von erfolgreichen Produkten verwenden, um zu analysieren, warum sie erfolgreich waren, ignorieren Sie diejenigen, die aus den gleichen Gründen gescheitert sind, die Sie als Stärken betrachten.

Simulation der Umfrage-Nichtantwort

Wir können simulieren, wie der Nichtantwortbias die Ergebnisse verzerrt, indem wir NumPy verwenden.

import numpy as np
import pandas as pd
np.random.seed(42)
# Simulieren von Nutzern, bei denen zufriedene Nutzer eher antworten
satisfaction = np.random.choice([0, 1], size=1000, p=[0.5, 0.5])
# Antwortwahrscheinlichkeit: 80 % für zufriedene, 20 % für unzufriedene
response_prob = np.where(satisfaction == 1, 0.8, 0.2)
responded = np.random.rand(1000)

Verhindern von p-Hacking

p-Hacking (auch als Daten-Dredging bezeichnet) tritt auf, wenn Sie viele Tests durchführen und nur die mit \( p < 0.05 \) berichten. Es ist wichtig, sich der Risiken bewusst zu sein, die mit dieser Praxis verbunden sind, da sie zu falschen Schlussfolgerungen führen kann.

Beobachtung von falsch positiven Ergebnissen

Wir können beobachten, wie falsch positive Ergebnisse zufällig auftreten, indem wir SciPy verwenden.

import numpy as np
from scipy import stats
np.random.seed(0)
# 20 A/B-Tests, bei denen die Nullhypothese WAHR ist (kein echter Effekt)
n_tests, alpha = 20, 0.05
false_positives = 0
for _ in range(n_tests):
 a = np.random.normal(0, 1, 1000)
 b = np.random.normal(0, 1, 1000) # identische Verteilung!
 if stats.ttest_ind(a, b).pvalue < alpha:
 false_positives += 1
print(f'Falsch positive Ergebnisse: {false_positives}')

Verwaltung von Mehrfachtests

Dieser Test steht in engem Zusammenhang mit p-Hacking, ist aber es wert, eigenständig verstanden zu werden.

Das Problem der Mehrfachtests ist das formale statistische Problem: Wenn Sie viele Hypothesentests gleichzeitig durchführen, wächst die Wahrscheinlichkeit, dass mindestens ein falsch positives Ergebnis auftritt, schnell. Selbst wenn die Behandlung keinen Effekt hat, sollten Sie mit etwa fünf falsch positiven Ergebnissen rechnen, wenn Sie 100 Metriken in einem A/B-Test testen und alles mit \( p < 0.05 \) auswerten.

Die Bonferroni-Korrektur (Alpha durch die Anzahl der Tests teilen) und Benjamini-Hochberg (kontrolliert die Falsch-Entdeckungsrate anstelle der familiären Fehlerquote) sind zwei Ansätze, um dies zu bewältigen.

Die Bonferroni-Methode ist ein konservativer Ansatz: Wenn Sie beispielsweise 50 Metriken testen, sinkt Ihr Schwellenwert pro Test auf 0,001, was es schwieriger macht, echte Effekte zu erkennen. Benjamini-Hochberg ist geeigneter, wenn Sie bereit sind, einige falsche Entdeckungen im Austausch für mehr statistische Power zu akzeptieren.

In Interviews kommt dies zur Sprache, wenn es darum geht, wie ein Unternehmen Experimentmetriken verfolgt. Eine Frage könnte lauten: "Wir überwachen 50 Metriken pro Experiment. Wie entscheiden Sie, welche wichtig sind?" Eine solide Antwort diskutiert die vorherige Festlegung primärer Metriken vor der Durchführung des Experiments und behandelt sekundäre Metriken als explorativ, während sie das Problem der Mehrfachtests anerkennt.

Interviewers versuchen herauszufinden, ob Sie sich bewusst sind, dass mehr Tests mehr Rauschen und nicht mehr Informationen zur Folge haben.

Umgang mit Störvariablen

Dieser Fallstrick fängt Kandidaten, die Korrelation als Kausalität behandeln, ohne zu fragen, was die Beziehung möglicherweise erklärt.

Eine Störvariable ist eine, die sowohl die unabhängige als auch die abhängige Variable beeinflusst und so den Anschein einer direkten Beziehung erweckt, wo keine existiert.

Ein klassisches Beispiel: Eisverkaufszahlen und Ertrinkungsraten sind korreliert, aber der Störfaktor ist die Sommerhitze; beide steigen in den warmen Monaten. Auf dieser Korrelation zu basieren, ohne den Störfaktor zu berücksichtigen, führt zu schlechten Entscheidungen.

Störvariablen sind besonders gefährlich bei Beobachtungsdaten. Im Gegensatz zu einem randomisierten Experiment verteilt Beobachtungsdaten potenzielle Störfaktoren nicht gleichmäßig zwischen den Gruppen, sodass Unterschiede, die Sie sehen, möglicherweise nicht durch die Variable verursacht werden, die Sie untersuchen.

Eine häufige Interviewformulierung lautet: "Wir haben festgestellt, dass Nutzer, die unsere mobile App häufiger nutzen, tendenziell höhere Einnahmen haben. Sollten wir Push-Benachrichtigungen senden, um die App-Öffnungen zu erhöhen?" Ein schwacher Kandidat sagt ja. Ein starker fragt, welche Art von Nutzer die App häufig öffnet: wahrscheinlich die engagiertesten, wertvollsten Nutzer.

Engagement treibt sowohl App-Öffnungen als auch Ausgaben an. Die App-Öffnungen verursachen keine Einnahmen; sie sind ein Symptom der gleichen zugrunde liegenden Nutzerqualität.

Interviewers nutzen Störvariablen, um zu testen, ob Sie Korrelation von Kausalität unterscheiden, bevor Sie Schlussfolgerungen ziehen, und ob Sie für randomisierte Experimente oder Propensity Score Matching plädieren würden, bevor Sie Maßnahmen empfehlen.

Simulation einer konfundierten Beziehung

Wir können eine konfundierte Beziehung simulieren, um zu zeigen, wie irreführend naive Korrelationen sein können.

import numpy as np
import pandas as pd
np.random.seed(42)
n = 1000
# Störfaktor: Nutzerqualität (0 = niedrig, 1 = hoch)
user_quality = np.random.binomial(1, 0.5, n)
# App-Öffnungen, die durch Nutzerqualität beeinflusst werden, nicht unabhängig
app_opens = user_quality * 5 + np.random.normal(0, 1, n)
# Einnahmen, die ebenfalls durch Nutzerqualität beeinflusst werden, nicht durch App-Öffnungen
revenue = user_quality * 100 + np.random.normal(0, 10, n)
df = pd.DataFrame({
 'user_quality': user_quality,
 'app_opens': app_opens,
 'revenue': revenue
})
# Naive Korrelation sieht stark aus — irreführend
naive_corr = df['app_opens'].corr(df['revenue'])
# Korrelation innerhalb der Gruppen (unter Kontrolle des Störfaktors) ist nahezu null
corr_low = df[df['user_quality']==0]['app_opens'].corr(df[df['user_quality']==0]['revenue'])
corr_high = df[df['user_quality']==1]['app_opens'].corr(df[df['user_quality']==1]['revenue'])
print(f"Naive Korrelation (App-Öffnungen vs Einnahmen): {naive_corr:.2f}")
print(f"Korrelation unter Kontrolle der Nutzerqualität:")
print(f" Niedrigwertige Nutzer: {corr_low:.2f}")
print(f" Hochwertige Nutzer: {corr_high:.2f}")

Fazit

Alle fünf dieser Fallstricke haben etwas gemeinsam: Sie erfordern, dass Sie langsamer werden und die Daten hinterfragen, bevor Sie akzeptieren, was die Zahlen auf den ersten Blick zu zeigen scheinen. Interviewer verwenden diese Szenarien gezielt, weil Ihr erster Instinkt oft falsch ist, und die Tiefe Ihrer Antwort nach diesem ersten Instinkt trennt einen Kandidaten, der unabhängig arbeiten kann, von einem, der bei jeder Analyse Anleitung benötigt.

Keine dieser Ideen ist schwer zu verstehen, und Interviewer fragen danach, weil sie typische Fehlerquellen in der realen Datenarbeit sind. Der Kandidat, der das Simpson-Paradoxon in einer Produktmetrik erkennt, einen Selektionsbias in einer Umfrage entdeckt oder hinterfragt, ob ein Experimentsergebnis mehrere Vergleiche überstanden hat, ist derjenige, der weniger schlechte Entscheidungen treffen wird.

Wenn Sie mit dem Reflex in FAANG-Interviews gehen, die folgenden Fragen zu stellen, sind Sie bereits im Vorteil gegenüber den meisten Kandidaten:

  • Wie wurden diese Daten gesammelt?
  • Gibt es Untergruppen, die eine andere Geschichte erzählen?
  • Wie viele Tests haben zu diesem Ergebnis beigetragen?

Über die Unterstützung in Interviews hinaus können diese Gewohnheiten auch verhindern, dass schlechte Entscheidungen in die Produktion gelangen.

Nate Rosidi ist Datenwissenschaftler und in der Produktstrategie tätig. Er ist auch Dozent für Analytik und Gründer von StrataScratch, einer Plattform, die Datenwissenschaftlern hilft, sich mit realen Interviewfragen von Top-Unternehmen auf ihre Interviews vorzubereiten. Nate schreibt über die neuesten Trends auf dem Arbeitsmarkt, gibt Interviewtipps, teilt Projekte zur Datenwissenschaft und behandelt alles rund um SQL. Wenn Sie mehr über die notwendigen Fähigkeiten erfahren möchten, können Sie den umfassenden Leitfaden für Einsteiger in die Datenwissenschaft 2026 lesen.

Erhalten Sie das KOSTENLOSE E-Book 'KDnuggets Artificial Intelligence Pocket Dictionary' zusammen mit dem führenden Newsletter zu Data Science, Machine Learning, KI & Analytics direkt in Ihr Postfach.

Durch das Abonnieren akzeptieren Sie die Datenschutzrichtlinie von KDnuggets.

```

Bildquelle: ai-generated-gemini

KI Snack