Inhaltsverzeichnis

E-Commerce Funnel AnalyseEinblick in den DatensatzCore Funnel MetricsTime-to-Conversion AnalysisBuyer SegmentationDevice & Category PerformanceMonthly Cohort AnalysisPredictive ML-ModelingML als ROI-MultiplikatorJourney Type BreakdownFazit

Projects

E-Commerce Funnel Analyse mit Python 2025

Ein datengetriebenes Praxisbeispiel, das zeigt, wie man mit Python und realen Unternehmensdaten den gesamten Kaufprozess analysiert, Engpässe aufdeckt und konkrete Umsatzsteigerungspotenziale quantifiziert.

  • Programmiersprachen  Python, SQL
  • Bibliotheken  pandas, numpy, scipy, scikit-learn, matplotlib, plotly, seaborn, Streamlit (Dashboard)
  • Methoden  Funnel Analysis, Segmentation, Logistic Regression, KPI-Modeling, Predictive Scoring
  • Project data Download CSV (22.4 MiB)

In diesem Beitrag zeige ich, wie ich mit Python eine vollständige Business-Analyse eines realen E-Commerce-Funnels durchgeführt habe – von der Rohdatenauswertung bis hin zu strategischen Handlungsempfehlungen auf Management-Level. Ziel war es, Engpässe im Kaufprozess zu identifizieren, Conversion-Raten zu optimieren und datenbasiert zu belegen, wie Machine Learning gezielt Marketing-Budgets effizienter machen kann. Die Analyse erfolgte vollständig in Python (pandas, seaborn, scikit-learn, Streamlit), basierend auf echten Unternehmensdaten mit über 190.000 Nutzern. Das finale Dashboard und die Executive Summary zeigen, wie man aus Daten konkrete Business-Entscheidungen ableitet.

Einblick in den Datensatz

Data Metriken
  • Wie viele Besuche (visits) verzeichnet der Shop insgesamt?
  • Wie viele Kunden (viewed) haben sich bei allen Besuchen einen Artikel angesehen?
  • Wie viele dieser angesehenen Artikel wurden in den Warenkorb gelegt (added_to_cart)?
  • Welche Kunden haben den Kaufprozess abgeschlossen und einen Kauf (purchase) getätigt?

Core Funnel Metrics (User-Level)

Data MetrikenFunnel Analyse Chart

Die Analyse auf Nutzerebene ergab eine Gesamt-Conversion-Rate von 6,19%. Während 78% der Besucher ein Produkt ansehen, legen nur 53% etwas in den Warenkorb – und lediglich 14,9% dieser Warenkorb-Nutzer kaufen tatsächlich. Damit ist der letzte Funnel-Schritt der größte Engpass. Insgesamt brechen über 67.000 potenzielle Käufer kurz vor dem Kauf ab. Hieraus würde sich entsprechend ein möglicher Umsatzverlust ableiten lassen.

Funnel Analyse Metriken

Ursachenanalyse – Warum brechen Nutzer den Kaufprozess ab?

Auf Basis der Ereignisdaten wurden mögliche Ursachen für den Abbruch identifiziert.

Mögliche Beispielabsätze:
Durch qualitative und quantitative Betrachtung lassen sich mehrere Ursachen vermuten:

  • Checkout-Friktion (zu viele Schritte, keine Gastbestellung)
  • fehlende Payment-Optionen (kein PayPal / Apple oder Google Pay)
  • fehlende Transparenz bei Versandkosten und Lieferzeiten
  • keine psychologischen Trigger wie Countdown oder Social Proof

Diese Erkenntnisse können eine Grundlage für konkrete Maßnahmenpakete sein.

Time-to-Conversion Analysis

Um weitere Marketingmaßnahmen gezielt zu steuern, wurden die jeweiligen Zeitabschnitte bis zum Kauf untersucht.

Data MetrikenData Metriken

Buyer Segmentation

Data Metriken

Die Segmentierung ergab drei klare Käufergruppen:

  • Fast Buyers (0–3 Tage) – 14 %, reagieren auf Sofortangebote
  • Medium Buyers (4–10 Tage) – 49 %, ideale Retargeting-Zielgruppe
  • Slow Buyers (11+ Tage) – 37 %, brauchen ggf. Vertrauen & weitere Information

Hierdurch lassen sich gezielte zeitbasierte Retargeting-Kampagnen entwickeln, die das Marketingbudget umverteilen und der Return on Investment (ROI) gesteigert werden kann.

Data Metriken

Device & Category Performance

Welche Geräte und Produktkategorien treiben den Umsatz?

Data Metriken

Überraschenderweise zeigen Desktop- und Mobile-Nutzer nahezu identische Conversion-Raten (6,1% vs. 6,2%).

Die Analyse zeigt:
Mobile ist kein Conversion-Problem, sondern ein Volumen-Treiber. Daher liegt der Fokus künftig auf Usability und Geschwindigkeit (z. B. PWA, biometrischer Checkout).

Data Metriken

In der Kategorieanalyse schneiden Office Supplies mit 6,23% Conversion am besten ab – vor Technology (6,12%) und Furniture (6,19%). Hieraus ergeben sich differenzierte Optimierungsstrategien (z. B. Abo-Modell, AR-Visualisierung).

Data Metriken

Monthly Cohort Analysis & Temporal Trends (Inflationsbereinigt)

Dieser Abschnitt erweitert die Funnel- und Nutzeranalyse um eine makroökonomische Perspektive. Ziel ist es zu bewerten, wie sich das Umsatzwachstum über die Zeit – nominal und inflationsbereinigt – entwickelt und ob das Unternehmen realwirtschaftlich wächst oder ob Teile des Wachstums durch Preissteigerungen relativiert werden.

Die Analyse basiert auf 21 Monaten vollständig validierter Daten. Zwei Monate mit Ausreißern oder unvollständigen Werten wurden bewusst ausgeschlossen, um ein konsistentes Trendbild zu gewährleisten.

Data Metriken

Die folgende Visualisierung ermöglicht eine detaillierte Betrachtung von:

  • Nominal vs. Real Revenue
  • Kumulativer Inflation & Revenue Gap
  • Monatlichen Wachstumsraten & Trendglättung
  • Käufertrends im zeitlichen Verlauf
  • Zentralen Wachstumskennzahlen (nominal & real)
  • Strategischer Relevanz & Handlungsempfehlungen
Data Metriken

1.) Nominal vs. Real Revenue – Warum Inflationsbereinigung entscheidend ist

Die Umsatzentwicklung wurde sowohl nominal als auch real (CPI-bereinigt) berechnet. Dadurch entsteht ein klares Bild zwischenWachstum in Dollar und Wachstum in realer Kaufkraft.

Kernaussage:
Die reale Wachstumsrate liegt 5,6 Prozentpunkte unter der nominalen. Ein Teil des Umsatzwachstums ist somit inflationsgetrieben und entspricht keiner zusätzlichen Wertschöpfung.

Fazit:
Das Unternehmen wächst – aber die reale Performance steigt langsamer als der nominale Wert vermuten lässt.

2.) Cumulative Inflation & Revenue Gap – Wie stark wirkt Inflation wirklich?

Der CPI wurde zeitlich indexiert und lückenlos interpoliert. Dadurch lässt sich die kumulative Inflation über die gesamte Periode abbilden.

Erkenntnisse:

  • Über weite Strecken geringe Inflation.
  • In späteren Monaten deutlicher Anstieg – der Revenue Gap wächst.

Revenue Gap: Insgesamt beträgt die inflationsbedingte Lücke$28.715 – also nominal erzielter Umsatz, der real keine zusätzliche Kaufkraft darstellt. Diese Kennzahl ist besonders für Management, Finance und Controlling relevant.

3.) Month-over-Month Growth – Trendverlauf mit Glättung & Ausreißerfilter

Zur Bewertung der monatlichen Dynamik wurden sowohl nominale als auch reale MoM-Wachstumsraten berechnet und durch mehrere Mechanismen stabilisiert:

  • Automatische 2σ-Ausreißererkennung
  • Chronologische Reihenvalidierung
  • 3-Monats Moving Average
  • Exkludierung unvollständiger Monate

Resultat: Deutliche Volatilität in Einzelmonaten, aber ein klarer Trendverlauf, der reale Wachstumsphasen und inflationsgetriebene Abweichungen sichtbar macht.

4.) Buyer Trends – Kaufverhalten im zeitlichen Vergleich

Die Käuferzahlen wurden mit einem 3-Monats-Durchschnitt geglättet, um saisonale Muster auszublenden.

Erkenntnisse:

  • Konstante Käuferbasis trotz Preisvolatilität.
  • Stabile Nachfrage → organisches Wachstum.
  • Trendlinie zeigt robuste User Retention.

5.) Key Growth Metrics – Nominal, Real & Annualized

Die wichtigsten Wachstumskennzahlen zeigen die wirtschaftliche Entwicklung komprimiert auf einen Blick:

- Total Nominal Growth: +47,1 %
- Total Real Growth: +41,5 %
- Annualized Growth (Nominal & Real): nachhaltige langfristige Rate
- Inflation Impact: –5,6 Prozentpunkte
- Revenue Gap: nominal – real (gesamt: $28.715)

Diese KPIs ermöglichen eine differenzierte Beurteilung der tatsächlichen Unternehmensperformance.

6.) Strategische Interpretation – Was bedeutet das für das Unternehmen?

Die Daten belegen eindeutig:

✓ Das Unternehmen wächst real – nicht bloß durch Preisanpassungen.
✓ Inflation reduziert die effektive Kaufkraft und damit den realen Erfolg.
✓ Deflationäre Monate führen zu realem Wertzuwachs und besseren Margen.

Damit werden Preissetzung, Einkauf, Lieferkettenmanagement und Kostenoptimierung strategisch noch relevanter.

7.) Handlungsempfehlungen

- Kontinuierliches Monitoring von nominalen & realen KPIs:
Nur so lässt sich „echtes" Wachstum erkennen.

- Dynamische Preisgestaltung:

  • Inflationsindexierte Preise
  • Flexible Margenmodelle
  • Automatisierte Preisanpassungen

- Kostenoptimierung & Lieferkettenmanagement:
Reale Gewinne schützen und Effizienz steigern.

- Szenarioanalyse & Forecasting:
Annualized Growth dient als robuste Grundlage für Budgeting und Planung.

Predictive ML-Modeling (Conversion Scoring) – Wer wird kaufen (und wer nicht)?

Während deskriptive Analysen erklären, was passiert ist, ermöglicht Machine Learning die Vorhersage, was passieren wird. Für E-Commerce-Unternehmen ist das besonders wertvoll: Statt alle Warenkorbabbrecher mit teurem Retargeting anzusprechen, lässt sich präzise identifizieren, welche Nutzer auch ohne Incentives kaufen würden. Das reduziert Streuverluste und ermöglicht eine datengetriebene Budgetallokation.

Modell-Performance & Threshold-Optimierung

Das entwickelte Random Forest-Modell erreicht eine AUC-ROC von 0.789 – ein solider Wert zur Unterscheidung zwischen Käufern und Nicht-Käufern. Besonders aufschlussreich ist die Analyse der Entscheidungsschwelle:

Data MetrikenData MetrikenData MetrikenData Metriken

Durch den optimierten Schwellenwert wurde die Zahl falscher Zielgruppen um 85% reduziert, was wiederum signifikant Retargeting-Kosten spart.

  • Standard-Threshold 0.5: hoher Recall (99,8%), aber sehr geringe Precision (19%). Das Modell markiert fast alle Nutzer als potenzielle Käufer – inklusive vieler False Positives.
  • Optimierter Threshold 0.7: Precision steigt auf 32,6% (+71%), Recall sinkt moderat auf 30%. Die False Positives reduzieren sich von 40.627 auf nur 5.917 (–85%).

Die Visualisierung zeigt klar:
Ein höherer Threshold eliminiert einen Großteil unnötiger Marketingkontakte bei minimalem Verlust echter Käufer.

ROI-Impact - Was bedeutet das finanziell?

Der wirtschaftliche Effekt ist erheblich:

  • Threshold 0.5:
    40.627 False Positives → bei €5 pro Retargeting-Kontakt entstehen €203.135 unnötige Kosten.
  • Threshold 0.7:
    Nur noch 5.917 False Positives → Einsparung von €173.550 (–85%).

Der geringe Rückgang an True Positives wird durch die deutliche Reduktion verschwendeter Retargeting-Budgets mehr als kompensiert.

Featureimportance Analyse – Was beeinflusst Kaufentscheidungen wirklich?

Im nächsten Schritt werden die Treiber der Bewertung der Kaufwahrscheinlichkeit des Predictive ML-Modells untersucht. Jedes einzelne Merkmal (Feature) des Datensatzes trägt unterschiedlich stark zur Vorhersagegenauigkeit der finalen prozentualen Kaufwahrscheinlichkeit bei. Die Feature-Importance bewertet, inwieweit jedes dieser Merkmale den Vorhersageeffekt beeinflusst, was entscheidend für die Qualität der Analyse ist. Durch das Identifizieren der wichtigsten Faktoren können gezielte Strategien weiter angepasst und entwickelt werden, um Entscheidungsprozesse zu optimieren und Geschäftsabläufe zu verbessern. Diese Analyse ermöglicht es, effektiver auf die Variablen einzugehen, die den Kaufentscheidungsprozess maßgeblich beeinflussen.

Data Metriken

Das Modell identifiziert drei zentrale Einflussfaktoren:

  • Anzahl der Add-to-Cart-Events – stärkster Prädiktor für Kaufabsicht.
  • Account-Alter (Days Since First Visit) – ältere Nutzer konvertieren häufiger.
  • Produktaufrufe (View Count) – intensives Interesse erhöht Kaufwahrscheinlichkeit.

Überraschend gering wirken Device oder Wochentag. Entscheidend ist nicht der Kontext, sondern die Interaktionsintensität des Nutzers.


Handlungsempfehlungen nach Kaufwahrscheinlichkeit

Auf Basis der Modell-Konfidenz lassen sich Marketingmaßnahmen gezielt steuern:

  • 0.7 (High Probability): Keine Rabatte notwendig – Nutzer kaufen wahrscheinlich.
  • 0.3 – 0.7 (Medium): Moderate Maßnahmen wie Social Proof oder Reminder-Mails als Anreiz.
  • 0.3 (Low): Rabatte oder Gutscheine mögliche sinnvolle Anreize.

Ergebnis: Höhere Conversion bei deutlich geringerem Budgeteinsatz – Precision Marketing statt Gießkannenprinzip.


Machine Learning als ROI-Multiplikator

Die Integration von Predictive Modeling verändert das Retargeting grundlegend:

  • 85% weniger Retargeting-Kosten
  • Fokus auf wirklich kaufbereite Nutzer
  • Datengetriebene Budgetsteuerung statt Bauchgefühl

Für Unternehmen mit signifikanten Marketingbudgets stellt Machine Learning keinen „Nice-to-have“-Ansatz dar, sondern einen klaren Wettbewerbsvorteil – mit messbarem wirtschaftlichen Impact.


Journey Type Breakdown

TODO

Data MetrikenData MetrikenData Metriken

Fazit

Dieses Projekt zeigt exemplarisch, wie technische Analysekompetenz, datengetriebene Modellierung und unternehmerisches Denken zusammenwirken können.Die reine Datenanalyse wurde zu einer vollständigen Business-Strategie transformiert – mit quantifizierbaren Ergebnissen und klarer Handlungsempfehlung.

Das Projekt wurde vollständig mit Python, pandas, matplotlib, scikit-learn und Streamlit realisiert. Von der Datenbereinigung über explorative Analysen bis hin zur automatisierten Berichtserstellung entstand eine komplette datengetriebene Entscheidungsgrundlage.

Ich sehe in dieser Kombination aus Analytik, Business-Verständnis und Kommunikationsfähigkeit ein großes großes Potential für Unternehmen. Wenn Sie mehr über datengetriebene Marketing-Optimierung erfahren oder das Dashboard live sehen möchten, freue ich mich über Ihre Nachricht.

© 2025 Marcel Weschke. All Rights Reserved.