A/B-Testing-Glossar: 50+ CRO-Begriffe erklärt

Die Optimierung der Konversionsrate hat ihre eigene Sprache — und wenn Sie sie nicht beherrschen, riskieren Sie, Ihre Ergebnisse falsch zu interpretieren, Ihre Teams nicht abzustimmen und Entscheidungen auf der Grundlage falscher Annahmen zu treffen. Egal ob Sie ein Anfänger in CRO sind und Ihren ersten Experimentbericht dekodieren möchten, oder ein erfahrener Marketer, der das Vokabular in Ihrer Organisation standardisieren möchte, dieses umfassende Glossar deckt jeden wesentlichen Begriff des A/B-Test- und Experimentierungsökosystems ab. Speichern Sie es als Favorit, teilen Sie es mit Ihrem Team und kehren Sie jedes Mal zurück, wenn ein Konzept einer Erklärung bedarf.

Grundkonzepte des A/B-Tests

A/B-Test (Split-Test) : Ein kontrolliertes Experiment, bei dem zwei Versionen einer einzelnen Variable — eine Webseite, eine E-Mail-Betreffzeile, ein CTA-Button oder ein anderes Element — gleichzeitig verschiedenen Segmenten Ihres Publikums präsentiert werden, um zu bestimmen, welche bei einer definierten Metrik am besten abschneidet.

Kontrolle (Variante A) : Die ursprüngliche, unveränderte Version des getesteten Elements. Sie dient als Referenz, an der alle anderen Varianten gemessen werden. Jedes Experiment muss eine klar definierte Kontrolle haben, um gültige Vergleiche zu ermöglichen.

Variante (Variante B, C, D…) : Die geänderte Version(en) des getesteten Elements. Jede Variante unterscheidet sich vom Kontrollelement in mindestens einem spezifischen Punkt — ein anderer Titel, eine andere Farbe, ein anderes Layout oder ein anderer Text. Wenn mehrere Varianten gleichzeitig getestet werden, wird das Experiment zu einem multivariaten Test.

Hypothese : Eine strukturierte und falsifizierbare Vorhersage, die die vorgenommene Änderung, den Grund, warum Sie eine Leistungsverbesserung erwarten, und die gemessene Metrik artikuliert. Eine starke Hypothese folgt dieser Struktur: "Wenn wir [X ändern], dann wird [Metrik Y] [zunehmen/abnehmen], weil [Verhaltensrechtfertigung Z]." Schwache Hypothesen führen zu nicht aussagekräftigen Tests.

PRO-TIPP: SCHREIBEN SIE IHRE HYPOTHESE VOR DEM AUFBAU

Teams, die ihre Hypothesen vor dem Start von Tests dokumentieren, haben deutlich bessere Chancen, verwertbare Erkenntnisse daraus zu gewinnen — auch aus verlierenden Varianten. Die Disziplin, sein Denken zu artikulieren, erzwingt Klarheit und verhindert die nachträgliche Rationalisierung von Ergebnissen.

Statistische Begriffe, die Sie unbedingt beherrschen müssen

Statistische Signifikanz : Ein Schwellenwert, der die Wahrscheinlichkeit angibt, dass der beobachtete Unterschied zwischen Ihrer Kontrolle und Ihrer Variante nicht auf Zufall zurückzuführen ist. Ausgedrückt als p-Wert wird die Signifikanz normalerweise auf 95% festgelegt (p < 0,05), was bedeutet, dass es weniger als 5% Wahrscheinlichkeit gibt, dass das Ergebnis auf Zufall zurückzuführen ist. Einen Gewinner zu erklären, bevor die Signifikanz erreicht ist, ist einer der häufigsten und teuersten Fehler in der CRO.

P-Wert : Die Wahrscheinlichkeit, ein Ergebnis zu erhalten, das mindestens so extrem ist wie das beobachtete, unter der Annahme, dass die Nullhypothese wahr ist. Ein p-Wert von 0,03 bedeutet, dass es 3% Chance gibt, dass der beobachtete Unterschied auf zufällige Variation zurückzuführen ist. Niedrigere p-Werte deuten auf stärkere Beweise gegen die Nullhypothese hin.

Konfidenzintervall (KI) : Ein Wertebereich, in dem die wahre Effektgröße mit einer gegebenen Wahrscheinlichkeit liegen soll (z. B. 95%). Ein enges Konfidenzintervall deutet auf eine präzisere Schätzung hin; ein breites Intervall signalisiert hohe Variabilität und kann eine größere Stichprobe erfordern.

Statistische Aussagekraft : Die Wahrscheinlichkeit, dass ein Test einen echten Effekt korrekt erkennt, wenn er existiert. Normalerweise auf 80% festgelegt, hängt die Aussagekraft von der Stichprobengröße, der Effektgröße und dem Signifikanzniveau ab. Tests mit niedriger Aussagekraft führen zu hohen Raten von falsch negativen Ergebnissen — Sie verpassen echte Verbesserungen.

Fehler 1. Art (Falsch Positiv) : Fälschlicherweise zu dem Ergebnis kommen, dass eine Variante die Kontrolle übertrifft, obwohl kein echter Unterschied existiert. Wird durch Ihr Signifikanzniveau (Alpha-Niveau) kontrolliert.

Fehler 2. Art (Falsch Negativ) : Eine echte Verbesserung, die tatsächlich existiert, nicht erkennen. Wird durch Ihre statistische Aussagekraft (Beta-Niveau) kontrolliert.

Nullhypothese : Die Standardhypothese, dass es keinen Unterschied zwischen der Kontrolle und der Variante gibt. Ihr Experiment versucht, genügend Beweise zu sammeln, um diese Hypothese abzulehnen.

95%

Standardvertrauensniveau zur Erklärung eines Gewinners

80%

Empfohlene minimale statistische Aussagekraft pro Test

2–4 Wochen

Typische Mindestdauer zur Erfassung wöchentlicher Verkehrsmuster

Experimentiermetriken und KPIs

Konversionsrate (CR) : Der Prozentsatz der Besucher, die eine gewünschte Aktion durchführen (Kauf, Registrierung, Formulareinreichung usw.), geteilt durch die Gesamtzahl der Besucher. Dies ist die Hauptmetrik in den meisten A/B-Tests und die Grundlage der CRO-Arbeit.

Primäre Metrik (Zielmetrik) : Der wichtigste KPI, den Ihr Test bewegen soll. Jedes Experiment sollte genau eine primäre Metrik haben, um das Problem mehrfacher Vergleiche zu vermeiden. Sekundäre Metriken bieten zusätzlichen Kontext, sollten aber nicht die endgültige Entscheidung beeinflussen.

Sekundäre Metriken (Schutzmetriken) : Ergänzende KPIs, die überwacht werden, um sicherzustellen, dass eine gewinnende Variante andere wichtige Geschäftsergebnisse nicht negativ beeinflusst. Beispielsweise kann eine Variante, die die Warenkorbquote erhöht, aber den durchschnittlichen Bestellwert senkt, keinen Nettogewinn darstellen.

Durchschnittlicher Bestellwert (AOV) : Der durchschnittliche Geldwert von Transaktionen über einen bestimmten Zeitraum. Eine kritische Metrik für E-Commerce-A/B-Tests, besonders bei der Optimierung von Upsell-Flows, Preisanzeigen oder Bündelangeboten.

Umsatz pro Besucher (RPV) : Gesamtumsatz geteilt durch die Gesamtzahl der Besucher. RPV wird in E-Commerce-Kontexten oft dem Konversionssatz vorgezogen, da es gleichzeitig die Konversionsrate und den Bestellwert erfasst und ein vollständigeres Bild der Variantenleistung bietet.

Absprungrate : Der Prozentsatz der Besucher, die eine Seite verlassen, ohne weitere Interaktion. Obwohl dies nicht immer eine primäre Metrik ist, kann ein signifikanter Anstieg der Absprungrate bei einer Variante auf ein negatives Nutzungserlebnis hindeuten, das untersucht werden sollte.

Klickrate (CTR) : Das Verhältnis der Benutzer, die auf ein bestimmtes Element klicken (CTA, Link, Bild), zur Gesamtzahl der Benutzer, die es gesehen haben. Wird häufig als primäre Metrik beim Testen von Elementen oberhalb der Falzlinie oder bei E-Mail-Kampagnen verwendet.

Design-Begriffe und Test-Methodik

Stichprobengröße : Die Anzahl der Besucher (oder Sitzungen), die in jeder Variante erforderlich sind, um zuverlässige statistische Ergebnisse zu erhalten. Unzureichende Stichprobengrößen führen zu unterversorgten Tests und unzuverlässigen Schlussfolgerungen. Verwenden Sie einen Stichprobengrößenrechner, bevor Sie ein Experiment starten, um voreilige Schlussfolgerungen zu vermeiden.

Traffic-Zuweisung : Der Prozentsatz des gesamten Website-Traffics, der einem Experiment zugewiesen wird, und die Verteilung zwischen den Varianten. Eine 50/50-Aufteilung zwischen Kontrolle und einer Variante ist die statistisch effizienteste Zuweisung für einen Standard-A/B-Test.

Randomisierung : Der Prozess der Zuweisung von Besuchern zu Kontroll- oder Variantengruppen ohne Verzerrung. Eine korrekte Randomisierung stellt sicher, dass der einzige systematische Unterschied zwischen den Gruppen die getestete Variante ist, was eine gültige kausale Inferenz ermöglicht.

Segmentierung : Aufteilung Ihres Publikums in Untergruppen basierend auf Attributen (Gerätetyp, Traffic-Quelle, Geografie, Verhalten), um zu analysieren, wie verschiedene Segmente auf Varianten reagieren. Erkenntnisse auf Segmentebene können Chancen offenbaren, die auf aggregierter Ebene unsichtbar sind.

Neuheitseffekt : Eine vorübergehende Verhaltensänderung, die durch die Neuheit einer Variante verursacht wird, anstatt durch ihre echte Überlegenheit. Benutzer können anders mit einem neuen Design interagieren, einfach weil es ungewöhnlich ist. Tests lange genug durchzuführen, um über die anfänglichen Neuheitsreaktionen hinauszugehen, ist für genaue Ergebnisse unerlässlich.

Saisonale Verzerrung : Verzerrung der Testergebnisse, die durch die Durchführung von Experimenten während Zeiten mit atypischem Traffic (Werbeaktionen, Feiertage usw.) verursacht wird, die das normale Benutzerverhalten nicht widerspiegeln. Berücksichtigen Sie immer Ihren Testkalender im Verhältnis zu Ihren Geschäftszyklen.

Multivariater Test (MVT) : Ein Experiment, das mehrere Variablen und ihre Wechselwirkungen gleichzeitig testet. Im Gegensatz zu A/B-Tests zeigt MVT, welche Kombination von Änderungen das beste Ergebnis liefert. Es erfordert erheblich mehr Traffic, um Signifikanz zu erreichen.

AA-Test : Ein Test, bei dem beide Varianten identisch sind (Kontrolle vs. Kontrolle). Wird verwendet, um zu überprüfen, dass Ihr Test-Tool den Traffic korrekt randomisiert und dass Ihre Baseline-Konversionsrate stabil ist, bevor Sie echte Experimente starten.

WARNUNG: TESTERGEBNISSE WÄHREND DES TESTS ÜBERWACHEN

Ergebnisse überprüfen, bevor Sie Ihre vorgegebene Stichprobengröße erreichen, und dann vorzeitig stoppen, wenn Sie einen "Gewinner" sehen, wird als Peeking bezeichnet – und dies erhöht Ihre False-Positive-Rate dramatisch. Definieren Sie immer Ihre Stoppkriterien, bevor Sie einen Test starten.

Prozess- und CRO-Strategiebegriffe

Conversion-Rate-Optimierung (CRO) : Der systematische Prozess zur Erhöhung des Prozentsatzes von Website-Besuchern, die eine gewünschte Aktion ausführen. CRO kombiniert quantitative Daten (Analytics, Heatmaps), qualitative Forschung (Benutzerinterviews, Umfragen) und kontrollierte Experimente, um evidenzbasierte Verbesserungen zu erzielen.

Experimentierungs-Roadmap : Ein priorisiertes Backlog geplanter Tests, organisiert nach erwarteter Auswirkung, Implementierungserleichterung und strategischer Ausrichtung. Eine gut gepflegte Roadmap stellt sicher, dass Ihr Testprogramm kontinuierlich läuft und Erkenntnisse im Laufe der Zeit sammelt.

ICE-Score: Ein Priorisierungs-Framework, das Test-Ideen nach Impact (potenzielle Auswirkung auf die Hauptmetrik), Confidence (Sicherheit, dass die Änderung funktioniert) und Ease (Implementierungsaufwand) klassifiziert. Jede Dimension wird von 1 bis 10 bewertet und gemittelt. Weitere beliebte Frameworks sind PIE (Potential, Importance, Ease) und PXL.

Test-Geschwindigkeit: Die Anzahl der pro Zeiteinheit gestarteten Experimente (normalerweise pro Monat oder Quartal). Eine höhere Test-Geschwindigkeit, kombiniert mit angemessener Strenge, beschleunigt das Tempo, in dem eine Organisation Optimierungslerneffekte sammelt und Leistungsgewinne zusammensetzt.

Gewinnende Variante: Die Variante, die die Kontrolle statistisch bei der Hauptmetrik auf dem vordefinierten Konfidenzniveau übertrifft. Eine gewinnende Variante muss dauerhaft implementiert werden und ihre Erkenntnisse müssen für die Generierung zukünftiger Hypothesen dokumentiert werden.

Nicht Aussagekräftiger Test: Ein Test, der innerhalb der zugeordneten Zeit oder Stichprobengröße keine statistische Signifikanz erreicht. Anstatt ein Fehler zu sein, liefern nicht aussagekräftige Tests wertvolle Informationen: Die getestete Änderung hat wahrscheinlich eine vernachlässigbare Auswirkung auf die Metrik, oder die Hypothese muss verfeinert werden.

Geschwindigkeit vs. Qualität von Experimenten: Eine häufige Spannung in CRO-Programmen. Das Starten vieler Tests mit niedriger Qualität erzeugt Rauschen; das Starten zu weniger mit großem Aufwand schafft Engpässe. Das optimale Gleichgewicht hängt vom verfügbaren Traffic, der Teamkapazität und der organisatorischen Reife ab.

Begriffe zu Benutzererlebnis und Verhalten

Heatmap: Eine visuelle Darstellung von Benutzerinteraktionsdaten auf einer Webseite, die zeigt, wo Benutzer klicken, ihren Cursor bewegen oder scrollen. Heatmaps sind qualitative Forschungswerkzeuge, die verwendet werden, um Hypothesen für A/B-Tests zu generieren, nicht um sie zu validieren.

Session-Aufzeichnung: Eine Wiedergabe der Reise eines einzelnen Benutzers auf Ihrer Website, die Mausbewegungen, Klicks, Scrolls und Formularinteraktionen erfasst. Session-Aufzeichnungen sind wertvoll, um Reibungspunkte und unerwartete Benutzerverhalten zu identifizieren, die Test-Hypothesen informieren.

Reibung: Jedes Element des Benutzererlebnisses, das kognitive Last, Verwirrung oder Widerstand erzeugt und die Konversionswahrscheinlichkeit verringert. Reibung kann visuell (überladenes Layout), funktional (langsame Ladezeit) oder psychologisch (unklar Wertversprechen) sein.

Kognitiver Bias: Systematische Muster im menschlichen Denken, die die Entscheidungsfindung beeinflussen, oft auf vorhersehbare Weise. CRO-Profis nutzen Biases wie Sozialbeweise, Knappheit, Verankerung und Verlustaversion, um überzeugendere Erlebnisse zu gestalten.

Über der Falte (Above the Fold): Der Bereich einer Webseite, der für Benutzer ohne Scrollen sichtbar ist. Elemente über der Falte erhalten unverhältnismäßig viel Aufmerksamkeit und sind Kandidaten mit hoher Priorität für A/B-Tests, besonders Überschriften, Hero-Bilder und primäre CTAs.

Sozialer Beweis: Beweise dafür, dass andere Menschen ein Produkt oder eine Dienstleistung positiv erlebt haben (Bewertungen, Ratings, Testimonials, Benutzeranzahl). Sozialer Beweis ist eines der einflussreichsten Elemente zum Testen auf Produktseiten und Checkout-Funnels.

Call-to-Action (CTA) : Eine Schaltfläche, ein Link oder eine Aufforderung, die Benutzer zu einer gewünschten Konversionshandlung leitet. Der Text, die Farbe, die Größe, die Platzierung und der umgebende Kontext des CTA gehören zu den am häufigsten getesteten Elementen in CRO-Programmen.

Technische Begriffe und Implementierung

JavaScript-Snippet / Tag : Ein kleines Code-Fragment, das in das HTML einer Website eingefügt wird und es einer A/B-Test-Plattform ermöglicht, verschiedene Varianten für Besucher bereitzustellen. Die meisten modernen Test-Tools werden über einen einzigen asynchronen JavaScript-Tag bereitgestellt.

Flicker-Effekt : Ein kurzes visuelles Flackern, das auftritt, wenn die ursprüngliche Seite geladen wird, bevor die CSS- oder JavaScript-Änderungen der Variante angewendet werden. Flicker beeinträchtigt die Benutzererfahrung und kann Verzerrungen in den Testergebnissen einführen. Es wird durch synchrones Laden des Test-Snippets oder durch Anti-Flicker-Skripte gemindert.

Server-seitiges Testen (Server-Side Testing) : Ein A/B-Test, der auf Server-Ebene implementiert wird, wobei die Variantenlogik ausgeführt wird, bevor die Seite an den Benutzer geliefert wird. Server-seitiges Testen eliminiert Flicker, ermöglicht tiefere Personalisierung und wird für Tests von Anwendungslogik, Preisgestaltung oder Algorithmusänderungen bevorzugt.

Client-seitiges Testen (Client-Side Testing) : Ein A/B-Test, der im Browser über JavaScript nach dem Laden der Seite implementiert wird. Schneller bereitzustellen und erfordert für die meisten Änderungen keine Entwicklerintervention, was es zum Standard-Ansatz für visuelle Experimente auf Landing Pages und Produktseiten macht.

Feature Flag : Eine Softwareentwicklungstechnik, die Teams ermöglicht, Funktionen für bestimmte Benutzersegmente zu aktivieren oder zu deaktivieren, ohne neuen Code bereitzustellen. Feature Flags sind ein grundlegendes Werkzeug für serverseitiges Experimentieren und progressive Bereitstellungen.

Personalisierung : Die dynamische Bereitstellung von Inhalten, Angeboten oder Erfahrungen, die an einzelne Benutzer oder Segmente basierend auf Verhaltens-, demografischen oder kontextuellen Daten angepasst sind. Personalisierung und A/B-Tests sind komplementäre Disziplinen — Tests validieren, welche personalisierten Erfahrungen den meisten Wert generieren.

"Das Ziel von CRO ist nicht, mehr Tests durchzuführen — es ist, schneller bessere Entscheidungen zu treffen. Jeder Begriff in diesem Glossar stellt einen Entscheidungspunkt dar, an dem Strenge die Gewinner vom Rauschen trennt."

Fortgeschrittene Experimentierkonzepte

Bayesianische Statistik : Ein statistisches Framework, das sich von frequentistischen Methoden (p-Werte) unterscheidet und Vorwissen integriert und kontinuierlich Wahrscheinlichkeitsschätzungen aktualisiert, wenn sich Daten ansammeln. Bayesianische Tests ermöglichen flexiblere Stoppregeln und liefern Ergebnisse, die als Wahrscheinlichkeit des Besten ausgedrückt werden, anstatt Signifikanzschwellen.

Frequentistische Statistik : Der traditionelle statistische Ansatz, der in den meisten A/B-Test-Plattformen verwendet wird, basierend auf p-Werten und festen Stichprobengrößen. Frequentistische Methoden erfordern vorbestimmte Stichprobengrößen und Signifikanzschwellen, um gültige Fehlerraten zu gewährleisten.

Sequenzieller Test: Eine statistische Methode, die eine kontinuierliche Überwachung der Ergebnisse mit kontrollierten Falsch-Positiv-Raten ermöglicht und das Problem des Peeking bei frequentistischen Tests mit festem Horizont löst. Der sequenzielle Test wird zunehmend von reifen Experimentierungsprogrammen übernommen.

Interaktionseffekte: Wenn zwei oder mehr konkurrierende Tests dieselben Benutzer beeinflussen, kann ihr kombinierter Effekt von dem Effekt abweichen, den jeder Test isoliert ausgeführt hätte. Interaktionseffekte sind ein Schlüsselrisiko in Hochgeschwindigkeits-Testprogrammen und erfordern eine sorgfältige Planung von Experimenten oder sich gegenseitig ausschließenden Gruppen.

Regression zur Mitte: Die statistische Tendenz extremer Ergebnisse, sich im Laufe der Zeit dem Durchschnitt anzunähern. CRO-Profis sollten sich bewusst sein, dass eine Variante, die in den frühen Daten einen ungewöhnlich großen Lift zeigt, zu einem bescheideneren Ergebnis konvergieren kann, wenn die Stichprobengröße zunimmt.

Netzwerkeffekte: Bei sozialen oder empfehlungsgestützten Produkten kann die Zuweisung von Benutzern zu verschiedenen Varianten Spillover-Effekte erzeugen, bei denen die Erfahrung eines Benutzers durch die Variante beeinflusst wird, in der sich seine Kontakte befinden. Dies verstößt gegen die Unabhängigkeitsannahme von Standard-A/B-Tests und erfordert eine clusterbasierte Randomisierung.

Dokumentation von Experimenten: Die Praxis, die Hypothese, Konfiguration, Ergebnisse und Erkenntnisse jedes Tests systematisch in einem gemeinsamen Repository zu erfassen. Organisationen mit soliden Dokumentationspraktiken bauen institutionelles Wissen auf, das sich im Laufe der Zeit zusammensetzt und verhindert, dass fehlgeschlagene Experimente wiederholt werden.

Fazit

Die Beherrschung der CRO-Terminologie ist keine akademische Übung — sie ist eine praktische Voraussetzung für die Durchführung strenger Experimente, die klare Kommunikation von Ergebnissen zwischen Teams und den Aufbau einer Kultur der evidenzgestützten Entscheidungsfindung. Jeder Begriff in diesem Glossar stellt ein Konzept dar, das bei Missverständnis zu verschwendetem Traffic, falschen Schlussfolgerungen und verpassten Umsatzchancen führen kann. Nutzen Sie diese Referenz, um Ihr aktuelles Vokabular zu überprüfen, Ihr Team auf gemeinsame Definitionen auszurichten und die Qualität jedes Experiments, das Sie starten, zu verbessern. Die effektivsten CRO-Profis sind diejenigen, die statistische Strenge mit Verhaltensintution kombinieren — und das beginnt damit, die Sprache fließend zu beherrschen.

A/B-TestingCROConversion Rate OptimizationMarketing-GlossarTerminologieKonversionsoptimierungStatistische TestsUX/UIAnalyticsDigitale Strategie

Starten Sie Ihre ersten A/B-Tests in weniger als 10 Minuten, ohne Entwickler.

Vollständiges Glossar ansehen