Messen, Vergleichen, Optimieren: datengetriebene Entscheidungen mit A/B Testing

2023-06-26by Mira Céline Klein

Welches Layout einer Anzeige führt zu mehr Klicks? Würde eine andere Farbe oder Position des Bestell-Buttons zu einer höheren Conversion Rate führen? Zieht ein Sonderangebot wirklich mehr Kund*innen an - und welche von zwei Formulierungen wäre besser?

Lange Zeit musste man sich bei der Beantwortung dieser Fragen auf das Bauchgefühl verlassen. A/B-Testing ist ein effektives Marketing-Instrument, das uns hilft, diese Fragen datenbasiert und nicht nur aus dem Bauch heraus zu beantworten.

Unsere Podcast-Episode zum Thema A/B Testing

Was ist A/B-Testing?

A/B-Testing ist ein Verfahren, bei dem 2 oder mehr Varianten - zum Beispiel einer Website oder einer Werbeanzeige - gegeneinander getestet werden, um herauszufinden, welche am besten funktioniert. Diese Varianten werden normalerweise als "A" und "B" bezeichnet. Dabei könnte das Kriterium für den Vergleich alles Mögliche sein: wie viele Personen bestellen ein Produkt, abonnieren einen Newsletter oder klicken auf eine Werbung.

Dazu werden die Website-Besucher*innen nach dem Zufallsprinzip einer von zwei oder mehr Gruppen zugeteilt, zwischen denen dann die Zielgröße (z. B. Klickrate, Konversionsrate...) verglichen werden kann. Durch diese Randomisierung unterscheiden sich die Gruppen nicht systematisch in allen anderen relevanten Dimensionen. Dies bedeutet: Wenn Ihre Zielkennzahl in einer Gruppe einen signifikant höheren Wert annimmt, können Sie ziemlich sicher sein, dass dies auf Ihr Treatment zurückzuführen ist und nicht auf eine andere Variable.

Im Vergleich zu anderen Methoden sind für die Durchführung eines A/B-Tests keine umfangreichen statistischen Kenntnisse erforderlich. Dennoch müssen einige Dinge berücksichtigt werden.

Der Ablauf eines A/B-Tests

Ein A/B-Test kann grundsätzlich mit jeder Statistik-Umgebung ausgewertet werden. Heute werden jedoch oft spezielle Tools verwendet, die direkt im Content Management System (CMS) oder der Analytics Plattform integriert sind. Das vereinfacht das Einrichten und Auswerten von Tests und ermöglicht es auch Fachabteilungen, A/B-Tests durchzuführen und zu koordinieren.

Die Statistik hinter einem A/B-Test

Die Auswertung eines A/B-Tests mit klassischen statistischen Methoden ist im Prinzip nicht kompliziert. Es gibt beispielsweise Tests, mit denen man zwei Anteile aus zwei unabhängigen Gruppen auf Gleichheit testen kann. Wenn man zwei Mittelwerte miteinander vergleichen möchte, ist möglicherweise der t-Test für unabhängige Stichproben die richtige Wahl. Hier muss gegebenenfalls noch darauf geachtet werden, dass das Ergebnis nicht durch Ausreißer verzerrt wird. Weiter unten erklären wir, warum man hier trotz der relativ einfachen Auswertung Fehler machen kann. Hierzu müssen aber zunächst zwei wichtige statistische Konzepte erklärt werden: Type I und Type II Error sowie der p-Wert.

Type I und Type II Error

Bei einer statistischen Entscheidung gibt es zwei mögliche Fehler (siehe auch Tabelle 1): Ein Fehler vom Typ I bedeutet, dass wir ein signifikantes Ergebnis beobachten, obwohl es keinen wirklichen Unterschied zwischen unseren Gruppen gibt. Ein Fehler vom Typ II bedeutet, dass wir ein nicht signifikantes Ergebnis beobachten, obwohl tatsächlich ein Unterschied besteht. Der Fehler vom Typ I kann kontrolliert und im Voraus auf eine feste Zahl gesetzt werden, z. B. auf 5 %, die oft als α oder Signifikanzniveau bezeichnet wird. Der Fehler vom Typ II hingegen kann nicht direkt kontrolliert werden. Er nimmt mit dem Stichprobenumfang und dem Ausmaß des tatsächlichen Effekts ab. Wenn z. B. eines der Designs deutlich besser abschneidet als das andere, ist es wahrscheinlicher, dass der Unterschied tatsächlich durch den Test entdeckt wird, als wenn nur ein kleiner Unterschied in Bezug auf die Zielgröße besteht. Daher kann die erforderliche Stichprobengröße im Voraus berechnet werden, wenn man α und die Mindestgröße des Effekts, den man nachweisen möchte, kennt (Fallzahlplanung oder Poweranalyse). Wenn Sie den durchschnittlichen Traffic auf der Webseite kennen, können Sie sich eine ungefähre Vorstellung von der Zeit machen, die Sie bis zum Abschluss des Tests warten müssen. Die Festlegung der Regel für das Ende des Tests im Voraus wird oft als "Testen mit festem Zeithorizont" bezeichnet.

Tabelle 1: Überblick über mögliche Fehler und richtige Entscheidungen bei statistischen Tests
		Wirkung ist wirklich vorhanden
		Nein	Ja
Statistischer Test ist signifikant	Nein	True negative	Type II error (false negative)
Statistischer Test ist signifikant	Ja	Type I error (false positive)	True positive

p-Wert

Statistische Tests geben im Allgemeinen den p-Wert an, der die Wahrscheinlichkeit widerspiegelt, dass das beobachtete Ergebnis (oder ein noch extremeres) rein zufällig zustande kommt, vorausgesetzt, es gibt keinen Effekt. Wenn der p-Wert kleiner als α ist, wird das Ergebnis als "signifikant" bezeichnet.

Was ist bei einem A/B-Test zu beachten?

Obwohl A/B-Testing im Grunde einfach ist, gibt es ein paar Fallstricke, auf die man achten sollte.

Early Ending

Bei der Durchführung eines A/B-Tests möchten Sie vielleicht nicht immer bis zum Ende warten, sondern von Zeit zu Zeit einen Blick darauf werfen, wie der Test gerade abschneidet. Was ist nun, wenn Sie plötzlich feststellen, dass Ihr p-Wert bereits unter Ihr Signifikanzniveau gefallen ist? Bedeutet das nicht, dass der Gewinner bereits feststeht und Sie den Test abbrechen können? Diese Schlussfolgerung ist zwar sehr verlockend, aber sie kann auch sehr falsch sein. Der p-Wert schwankt während des Versuchs stark, und selbst wenn der p-Wert am Ende des festen Horizonts deutlich größer als α ist, kann er irgendwann während des Versuchs unter α fallen. Das ist der Grund, warum das mehrmalige Betrachten des p-Wertes ein bisschen wie Schummeln ist, denn dadurch wird die tatsächliche Wahrscheinlichkeit eines Fehlers vom Typ I wesentlich größer als das von Ihnen im Voraus gewählte α. Dies wird als "α-Inflation" bezeichnet. Im besten Fall ändern Sie am Ende nur die Farbe oder die Position eines Buttons, obwohl dies keine Auswirkungen hat. Im schlimmsten Fall bietet Ihr Unternehmen ein Sonderangebot an, das zwar Kosten verursacht, aber eigentlich keinen Gewinn bringt. Je öfter Sie während der Datenerhebung Ihren p-Wert überprüfen, desto größer ist die Gefahr, dass Sie falsche Schlussfolgerungen ziehen. Kurzum: So verlockend es auch erscheinen mag: Brechen Sie Ihren A/B-Test nicht vorzeitig ab, nur weil Sie ein signifikantes Ergebnis beobachten. Es lässt sich sogar mathematisch beweisen, dass Sie, wenn Sie Ihren Zeithorizont auf unendlich verlängern, garantiert irgendwann einen signifikanten p-Wert erhalten.

Die folgende Abbildung zeigt eine Simulation mit 500 Beobachtungen und einer wahren Click-Through-Rate (CTR) von 6% in beiden Gruppen, d. h. es gibt keinen tatsächlichen Unterschied. Die Linie zeigt, was man beobachten würde, wenn man sich den p-Wert nach jeder neuen Beobachtung ansieht. Am Ende (nach 1000 Beobachtungen) macht der p-Wert das Richtige: er ist größer als 0.05, was gut ist, da es tatsächlich keinen Unterschied zwischen den Gruppen gibt. Sie können aber sehen, dass der p-Wert trotzdem mehrmals die Schwelle von 5% unterschritten hat. Hätte man den Test an der entsprechenden Stelle vorzeitig abgebrochen, so hätte man eine falsche Schlussfolgerung gezogen. Dies ist natürlich nur ein mögliches Ergebnis einer Zufallssimulation, aber es verdeutlicht das Problem. Wenn man sich den p-Wert immer wieder ansieht und das Experiment abbricht, sobald p < 0,05 ist, steigt der Fehler vom Typ I und wird größer als 5%.

Beispiel für den Verlauf des p-Wertes während eines Tests

Testgruppengröße & Testzeitraum

Zudem sollte vorab festgelegt werden, wie groß die Testgruppen sein müssen und wie lange der Test laufen soll.

Darüber hinaus muss der Testzeitraum sorgfältig gewählt werden. So sollte zum Beispiel sichergestellt werden, dass der Test nicht nur zu bestimmten Uhrzeiten oder Wochentagen läuft. Praktiker empfehlen zudem, dass ein Test nicht zu lange laufen sollte, um schnell auf Ergebnisse reagieren zu können und andere Marketingkampagnen nicht zu behindern.

Beispiel in R

Der folgende Code zeigt Ihnen, wie Sie den Unterschied zwischen zwei Gruppen in R testen, z. B. bezüglich Klickraten oder Conversion-Raten. Sie können den Code auf Ihre eigenen Daten anwenden, indem Sie die URL zu den Beispieldaten durch Ihren Dateipfad ersetzen. Um den Unterschied zwischen zwei Raten zu testen, können Sie die Funktion prop.test verwenden, die dem Chi-Quadrat-Test von Pearson entspricht. Für kleine Stichproben sollten Sie stattdessen den exakten Fisher-Test verwenden. prop.test gibt einen p-Wert und ein Konfidenzintervall für die Differenz zwischen den beiden Raten zurück. Die Interpretation eines 95 %-Konfidenzintervalls ist wie folgt: Wenn eine solche Analyse mehrmals durchgeführt wird, dann würden 95 % der angezeigten Konfidenzintervalle die wahre Differenz enthalten.

library(readr)

# Dateipfad angeben:
dataPath <-
  "https://www.inwt-statistics.de/data/exampleDataABtest.csv"

# Daten lesen
data <- read_csv(file = dataPath) 

# Überprüfun der Struktur der Daten
str(data) 
## $ group      : chr [1:1000] "A" "A" "A" "A" ...
## $ date       : Date[1:1000], format: "2023-06-05" "2023-06-04" "2023-06-02" "2023-06-05" ...
## $ clickedTrue: num [1:1000] 0 0 0 0 0 0 0 0 0 1 ...

# Gruppentyp in Faktor konvertieren 
data$group <- as.factor(data$group) 

# den Typ der Click-through-Variable in Faktor konvertieren
data$clickedTrue <- as.factor(data$clickedTrue) 
levels(data$clickedTrue) <- c("0", "1")

# Berechnung der Häufigkeiten & Proportionstest 
# (Häufigkeitstabelle mit Erfolgen in der ersten Spalte)
freqTable <- table(data$group, data$clickedTrue)[, c(2,1)] 

# Häufigkeitstabelle ausgeben
freqTable 
##    
##       1   0
##   A  20 480
##   B  40 460

# Signifikanztest
prop.test(freqTable, conf.level = .95)

## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  freqTable
## X-squared = 6.4007, df = 1, p-value = 0.01141
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.071334055 -0.008665945
## sample estimates:
## prop 1 prop 2 
##   0.04   0.08

Erweiterungen und Verbesserungen im A/B-Testing

Mit fortschreitender Technik und Methodik gibt es immer neue Ansätze, um das A/B-Testing weiter zu verbessern. Zwei solcher Ansätze sind das bayesianische A/B-Testing und die Verwendung von Multi-Armed Bandits.

Bayesianische Ansätze

Bayesianische A/B-Tests nutzen die Methode der Bayes'sche Statistik, um nicht nur festzustellen, ob ein Unterschied besteht, sondern auch, wie groß dieser Unterschied wahrscheinlich ist und wie sicher wir in dieser Aussage sein können. Es liefert ein Wahrscheinlichkeitsverteilungsmodell, das einen kontinuierlichen Einblick in die erwartete Leistung jeder Variante gibt, basierend auf den bisher gesammelten Daten.

Ein Vorteil des bayesianischen A/B-Tests ist, dass er - im Gegensatz zum p-Wert - eine intuitive und leicht zu interpretierende Ausgabe liefert, z.B. "Es besteht eine 95%ige Wahrscheinlichkeit, dass Variante B besser ist als Variante A". Dies erleichtert die Kommunikation von Testergebnissen und die Entscheidungsfindung.

Ein weiterer Vorteil ist, dass bayesianische A/B-Tests flexibler sind als die üblichen frequentistische Tests. Sie ermöglichen es Ihnen, den Test jederzeit zu stoppen, sobald ausreichende Daten gesammelt wurden. Bayesianisches A/B-Testing ist eine mächtige Methode, aber sie erfordert auch ein höheres Maß an statistischem Verständnis und Sorgfalt bei der Anwendung, um Fehlinterpretationen und Missbrauch zu vermeiden.

Multi-Armed Bandits

Multi-Armed Bandits (MAB) sind ein Konzept aus dem Bereich des maschinellen Lernens und der künstlichen Intelligenz, das häufig zur Optimierung von A/B-Tests eingesetzt wird. Der Name "Multi-Armed Bandit" ist eine Anspielung auf einarmige Banditen (Spielautomaten), wobei der "Arm" des Banditen eine Option oder einen Slot darstellt, den man ziehen kann. MAB-Algorithmen sind dafür bekannt, dass sie das Dilemma zwischen Exploration (das Ausprobieren neuer Optionen und das Sammeln von Informationen) und Exploitation (das Nutzen der bisher gesammelten Informationen, um die bestmögliche Option zu wählen) effizient lösen. Sie tun dies, indem sie einen Kompromiss zwischen der Prüfung der Arme mit den bisher besten Ergebnissen (Exploitation) und der Prüfung der Arme, über die noch wenig bekannt ist (Exploration), suchen. Mehr zum Thema Multi Armed Bandits erfahren Sie in unserem Blogartikel Multi-Armed Bandits als Alternative zum A/B-Test.

Links:

Weitere Teile der Artikelreihe:

2019-09-26 by Marina Wyss