Blog

René Kulka
07.01.2011

testen

A/B-Test-Ergebnisse auf Signifikanz prüfen

Eine der effizientesten Möglichkeiten, die eigenen E-Mail-Marketing-Maßnahmen sukzessive zu verbessern, sind A/B-Split-Tests. Die Idee: Vor dem Hauptversand wird per Zufallsauswahl ein Teilsegment des Verteilers festgelegt, mit dem zwei Ausprägungen eines Erfolgsparameters, etwa zwei Betreffzeilen, im Hinblick auf die Performance-Auswirkung, z. B. auf die Öffnungsrate, geprüft werden. Das Teilsegment wird hierzu in eine Kontrollgruppe A und eine Testgruppe B gespalten. Der „Sieger“, A oder B, wird anschließend für den Hauptversand verwendet. Klingt kinderleicht und sinnvoll? Ist es auch…

Nicht mal jeder Zweite testet – und verschenkt damit Potenzial

MarketingSherpa: Was wird getestet?
MarketingSherpa: Was wird getestet?
Testenswerte Merkmale gibt es beim Newsletter viele. Alles, was sich in den Key Performance Indikatoren niederschlägt, ist potenziell interessant. Einer Untersuchung von MarketingSherpa von Mitte 2009 zufolge stehen Betreffzeilen und Angebote bzw. Handlungsaufforderungen in der Gunst der Fachleute für Tests ganz weit oben. Nicht zu Unrecht, besitzen beide doch mutmaßlich einen sehr großen und unmittelbaren Erfolgshebel.

Dennoch nutzt nicht mal jeder Zweite (!) die Möglichkeit, zu testen, sondern plant dies bestenfalls für die Zukunft (vgl. Abb.). Absolit kam im Rahmen einer Befragung von 270 Unternehmen Anfang 2010 zu einem ähnlichen Ergebnis: Nur 33% probieren verschiedene E-Mail-Varianten; 48% wollen dies künftig berücksichtigen. Dabei zeigen Testergebnisse (vgl. auch Schlagwort „test“ im Blog), immer wieder, wie mächtig dieses Instrument sein kann. Was ist nicht weiß, macht mich nicht heiß? Oder woran liegt’s?

Handfeste Regeln erleichtern die Test-Beurteilung

E-Mail-Experte Mark Brownlow hörte sich kürzlich danach um, wo Hürden bestehen, Tests zu kultivieren. Fachleute äußerten eine Reihe möglicher Gründe. Beispiel: Oft ist die Identifikation eines klaren Gewinners beim Test schwierig: 15% vs. 20% Klickrate bei 125 Test-Empfängern je Gruppe – stecken hinter den +5 Prozentpunkten nur (uninteressante) zufällige oder (die gesuchten) systematische Einflüsse? Anders gesagt: Kann davon ausgegangen werden, dass der zusätzliche Erfolg reproduzierbar ist und sich beim nächsten Versand wieder einstellt?

Allein mit dem Bauchgefühl, das eh wenig „fachmännisch“ daherkommt, schwer zu sagen - ist die Stichprobe zu klein? Der Mittelwertunterschied groß genug? Gerade die Frage nach der Mindest-Stichprobengröße wird in Seminaren und gegenüber dem Support häufig gestellt. Gängige Daumenregeln, wie „ab 500…“, sind auch nicht wirklich befriedigend. Gut: Anders sähe es selbstredend aus bei 10% vs. 25% und 10.000 Empfängern, wo sich der Gewinner auch leicht intuitiv bewerten lässt;  aber solche Ergebnisse dürften eher selten zu erzielen sein. Ergo: Es bedarf handfester Regeln, nach denen die Güte und Reliabilität eines Split-Tests für alle Fälle überprüft werden kann. Und die existieren. In Form statistischer Tests…

Etwas Statistik und Mathe vorweg: Der ?2-Test erklärt

Statistische Testverfahren gibt es mit den verschiedensten Annahmen und Hypothesen zuhauf. Zur Prüfung eines A/B-Split-Tests wird klassischerweise ein Chi-Quadrat (?2)-Unabhängigkeitstest durchgeführt, der noch „Rechenschieber-Zeiten“ entstammt, aber deshalb nicht schlecht sein muss. Etwas genauer und log-basiert ist der neuerdings populäre G-Test. Mit beiden lässt sich prüfen, ob zwei qualitative Merkmale, wie „Variante“ (A=“20% Rabatt“|B=“50% Rabatt“) und „Zielerreichung“  (Ja=“Öffnung“|Nein=“Keine Öffnung“) voneinander unabhängig sind (Nullhypothese), oder abhängig (Alternativhypothese). Im letzteren Fall kann von einem statistisch signifikanten Zusammenhang ausgegangen werden, der unser Bauchgefühl bzw. unseren Magen bei der Test-Validierung beruhigt. Heißt: Die Öffnungsrate war vom Betreff abhängig.

Die Signifikanz des Zusammenhangs zwischen „Variante“ und „Zielerreichung“ bemisst sich nach einem festzulegenden Testniveau alpha, das auch als Irrtumswahrscheinlichkeit bezeichnet wird. Wird die Irrtumswahrscheinlichkeit von 1 subtrahiert, ergibt sich das sogenannte Konfidenzniveau. Das wird den meisten bereits in Foren etc. begegnet sein. Gängig sind etwa Signifikanzniveaus ?=0.10 (entspricht Konfidenz=90%), ?=0.05 (95%) und ?=0.01 (99%). Klar: Je signifikanter das Ergebnis, desto besser. Alles unterhalb einer Konfidenz von 95% entlockt den meisten Statistikern bestenfalls ein müdes Lächeln.

Der ?2-Test basiert für unseren A/B-Split auf einer 2x2 Kreuztabellierung: Die beiden Zeilen der Tabelle enthalten die Dimension „Variante“ mit den Ausprägungen „A“ und „B“, die Spalten beinhalten die Ausprägungen „Ja“ und „Nein“ für die Dimension „Zielerreichung“. Das Ziel kann dabei die Conversion auf der Landing Page, die Öffnung, der Klick oder Ähnliches sein. In der (4-Felder-)Tafel , die sich in der Literatur unter „Kontingenztabelle“ findet, werden dann die Häufigkeiten der durch den Test-Versand beobachteten Ereignisses eingesetzt.

Die Tabelle wird nun quasi dupliziert, wobei Anstelle der im Test beobachteten Häufigkeiten die sogenannten Erwartungswerte für die vier Merkmalskombinationen eingesetzt werden. Das sind die Werte, die sich rein rechnerisch ergeben müssten, wenn es keinen Zusammenhang zwischen „Variante“ und „Zielerreichung“ gäbe. Nämlich beispielsweise Zeilensumme_A * Spaltensumme_Ja / Gesamtsumme_E-Mails für den Fall „Variante A“ mit „Zielerreichung=Ja“.
Beobachtete (oben) und erwartete (unten, rot) Häufigkeiten
Beobachtete (oben) und erwartete (unten, rot) Häufigkeiten


Weichen nun die erwarteten von den beobachteten Werten stark voneinander ab, kann dies - ab einem gewissen Grad - als Abhängigkeit der Dimension „Zielerreichung“ von „Variante“ gewertet werden. Dann hat also der im Test untersuchte Parameter, etwa der Betreff, nach Maßgabe der Statistik tatsächlich einen Einfluss auf den Erfolg.

Und genau hier setzt der ?2-Unabhängigkeitstest an: Zur Berechnung der Prüfgröße für den Hypothesentest wird für alle Tabellen-Felder die beobachtete von der erwarteten absoluten Häufigkeit subtrahiert, dann quadriert und anschließend in Relation (/) zur erwarteten Häufigkeit gesetzt. ?2 ergibt sich als Summe dieser – im 2x2-Fall – vier Abweichungs-Terme.  Die empirische Testgröße ?2 wird nun mit der theoretischen Größe, die sich aus der ?2-Verteilung ergibt, verglichen. Verteilungsgrößen werden meist altmodisch in Tabellen abgelesen, deren Spalten unser Signifikanzniveau ? und deren Zeilen die Zahl der sogenannten Freiheitsgrade anführen. Letztere  sind im 4-Felder-Fall gleich 1. Der Test: Ist unser errechnetes ?2 größer als der Wert aus der Tabelle, kann die Nullhypothese verworfen werden – dann haben wir ein signifikantes Ergebnis!

Et voilà: Das Excel-Sheet zur Prüfung von A/B-Tests

Kaum einer wird Lust haben, sich am Wochenende einen ?2-Test in Excel zu basteln und dann mit der Test-Validierung bzw. dem Testen zu beginnen. Daher habe ich mich mal daran versucht. Anbei die XLS-Datei. Einfach downloaden und ein wenig mit der Stichprobengröße (= Zahl der Test-E-Mails) und der Konversions- bzw. Öffnungs- bzw. Klickraten für die beiden Varianten experimentieren, um ein Gefühl für die Auswirkungen auf die Signifikanz unten zu bekommen: Excel-Sheet “Split A/B-Calculator



Hinweis: Ein Problem beim klassischen ?2-Test ist, dass bei Erwartungswerten kleiner 5 respektive bei kleinen Stichproben Spalten und Zeilen nicht geeignet zusammengefasst werden können. Hierfür existieren verschiedene Korrekturansätze – beispielsweise von Fisher oder Yates. Letzteren habe ich im Sheet implementiert. Bei größeren Stichproben nähern sich beide an.