La saturación de e-mails en nuestra carpeta de entrada, el poco interés por la información contenida en las comunicaciones, el bajo índice de apertura de los e-mails y, en definitiva, la reducción de la eficacia del e-mailing ha popularizado la utilización de Tests A/B. De hecho, en los Programas de Fidelización B2B, siendo el e-mailing un canal directo de comunicación con los usuarios del Programa (además de la Fuerza de Ventas), es fundamental para mantener la actividad de este y el contacto con el cliente. El Test A/B (o split testing) es una herramienta que utilizamos para saber cuál, entre dos opciones, tiene mayor nivel de aceptación entre dos muestras aleatorias de nuestro mercado de manera que pueda inferirse el resultado a toda la población. Sin embargo, realizar un Test A/B no es tan sencillo como mandar a dos listas de envío diferentes de mi target un e-mail con un asunto diferente.

El Test A/B es una herramienta de estadística inferencial no descriptiva

Realizar un Test A/B sólo tiene sentido si se puede extrapolar el resultado a la población. Esto que es obvio (si no, para qué hacerlo) no se realiza casi nunca. De nada me sirve ver que, dentro de dos muestras aleatorias de mi población, abren más mi e-mail con la versión A de mi “Asunto” que con la versión B, por ejemplo. Lo realmente importante es que esa información sea estadísticamente representativa y se de en un porcentaje alto de los casos. Esto sólo se podrá saber si el estudio se ha realizado con la metodología correcta.

En un Test A/B lo que se realiza es la validación o el rechazo de la hipótesis nula (H0) frente a otra hipótesis alternativa (H1) que pensamos puede ser cierta si la hipótesis nula no es probable que sea cierta. La “fuerza de la evidencia” de que sea o no probable la hipótesis nula la mide el p-value.

Un ejemplo:

Enviamos un e-mail a dos muestras diferentes con un CTA (Call-to-action) de una promoción de nuestro Programa de Fidelización. Queremos medir el CTR (Click-through rate) y obtenemos los siguientes resultados:

  • Control: 550 usuarios. Click-throughs: 35. Por lo tanto, el CTR es igual a 6.4%.
  • Challenge: 530 usuarios. Click-throughs: 47. El CTR es igual a 8.9%.

Aparentemente la segunda opción es la mejor. De menos usuarios (530) se consiguieron más click-throughs que del grupo de control  (550). De hecho, hubo 2.5 puntos porcentuales más. La estadística descriptiva daría como buena la opción del challenge. Sin embargo, aplicando estadística inferencial podríamos saber si el resultado es estadísticamente significativo o es equívoco. Estos datos tienen un p-value de 0.06 lo que significa que está fuera de un nivel de confianza mínimo del 95% (normalmente está entre 95% y 99%). Aunque aparentemente el challenge funcionó mejor no podemos tomarlo como bueno.

Sin embargo, si los resultados son los siguientes:

  • Control: 550 usuarios. Click-throughs: 35. Por lo tanto, el CTR es igual a 6.4%.
  • Challenge: 530 usuarios. Click-throughs: 56. El CTR es igual a 10.6%.

En este caso el p-value es de 0.007. Este resultado está dentro de un alto nivel de confianza (99.3%). En este caso rechazamos la hipótesis nula y aceptamos la alternativa.

El p-value se calcula a partir de la medición de la diferencia entre los valores esperados y los observados. Se calculan los grados de libertad (en el Split test será 1) y se establece el nivel de confianza (95% o 99%). Posteriormente se buscan los valores en unas tablas que utilizan los investigadores y estadísticos, llamadas de Chi-square. Sin embargo, se puede calcular de una manera infinitamente más sencilla con la función de “Análisis de Datos” de Excel. Incluso hay calculadores en la web que se pueden utilizar sin restricciones.

El tipo de muestreo y el tamaño de la muestra importan

En estadística hay diferentes tipos de muestreo: aleatorio, sistemático, estratificado, de bola de nieve, etc. En el caso de un Programa de Fidelización es seguro que los usuarios estén segmentados en base a características comunes que los definen (ej. Nivel de actividad, volumen de compra, potencial según tamaño, etc.). Al segmentar lo que hacemos es dividir la población en “estratos” más pequeños que, precisamente, por ser distintos debemos tratar de una manera diferente. Por eso esperamos comportamientos diferentes. Al realizar el Test A/B debemos mantener la segmentación de la BBDD y, por lo tanto, hacer un muestreo estratificado.

El tamaño de la muestra de cada segmento depende del tamaño de la población, del nivel de confianza y del intervalo de confianza. Está claro que el tamaño de la población es el número de usuarios de nuestra BBDD. El intervalo de confianza es el rango dentro del cual esperamos obtener los resultados una vez que se realice el envío definitivo, en el caso del e-mailing. El nivel de confianza se refiere a qué nivel de seguros podemos estar de que los resultados de la muestra caerán dentro del intervalo de confianza marcados. Si queremos un nivel mayor, mayor tundra que ser el tamaño de la muestra.

En el caso de los Programas de Fidelización B2B es muy normal tener poblaciones muy reducidas (ej. Entre 500 y 3.000 usuarios). Al hacer el muestreo por segmentos, las poblaciones de cada segmento quedan tremendamente reducidas. El problema reside en que, para obtener resultados estadísticamente representativos, se puede llegar a necesitar hacer pruebas hasta con el 95% de nuestros usuarios. Por norma general para una población de menos de 1.000 usuarios, y aunque no sea estadísticamente aceptable, se puede dividir la población por 2 y tomar el 50%. Esto, que es tirar por la tangente, al menos puede darnos información según vayamos realizando tests a lo largo del tiempo.

Dependiendo del test que queramos hacer, la muestra puede reducirse mucho. Por ejemplo, si queremos medir el CTR, primero los usuarios tendrán que abrir el e-mail. Si necesitamos una muestra de 500 usuarios para que el test sea estadísticamente significativo y, haciendo un envío a 500, lo abren 300, nuestra muestra perderá toda representatividad porque la componen 200 usuarios menos.

En la web hay muchos calculadores del tamaño de la muestra, en Zókora utilizamos este.

Algunas cosas podemos medir con un Test A/B en nuestras campañas de e-mailing

Resumen

El Test A/B es una herramienta muy útil para seleccionar, entre dos opciones, la que más posibilidades de conversión tendrá. En este post hemos hablado del Split test con una sola variable, pero también se podría hacer un test donde valorar diferentes alternativas a la vez (ej. Texto, imagen y personalización) lo cual requiere una metodología más compleja de análisis multivariable. Habitualmente se utiliza en el diseño web, pero es cada vez más utilizado en e-mail marketing. Sin embargo, toda su utilidad reside en la aplicación de una metodología estadística adecuada para validad las hipótesis y para tomar una muestra representativa de la población.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *