Glosario A/B Testing: 50+ Términos CRO Explicados

La optimización de la tasa de conversión tiene su propio lenguaje — y si no lo dominas, corres el riesgo de malinterpretar tus resultados, desalinear tus equipos y tomar decisiones basadas en suposiciones erróneas. Ya seas principiante en CRO buscando descifrar tu primer informe de experimentación, o especialista en marketing experimentado que desea estandarizar el vocabulario dentro de tu organización, este glosario exhaustivo cubre cada término esencial del ecosistema de pruebas A/B y experimentación. Guárdalo en favoritos, compártelo con tu equipo, y vuelve a él cada vez que un concepto necesite aclaraciones.

Conceptos fundamentales de las Pruebas A/B

Prueba A/B (Split Test) : Un experimento controlado en el que dos versiones de una única variable — una página web, un asunto de correo electrónico, un botón CTA, o cualquier otro elemento — se presentan simultáneamente a diferentes segmentos de tu audiencia para determinar cuál tiene mejor desempeño en una métrica definida.

Control (Variante A) : La versión original, sin modificar, del elemento probado. Sirve como referencia contra la cual se miden todas las demás variantes. Cada experimento debe tener un control claramente definido para producir comparaciones válidas.

Variante (Variante B, C, D…) : La o las versión(es) modificada(s) del elemento probado. Cada variante difiere del control en al menos un punto específico — un título diferente, un color, un diseño o un texto. Cuando se prueban múltiples variantes simultáneamente, el experimento se convierte en una prueba multivariada.

Hipótesis : Una predicción estructurada y refutable que articula el cambio realizado, la razón por la que esperas una mejora en el desempeño, y la métrica medida. Una hipótesis sólida sigue esta estructura: "Si [modificamos X], entonces [la métrica Y] va a [aumentar/disminuir] porque [justificación conductual Z]." Las hipótesis débiles producen pruebas no concluyentes.

CONSEJO PRO: REDACTA TU HIPÓTESIS ANTES DE CONSTRUIR

Los equipos que documentan sus hipótesis antes de lanzar pruebas tienen significativamente más probabilidades de extraer aprendizajes accionables — incluso a partir de variantes perdedoras. La disciplina de articular tu razonamiento fuerza la claridad y evita la racionalización posterior de los resultados.

Términos estadísticos que debes dominar absolutamente

Significancia Estadística : Un umbral que indica la probabilidad de que la diferencia observada entre tu control y tu variante no sea debida al azar. Expresada como valor p, la significancia estadística generalmente se establece en 95% (p < 0,05), lo que significa que hay menos del 5% de probabilidad de que el resultado sea debido al azar. Declarar un ganador antes de alcanzar la significancia estadística es uno de los errores más comunes y costosos en CRO.

Valor P : La probabilidad de obtener un resultado al menos tan extremo como el observado, asumiendo que la hipótesis nula es verdadera. Un valor p de 0,03 significa que hay un 3% de probabilidad de que la diferencia observada sea debida a variación aleatoria. Los valores p más bajos indican evidencia más sólida contra la hipótesis nula.

Intervalo de Confianza (IC) : Un rango de valores dentro del cual se espera que se sitúe el verdadero tamaño del efecto con una probabilidad dada (ej: 95%). Un intervalo de confianza estrecho sugiere una estimación más precisa; un intervalo amplio señala una alta variabilidad y puede requerir una muestra más grande.

Potencia Estadística : La probabilidad de que una prueba detecte correctamente un efecto real cuando existe. Generalmente establecida en 80%, la potencia depende del tamaño de la muestra, del tamaño del efecto y del nivel de significancia. Las pruebas con baja potencia producen altas tasas de falsos negativos — se pierden mejoras reales.

Error de Tipo I (Falso Positivo) : Concluir erróneamente que una variante supera el control cuando no existe diferencia real. Controlado por su nivel de significancia (nivel alfa).

Error de Tipo II (Falso Negativo) : No detectar una mejora real que existe. Controlado por su potencia estadística (nivel beta).

Hipótesis Nula : La hipótesis por defecto según la cual no hay diferencia entre el control y la variante. Su experimento intenta reunir suficiente evidencia para rechazar esta hipótesis.

95%

Nivel de confianza estándar para declarar un ganador

80%

Potencia estadística mínima recomendada por prueba

2–4 semanas

Duración mínima típica para capturar ciclos de tráfico semanales

Métricas de experimentación e indicadores clave de rendimiento

Tasa de Conversión (CR) : El porcentaje de visitantes que realizan una acción deseada (compra, registro, envío de formulario, etc.) dividido por el número total de visitantes. Es la métrica principal en la mayoría de pruebas A/B y el fundamento del trabajo de optimización de conversiones.

Métrica Principal (Métrica Objetivo) : El indicador clave de rendimiento más importante que su prueba está diseñada para mover. Cada experimento debe tener exactamente una métrica principal para evitar el problema de comparaciones múltiples. Las métricas secundarias proporcionan contexto adicional pero no deben orientar la decisión final.

Métricas Secundarias (Métricas de Salvaguarda) : Indicadores clave de rendimiento complementarios monitoreados para asegurar que una variante ganadora no impacte negativamente otros resultados comerciales importantes. Por ejemplo, una variante que aumenta la tasa de adición al carrito pero reduce el valor promedio del pedido puede no constituir una ganancia neta.

Valor Promedio del Pedido (AOV) : El valor monetario promedio de las transacciones durante un período determinado. Una métrica crítica para pruebas A/B de comercio electrónico, particularmente al optimizar flujos de venta adicional, visualización de precios u ofertas agrupadas.

Ingresos Por Visitante (RPV) : Ingresos totales divididos por el número total de visitantes. El RPV a menudo se prefiere a la tasa de conversión en contextos de comercio electrónico porque captura simultáneamente la tasa de conversión y el valor de los pedidos, proporcionando una imagen más completa del rendimiento de las variantes.

Tasa de Rebote : El porcentaje de visitantes que abandonan una página sin interactuar más. Aunque no siempre es una métrica principal, un aumento significativo en la tasa de rebote en una variante puede señalar una experiencia de usuario negativa que merece investigación.

Tasa de Clics (CTR) : La proporción de usuarios que hacen clic en un elemento específico (llamada a la acción, enlace, imagen) en relación con el número total de usuarios que lo vieron. Se utiliza comúnmente como métrica principal al probar elementos por encima de la línea de flotación o campañas de correo electrónico.

Términos de diseño y metodología de pruebas

Tamaño de la Muestra : El número de visitantes (o sesiones) requeridos en cada variante para obtener resultados estadísticos confiables. Los tamaños de muestra insuficientes conducen a pruebas subpotentes y conclusiones poco confiables. Utilice una calculadora de tamaño de muestra antes de lanzar cualquier experimento para evitar conclusiones prematuras.

Asignación de Tráfico : El porcentaje del tráfico total del sitio asignado a un experimento y la distribución entre variantes. Una división 50/50 entre control y una variante es la asignación estadísticamente más eficiente para una prueba A/B estándar.

Aleatorización : El proceso de asignación de visitantes a grupos de control o variante sin sesgo. Una aleatorización correcta garantiza que la única diferencia sistemática entre los grupos sea la variante probada, haciendo válida la inferencia causal.

Segmentación : División de su audiencia en subgrupos basados en atributos (tipo de dispositivo, fuente de tráfico, geografía, comportamiento) para analizar cómo diferentes segmentos responden a las variantes. Los insights a nivel de segmento pueden revelar oportunidades invisibles a nivel agregado.

Efecto de Novedad : Un cambio temporal en el comportamiento causado por la novedad de una variante en lugar de su verdadera superioridad. Los usuarios pueden interactuar de manera diferente con un nuevo diseño simplemente porque es inusual. Ejecutar las pruebas el tiempo suficiente para superar las respuestas iniciales de novedad es esencial para resultados precisos.

Sesgo Estacional : Distorsión de los resultados de la prueba causada por ejecutar experimentos durante períodos de tráfico atípicos (eventos promocionales, festividades, etc.) que no representan el comportamiento normal de los usuarios. Siempre tenga en cuenta su calendario de pruebas en relación con sus ciclos comerciales.

Prueba Multivariante (MVT) : Un experimento que prueba múltiples variables y sus interacciones simultáneamente. A diferencia de las pruebas A/B, el MVT revela qué combinación de cambios produce el mejor resultado. Requiere significativamente más tráfico para alcanzar la significancia.

Prueba AA : Una prueba en la que ambas variantes son idénticas (control vs control). Se utiliza para validar que su herramienta de prueba aleatoriza correctamente el tráfico y que su tasa de conversión de referencia es estable antes de lanzar experimentos reales.

ADVERTENCIA: MONITOREAR LOS RESULTADOS DURANTE LA PRUEBA

Verificar los resultados antes de alcanzar su tamaño de muestra predeterminado y luego detenerse prematuramente cuando ve un "ganador" se llama peeking — e infla dramáticamente su tasa de falsos positivos. Siempre defina sus criterios de parada antes de lanzar una prueba.

Términos de Proceso y Estrategia CRO

Optimización de la Tasa de Conversión (CRO) : El proceso sistemático de aumentar el porcentaje de visitantes de un sitio web que realizan una acción deseada. CRO combina datos cuantitativos (análisis, mapas de calor), investigación cualitativa (entrevistas con usuarios, encuestas) y experimentación controlada para realizar mejoras basadas en evidencia.

Hoja de Ruta de Experimentación : Un backlog priorizado de pruebas planificadas, organizadas por impacto esperado, facilidad de implementación y alineación estratégica. Una hoja de ruta bien mantenida garantiza que su programa de pruebas se ejecute continuamente y acumule aprendizajes a lo largo del tiempo.

Puntuación ICE: Un marco de priorización que clasifica las ideas de pruebas por Impacto (efecto potencial en la métrica principal), Confianza (certeza de que el cambio funcionará) y Facilidad (esfuerzo de implementación). Cada dimensión se califica de 1 a 10 y se promedia. Otros marcos populares incluyen PIE (Potencial, Importancia, Facilidad) y PXL.

Velocidad de Pruebas: El número de experimentos lanzados por unidad de tiempo (generalmente por mes o trimestre). Una velocidad de pruebas más alta, combinada con el rigor apropiado, acelera el ritmo al que una organización acumula aprendizajes de optimización y compone las ganancias de rendimiento.

Variante Ganadora: La variante que supera estadísticamente el control en la métrica principal al nivel de confianza predeterminado. Una variante ganadora debe implementarse de forma permanente y sus aprendizajes documentarse para la generación de futuras hipótesis.

Prueba No Concluyente: Una prueba que no alcanza significancia estadística en el tiempo o tamaño de muestra asignados. En lugar de un fracaso, las pruebas no concluyentes proporcionan información valiosa: el cambio probado probablemente tiene un efecto negligible en la métrica, o la hipótesis debe refinarse.

Velocidad vs Calidad de Experimentos: Una tensión común en los programas de CRO. Lanzar muchas pruebas de baja calidad produce ruido; lanzar muy pocas con mucho esfuerzo crea cuellos de botella. El equilibrio óptimo depende del tráfico disponible, la capacidad del equipo y la madurez organizacional.

Términos de experiencia de usuario y comportamiento

Mapa de Calor: Una representación visual de los datos de interacción del usuario en una página web, mostrando dónde hacen clic los usuarios, mueven el cursor o desplazan la página. Los mapas de calor son herramientas de investigación cualitativa utilizadas para generar hipótesis para pruebas A/B, no para validarlas.

Grabación de Sesión: Una reproducción del recorrido de un usuario individual en su sitio web, capturando movimientos del ratón, clics, desplazamientos e interacciones con formularios. Las grabaciones de sesión son valiosas para identificar puntos de fricción y comportamientos inesperados del usuario que informan las hipótesis de prueba.

Fricción: Cualquier elemento de la experiencia del usuario que crea carga cognitiva, confusión o resistencia, reduciendo la probabilidad de conversión. La fricción puede ser visual (diseño sobrecargado), funcional (tiempo de carga lento) o psicológica (propuesta de valor poco clara).

Sesgo Cognitivo: Patrones sistemáticos en el pensamiento humano que influyen en la toma de decisiones, a menudo de manera predecible. Los profesionales de CRO aprovechan sesgos como la prueba social, la escasez, el anclaje y la aversión a la pérdida para diseñar experiencias más persuasivas.

Por Encima de la Línea de Flotación (Above the Fold): La porción de una página web visible para los usuarios sin desplazarse. Los elementos por encima de la línea de flotación reciben una atención desproporcionada y son candidatos prioritarios para pruebas A/B, particularmente títulos, imágenes hero y CTAs principales.

Prueba Social: Evidencia de que otras personas han experimentado positivamente un producto o servicio (reseñas, calificaciones, testimonios, número de usuarios). La prueba social es uno de los elementos de mayor apalancamiento para probar en páginas de productos y embudos de compra.

Llamada a la Acción (CTA) : Un botón, enlace o invitación que dirige a los usuarios hacia una acción de conversión deseada. El texto, color, tamaño, ubicación y contexto del CTA se encuentran entre los elementos más frecuentemente probados en los programas de CRO.

Términos técnicos e implementación

Fragmento JavaScript / Etiqueta : Un pequeño fragmento de código insertado en el HTML de un sitio web que permite a una plataforma de prueba A/B servir diferentes variantes a los visitantes. La mayoría de las herramientas de prueba modernas se despliegan a través de una única etiqueta JavaScript asincrónica.

Efecto de Parpadeo : Un breve destello visual que ocurre cuando la página original se carga antes de que se apliquen las modificaciones CSS o JavaScript de la variante. El parpadeo degrada la experiencia del usuario y puede introducir sesgo en los resultados de las pruebas. Se mitiga cargando el fragmento de prueba de forma sincrónica o utilizando scripts anti-parpadeo.

Prueba del Lado del Servidor (Server-Side Testing) : Una prueba A/B implementada a nivel de servidor, donde la lógica de variante se ejecuta antes de que la página se entregue al usuario. La prueba del lado del servidor elimina el parpadeo, permite una personalización más profunda y es preferida para probar la lógica de aplicación, precios o cambios de algoritmo.

Prueba del Lado del Cliente (Client-Side Testing) : Una prueba A/B implementada en el navegador a través de JavaScript después de que la página se carga. Más rápida de desplegar y no requiere intervención del desarrollador para la mayoría de los cambios, lo que la convierte en el enfoque predeterminado para experiencias visuales en páginas de destino y páginas de producto.

Bandera de Función : Una técnica de desarrollo de software que permite a los equipos activar o desactivar funcionalidades para segmentos de usuarios específicos sin desplegar nuevo código. Las banderas de función son una herramienta fundamental para la experimentación del lado del servidor y los despliegues progresivos.

Personalización : La entrega de contenidos, ofertas o experiencias adaptadas dinámicamente a usuarios individuales o segmentos basados en datos de comportamiento, demográficos o contextuales. La personalización y las pruebas A/B son disciplinas complementarias — las pruebas validan qué experiencias personalizadas generan más valor.

"El objetivo del CRO no es lanzar más pruebas — es tomar mejores decisiones más rápidamente. Cada término de este glosario representa un punto de decisión donde el rigor separa a los ganadores del ruido."

Conceptos de experimentación avanzados

Estadística Bayesiana : Un marco estadístico alternativo a los métodos frecuentistas (valores p) que integra el conocimiento previo y actualiza continuamente las estimaciones de probabilidad a medida que se acumulan los datos. Las pruebas bayesianas permiten reglas de parada más flexibles y producen resultados expresados en probabilidad de ser el mejor en lugar de umbrales de significancia.

Estadística Frecuentista : El enfoque estadístico tradicional utilizado en la mayoría de las plataformas de prueba A/B, basado en valores p y tamaños de muestra fijos. Los métodos frecuentistas requieren tamaños de muestra y umbrales de significancia predeterminados para mantener tasas de error válidas.

Prueba Secuencial: Un método estadístico que permite el monitoreo continuo de resultados con tasas de falsos positivos controladas, resolviendo el problema del peeking inherente a las pruebas frecuentistas con horizonte fijo. La prueba secuencial es cada vez más adoptada por programas de experimentación maduros.

Efectos de Interacción: Cuando dos o más pruebas competidoras influyen en los mismos usuarios, su efecto combinado puede diferir del de cada prueba ejecutada de forma aislada. Los efectos de interacción son un riesgo clave en programas de pruebas de alta velocidad y requieren una planificación cuidadosa de experimentos o grupos de exclusión mutua.

Regresión hacia la Media: La tendencia estadística de los resultados extremos a acercarse a la media con el tiempo. Los profesionales de CRO deben ser conscientes de que una variante que muestra un lift inusualmente grande en los datos iniciales puede converger hacia un resultado más modesto a medida que aumenta el tamaño de la muestra.

Efectos de Red: En productos sociales o basados en recomendaciones, asignar usuarios a diferentes variantes puede crear efectos de desbordamiento donde la experiencia de un usuario es influenciada por la variante en la que se encuentran sus contactos. Esto viola el supuesto de independencia de las pruebas A/B estándar y requiere una aleatorización basada en clusters.

Documentación de Experimentos: La práctica de registrar sistemáticamente la hipótesis, configuración, resultados y aprendizajes de cada prueba en un repositorio compartido. Las organizaciones con sólidas prácticas de documentación construyen conocimiento institucional que se compone con el tiempo y evita repetir experimentos fallidos.

Conclusión

Dominar la terminología de CRO no es un ejercicio académico — es un requisito práctico para realizar experimentos rigurosos, comunicar resultados claramente entre equipos y construir una cultura de toma de decisiones basada en evidencia. Cada término en este glosario representa un concepto que, cuando se entiende mal, puede llevar a tráfico desperdiciado, conclusiones falsas y oportunidades de ingresos perdidas. Utilice esta referencia para auditar su vocabulario actual, alinear su equipo en definiciones compartidas y elevar la calidad de cada experimento que lance. Los profesionales de CRO más efectivos son aquellos que combinan el rigor estadístico con la intuición conductual — y eso comienza por dominar el lenguaje con fluidez.

A/B TestingCROOptimización de Tasa de ConversiónGlosario MarketingTerminologíaOptimización de ConversiónPruebas EstadísticasUX/UIAnalyticsEstrategia Digital

Lanza tus primeras pruebas A/B en menos de 10 minutos, sin desarrollador.

Consultar el glosario completo