Marco Teórico
CRISP-DM se ha consolidado como el marco de referencia para estructurar proyectos de analítica y ciencia de datos, proporcionando un lenguaje común entre negocio y tecnología. Su fortaleza radica en definir fases claras y objetivos bien delimitados, permitiendo ordenar el trabajo analítico en contextos organizacionales complejos.
En la práctica, muchos proyectos avanzan hacia modelado sin haber hecho explícitos los supuestos de negocio ni haber evaluado si las variables necesarias existen, son observables o resultan económicamente viables de obtener. Esto deriva en análisis técnicamente correctos pero estratégicamente irrelevantes, o en bloqueos tardíos cuando se descubre que los datos clave no están disponibles o su costo supera el beneficio esperado.
¿Cómo asegurar, desde las primeras fases de , que los esfuerzos analíticos estén alineados con decisiones reales de negocio y sustentados en datos factibles, evitando inversiones innecesarias y expectativas mal calibradas?
La incorporación de la Matriz de Hipótesis como artefacto complementario permite traducir supuestos estratégicos en hipótesis contrastables, evaluar tempranamente la viabilidad de las variables requeridas —incluyendo el uso de proxies cuando sea necesario— y priorizar el trabajo analítico por impacto y factibilidad. Con ello, CRISP-DM evoluciona de un marco metodológico a un sistema disciplinado de toma de decisiones basadas en datos.
Definición
La Matriz de Hipótesis es un artefacto de gobierno analítico que traduce supuestos estratégicos del negocio en hipótesis falsables y testables con datos, dejando explícito:
con qué variables y datos, mediante qué tipo de análisis o modelo, bajo qué criterio se considera válida, y qué decisión de negocio se habilita. No es un entregable estadístico ni técnico. Es un instrumento de priorización, alineación y control de valor previo al modelado.
Ubicación dentro de CRISP-DM
CRISP-DM no prescribe artefactos específicos; describe fases y objetivos. La Matriz de Hipótesis se incorpora de manera natural como artefacto transversal entre las siguientes fases:
Business Understanding
Captura los supuestos causales relevantes del negocio. Traduce objetivos estratégicos en hipótesis explícitas. Facilita la alineación temprana con stakeholders. Data Understanding
Contrasta las hipótesis contra disponibilidad, calidad y granularidad de los datos. Descarta hipótesis no soportables empíricamente. Prioriza esfuerzos analíticos con base en factibilidad. La matriz no sustituye ninguna fase de CRISP-DM; las operacionaliza.
Alcance
Incluye
Definición estructurada de hipótesis de negocio. Identificación explícita de KPIs y drivers. Trazabilidad entre hipótesis, datos y decisiones. Priorización por impacto y viabilidad. Excluye
Ingeniería detallada de variables. Selección de algoritmos específicos. Ajuste de hiperparámetros. Validación estadística profunda. En términos operativos: decide dónde invertir esfuerzo analítico, no cómo ejecutar el modelado.
Principios de diseño
La Matriz de Hipótesis debe cumplir con los siguientes principios:
MECE: hipótesis claras, no redundantes. Falsabilidad: toda hipótesis debe poder refutarse con datos. Orientación a decisión: cada hipótesis debe habilitar una acción concreta. Lenguaje de negocio: entendible por directivos no técnicos. Economía analítica: minimizar experimentación sin impacto.
Construcción
Nota crítica de factibilidad
Durante el proceso es común que algunas hipótesis requieran variables inexistentes, no observables directamente o económicamente inviables de obtener. La Matriz de Hipótesis debe capturar explícitamente estas brechas para evitar bloqueos tardíos en Modeling y sobreinversión analítica.
Estas situaciones no invalidan la hipótesis; obligan a reformularla, aproximarla o descartarla con criterio económico.
La construcción de la matriz sigue un flujo disciplinado de seis pasos:
Paso 1. Objetivo de negocio
Definir la decisión que se desea habilitar (ej. pricing, churn, inventarios, riesgo).
Paso 2. Formulación de hipótesis
Redactar enunciados causales claros y falsables, conectados con el objetivo.
Paso 3. Variable objetivo (KPI)
Especificar el indicador que se verá impactado si la hipótesis se valida.
Paso 4. Drivers y señales
Identificar variables explicativas candidatas y su racional económico.
Paso 5. Datos y método de contraste
Definir fuentes de datos, nivel de granularidad y tipo de validación (EDA, estadística, modelo). En este paso se debe evaluar explícitamente:
Existencia real de las variables requeridas. Viabilidad económica y operativa de su obtención. Necesidad de proxies, variables latentes o aproximaciones. Trade-offs entre precisión analítica y costo de captura. Si una variable clave no existe o su costo excede el beneficio esperado, la hipótesis debe ajustarse o reclasificarse.
Definir fuentes de datos, nivel de granularidad y tipo de validación (EDA, estadística, modelo).
Paso 6. Criterio de éxito y decisión
Establecer umbrales claros y la acción a ejecutar según el resultado.
Estructura estándar
La matriz se documenta, como mínimo, con las siguientes columnas:
Disponibilidad / Viabilidad La inclusión explícita de viabilidad evita dependencias implícitas de datos inexistentes y permite decisiones tempranas de reformulación.
Uso operativo y beneficios
La Matriz de Hipótesis se utiliza como:
insumo de arranque para proyectos CRISP-DM, artefacto de revisión en comités ejecutivos, backlog analítico previo a la fase de Modeling, mecanismo de descarte temprano de hipótesis no viables, evidencia de gobierno y rigor metodológico. Una vez validada, la matriz se congela y se utiliza como referencia durante Modeling, Evaluation y Deployment.
La Matriz de Hipótesis se utiliza como:
insumo de arranque para proyectos CRISP-DM, artefacto de revisión en comités ejecutivos, backlog analítico previo a la fase de Modeling, evidencia de gobierno y rigor metodológico. Una vez validada, la matriz se congela y se utiliza como referencia durante Modeling, Evaluation y Deployment.
Beneficios clave
La incorporación sistemática de la Matriz de Hipótesis permite:
Reducir análisis sin impacto. Alinear expectativas de negocio y analítica. Elevar la credibilidad del equipo de datos. En conjunto, convierte a CRISP-DM de un marco metodológico en un sistema disciplinado de toma de decisiones basadas en datos.
La adopción de la Matriz de Hipótesis es una práctica de madurez analítica que distingue a organizaciones que usan datos de aquellas que deciden con datos.anizaciones que usan datos de aquellas que deciden con datos.
Proceso estándar BDS
Construcción y uso de la Matriz de Hipótesis en CRISP-DM
1. Activación del proceso
El proceso se activa antes de cualquier modelado, durante Business Understanding, cuando existe:
un objetivo de negocio explícito, un sponsor con capacidad de decisión, una expectativa de impacto económico.
Regla BDS: no se escribe una sola línea de código sin matriz preliminar.
2. Elicitación estructurada de hipótesis
El equipo BDS conduce una sesión guiada (taller) con negocio para extraer supuestos causales, no requerimientos técnicos.
Resultado esperado:
hipótesis formuladas en lenguaje de negocio, cada una vinculada a una decisión concreta, sin discutir todavía algoritmos.
¡Antipatrones a evitar!:
“veamos qué dicen los datos” “corramos un modelo y luego vemos”
3. Traducción analítica inicial
BDS traduce cada hipótesis a términos analíticos mínimos:
KPI objetivo claramente definido, drivers plausibles desde lógica económica, nivel de granularidad requerido. Aquí no se diseñan features, solo se valida coherencia causal.
4. Evaluación de existencia y viabilidad de variables
Paso crítico diferencial de BDS.
Para cada variable requerida se clasifica:
observable directa / indirectamente, Regla dura:
Si una variable es inexistente o económicamente inviable, la hipótesis no avanza sin reformulación.
5. Priorización económica de hipótesis
Las hipótesis se priorizan usando un criterio dual:
Impacto potencial en la decisión, y Factibilidad analítica real.
Salida:
hipótesis a reformular con proxies, hipótesis descartadas (documentadas). Esto construye el backlog analítico.
6. Aprobación ejecutiva
La Matriz de Hipótesis se presenta y valida con el sponsor.
La aprobación implica:
acuerdo explícito sobre qué sí y qué no se va a probar, aceptación del uso de proxies cuando aplique, alineación sobre criterios de éxito. Regla BDS: lo no aprobado no se modela.
7. Congelamiento y trazabilidad
Una vez aprobada:
la matriz se congela como artefacto de referencia, cada modelo debe mapearse a una hipótesis aprobada, cualquier cambio requiere revalidación. La matriz se convierte en:
mecanismo de control de alcance, evidencia de rigor metodológico.