DAG

Por

Jorge Pérez Colín⁠

BDS⁠

autor del libro

Decidir con Máquinas⁠

Protocolo estructurado para equipos de BDS: clasificación MECE, mapeo causal y criterios de calidad accionables.

Qué producirás con este protocolo

Una sesión de trabajo de 90 minutos con analistas, experto de dominio y dueño del proceso genera:

• Un mapa causal (
DAG⁠
) de las reglas de negocio principales del dominio.

• La clasificación MECE de cada variable identificada, con su tipo y jerarquía.

• Un registro de variables descartadas y la razón de descarte.

Resultado: variables que emergen del consenso estructurado, no de la disponibilidad espontánea de ejemplos.

I. Problema actual

Por qué el enfoque no estructurado es costoso

La identificación de variables se realiza de forma no estructurada, basada en la disponibilidad de datos dentro de las historias de usuario y en la memoria reciente del analista.

Este enfoque activa el sesgo de disponibilidad (Kahneman, 2011): se seleccionan variables recordadas fácilmente de casos recientes, omitiendo otras estructuralmente relevantes. Las fallas documentadas son:

Variables duplicadas con distintos nombres en distintas reglas o modelos.

Falta de jerarquización: no se distingue lo crítico de lo accesorio.

Mezcla de variables técnicas, de negocio y métricas en el mismo nivel conceptual.

Omisión estructural de variables de contexto o latentes que no aparecen en historias de usuario.

Costos del error

Costos del error

Falla

Consecuencia

Impacto

Variables redefinidas a mitad del análisis

Retrabajo de reglas y modelos

Horas-analista perdidas; retraso en entrega

Correlaciones espurias tomadas como causas

Decisiones mal calibradas

Falsos positivos/negativos en matching o riesgo

Bajo poder explicativo del modelo

Escalaciones frecuentes al equipo

Mayor carga operativa en revisión manual

Inconsistencia entre reglas

Resultados contradictorios entre dominios

Desconfianza del negocio en el sistema

⁠

II: Marco de clasificación de variables

Cómo tipificar cada variable antes de medirla

Clasificar antes de medir evita confundir correlación con palanca de negocio. Usar una variable proxy como si fuera causa directa es el error más frecuente y costoso en modelos de negocio.

Clasificación bidimensional

Clasificación bidimensional

Dimensión

Tipo

Definición

Ejemplo

De decisión

Controladas directamente por el sistema

match_score, status, regla aplicada

De contexto

Externas, no modificables por el sistema

banco, cuenta, tipo de CFDI

De ruido

Errores de medición o variaciones aleatorias

Variaciones de formato en nombre

Directas

Medibles sin inferencia

monto, fecha, RFC

Proxies

Aproximaciones a la variable real

similitud_nombre como proxy de identidad

Latentes

No observables; requieren inferencia

riesgo de fraude, solvencia implícita

⁠

Regla clave de aplicación

Nunca usar una variable proxy como palanca de acción directa sin validar su relación causal con la variable latente que representa.

Nunca asumir que una variable de contexto puede convertirse en variable de decisión sin rediseño del sistema.

III. Protocolo de identificación

Los 5 pasos obligatorios — con inputs, outputs y responsables

Cada paso tiene un entregable concreto. Un paso está completo cuando su output puede revisarse independientemente del siguiente.

Paso 1 · Mapeo de causalidad (DAG)

Paso 1 · Mapeo de causalidad (DAG)

Detalle

Input

Descripción del problema de negocio o regla a modelar (story, brief o reunión inicial)

Actividad

Construir un Grafo Acíclico Dirigido (DAG) que explicite las relaciones supuestas entre variables antes de seleccionar features. Seguir el enfoque de Pearl (2016).

Output

Diagrama DAG con nodos (variables) y aristas con direccion causal anotada

Responsable

Analista de datos, con participación del experto de dominio

Tiempo estimado

20-30 min en sesion colaborativa

Criterio de completitud

Toda variable en el DAG tiene al menos una arista entrante o saliente justificada en texto

⁠

Ejemplo: dominio de conciliacion bancaria

Variables causales: tipo_operacion → monto_esperado → diferencia_neta

Variable latente: riesgo_discrepancia (inferida, no observable directamente)

Variable de contexto: banco_origen (externa, no modificable)

Variable proxy: similitud_referencia (aproxima identidad de transaccion)

Paso 2 · Revision de omisión

Paso 2 · Revision de omisión

Detalle

Input

DAG generado en el Paso 1

Actividad

Aplicar el checklist de variables tipicamente ignoradas por dominio (ver tabla adjunta). Verificar contra cada categoria.

Output

Lista de variables omitidas detectadas, con justificacion de inclusion o descarte explícito

Responsable

Analista de datos

Tiempo estimado

15 min

Criterio de completitud

Cada categoria del checklist tiene al menos una decision documentada (incluir / descartar / no aplica)

⁠

Checklist de variables frecuentemente omitidas

Checklist de variables frecuentemente omitidas

Categoria

Preguntas clave

Ejemplo

Contexto externo

¿Hay condiciones externas que afectan el resultado sin ser controlables?

Calendario fiscal, feriados bancarios, tipo de cambio

Temporalidad

¿El momento o secuencia importa? ¿Hay variables de ciclo?

Antiguedad de la transaccion, dia del mes, hora del registro

Variables latentes economicas

¿Hay un constructo implicito que el modelo deberia capturar?

Riesgo de fraude, capacidad de pago, intencionalidad

Calidad del dato

¿Hay variaciones de formato, duplicidades o valores nulos sistematicos?

RFC con distintos formatos, nombres con abreviaturas

Variables de ruido conocidas

¿Que factores generan variacion aleatoria no explicable?

Errores de captura, retrasos en sincronizacion de sistemas

⁠

Paso 3 · Jerarquización por impacto economico

Paso 3 · Jerarquización por impacto economico

Detalle

Input

Lista consolidada de variables del DAG + omisiones incorporadas

Actividad

Priorizar variables usando el criterio: varianza explicada x consecuencia economica del error. No todas las variables tienen el mismo peso en la decision final.

Output

Tabla de variables rankeadas por prioridad (Alta / Media / Baja), con justificacion del criterio

Responsable

Analista de datos + dueno del proceso

Tiempo estimado

15-20 min

Criterio de completitud

Toda variable Alta tiene consecuencia economica del error documentada en terminos de negocio

⁠

Criterio de prioridad

Alta: Variable que, si se omite o mal clasifica, genera decision incorrecta con consecuencia economica directa (fraude no detectado, conciliacion errada, rechazo incorrecto).

Media: Variable que mejora precision pero su omision no genera error critico.

Baja: Variable con varianza marginal o redundante con otra de mayor prioridad.

Paso 4 · Validación cruzada con experto de dominio

Paso 4 · Validación cruzada con experto de dominio

Detalle

Input

DAG + tabla de variables jerarquizadas

Actividad

El experto de dominio revisa el DAG para detectar relaciones causales erroneas, variables omitidas y supuestos invalidos. Se separa conocimiento tacito del analitico.

Output

DAG validado con anotaciones del experto; lista de supuestos explicitados

Responsable

Experto de dominio (valida); analista (documenta)

Tiempo estimado

15-20 min

Criterio de completitud

El experto firma el DAG (aprobacion explicita, no solo revision)

⁠

Paso 5 · Agrupacion en entidades de negocio

Paso 5 · Agrupacion en entidades de negocio

Detalle

Input

Lista validada de variables

Actividad

Agrupar variables por entidad de negocio segun el dominio: archivo, transaccion, CFDI, matching, pagador. Esto facilita trazabilidad y reutilizacion entre proyectos.

Output

Diccionario de variables organizado por entidad, con tipo (segun Seccion II), prioridad y responsable de mantenimiento

Responsable

Analista de datos

Tiempo estimado

10 min

Criterio de completitud

Toda variable pertenece a exactamente una entidad (MECE); ninguna variable esta sin clasificar

⁠

V. Criterios de calidad

KPIs del proceso con umbrales y frecuencia de revision

Estas métricas miden si el protocolo se está aplicando correctamente. No son opcionales en proyectos de alta criticidad.

Criterios

Criterios

KPI

Fórmula

Umbral aceptable

Alerta

Frecuencia

% variables con hipotesis causal

(Variables con arista DAG justificada) / Total

> 80%

< 60%: revisar DAG

Tasa de redeficion post-analisis

(Variables que cambian tipo despues del 1er borrador) / Total

< 15%

> 25%: falla de protocolo

Cobertura contexto vs. decision

# variables contexto / # variables decision

Documentado (no hay 1:1 obligatorio)

0 variables de contexto: revision obligatoria

% duplicidad eliminada

Variables unicas post / Variables crudas iniciales

> 90%

< 80%: diccionario incompleto

Completitud de datos criticos

% registros no nulos en variables de prioridad Alta

> 95%

< 90%: riesgo de modelo

⁠

V. Decisiones estratégicas

Trade-offs resueltos con postura por defecto

Cada trade-off incluye la recomendación por defecto del equipo BDS y la condicion para desviarse de ella.

Decision 1: ¿Estandarizar protocolo completo o mantener enfoque ad hoc?

Decision 1: ¿Estandarizar protocolo completo o mantener enfoque ad hoc?

Protocolo completo (recomendado)

Ad hoc (excepción)

Cuando aplica

Proyectos de produccion, modelos que afectan decisiones economicas, dominios nuevos

Exploracion inicial, pruebas de concepto, demos sin impacto operativo

Ventaja

Rigor, escalabilidad, trazabilidad, reduccion de retrabajo

Velocidad inicial

Riesgo

Mayor inversion de tiempo en setup (compensado en iteraciones posteriores)

Deuda analitica: retrabajo garantizado en produccion

Postura BDS

Usar protocolo completo por defecto

Requiere aprobacion explicita del lider de proyecto

⁠

Decision 2: ¿Incluir variables latentes?

Decision 2: ¿Incluir variables latentes?

Incluir (recomendado)

Excluir

Cuando aplica

Variable latente tiene consecuencia economica documentada (ej. riesgo, solvencia)

Variable latente no tiene proxy confiable ni experto que la valide

Ventaja

Mayor poder explicativo; modelos mas robustos

Menor complejidad de inferencia

Riesgo

Requiere modelo de inferencia adicional; mayor costo de mantenimiento

Modelo omite factor estructural; correlaciones espurias mas probables

Postura BDS

Incluir si hay al menos un proxy observable y validacion de experto

Documentar la exclusion y su justificacion en el diccionario de variables

⁠

Decision 3: ¿Quien valida el mapa causal?

Decision 3: ¿Quien valida el mapa causal?

Con experto de dominio (recomendado)

Sólo equipo analítico

Cuando aplica

Siempre en proyectos de produccion o nuevos dominios

Dominios ya validados con DAG documentado y reutilizable

Ventaja

Captura conocimiento tacito; reduce riesgo de omision estructural

Menor costo de tiempo

Riesgo

Costo de coordinacion (15-20 min adicionales)

Supuestos causales invalidos no detectados

Postura BDS

Experto valida en toda sesion de 90 min

Excepcion solo si DAG previo aplica y esta documentado

⁠

VI. Cuando aplicar version ligera

Criterio de escalamiento del protocolo

No todo proyecto requiere los 5 pasos completos. El criterio de escalamiento evita sobre-ingenieria y sub-rigor.

Condiciones

Condiciones

Condición del proyecto

Version recomendada

Pasos requeridos

Produccion / impacto economico directo

Completa

Pasos 1, 2, 3, 4, 5

Dominio nuevo sin DAG previo

Completa

Pasos 1, 2, 3, 4, 5

Iteracion sobre dominio ya documentado

Intermedia

Pasos 1 (actualizar DAG), 3, 5

Exploracion / PoC sin impacto operativo

Ligera

Paso 1 (DAG simplificado) + Paso 5 (agrupacion basica)

Demo o prototipo interno

Minima

Solo clasificacion MECE (Seccion II) sin DAG formal

⁠

Regla de escalamiento

Si el output del proyecto informara una decision que afecta ingresos, margen, capital de trabajo o riesgo operativo: usar version completa.

En caso de duda, usar version completa. La inversion es de 90 minutos; el costo del retrabajo es siempre mayor.

Materiales relacionados:

⁠

Presentación Gamma⁠

⁠

Referencias

DAMA International. (2017). DAMA-DMBOK: Data Management Body of Knowledge (2nd ed.). Technics Publications.

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal Inference in Statistics: A Primer. Wiley.

I. Problema actual

II: Marco de clasificación de variables

III. Protocolo de identificación

V. Criterios de calidad

V. Decisiones estratégicas

VI. Cuando aplicar version ligera

Want to print your doc?
This is not the way.

Try clicking the ··· in the right corner or using a keyboard shortcut (

CtrlP

) instead.

Mejor práctica en Identificación de variables

I. Problema actual

II: Marco de clasificación de variables

III. Protocolo de identificación

V. Criterios de calidad

V. Decisiones estratégicas

VI. Cuando aplicar version ligera