Mostrando entradas con la etiqueta Ciencia de datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta Ciencia de datos. Mostrar todas las entradas

16 abril, 2026

CRISP-DM y su vigencia en los proyectos de ciencia de datos

En ciencia de datos suele hablarse mucho de algoritmos, modelos y herramientas, pero no siempre se le concede la misma atención al método. Y, sin embargo, ahí suele estar la diferencia entre un ejercicio técnico interesante y un proyecto capaz de producir valor real. En ese terreno, CRISP-DM conserva una vigencia notable. IBM lo presenta como un método probado para orientar trabajos de minería de datos, con fases, tareas y relaciones entre tareas que ayudan a comprender el ciclo de vida del proyecto (IBM, 2021).

Un método que todavía ordena la conversación

Su permanencia no se debe solo a la tradición. También responde a una virtud práctica. CRISP-DM ofrece una estructura sencilla de entender, fácil de comunicar y suficientemente flexible para adaptarse a distintos contextos. El Instituto de Ingeniería del Conocimiento sostiene que sigue siendo especialmente útil para planificar y explicar la gestión y ejecución de proyectos a determinados clientes, mientras que otras fuentes de divulgación profesional lo presentan como un enfoque robusto para estructurar proyectos de analítica y minería de datos (IIC, 2021).

Ahora bien, para valorar de verdad su aporte, conviene detenerse en sus seis fases. No como una lista para memorizar, sino como una lógica de trabajo que ayuda a entender cómo madura un proyecto de ciencia de datos.

Las seis fases y su valor dentro del proyecto

  1. Comprensión del negocio. En esta etapa se define qué problema se quiere resolver, por qué resulta relevante, qué restricciones condicionan el trabajo y qué tipo de resultado tendría valor para la organización. Su importancia es enorme porque evita uno de los errores más frecuentes en analítica, que es comenzar a modelar sin haber entendido bien el problema. Aquí el proyecto deja de ser una intención general y empieza a adquirir forma concreta, porque el equipo traduce una necesidad del negocio en un reto técnico que pueda abordarse con criterio.
  2. Comprensión de los datos. Una vez aclarado el propósito del proyecto, el siguiente paso consiste en revisar con honestidad qué datos existen, qué calidad tienen, qué vacíos presentan y hasta dónde permiten avanzar. Esta fase suele revelar una verdad incómoda pero decisiva. No todo problema bien formulado puede resolverse con los datos disponibles. Más que una revisión técnica aislada, este momento permite aterrizar expectativas y entender qué puede lograrse realmente con la materia prima del proyecto.
  3. Preparación de los datos. En muchos proyectos, esta es una de las etapas que más tiempo y esfuerzo consume. Preparar los datos implica limpiar, integrar, transformar, seleccionar variables y construir el conjunto final que servirá de base para el modelado. Para quien apenas se acerca a la ciencia de datos, puede entenderse como el proceso de convertir datos dispersos, incompletos o defectuosos en una base confiable para el análisis. Sin ese trabajo previo, incluso el mejor algoritmo termina apoyándose en cimientos débiles.
  4. Modelado. En esta fase el equipo aplica técnicas analíticas o de aprendizaje automático para identificar patrones, generar clasificaciones o producir predicciones útiles. Es, quizá, la etapa más visible del proyecto, porque es donde aparecen los modelos que luego suelen presentarse como el gran resultado del trabajo. Sin embargo, conviene no perder de vista que el modelado no es el proyecto completo, sino apenas una parte del recorrido. Lo que se descubre aquí muchas veces obliga a volver sobre decisiones previas, ajustar variables o revisar transformaciones realizadas antes.
  5. Evaluación. Aquí se pone a prueba la verdadera pertinencia de lo construido. No basta con revisar métricas técnicas ni con confirmar que el modelo funciona bien en términos estadísticos. También es necesario valorar si el resultado responde realmente al problema planteado, si resulta comprensible y si tiene sentido para el negocio. Esta es una enseñanza fundamental para quien empieza en el campo. Un modelo puede verse sólido en los números y, aun así, no resolver el problema que dio origen al proyecto.
  6. Despliegue. En esta etapa el proyecto sale del entorno de análisis y empieza a integrarse en la realidad de la organización. Eso puede traducirse en un tablero, un informe, una recomendación operativa, una automatización o un componente dentro de un producto digital. Su valor está en recordar que un proyecto de ciencia de datos no termina cuando descubre algo interesante, sino cuando logra que ese hallazgo pueda usarse de manera efectiva en la práctica.
Metodología CRISP-DM


Más que una secuencia, una lógica de trabajo

Vistas en conjunto, las seis fases permiten entender por qué CRISP-DM ha tenido tanta permanencia. No solo organiza tareas. También ofrece una forma de pensar el proyecto, desde la comprensión del problema hasta el uso efectivo de la solución. En ese recorrido, ayuda a que los equipos no se pierdan en la fascinación técnica y mantengan el foco en el propósito del trabajo.

Además, CRISP-DM no debe leerse como un camino rígido. Su valor práctico está, precisamente, en que admite retrocesos, ajustes y reformulaciones a medida que el proyecto avanza. En ciencia de datos, esa flexibilidad es clave, porque muchas veces el aprendizaje surge durante la exploración de los datos, la preparación del insumo o la evaluación de los resultados.

Desde la dirección de proyectos, ahí aparece una de sus mayores fortalezas. El marco ayuda a estructurar conversaciones, ordenar entregables y sostener el vínculo entre análisis y propósito organizacional. Permite recordar que un proyecto de ciencia de datos no empieza en el algoritmo ni termina en una métrica, sino en la capacidad de producir valor en un contexto real.

Ahora bien, reconocer su utilidad no implica ignorar sus límites. En proyectos más exploratorios, en productos de datos o en escenarios donde intervienen gobierno, arquitectura, seguridad y operación, CRISP-DM puede resultar insuficiente por sí solo. Pero esa constatación no obliga a descartarlo. Más bien invita a leerlo con mayor madurez. En esa línea, Data Science PM advierte que CRISP-DM puede aplicarse de manera más rígida o más flexible, y que una implementación madura suele combinar su estructura con principios ágiles, iteraciones rápidas y entregas de valor en cortes pequeños (Data Science PM, 2024). Visto así, el modelo deja de parecer una receta cerrada y empieza a entenderse como una base metodológica que puede integrarse con marcos de coordinación más dinámicos para equipos de datos.

Y el cierre crítico quedaría muy bien después de eso, porque ya no entra de golpe, sino después de haber mostrado que el valor del marco también depende de cómo se usa.

La metodología no piensa por el equipo

Quizá el mayor riesgo al hablar de CRISP-DM hoy no sea su obsolescencia, sino su simplificación. A veces se presenta como si bastara con seguir sus fases para garantizar el éxito de un proyecto de ciencia de datos. Y no es así. Ninguna metodología reemplaza la capacidad de formular buenas preguntas, interpretar contextos organizacionales, reconocer límites en los datos y tomar decisiones prudentes sobre lo que realmente vale la pena construir.

Ese es, en el fondo, el punto más importante. Los proyectos de ciencia de datos no fracasan solo por errores técnicos. También fracasan por una mala comprensión del problema, por expectativas infladas, por una lectura ingenua de los datos o por la incapacidad de traducir hallazgos en decisiones útiles. Por eso CRISP-DM sigue siendo valioso, pero no como una receta automática, sino como una estructura que exige criterio, conversación y madurez en su aplicación.

Leído así, su vigencia no depende de que sea perfecto, sino de que todavía obliga a recordar algo esencial. La ciencia de datos no consiste únicamente en modelar bien. Consiste en entender bien qué se quiere resolver, con qué datos se cuenta, bajo qué restricciones se trabaja y para qué contexto se construye la solución. Cuando esa conversación se pierde, el proyecto puede ser técnicamente brillante y, aun así, resultar irrelevante.

En tiempos en que la inteligencia artificial tiende a acelerar respuestas, CRISP-DM sigue recordando el valor de detenerse a pensar el problema antes de correr hacia el modelo.

Referencias

  • Data Science PM. (2024, 9 de diciembre). What is CRISP-DM? https://www.datascience-pm.com/crisp-dm-2/
  • Espinosa-Zúñiga, J. J. (2020). Aplicación de metodología CRISP-DM para segmentación geográfica de una base de datos pública. Ingeniería Investigación y Tecnología, 21(1), 1-11. https://www.redalyc.org/journal/404/40465091008/
  • IBM. (2021). Conceptos básicos de ayuda de CRISP-DM. https://www.ibm.com/docs/es/spss-modeler/saas?topic=dm-crisp-help-overview
  • Instituto de Ingeniería del Conocimiento - IIC. (2021). La metodología CRISP-DM en ciencia de datos. https://www.iic.uam.es/innovacion/metodologia-crisp-dm-ciencia-de-datos/
  • Martínez-Plumed, F., Contreras-Ochando, L., Ferri, C., Hernández-Orallo, J., Kull, M., Lachiche, N., Ramírez-Quintana, M. J., & Flach, P. (2021). CRISP-DM twenty years later. From data mining processes to data science trajectories. IEEE Transactions on Knowledge and Data Engineering, 33(8), 3048-3061.
  • Sharma, R. (2025). CRISP-DM explained. A proven data mining methodology. Udacity. https://www.udacity.com/blog/2025/03/crisp-dm-explained-a-proven-data-mining-methodology.html
  • Smart Vision Europe. (s. f.). What is the CRISP-DM methodology? https://www.sv-europe.com/crisp-dm-methodology/