jueves, 19 de marzo de 2015

¿Qué es Data Mining o Minería de Datos?

Minería de datos es un análisis avanzado de los datos para descubrir reglas y patrones significativos. El objetivo es conseguir una serie de modelos analíticos (algoritmos) que se ajusten lo mejor posible a los datos.

No es necesario utilizar grandes soluciones tecnológicas, aunque sea extendida la opinión de que es algo caro y al alcance de unas pocas empresas. Existen soluciones opensource y otras propietarias que son asequibles a PYMES.

Para poder aplicar Data Mining se necesita un objetivo de negocio concreto. Conocer y predecir el comportamiento de clientes, productos o servicios o incluso puntos de venta; hacer una previsión de la demanda; predecir el riesgo o el abandono y optimizar precios o el stock son preguntas a las que da respuesta este tipo de análisis. 

Una vez definidos los objetivos, analizada la situación actual del negocio y realizado un plan del proyecto de minería de datos, se pasa a la fase de datos, que comenzará con una revisión de éstos mediante un inventario (¿qué es lo que hay?), un análisis de la calidad de los datos y de la viabilidad de los modelos que se generarán. Resulta imprescindible asegurar la calidad del dato antes de comenzar a modelizar, pues una mala calidad del dato generará un modelo inviable. Se utilizarán procedimientos de Data Profiling, Data Cleasing, Data Enrichment y Data Matching para mejorar lla calidad. Estas labores se deben realizar periódicamente, pues son muchos los procesos que afectan a la calidad del dato: desde procesos externos (entrada manual de datos, migraciones, consolidaciones, etc), internos (procesamientos, enriquecimientos, historificación) o el deterioro natural (nuevos usos de los campos, cambios no registrados, actualización de los sitemas, automatización de procesos o pérdida de know-how en el equipo). 

Cuando se puede asegurar la calidad con un determinado umbral de tolerancia, ya es posible pasar a preparar los datos antes de modelizar. Los datos para el modelo pueden provenir de un Datawarehouse, de un Datamart o de un tablón, por ejemplo.

Entrando ya en el modelado propiamente dicho, voy a hacer referencia a la metodología SEMMA, que es utilizada por algunas herramientas propietarias. Consiste en:
SAMPLE - EXPLORE - MODIFY - MODEL - ASSESS

Se trabaja con muestras grandes y estratificadas de los datos, no con la población completa. Estas muestras se exploran para encontrar relaciones previas de la informacón, como ciclos, tendencias, anomalías, etc. Una vez comprendido realmente el problema analítico, pues se procede a modificar los datos, ya sea creando nuevas variables de negocio (por ejemplo, ratios), transformando otras o seleccionando aquellas que son claves para el problema que se quiere resolver. La siguiente fase ya es el modelado propiamente dicho utilizando técnicas predictivas. De los diferentes modelos generados, se evaluará aquel que más se ajuste y que será el que, finalmente, se ponga en producción.

Las claves del éxito de este procedimiento se basan en el conocimiento del problema de negocio para el que se busca una respuesta. Por ello, es imprescindible la involucración absoluta de los usuarios de negocio y la realización de análisis desde el punto de vista funcional y técnico de los requisitos del sistema y de las fuentes de datos.

No hay comentarios:

Publicar un comentario

Hola!
Este blog tiene revisión de comentarios. Les echaré un ojo en cuanto pueda. Si tu comentario es interesante o constructivo, enseguida estará publicado.
Saludos,
María