Story Transcript
CURSO “MINERÍA DE DATOS BÁSICO” Hoy en día se utiliza la minería de datos en la mayoría de los campos de la ciencia. Cabe destacar las aplicaciones financieras y en banca, en análisis de mercados y comercio, en seguros y salud privada, en educación, en procesos industriales, en medicina, en biología y bioingeniería, en telecomunicaciones y en muchas otras áreas. Lo esencial para empezar a trabajar en minería de datos, sea cual sea el campo en que se aplique, es la comprensión de los propios conceptos, tarea que no exige ni mucho menos el dominio de aparato científico que conlleva la materia. Posteriormente, cuando ya sea necesaria la operatoria avanzada, los programas de ordenador permiten obtener los resultados sin necesidad de descifrar el desarrollo matemático de los algoritmos que están debajo de los procedimientos. El contenido de este curso presenta las técnicas más habituales utilizadas en minería de datos de una forma sencilla y fácil de entender a través de las soluciones de software más comunes de entre las existentes en el mercado. Se persigue como finalidad inicial clarificar las aplicaciones relativas a métodos tradicionalmente calificados como difíciles u opacos. Se busca presentar las aplicaciones en la minería de datos sin necesidad de manejar desarrollos matemáticos elevados ni algoritmos teóricos complicados, que es la razón más común de las dificultades en la comprensión y aplicación de esta materia. La mezcla hábil de conceptos de minería de datos y herramientas de software sencillas para tratarlos es el resumen del contenido de este curso. El contenido exhaustivo del curso se presenta a continuación:
Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas Aproximación al concepto de minería de datos El proceso de extracción del conocimiento Técnicas de minería de datos Sistemas de minería de datos Capítulo 2. Fase de selección en minería de datos Selección en el proceso de extracción del conocimiento Recopilación e integración de datos: Data Warehouse Data Warehouse y Data Mining Selección de datos mediante muestreo Muestreo aleatorio simple Muestreo estratificado Muestreo sistemático Muestreo unietápico de conglomerados Muestreo bietápico de conglomerados Muestreo polietápico de conglomerados Diseños complejos: Bietápico con estratificación en primera etapa Selección de números aleatorios: Método de Montecarlo Selección de características relevantes Análisis de correlaciones
Capítulo 3. Fase de selección en SPSS Muestras Complejas y SAS Base Técnicas de muestreo a través de SPSS Diseños complejos y el asistente de muestreo. Creación de un nuevo plan de muestreo Asistente de muestreo: modificar un plan existente Asistente de muestreo: ejecutar un plan de muestreo dado Preparación de una muestra compleja para su análisis: Creación de un nuevo plan de análisis Preparación de una muestra compleja par su análisis Cálculos en muestras complejas Selección de casos en SPSS Selección de casos mediante criterios condicionales Selección de fechas, horas y filas Selección de una muestra aleatoria Semilla de aleatorización Operadores para la selección en SPSS Operadores aritméticos Operadores relacionales Operadores lógicos Funciones de generación de números aleatorios en SPSS Selección de la información en SAS Base Declarando valores perdidos con la sentencia MISSING Seleccionando información por grupos: sentencia BY Seleccionando variables de frecuencias: sentencia FREQ Seleccionando variables de pesos: sentencia WEIGTH Seleccionando variables de identificación: Sentencia ID Operadores para la selección en SAS Operadores aritméticos Operadores de comparación Operadores lógicos o booleanos Operadores MIN, MAX y concatenación Orden de evaluación ee los operadores en las expresiones Funciones de generación de números aleatorios en SAS Cálculos con funciones en SAS Capítulo 4. Fase de exploración en minería de datos Exploración en el proceso de extracción del conocimiento Análisis exploratorio Herramientas de exploración visual Histograma de frecuencias Diagrama de tallo y hojas Gráfico de caja y bigotes Gráfico múltiple de caja y bigotes Gráfico de simetría Gráfico de dispersión Gráficos para variables cualitativas Herramientas de exploración formal Contrastes de la bondad de ajuste a una distribución Contraste de Kolmogorov-Smirnov Lilliefors Estadísticos robustos de centralización Estadísticos robustos de dispersión Estadísticos robustos de asimetría y curtosis
Contrastes de aleatoriedad Transformaciones de las variables Supuestos subyacentes en las técnicas de minería de datos Normalidad Heteroscedasticidad Multicolinealidad Autocorrelación Linealidad Un ejemplo Capítulo 5. Fase de exploración en SPSS y SAS Análisis exploratorio de datos con SPSS. Procedimiento Explorar Gráficos de análisis exploratorio con SPSS Tipos de gráficos Histogramas Gráficos de normalidad Gráficos de caja y bigotes Gráficos de dispersión Gráficos interactivos dinámicos de análisis exploratorio con SPSS Creación interactiva de gráficos a partir de tablas Gráficos interactivos de caja y bigotes Histogramas interactivos Diagramas interactivos de dispersión Análisis exploratorio formal con SPSS Contraste de aleatoriedad. Procedimiento Prueba de rachas Contraste de ajuste a una distribución de frecuencias. Procedimiento Prueba de Kolmogorov-Smirnov Análisis exploratorio de los datos con SAS Base. Procedimiento Univariate Gráficos de análisis exploratorio con SAS Gráficos exploratorios de alta resolución. Procedimiento GCHART Gráficos exploratorios de mapas: Procedimiento GMAP Gráficos exploratorios de caja y bigotes: Procedimiento BOXPLOT Capítulo 6. Fases de limpieza y transformación de datos Limpieza y transformación de datos en el proceso de extracción del conocimiento Valores atípicos (Outliers) Información faltante (Datos missing) Soluciones para los datos ausentes: Supresión de datos e imputación de información faltante Transformación de datos Transponer, fusionar, agregar, segmentar y ordenar atchivos Ponderar casos y categorizar y numerizar vriables Pareamiento o matching Transformación de datos mediante técnicas de reducción de la dimensión Componentes principales Análisis factorial
Capítulo 7. Fases de limpieza y transformación de datos en SPSS y SAS Técnicas de reducción de la dimensión en SPSS Base Componentes principales con SPSS Análisis factorial con SPSS Transformación de datos en SPSS Base Transformación de valores de datos Remodificación de variables Ordenar casos Transponer, fusionar, agregar y segmentar archivos. Matching Ponderar casos Categorizar variables: categorizador visual Asignar rangos a casos y tipificar variables SPSS y el análisis de datos missing. Imputación Reemplazar valores perdidos Detección de valores atípicos en SPSS Detección de casos atípicos mediante gráficos de control Detección de casos atípicos mediante gráficos de caja y bigotes Técnicas de reducción de la dimensión en SAS STAT Componentes principales en SAS. Procedimiento PRINCOMP y Procedimiento FACTOR Análisis factorial en SAS Transformación de datos en SAS Base Operaciones con ficheros: Concatenación y Matching Actualizando ficheros de datos SAS Añadir información. Procedimiento APPEND Tipificación de datos: Procedimiento STANDARD Capítulo 8. Fase de minería de datos. Técnicas predictivas de modelización Técnicas de minería de datos propiamente dichas Técnicas predictivas para la modelización Modelo de regresión múltiple Estimación del modelo lineal de regresión múltiple Estimación del modelo, contrastes e intervalos de confianza a través del cálculo matricial Análisis de la varianza en el modelo de regresión múltiple Predicciones Análisis de los residuos Técnicas de selección en el modelo de regresión Modelos de elección discreta Modelos de elección discreta binaria: Modelo lineal de probabilidad y regresión logística binaria Modelos de elección múltiple: Modelo Logit Multinomial Modelo lineal general de regresión múltiple (GLM) Clasificación ad hoc: Análisis discriminante Hipótesis en el modelo discriminante Estimación del modelo discriminante Clasificación mediante el modelo discriminante Capítulo 9. Técnicas predictivas de modelización con SAS y SPSS El modelo lineal general con SAS. Procedimiento GLM Modelos del análisis de la varianza y la covarianza con SAS
Modelo de elección discreta en SAS Modelo Logit: Procedimiento LOGISTIC Modelo Probit: Procedimiento PROBIT SAS y el análisis discriminante: Procedimiento DISCRIM El modelo lineal general con SPSS. Procedimiento MLG Multivariante Modelo de elección discreta en SPSS Modelo Logit: Procedimiento LOGISTICA MULTINOMIAL Modelo Probit: Procedimiento PROBIT SPSS y el análisis discriminante Capítulo 10. Técnicas descriptivas y predictivas de clasificación. Clusters y árboles de decisión El análisis cluster como técnica descriptiva de clasificación Medidas de similitud Técnicas en el análisis cluster Clusters jerárquicos, secuenciales, aglomerativos y exclusivos (S.A.H.N.) El dendograma en el análisis cluster jerárquico Análisis cluster no jerárquico Los árboles de decisión como técnica predictiva de clasificación Características de los árboles de decisión Herramientas para el trabajo con árboles de decisión Árboles CHAID Árboles CART Árboles QUEST Análisis de conglomerados y árboles de decisión como métodos de segmentación Capítulo 11. Clusters y árboles de decisión con SAS y SPSS SPSS y el análisis cluster jerárquico SPSS y el análisis cluster no jerárquico SAS y el análisis cluster jerárquico Procedimiento ACECLUS Procedimiento CLUSTER Procedimiento TREE SAS y el análisis cluster no jerárquico Árboles de decisión (o clasificación) con SPSS Creación de un árbol de decisión: Método CHAID Métodos CRT y QUEST. Poda de árboles