Story Transcript
1
GUÍA RÁPIDA DEL PROGRAMA SPSS ver. 13.0 y superiores Programa para estudios estadísticos en general, muy completo pero de fácil manejo.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
3
INDICE DEL CONTENIDO
1. PREPARACIÓN DE LA MATRIZ BÁSICA DE DATOS. 2. ESTANDARIZACIÓN DE LA MATRIZ BÁSICA DE DATOS.
Pg. 5 Pg. 7
3. ANÁLISIS DE COMPONENTES PRINCIPALES (DATOS CUANTITATIVOS).
Pg. 9
3.1. Obtención de los componentes principales sin rotar y rotados y el gráfico de saturaciones factoriales. Pg. 9 3.2. Proyección de cada una de las UBC sobre los tres o dos primeros componentes principales. Pg. 14 4. ANÁLISIS DISCRIMINANTE CANÓNICO (ADC)
Pg. 14
5. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS MULTI-ESTADO.
Pg. 22
5.1. Agrupamiento en base a todos los caracteres analizados cuando estos son de tipo multiestado cualittativo o cuantitativos: Calcular y dibujar el dendrograma. Pg. 22 5.2. Agrupamiento en base a los primeros componentes principales (los que recogen una mayor variabilidad): Calcular y dibujar el dendrograma. Pg.30 5.3. Realizar un ANOVA para comprobar si los valores medios de cada cluster para cada carácter son significativamente diferentes. Pg. 31 5.3.1. Creación de una nueva variable en la Matriz Básica de Datos con el número de conglomerado al que pertenece cada UBC. Pg. 31 5.3.2. Realización del ANOVA tomando como variable dependiente el conglomerado de pertenencia y como variables independientes todos los caracteres analizados. Pg. 32 6. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS DOBLE-ESTADO: CALCULAR Y DIBUJAR EL 37DENDROGRAMA. Pg. 37
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
5 1. PREPARACIÓN DE LA MATRIZ BÁSICA DE DATOS. El programa SPSS puede importar directamente matrices del programa Excel. La matriz no precisa codificación especial. Sin embargo es importante que las variables (=caracteres) figuren en las columnas y los casos (=UBC) en las filas.
UBC
La importación se realiza mediante los menús desplegables de SPSS como se muestra a continuación.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
6
Una vez presionado “Abrir” se obtiene el “Editor de datos” que presenta dos pantallas, la primera es la vista de datos, ...
UBC
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
7 ... y la segunda es la vista de variables
UBC
2. ESTANDARIZACIÓN DE LA MATRIZ BÁSICA DE DATOS. Si fuese necesario estandarizar la matriz de datos, la estandarización se haría por caracteres, ya que lo que se pretende es que los valores de todos los caracteres varíen entre los mismos límites. La estandarización más habitual consiste en convertir cada valor en su puntuación típica, es decir, restarle el valor medio y dividirlo por su desviación típica. Para hacerlo de forma automática se utilizará el módulo de “Estadísticos descriptivos”, al que se accede a través del menú deplegable “Analizar”. Dentro de dicho módulo seabrirá el subprograma “Descriptivos” (Ver las figuras siguientes).
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
8
La pantalla que se obtiene es la que se presenta a continuación.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
9
Si se precisan otros tipos de transformaciones de variables, como por ejemplo una transformación logarítmica, el consejo es realizar dichas transformaciones en MS Excel, y luego importar con SPSS el archivo resultante. Esto reduce las necesidades de aprendizaje de un nuevo programa.
3.
ANÁLISIS DE COMPONENTES PRINCIPALES (DATOS CUANTITATIVOS).
3.1.
Obtención de los componentes principales sin rotar y rotados y el gráfico de saturaciones factoriales. En SPSS el ACP se encuentra dentro del módulo “Reducción de datos”, al que se accede a través del menú desplegable “Analizar, en el subprograma “Análisis factorial”.
Las variables que se utilizan en el análisis factorial son los caracteres estandarizados o normalizados. La pantalla que se obtiene es la que se presenta a continuación.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
10
Presionando el botón de “Extracción” es preciso indicar • En “Método”: El método factorial a utilizar: En este caso componentes principales. • En “Analizar” debe elegirse si se quiere trabajar con la matriz de correlaciones entre caracteres o con la de varianzas-covarianzas. • En “Mostrar”: Si se desea que la salida del programa muestre la solución factorial antes de la rotación y el gráfico de sedimentación. • En “Extraer”: El número de factores principales que se desea que extraiga el programa, que puede estar en función de sus autovalores (eiguen-valores) o puede ser un número fijo.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
11 El botón de “Rotación” sirve para realizar una rotación de los Componentes Principales, en el caso en que se quiera realizar. Si así fuera es preciso indicar: • En “Método”: El método de rotación de los ejes más habitual y que sigue dejando los ejes ortogonales es el Varimax. • En “Mostrar”: Si se desea que la salida del programa muestre la solución rotada y el gráfico de proyección de los caracteres sobre los componentes principales, que es lo que se denomina “Gráfico de saturaciones”. Si en “Extraer” (ver figura anterior) se indicó que se extrajeran 3 o más componentes el gráfico será 3-D; para 2 componentes será 2-D.
Presionando el botón de “Puntuaciones” se puede solicitar que para cada Unidad Básica de Caracterización (o caso) el programa guarde las coordenadas de sus proyecciones sobre los componentes principales. Para ello hay que activar la casilla “Guardar como variables”. Es necesario seleccionar el método para obtener las puntaciones factoriales. Sí en el apartado “Rotación” se solicitó del programa algún tipo de rotación, entonces las puntuaciones factoriales guardadas como variables serán los referidos a los componentes rotados.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
12
Una vez realizadas las operaciones anteriores, para la ejecución del análisis se presionará el botón “Aceptar”, como se indica en la siguiente figura.
En la pantalla de Resultados (pagina siguiente) la información que más nos interesa es la siguiente: • Comunalidades: Las comunalidades más bajas correspondesa a aquellas variables peor explicadas por el análisis. • Varianza total explicada: Nos da información de los eiguen-valores de cada uno de los componentes principales. • Gráfico de sedimentación: Explica como van disminuyendo los eiguen-valores de los componentes principales. • Matriz de componentes: Da la información sobre los eiguen-vectores de cada carácter sobre cada uno de los componentes principales. • Matriz de componentes rotados: Idem al caso anterior pero para los componentes rotados. • Gráfico de componentes de los factores 1, 2, 3: Proyecciones de los caracteres sobre los primeros componentes principales (máximo 3).
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
13
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
14
3.2. Proyección de cada una de las UBC sobre los tres o dos primeros componentes principales.
A partir de la versión 15 se han mejorado los gráficos y la interfaz es ahora la que se presenta a continuación.
Los gráficos interactivos son completamente intuitivos y de muy fácil manejo. Sin embargo la versión 15.0 mantiene lo que denomina “Cuadros de diálogos antiguos” que es la que se va a analizar a continuación, para el caso de usuarios que utilicen versiones anteriores
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
15
Para obtener un diagrama tridimensinal de las UBC, en los “Gráficos antiguos” de SPSS, es preciso acceder al submenú “Dispersión/puntos”. Dentro del subprograma “Dispersion/puntos” se elegirá “Dispersión 3-D”.
En el cuadro de diálogo resultante habrá que introducir las puntuaciones factoriales de cada UBC (=caso) sobre los 3 primeros componentes principales. Para llevar a cabo esta acción, es preciso introducir en cada uno de los ejes las nuevas variables (columnas) creadas por el programa, tal como se indica en la figura de la página siguiente.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
16
Aquí se introduce la variable que lleva los nombre asignado a las UBC Tras presionar el botón “Aceptar” en la pantalla de la figura anterior, la página de resultados es la siguiente.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
17
Si lo que se pretende es realizar un diagrama bidimensional, dentro del subprograma “Dispersión/puntos” se elegirá “Dispersión matricial”, y se procederá de forma análoga.
4. ANÁLISIS DISCRIMINANTE CANÓNICO (ADC). En SPSS el ADC se encuentra situado dentro de las técnicas de clasificación por lo que se encuentra dentro del módulo “Clasificar”, al que se accede a través del menú desplegable “Analizar”. Al igual que en el ACP se trabajará con la matriz de datos estandarizada. En el ADC es muy importante la variable dependiente categórica, que en el caso de estudios con germoplasma suele ser la localidad de origen del mismo. En el programa SPSS se denomina “Variable de Agrupación”. Hay que elegir dicha variable.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
18
El primer paso es elegir la “Variable de agrupación” que es la variable dependiente categórica y, definir el rango, es decir los valores extremos entre los que varía dicha variable
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
19
El siguiente paso es elegir las variables independiente. A continuación hay que elegir si dichas variables independientes se van a introducir en el modelo simultáneamente o se va a hacer por pasos. Se recomienda el “Método de inclusión por pasos”
Si se elige el método de inclusión por pasos, se activa el botón Método. Se recomienda elegir como método la Distancia de Mahalaniobis
A continuación presionando el botón Clasificar aparece el cuadro de diálogo que se muestra, donde debe elegirse las alternativas de “Probabilidades previas”; Tipo de “Matriz de covarianzas”; “Visualización” y “Gráficos” que se ven en la imagen
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
20 Con estas selecciones básicas se pulsa el botón aceptar y se realiza el análisis. Resultados Los resultados más destacados son los siguientes: • Distancia de Mahalanobis entre cada pareja de variables dependientes con el valor de significación, que indica si dichas distancias son significativas o no. Como se ha elegido el método de inclusión por pasos, el programa entregará una matriz por cada paso. Se utilizará el último de ellos • Autovalores o eigenvalores de las funciones canónicas • Eiguenvectores de las Raices Canónicas • Prueba de resubstitución para averiguar la estabilidad de la pertenencia de cada UBC a cada uno de los grupos prefijados Distancia de Mahalanobis
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
21
Autovalores o eigenvalores / eigenvectores de las raíces canónicas
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
22
Prueba de resubstitución para averiguar la estabilidad de la pertenencia
5. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS MULTI-ESTADO. 5.1. Agrupamiento en base a todos los caracteres analizados cuando estos son de tipo multiestado cualitativo o cuantitativos: Calcular y dibujar el dendrograma (puede ser necesario estandarizar o normalizar variables). En SPSS el Análisis de Agrupamientos se encuentra dentro del módulo “Clasificar”, al que se accede a través del menú desplegable “Analizar”. Lo normal en caracterización de germoplasma es usar el método de conglomerados jerárquicos, que se encuentra en el subprograma “Conglomerados jerárquicos” (ver figura siguiente).
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
23
UBC
La pantalla que se obtiene se presenta en la siguiente figura. • Lo primero es indicar cuales son las variables utilizadas para la conglomeración, y la variable que va a proporcionar las etiquetas de los casos. • Es preciso señalar si se quieren conglomerar casos o variables. • También debe señalarse si se desea que la salida del programa muestre los Estadísticos y los Gráficos.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
24
UBC
UBC
Presionando el botón de “Estadísticos” es preciso señalar: • “Historial de conglomeración” si se desea conocer como se forma el dendrograma • “Matriz de distancias” si se desea que el programa la muestre. • En “Conglomerado de pertenencia” se puede señalar si se quiere que para cada UBC (= caso) el programa le asigne un conglomerado de pertenencia. Si se indica “Solución única”, es preciso señalar el número de conglomerados que quieren considerarse. Con la opción “Rango de soluciones” el programa realiza una optimización. Dado que se trabaja con material biológico, no parece adecuado que un algoritmo decida por el investigador, Por ello es preferible analizar primero el dendrograma obtenido, y luego volver a realizar el análisis e indicar ya el número de conglomerados que el investigador desee considerar.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
25 Presionando el botón de “Gráficos” es preciso señalar: • “Dendrograma” si se desea que el programa lo muestre.
Presionando el botón de “Método” es preciso señalar: • “Método de conglomeración” El método de Ligamiento Promedio en SPSS recibe el nombre de “Vinculación inter-grupos”.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
26 • En “Medida” hay que indicar el coeficiente a utilizar para el cálculo de la matriz de distancias. Los coeficientes a utilizar en el caso de matrices de datos multi-estado figuran en el apartado “Intervalo”. Los coeficientes a utilizar en el caso de matrices de datos doble-estado figuran en el apartado “Binaria”. • “Transformar valores” sirve para realizar la estandarización de las variables. Hay diferentes opciones de estandarización, la más habitual es la obtención de Puntuaciones Z
Presionando el botón de “Guardar...” es posible que el programa guarde el número de conglomerado de pertenencia de cada UBC como una nueva variable (ver discusión de la página 16). Esto es útil para realizar ulteriores análisis como por ejemplo un análisis de varianza para detectar las diferencias entre los valores medios de cada conglomerado para cada carácter.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
27
Una vez realizadas las operaciones anteriores, para ejecutar el análisis se presionará el botón “Aceptar”, como se indica en la siguiente figura.
UBC
UBC
En la pantalla de Resultados (pagina siguiente) la información que más nos interesa es la se indica a continaución: •Matriz de distancias. •Dendrograma.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
28
El dendrograma puede editarse haciendo doble click sobre el mismo. Para evitar que salga cortado en los casos en los que es muy largo, hay que ralizar algunos cambios en el módulo “Opciones” del menú desplegable “Edición”-
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
29
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
30 5.2. Agrupamiento en base a los primeros componentes principales (los que recogen una mayor variabilidad): Calcular y dibujar el dendrograma. El cálculo de la matriz de similitud se hará en este caso a partir de la matriz de proyección de las UBC sobre el número de componentes principales que el investigador quiera considerar, que en este caso harán las veces de caracteres. SPSS denomina a dichas proyecciones “Puntuaciones factoriales”. Para poder utilizarlas ahora es preciso haberlas guardado en el ACP (apartado 3.1. Pg. 9). El número de Componentes Principales a utilizar debe ser definido por el investigador. Por ejemplo el bastante común utilizar los que presentan eiguen-valores mayores que 1. Los pasos a realizar en el análisis son los ya descritos en el punto 4.1. (Pags. 14 a 20), pero con las siguientes variaciones: •
Las variables (=caracteres) serán ahora las puntuaciones factoriales del ACP, que si se solicitó al programa que las guardara lo habrá hecho bajo el nombre REGRfactorscore#for analysis, haciendo alusión al método utilizado para el cálculo de las puntuaciones (REGR) y al número de Componente Principal respecto al que se ha realizado la proyección (#)
UBC
UBC
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
31 •
Otra variación es que en el cuadro de diálogo que aparece al presionar el botón “Método” en “Transformar variables” ahora no hay que hacer ningún tipo de transformación, ya que las nuevas variables no lo precisan.
5.3. Realizar un ANOVA para comprobar si los valores medios de cada cluster para cada carácter son significativamente diferentes. 5.3.1. Creación de una nueva variable en la Matriz Básica de Datos con el número de conglomerado al que pertenece cada UBC. La primera condición es que a la hora de realizar el Análisis de Conglomerados, se haya solicitado, tras presionar el botón “Guardar...”, la creación en la Matriz Básica de Datos de una nueva variable que es el número de conglomerado de pertenencia de cada UBC (Pg 18). La figura siguiente resume los pasos a realizar.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
32
UBC
5.3.2. Realización del ANOVA tomando como variable dependiente el conglomerado de pertenencia y como variables independientes todos los caracteres analizados. En SPSS el Análisis de Varianza de un factor encuentra dentro del módulo “Reducción de datos”, al que se accede a través del menú desplegable “Analizar”, en el subprograma “Análisis factorial”.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
33
UBC
La pantalla que se obtiene es la que se presenta a continuación:
Esta es la nueva variable que indica el conglomerado de pertenencia
UBC
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
34 Presionando el botón de “Opciones ...” es preciso señalar: • En “Estadísticos”: Descriptivos para obtener los estadísticos descriptivos. Prueba de homogeneidad de la varianza. Si hubiera que rechazar la hipótesis de igualdad de varianzas habría que señalar BrownForsythe para utilizarlo en lugar del valor F cuando las varianzas son desiguales.
Presionando el botón de “Post-Hoc” es preciso señalar las pruebas post-hoc que se quiere que realice el programa: • Asumiendo varianzas iguales la más aconsejada es la de Tukey. • Si no se pudieran asumir varianzas iguales, estaría aconsejada la prueba de Games-Howell
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
35 Nota importante: Para que puedan realizarse las pruebas Post-Hoc es necesario que todos y cada uno de los grupos tenga al menos dos casos.
Una vez realizadas las operaciones anteriores, para la realización del análisis se presionará el botón “Aceptar”, como se indica en la siguiente figura.
UBC
En la pantalla de Resultados (pagina siguiente) la información que más nos interesa es la siguiente: • Descriptivos: Incluye los estadísticos descriptivos. • Prueba de homogeneidad de varianzas: Resultados de la prueba de Levene para la homogeneidad de varianzas. Si no se rechaza la hipótesis nula entonces las varianzas son homogéneas. • ANOVA: Es la tabla del ANOVA. • Pruebas post-hoc: Presenta el resultado de las pruebas post-hoc. Algunas de las pruebas post-hoc, como por ejemplo Tukey, hacen grupos homogéneos, que es lo que se presenta en el subapartado “Subconjuntos homogéneos”.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
36
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
37 6. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS DOBLE-ESTADO: CALCULAR Y DIBUJAR EL DENDROGRAMA. Los pasos a realizar en el análisis son los ya descritos en el punto 4.1. (Pags. 14 a 20), pero con las siguientes variaciones:
UBC
UBC
•
En el cuadro de diálogo que aparece al presionar el botón “Método” en “Medida” hay que indicar el coeficiente a utilizar para el cálculo de la matriz de distancias. Al tratarse de matrices de datos doble-estado debe utilizarse uno de los coeficientes que figuran en el apartado “Binaria”.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
38
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.
Curso Intensivo de Postgrado. UACH. México 2014.
Fernando González Andrés.