Análisis previo y exploratorio de datos. Ana María López Departamento de Psicología Experimental

Análisis previo y exploratorio de datos Ana María López Departamento de Psicología Experimental Introducción • En toda investigación, y antes de ex

0 downloads 34 Views 573KB Size

Recommend Stories


DEPARTAMENTO DE SANTA ANA
DEPARTAMENTO DE SANTA ANA DELEGACION DE SANTA ANA 14 Av. SUR Y 25 CALLE PONIENTE, EDIF. MARIO CALVO, SANTA ANA 2420-8600 CONMUTADOR DELEGACION DE

Las experiencias de Mara y Elim
ÉXODO (1) Mensaje siete Las experiencias de Mara y Elim Lectura bíblica: Éx. 15:22-27 I. “Moisés hizo partir a Israel del mar Rojo, y salieron al des

Story Transcript

Análisis previo y exploratorio de datos Ana María López Departamento de Psicología Experimental

Introducción •

En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis previo y exploratorio de los datos con objeto de detectar errores en la codificación de las variables, eliminar inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer características básicas de la distribución de las variables (normalidad, igualdad de varianzas, presencia de valores atípicos, linealidad, etc) y avanzar acerca de las relaciones entre ellas.



En definitiva, el investigador debe adquirir un conocimiento básico de los datos de su investigación y de las relaciones existentes entre las variables analizadas antes de proceder a aplicar los procedimientos inferenciales.

AED

UNIDIMENSIONAL

BIDIMENSIONAL

MULTIDIMENSIONAL

a) Variable Cualitativa

a) Dos Variables Cualitativas

b)Variable Cuantitativa

b) Una Variable Cuantitativa y otra Cualitativa c) Dos Variables Cuantitativas

Introducción Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadísticos –numéricos y gráficos- que vamos a describir a lo largo del presente curso y que están implementados en la mayoría de los programas estadísticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).

Introducción

A nivel univariable, la mayoría de los objetivos del AED se alcanzan realizando un análisis descriptivo. Concretamente utilizaremos medidas de tendencia central y de dispersión para describir las características de las variables cuantitativas y tablas de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la última columna de la siguiente tabla: Tipo de variable

Índices analíticos

Representaciones gráficas

Procedimientos de SPSS

Cuantitativa

media, mediana, moda, desviación típica, rango, amplitud intercuartílica, prueba de normalidad

histograma, gráfico de caja

Descriptivos, Explorar, Tablas

Cualitativa

frecuencias, porcentajes, moda, etc.

diagrama de barras, diagrama de líneas, diagrama de sectores

Frecuencias, Tablas

AED: Detección de errores en la codificación de las variables cualitativas y cuantitativas: Errores de codificación son valores que están fuera del rango de las variables cuantitativas y códigos numéricos o no numéricos no definidos para representar las categorías de las variables cualitativas. Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que nos den su opinión acerca de la ley eligiendo una de las opciones de una escala que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos escrito en una archivo de spss y hemos realizado un análisis descriptivo básico utilizando el procedimiento frecuencias para las todas las variables incluidas en el archivo y el procedimiento descriptivos para las cuantitativas

Para realizar el análisis descriptivo, seleccionamos Estadísticos descriptivos> Frecuencias del menú Analizar. Con esta selección accedemos al cuadro de diálogo Frecuencias y en dicho cuadro trasladamos, pulsando en el botón flecha, las variables al cuadro Variables y pulsamos en Aceptar. Para analizar las variables cuantitativas opinión y edad seleccionamos Descriptivos y pulsamos Aceptar. El visor de resultados nos ofrece la información contenida en las siguiente tablas. ¿podemos identificar errores de codificación en las variables medidas?

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).



Para ello utilizaremos tanto índices numéricos como gráficos.



Estadísticos de tendencia central – Media aritmética. – Mediana: una vez ordenados los datos, es el valor que deja el mismo número de observaciones a su derecha que a su izquierda. – Media truncada: es la media de la variable eliminando el 5% de las colas inferior y superior de la distribución, de esta forma se eliminan valores extremos y es por tanto un estadístico robusto. – M-estimadores: son estadísticos robustos pues se definen ponderando cada valor de la distribución en función de su distancia al centro de la misma. Las observaciones centrales se ponderan por el máximo valor (la unidad) disminuyendo los coeficientes de ponderación a medida que las observaciones se alejan del centro. Existen distintas formas de ponderar: Humbert (pondera con valor uno los valores situados a menos de 1,339 de la mediana), Tukey (pondera con cero los valores situados a 4,385 de la mediana), Andrews (pondera con cero los situados a 4,2066 de la mediana), etc.

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). •

Estadísticos de dispersión: – Rango – Varianza – Desviación tipo – Amplitud intercuartílica (AI)



Estadísticos de forma: – Asimetría. – Curtosis



Prueba de normalidad de Kolmogorov

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).

Histograma

Gráfico de caja

16 14

12 10

8

6 4 Desv. típ. = 3.57

2

Media = 7.1 N = 49.00

0 0.0

DIG

2.5

5.0

7.5

10.0

12.5

15.0

Gráfico Q-Q

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad). Figura 1. Tipologías de histogramas

(Xmáx +1) − Xi

Xi

Figura 2. Tipologías de gráficos Q-Q

log10 Xi

1 Xi

log10(( Xmáx +1) − Xi )

1

(( Xmáx +1) − Xi )

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad) con SPSS.

Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de SPSS con las variables cansancio emocional, despersonalización, realización personal y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con las opciones básicas recomendadas son:

AED: Caracterización de las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad) con SPSS.

Con las opciones seleccionadas hemos obtenido información que nos permite responder a las siguientes cuestiones de las variables analizadas: 1. Identificar las medidas de tendencia central y de dispersión 2. Comparar la media con la mediana y con los estimadores robustos 3. Evaluar mediante inspección visual la normalidad de las variables 4. Evaluar utilizando la prueba de significación la normalidad de las variables

AED: Detección de datos atípicos:

• • •

Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del resto de las observaciones en una variable (atípico univariable) o en la distribución conjunta de dos o más variables (atípico multivariable). Los valores atípicos multivariantes resultan de combinaciones de valores muy inusuales. Las consecuencias de una sola observación atípica pueden ser graves pues pueden distorsionar las medias y desviaciones típicas de las variables y destruir o construir relaciones entre ellas. Ejemplo Los valores atípicos pueden deberse a Errores en la codificación de los valores de las variables, errores en la codificación de valores perdidos, errores de medida, errores en la transcripción. Observaciones que no proceden de la población de la que se ha extraído la muestra. Observaciones atípicas debidas a que la distribución de la variable en la población tiene valores más extremos que los de una distribución normal. En los dos primeros casos los valores atípicos, una vez detectados, deben ser eliminados o recodificados como valores perdidos. En el último caso suelen retenerse y analizar su incidencia en los análisis posteriores.

AED: Detección de datos atípicos: •

Para considerar a una observación como atípica existen diferentes criterios: Se consideran atípicas aquellas observaciones que están, en valores absolutos, a más de 3 desviaciones tipo de la media (Z>3 o Z 4,5

donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas de x con respeto a la mediana

AED: Detección de datos atípicos: •

Los criterios para detectar atípicos a nivel univariante no tienen porque identificar atípicos multivariantes (ejemplo). Para ello se puede utilizar, aunque no exenta de problemas, la distancia de Mahalanobis. La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la matriz de varianzas-covarianzas. Una observación multivariante resultará sospechosa si su distancia supera el valor de chi-cuadrado para k (número de variables) y un nivel de significación de 0,001. Algunos de los gráficos disponibles en SPSS implementan los criterios anteriores para detectar datos atípicos. Los siguientes cuadros de diálogo corresponden a los gráficos recomendados para detectar atípicos:

AED: Detección de datos atípicos

Con la secuencia de cuadros de diálogo sobre la matriz obtenemos los siguientes gráficos

AED: Detección de datos atípicos:

Caras de Chernoff

AED: Detección de datos atípicos: Gráficos de estrella sujeto 1

zsatisfa

zdepre

zcan 1 0 -1 -2

sujeto 2

zdespe

zsatisfa sujeto 1

zrea

zdepre

zcan 4 2 0 -2

zsatisfa

zdespe

zdepre

zrea

zcan 4 2 0 -2 -4

zdespe fr

zrea

4 3 2 1 0 -1 -2 -3 -4 -5

zcan

zdespe

zrea

zdepre

zsatisfa

Gráficos de linea

AED: Supuesto de Linealidad Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo determinadas circunstancias, los coeficientes de correlación pueden ser mucho más grandes o mucho más pequeños de lo que deberían ser. Variables compuestas: En muchas investigaciones es frecuente utilizar variables compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las correlaciones entre variables compuestas que comparten items individuales en su definición suelen estar infladas. La presencia de valores atípicos: los valores atípicos como ya hemos demostrado pueden inflar o reducir significativamente las correlaciones entre variables. Restricción de rango: las correlaciones muestrales pueden ser inferiores a las poblacionales cuando en la muestra el rango de respuestas de una o ambas de las variables analizadas está restringido.

análisis previo y exploratorio

Univariable

Bivariado

Multivariado

a) Dos Variables Cualitativas: Tablas de contingencia y gráficos de barras a) Variable Cualitativa

b) Una Variable Cuantitativa y otra Cualitativa: Explorar

b) Variable Cuantitativa

c) Dos Variables Cuantitativas: correlaciones bivariadas, gráficos de dispersión

AED: Supuesto de Linealidad



La herramienta más útil para obtener información, a nivel exploratorio, de la relación entre dos variables cuantitativas es el diagrama de dispersión, o nube de puntos. Se construye representando, en el plano cartesiano, los valores de las variables medidas. La inspección visual del gráfico de dispersión nos permite identificar valores atípicos y el tipo de relación entre las variables.

AED: Supuesto de Linealidad 10

100

5

80

0

60

-5

40

-10

20

-15

0 0 30 25 20 15 10 5

1

40 35 30 25 20 15 10 5 0 0

5

10

15

20

0

300 250 200 150 100 50 0 0

5

10

15

20

AED: Supuesto de Linealidad

AED: Supuesto de Linealidad

80,00

hrv_b

60,00

40,00

20,00

20,00

40,00

60,00

80,00

hrv_a

a) Diagrama de dispersión por defecto

100,00

AED: Supuesto de Linealidad

imp_d

imp_c

imp_b

imp_a

hrv_fa

hrv_d

hrv_c

hrv_b

hrv_a

Gráfico

hrv_a

hrv_b

hrv_c

hrv_d

hrv_fa

imp_a

imp_b

imp_c

imp_d

AED: Supuesto de Linealidad

grup ctrl phob 80,00

hrv_b

60,00

40,00

20,00

20,00

40,00

60,00

hrv_a

80,00

100,00

AED: Dos variables cualitativas •

Una tabla de contingencia para dos variables contiene en filas las modalidades de una de las variables y en columnas las modalidades de la segunda. Cada casilla de la tabla contiene la frecuencia conjunta que representa el número de datos que pertenecen a la modalidad i-ésima de la primera variable y a la modalidad j-ésima de la segunda. A partir de dicha tabla podemos estudiar si las dos variables son o no independientes. Si son independientes no existe relación entre ellas; en caso contrario analizaríamos el tipo y grado de la dependencia tanto gráfica como numéricamente.

AED: Dos variables cualitativas



Vamos a analizando la posible relación entre la variables válvulas y retrasos en el desarrollo y válvulas y ansiedad de la matriz.

• Seleccionamos: Analizar > Estadísticos descriptivos > Tablas de contingencia

AED: Dos variables cualitativas



Para analizar los posibles fallos en el diseño y recogida de datos así como la posible relación entre variables cualitativas utilizaremos el procedimiento Tablas de contingencia como se muestra en el cuadro adjunto de SPSS

AED: Dos variables cualitativas



En el cuadro de diálogo Tablas de contingencia

seleccionamos

las

variables val y retraso en el desarrollo como fila y columna. Seleccionamos también mostrar barras agrupadas

AED: Dos variables cualitativas



En el cuadro de diálogo Tablas de contingencia pulsamos el botón Estadísticos para acceder a las opciones

que

nos

permiten

evaluar la posible relación entre las variables. En dicho cuadro marcamos la opción Chi-cuadrado.

AED: Dos variables cualitativas



Las tablas de contingencia que se construyen por defecto contienen las frecuencias absolutas. Pero podemos,

pulsando

el

botón

Casillas seleccionar frecuencias esperadas,

varios

porcentajes y residuos.

tipos

de

AED: Dos variables cualitativas •

Con las opciones seleccionadas en los cuadros descritos la ventana de resultados nos muestra la información que vamos a ir describiendo.

AED: Dos variables cualitativas Resumen del procesamiento de los casos

N VAL * retraso en el desarrollo

Válidos Porcentaje 42

61.8%

Casos Perdidos N Porcentaje 26

Total Porcentaje

N

38.2%

68

100.0%

f esp Tabla de contingencia VAL * retraso en el desarrollo

f ( f ) × f ( c) f i . × f . j = = N f ..

retraso en el desarrollo Si VAL

0

Si

No

Total

Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total

No

Total

1 .7 100.0%

0 .3 .0%

1 1.0 100.0%

3.3%

.0%

2.4%

2.4% 17 14.3 85.0%

.0% 3 5.7 15.0%

2.4% 20 20.0 100.0%

56.7%

25.0%

47.6%

40.5% 12 15.0 57.1%

7.1% 9 6.0 42.9%

47.6% 21 21.0 100.0%

40.0%

75.0%

50.0%

28.6% 30 30.0 71.4%

21.4% 12 12.0 28.6%

50.0% 42 42.0 100.0%

100.0%

100.0%

100.0%

71.4%

28.6%

100.0%

AED: Dos variables cualitativas

χ2 =

∑∑ i

j

(f

− f es ) ij 2

ob

(f ) es

ij

Pruebas de chi-cuadrado

Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos

Valor 4.305a 4.664 4.139

2 2

Sig. asintótica (bilateral) .116 .097

1

.042

gl

42

a. 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es .29.

En este caso dado que p > 0.05 aceptamos la hipótesis de independencia y concluimos que las variables no están relacionadas. Nota a. El número de casillas con frecuencias esperadas menores que 5 no debe superar el 20% para que la aproximación a la distribución Chi-cuadrado sea adecuada

AED: Dos variables cualitativas Además de los estadísticos anteriores el cuadro de diálogo Tablas de contingencia nos proporciona los diagramas de barras para las variables analizadas 20

100

100

15

43

90

85

80 70 10

60

57

50 40

Si No

0 0

Si

VAL

Gráfico por defecto

Recuento

Recuento

30 retraso en el desarr

retraso en el desarr

20

No 10

Si

0 0

No

Si

No

VAL

Gráfico modificado con el editor de gráficos

AED: Una variable cualitativa y una variable cuantitativa



Cuando analizamos una variable cuantitativa y otra cualitativa, el estudio se enfoca como un problema de comparación del comportamiento de la variable numérica en las diferentes subpoblaciones que define la variable cualitativa. Una forma de realizar dicho análisis es mediante los diagramas de caja y los test de hipótesis que nos permiten probar normalidad y homogeneidad de varianzas. El procedimiento de SPSS que nos proporciona información más completa para el AED en este caso es el procedimiento Explorar del SPSS.

AED: Una variable cualitativa y una variable cuantitativa

Seguimos con el archivo de espina bífida y ahora vamos a seleccionar Estadísticos descriptivos y Explorar tal y como aparece en el cuadro adjunto

AED: Una variable cualitativa y una variable cuantitativa

Explorar ansiedad Resumen del procesamiento de los casos

ansiedad CIM . (perdidos Si No

Válidos N Porcentaje 10 90.9% 24 100.0% 33 100.0%

Casos Perdidos N Porcentaje 1 9.1% 0 .0% 0 .0%

Total N Porcentaje 11 100.0% 24 100.0% 33 100.0%

Descriptivos

CIM

ansiedad . (perdidos)

Si

No

Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

Límite inferior Límite superior

Límite inferior Límite superior

Límite inferior Límite superior

Estadístico 60.10 49.65

Error típ. 4.620

70.55 59.78 56.50 213.433 14.609 43 83 40 28.00 .408 -1.198 61.21 54.16

.687 1.334 3.407

68.26 60.32 57.50 278.520 16.689 40 100 60 28.25 .766 -.381 78.73 71.24

.472 .918 3.676

86.21 78.48 84.00 445.830 21.115 43 126 83 37.00 -.066 -.810

.409 .798

Pruebas de normalidad a

CIM

ansiedad . (perdidos) Si No

Kolmogorov-Smirnov Estadístico gl Sig. .157 10 .200* .160 24 .117 .129 33 .177

Estadístico .922 .911 .947

Shapiro-Wilk gl 10 24 33

Sig. .370 .037 .110

*. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors

Gráfico Q-Q normal de CIM

Gráfico Q-Q normal de CIM

Para ANS= Si

Para ANS= No 2.0

2

1.5 1.0

1

.5 0.0

Normal esperado

-1

-2

-.5 -1.0 -1.5 -2.0 30

20

40

60

80

100

120

40

50

60

140

Gráfico Q-Q normal de CIM

Valor observado

Valor observado

Para ANS= Omitido 1.5

1.0

.5

0.0

Normal esperado

Normal esperado

0

-.5

-1.0 -1.5 40

50

Valor observado

60

70

80

90

70

80

90

100

110

Prueba de homogeneidad de la varianza

CIM

Basándose en la media Basándose en la mediana. Basándose en la mediana y con gl corregido Basándose en la media recortada

Estadístico de Levene 2.016

gl1 2

gl2 64

Sig. .142

1.665

2

64

.197

1.665

2

61.164

.198

2.097

2

64

.131

140

120

100

80

60

CIM

40

20 N=

ansiedad

10

24

33

Omitido

Si

No

Bibliografía

Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de Estadística. Madrid: Editorial La Muralla. Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en línea]. http://www.5campus.com/leccion/aed> [y añadir fecha consulta] Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill. Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares de datos en SPSS. Sistemas informatizados para la investigación del comportamiento. Madrid: RA-MA.

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.