Análisis de Una Variable

STATGRAPHICS – Rev. 4/25/2007 Análisis de Una Variable Resumen El procedimiento Análisis de Una Variable es uno de los principales procedimientos par

Author: Susana Fidalgo Bustamante

15 downloads 55 Views 301KB Size

Report

DOWNLOAD PDF

Recommend Stories

Tablas de una variable

Analisis descriptivo de una variable

6. Optimización de funciones de una variable

GRADO DE INGENIERÍA AEROESPACIAL. CURSO 2010–11. MATEMÁTICAS II. DPTO. DE MATEMÁTICA APLICADA II Lección 1. Funciones y derivada. 6. Optimización de

DERIVACIÓN DE FUNCIONES DE UNA VARIABLE

DERIVACIÓN DE FUNCIONES DE UNA VARIABLE Derivada de una función en un punto. Función derivada. Sea f (x) una función de una variable definida en un in

Programa de estudio CALCULO DE UNA VARIABLE

Programa de estudio CALCULO DE UNA VARIABLE 1.-Área académica Técnica 2.-Programa educativo Ingeniería Mecánica Eléctrica 3.-Dependencia académica

FUNCIONES VECTORIALES DE UNA VARIABLE REAL

Funciones reales de una variable real. Generalidades

Capítulo 3 Funciones de una Variable Real

Capítulo 3 Funciones de una Variable Real Introducción Es posible que la idea central en matemáticas sea el concepto de función. Al parecer, esta pala

Funciones Lineales en una Variable Real

El verbo es una categoría gramatical variable. El verbo es una categoría gramatical variable

Verbo: Definición El verbo es una categoría gramatical variable persona: 1ª, 2ª, 3ª número: singular, plural tiempo: presente, pasado, futuro modo: i

Story Transcript

STATGRAPHICS – Rev. 4/25/2007

Análisis de Una Variable Resumen El procedimiento Análisis de Una Variable es uno de los principales procedimientos para analizar una sola columna de datos numéricos. Calcula estadísticas de resumen, lleva a cabo pruebas de hipótesis, y crea una variedad de gráficos. Los gráficos incluyen gráfico de dispersión, histograma, gráfico de caja y bigotes, gráfico de cuantiles, gráfico de probabilidad normal, densidad suavizada, gráfico de simetría. Las tablas incluyen percentiles y diagrama de tallo y hojas.

StatFolio de Ejemplo: onevar.sgp Datos de Ejemplo: El archivo bodytemp.sf3 contiene datos que describen la temperatura corporal de una muestra de n = 130 personas. Se obtuvo del Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse data_archive.html) y originalmente apareció en el Journal of the American Medical Association. A continuación se muestran las primeras 20 filas del archivo. Temperature (temperatura) 98.4 98.4 98.2 97.8 98 97.9 99 98.5 98.8 98 97.4 98.8 99.5 98 100.8 97.1 98 98.7 98.9 99

Gender (género) Male Male Female Female Male Male Female Male Female Male Male Male Male Female Female Male Male Female Male Male

© 2005 por StatPoint, Inc.

Heart Rate (ritmo cardiaco) 84 82 65 71 78 72 79 68 64 67 78 78 75 73 77 75 71 72 80 75

Análisis de Una Variable - 1

STATGRAPHICS – Rev. 4/25/2007

Ingreso de Datos Los datos a analizar consisten de una sola columna numérica con n = 2 o más observaciones.

• •

Datos: columna numérica que contiene los datos a resumir. Selección: selección de un subgrupo de datos.

Resumen del Análisis El Resumen del Análisis muestra el número de observaciones en la columna de datos. Análisis de Una Variable - Temperature Datos/Variable: Temperature (degrees) 130 valores con rango desde 96.3 a 100.8

También se muestran el mayor y el menor de los valores.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 2

STATGRAPHICS – Rev. 4/25/2007

Gráfico de Dispersión El gráfico de dispersión grafica cada valor de los datos. Gráfico de Dispersión

96

97

98 99 Temperature

100

101

Los valores de los datos se grafican a lo largo del eje horizontal. A lo largo del eje vertical, los puntos se separan aleatoriamente hacia arriba o hacia abajo. Esto se hace para evitar que puntos con igual valor se traslapen. La cantidad de separación se controla con el botón Separar en la barra de herramientas de análisis:

Reduciendo la cantidad de separación Vertical se reducirá la cantidad de distanciamiento aleatorio:

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 3

STATGRAPHICS – Rev. 4/25/2007 Gráfico de Dispersión

96

97

98 99 Temperature

100

101

Advierta que la nube de puntos es más densa cerca del rango medio de temperatura y se hace menos densa en los valores superiores o inferiores. También hay un punto a 100.8° que parece algo extremo. Si hace clic sobre ese punto, verá que corresponde a la fila #15 del archivo.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 4

STATGRAPHICS – Rev. 4/25/2007

Resumen Estadístico La ventana del Resumen Estadístico calcula un número de diferentes estadísticas que comúnmente se usan para resumir una muestra de n observaciones: Resumen Estadístico para Temperature Recuento 130 Promedio 98.2492 Mediana 98.3 Moda 98.0 Media Geométrica 98.2465 Media Recortada 5% 98.2517 Media Winsorizada 5% 98.2415 Varianza 0.537558 Desviación Estándar 0.733183 Coeficiente de Variación 0.746248% Error Estándar 0.0643044 Sigma Winsorizada 5% 0.672257 DAM 0.5 Sbi 0.714878 Mínimo 96.3 Máximo 100.8 Rango 4.5 Cuartil Inferior 97.8 Cuartil Superior 98.7 Rango Intercuartílico 0.9 1/6 sextil 97.6 5/6 sextil 98.8 Rango Intersextil 1.2 Sesgo -0.00441913 Sesgo Estandarizado -0.0205699 Curtosis 0.780457 Curtosis Estandarizada 1.81642 Suma 12772.4 Suma de Cuadrados 1.25495E6

La mayoría de las estadísticas caen en una de tres categorías: 1. Medidas de tendencia central – estadísticas que caracterizan el “centro” de los datos. 2. Medidas de dispersión – estadísticas que miden la dispersión de los datos. 3. Medidas de forma – estadísticas que miden la forma de los datos con respecto a una distribución normal. Las estadísticas incluidas en la tabla se controlan por las definiciones de configuración en la ventana Stats de la caja de diálogo Preferencias. Dentro del procedimiento, se puede cambiar la selección usando la Ventana de Opciones. El significado de cada estadística se muestra a continuación. •

Recuento – el tamaño n de la muestra, el número de estradas no faltantes en la columna.

•

Promedio o media aritmética (medida de tendencia central) - el centro de masa de los datos, dado por:

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 5

STATGRAPHICS – Rev. 4/25/2007 n

x= •

∑x i =1

i

(1)

n

Mediana (medida de tendencia central) - el valor de en medio cuando los datos se ordenan de menor a mayor. Si n es impar, la mediana muestral es igual a x(0.5+n/2), donde x(i) representa la iésima observación más pequeña. Si n es par, la mediana muestral es igual al promedio de los dos valores de en medio: x(n / 2 ) + x(1+ n / 2 )

(2)

2 •

Moda (medida de tendencia central) – el valor del dato que se presenta con mayor frecuencia (si lo hubiera). Si ningún valor se presenta con mayor frecuencia que cualquier otro, esta estadística no se calcula.

•

Media Geométrica (medida de tendencia central) – estima el centro de los datos de acuerdo con ⎛ n ⎞ ⎜⎜ ∏ xi ⎟⎟ ⎝ i =1 ⎠

1/ n

(3)

Esta estadística se usa frecuentemente para datos que tienen un sesgo positivo, ya que estará más cerca del pico de la distribución que la media aritmética. Nota: esta estadística sólo está definida para una muestra de datos en la cual todos los valores son mayores que 0. El programa calcula la estadística promediando el logaritmo natural de los valores de los datos y tomando el antilogaritmo del resultado. •

Media Recortada en 100α% (medida de tendencia central) – la media dela muestra después de remover una fracción α de los valores de los datos más pequeños y la misma fracción de los mayores: T (α ) =

n − r −1 1 ⎡ ⎤ ( ) k x x x(i ) ⎥ + + ∑ ( r +1) ( n−r ) ⎢ n(1 − 2α ) ⎣ i =r +2 ⎦

(4)

donde r = ⎣α n ⎦ y k = 1 − (α n − r ) . Por omisión, STATGRAPHICS recorta 15% de cada extremo, aunque este valor puede cambiarse usando las Opciones de Ventana. •

Media Winsorizada (medida de tendencia central) – una medida robusta que se obtiene calculando la media muestral después de haber remplazado con copias de x(r+1) y x(n-r) los valores de los datos que se eliminarían en una media recortada: TW =

[

]

1 ⎧ n−r ⎫ ⎨ ∑ x (i ) + r x ( r +1) + x( n − r ) ⎬ n ⎩i = r +1 ⎭

(5)

La media truncada y la media Winsorizada son ambas menos afectada por valores extremos que la media aritmética. © 2005 por StatPoint, Inc.

Análisis de Una Variable - 6

STATGRAPHICS – Rev. 4/25/2007 •

Varianza (medida de dispersión) – una medida de la desviación cuadrada promedio alrededor de la media muestral: n

s2 = •

∑ (x i =1

− x)

i

(6)

n −1

Desviación Estándar (medida de dispersión) – la raíz cuadrada de la varianza muestral: n

s= •

2

∑ (x i =1

i

− x)

2

(7)

n −1

Coeficiente de Variación o desviación estándar relativa (medida de dispersión) – mide la magnitud de la desviación estándar como un porcentaje de la media muestral de acuerdo con: s CV = 100 % (8) x

Está definida solo si x > 0 . •

Error Estándar (medida de dispersión) – el error estándar de la media:

sx =

•

s

(9)

n

Sigma Winsorizada en 100α% (medida de dispersión) – una estimación Winsorizada de variabilidad alrededor de la media Winsorizada:

[

SW =

•

(10)

DAM – la desviación absoluta mediana: DAM = medianai { xi − ~ x}

•

]

⎧ n−r 2 2 2 ⎫ n ⎨ ∑ (x (i ) − TW ) + r (x( r +1) − TW ) + (x( n − r ) − TW ) ⎬ ⎭ ⎩i = r +1 (n − 2r )(n − 2r − 1)

(11)

Sbi (medida de dispersión) – una estimación basada en una suma ponderada de cuadrados alrededor de la mediana muestral:

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 7

STATGRAPHICS – Rev. 4/25/2007 2

n

S bi =

ui =

)

4

i =1

(12)

∑ (1 − u )(1 − 5u ) n

i =1

donde

(

n∑ ( xi − ~ x ) 1 − u i2 2 i

2 i

xi − ~ x 9 DAM

(13)

•

Mínimo - el valor del dato más pequeño x(1).

•

Máximo - el valor del dato más grande x(n).

•

Rango (medida de dispersión) - el máximo menos el mínimo:

(14)

R = x(n) - x(1) •

Cuartil Inferior - el 25ọ percentil. Aproximadamente 25% de los valores de los datos estarán por debajo de este valor.

•

Cuartil Superior - el 75ọ percentil. Aproximadamente 75% de los valores de los datos estarán por debajo de este valor.

•

Rango Intercuartílico (medida de dispersión) – la distancia entre los cuartiles:

RIC = cuartil superior – cuartil inferior

(15)

•

1/6 sextil (sextil inferior) - el 16.67ọ percentil.

•

5/6 sextil (sextil superior) - el 83.33ọ percentil.

•

Rango Intersextil (medida de dispersión) - la distancia entre los sextiles:

RIS = sextil superior – sextil inferior •

(16)

Sesgo (medida de forma) – una medida de asimetría calculada de acuerdo con: n

g1 =

n ∑ ( xi − x ) i =1

3

(n − 1)(n − 2)s 3

(17)

Un valor cercano a 0 correspondería a una muestra de datos casi simétrica. Un sesgo positivo indica una cola superior más larga que la inferior, mientras que un sesgo negativo indica una cola inferior más larga.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 8

•

STATGRAPHICS – Rev. 4/25/2007 Sesgo Estandarizado (medida de forma) - convierte la estadística de sesgo calculada anteriormente a un valor que tiene aproximadamente una distribución normal estándar en muestras grandes: z1 =

g1

(18)

6/n

Al nivel de significancia del 5%, de podría declarar un sesgo significativo si z1 cae fuera del intervalo (-2, +2). •

Curtosis (medida de forma) – una medida de lo relativamente picudo o plano comparado con una curva con forma de campana: n

g2 =

n(n + 1)∑ ( xi − x ) i =1

4

(n − 1)(n − 2)(n − 3)s 4

3(n − 1) (n − 2)(n − 3) 2

−

(19)

Un valor cercano a 0 correspondería a una distribución normal con forma casi de campana. Una curtosis positiva indica una distribución que es más picuda en el centro y tiene colas más largas que la normal. Una curtosis negativa indica una distribución que es más aplanada que la normal con colas más cortas. Esta medida generalmente es relevante sólo para caracterizar muestras de datos simétricos. •

Curtosis Estandarizada (medida de forma) – convierte la estadística curtosis calculada anteriormente a un valor que tiene aproximadamente una distribución normal estándar en muestras grandes:

z2 =

g2

(20)

24 / n

Al nivel de significancia del 5%, de podría declarar una curtosis significativa si z2 cae fuera del intervalo (-2, +2). •

Suma - la suma de los valores de los datos.

•

Suma de Cuadrados - la suma de los valores al cuadrado de los datos.

Para los datos de temperatura corporal, todas las medidas de tendencia central son muy similares, como debieran ser si la temperatura corporal siguiera una distribución simétrica tal como la normal. El sesgo y la curtosis estandarizados están ambos entre -2 y +2, indicando que no hay desviación significativa en forma con respecto a una distribución normal.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 9

STATGRAPHICS – Rev. 4/25/2007 Opciones de Ventana

Seleccione las estadísticas deseadas.

Gráfico de Caja y Bigotes Esta ventana presenta el gráfico de caja y bigotes.

Gráfico de Caja y Bigotes

96

97

98 99 Temperature

100

101

Este gráfico se construye de la siguiente forma: •

Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el cuartil superior. Este es el intervalo cubierto por el 50% central de los valores de los datos cuando se ordenan de menor a mayor.

•

Se dibuja una línea vertical en la mediana (el valor de en medio).

• Si se solicita, un signo de más se coloca en el lugar de la media muestral. © 2005 por StatPoint, Inc. Análisis de Una Variable - 10

STATGRAPHICS – Rev. 4/25/2007 •

Los bigotes se dibujan desde los extremos de la caja hasta los valores mínimo y máximo de los datos, a menos que haya valores inusualmente muy alejados de la caja (a los cuales Tukey llama puntos extremos). Los puntos extremos, que son puntos a más de 1.5 veces el rango intercuartílico (ancho de la caja) por arriba o por debajo de la caja, se indican por símbolos de señalamiento. Cualesquiera puntos a más de 3 veces el rango intercuartílico por arriba o por debajo de la caja se les llama puntos extremos lejanos, y se indican por símbolos de señalamiento con signos de más superpuestos por arriba de ellos. Si hay presentes puntos aberrantes (extremos o extremos lejanos), los bigotes se dibujan a los valores máximo y mínimo que no sean puntos aberrantes.

El gráfico anterior para los datos de temperatura corporal es muy simétrico. El signo de más para la media se encuentra muy cerca de la línea para la mediana, mientras que los bigotes son aproximadamente de igual longitud. Hay 3 puntos extremos. Cuando se muestrean 130 observaciones de una distribución normal, se puede esperar que se presenten puntos extremos tan solo por azar como la mitad de las veces, pero generalmente sólo uno o dos. Puntos extremos lejanos, de los cuales no hay, se presentan de manera extremadamente rara. Opciones de Ventana

• •

• •

Dirección: la orientación del gráfico, correspondiente a la dirección de los bigotes. Muesca sobre la Mediana: si se selecciona, se agregará una muesca al gráfico que muestra un intervalo de confianza de aproximadamente 100(1-α)% para la mediana al nivel de confianza por omisión del sistema (establecido en la pestaña General de la caja de diálogo de las Preferencias en el menú Editar). Mostrar aberrantes: si se selecciona, indica la localización de los puntos extremos. Mostrar Media: si se selecciona, muestra la localización de la media muestral así como la mediana.

Ejemplo – Gráfico de Caja y Bigotes con Muescas El siguiente gráfico muestra la adición de unas muescas a la mediana a un nivel de confianza del 95%.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 11

STATGRAPHICS – Rev. 4/25/2007 Gráfico de Caja y Bigotes Intervalos de confianza del 95% para la mediana: [98.1567, 98.4433]

96

97

98 99 Temperature

100

101

La muesca cubre el intervalo mediana muestral ± zα / 2

1.25( RIC ) 1.35 n

(21)

donde RIC es el rango intercuartílico muestral, n es el tamaño de la muestra, y zα/2 es el valor crítico superior del (α/2)% de una distribución normal estándar. La muesca, que va de aproximadamente 98.16 a 98.44, provee de una indicación del potencial error de muestreo en la mediana, suponiendo que los datos son una muestra aleatoria de una población normal. Advierta que este intervalo no contiene el valor generalmente citado para la temperatura corporal promedio del humano de 98.6°.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 12

STATGRAPHICS – Rev. 4/25/2007

Tabla de Frecuencias Un método común de resumir datos cuantitativos es construir k intervalos que cubran el rango de los datos y luego calcular el número de observaciones que caen dentro de cada intervalo. STATGRAPHICS presenta este tipo de tabla en la ventana Tabla de Frecuencias: Tabla de Frecuencias para Temperature Límite Límite Clase Inferior Superior Punto Medio menor o igual 96.0 1 96.0 96.25 96.125 2 96.25 96.5 96.375 3 96.5 96.75 96.625 4 96.75 97.0 96.875 5 97.0 97.25 97.125 6 97.25 97.5 97.375 7 97.5 97.75 97.625 8 97.75 98.0 97.875 9 98.0 98.25 98.125 10 98.25 98.5 98.375 11 98.5 98.75 98.625 12 98.75 99.0 98.875 13 99.0 99.25 99.125 14 99.25 99.5 99.375 15 99.5 99.75 99.625 16 99.75 100.0 99.875 17 100.0 100.25 100.125 18 100.25 100.5 100.375 19 100.5 100.75 100.625 20 100.75 101.0 100.875 21 101.0 101.25 101.125 22 101.25 101.5 101.375 23 101.5 101.75 101.625 24 101.75 102.0 101.875 mayor de 102.0 Media = 98.2492 Desviación Estándar = 0.733183

Frecuencia 0 0 2 2 3 6 8 7 23 13 17 18 17 6 5 0 2 0 0 0 1 0 0 0 0 0

Frecuencia Relativa 0.0000 0.0000 0.0154 0.0154 0.0231 0.0462 0.0615 0.0538 0.1769 0.1000 0.1308 0.1385 0.1308 0.0462 0.0385 0.0000 0.0154 0.0000 0.0000 0.0000 0.0077 0.0000 0.0000 0.0000 0.0000 0.0000

Frecuencia Acumulada 0 0 2 4 7 13 21 28 51 64 81 99 116 122 127 127 129 129 129 129 130 130 130 130 130 130

Frecuencia Rel. Acum. 0.0000 0.0000 0.0154 0.0308 0.0538 0.1000 0.1615 0.2154 0.3923 0.4923 0.6231 0.7615 0.8923 0.9385 0.9769 0.9769 0.9923 0.9923 0.9923 0.9923 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Esta tabla está vinculada con el Histograma de Frecuencias y presenta la siguiente información para cada intervalo o “clase”: •

Límite Inferior – el límite inferior de la clase.

•

Límite Superior - el límite superior de la clase

•

Punto Medio – el punto medio de la clase (a la mitad del recorrido entre los límites superior e inferior).

•

Frecuencia – el número de observaciones fj que son mayores que el límite inferior de la clase y menores o iguales al límite superior.

•

Frecuencia Relativa - la proporción de observaciones que caen en cada clase, dada por fj/n.

•

Frecuencia Acumulada - el número de observaciones que caen en la clase actual o en las previas:

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 13

STATGRAPHICS – Rev. 4/25/2007 j

∑f i =1

•

i

(22)

Frecuencia Relativa Acumulada – la proporción de observaciones que caen en la clase actual o en las previas: j

∑f i =1

i

n

(23)

La columna más a la derecha es de considerable interés, ya que corresponde a la distribución acumulada de las observaciones. Por ejemplo, 62.31% de los datos es menor o igual a 98.5°.

Opciones de Ventana

•

Número de Clases: el número de intervalos en los que se dividirán los datos. Los intervalos son adyacentes unos a otros y de la misma amplitud.

•

Límite Inferior: límite inferior del primer intervalo.

•

Límite Superior: límite superior del último intervalo.

•

Mantener: conserva el número de intervalos y límites seleccionados aún cuando cambien los datos fuente. Por omisión, el número de clases y los límites se recalculan siempre que cambien los datos. Esto es necesario para que todas las observaciones se exhiban aun cuando algunos de los nuevos datos cayeran fuera de los límites originales.

El número de intervalos en los cuales los datos son agrupados por omisión se establece por el criterio especificado en la pestaña AED de la caja de diálogo de Preferencia en el menú Editar. Cada criterio determina el número de intervalos m como una función del tamaño muestral n. Los criterios son: Regla de Sturges: m = ceiling(1 + 3.322 log(n) )

(24)

10 log10(n): m= ceiling(10 log(n) )

(25)

Regla de Scott: m = ceiling[ (max-min) / (3.5 s / n1/3) ]

(26)

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 14

STATGRAPHICS – Rev. 4/25/2007 Regla de Freedman-Diaconis: m = ceiling[ (max-min) /(2.0 RIC/ n1/3) ]

(27)

Número fijo: m = número pre-definido

(28)

donde min es igual al valor del dato más pequeño en la muestra, max es igual al valor del dato más grande, s es igual a la desviación estándar muestral, RIC es igual al rango intercuartílico muestral, y la función ceiling (techo) encuentra el entero más pequeño mayor o igual a su argumento, es decir, redondea al entero superior. Puede experimentar con diferentes criterios para determinar cuál da un buen número de intervalos para su tipo de datos más común.

Histograma de Frecuencias La ventana Histograma de Frecuencias presenta el resultado de la tabla de frecuencias en la forma de un diagrama de barras o un gráfico de líneas, dependiendo de las definiciones de configuración de las Opciones de Ventana. Histograma 24

frecuencia

20 16 12 8 4 0 96

97

98

99 100 Temperature

101

102

La altura de cada barra en el gráfico anterior representa el número de observaciones en cada clase.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 15

STATGRAPHICS – Rev. 4/25/2007

Opciones de Ventana

•

Número de Clases: el número de intervalos en los que se dividirán los datos. Los intervalos son adyacentes unos a otros y de la misma amplitud.

•

Límite Inferior: límite inferior del primer intervalo.

•

Límite Superior: límite superior del último intervalo.

•

Mantener: conserva el número de intervalos y límites seleccionados aún cuando cambien los datos fuente. Por omisión, el número de clases y los límites se recalculan siempre que cambien los datos. Esto es necesario para que todas las observaciones se exhiban aun cuando algunos de los nuevos datos cayeran fuera de los límites originales.

•

Frecuencia: si es Relativa, la altura representa la proporción de las observaciones con respecto al total en la muestra, y de no señalarse la altura representa el número de observaciones. Si es Acumulada, la altura representa las observaciones en el intervalo indicado y en todos los intervalos a su izquierda, y de no señalarse la altura representa las observaciones en un solo intervalo.

•

Tipo de Gráfico: si es Histograma, las frecuencias de las clases se mostrarán como un diagrama de barras. Si es Polígono, las frecuencias de las clases se mostrarán usando un gráfico de líneas conectadas.

Ejemplo – Polígono de Frecuencias Acumuladas Estableciendo el Tipo de Gráfico como Polígono y señalando los cuadros de Acumulada y Relativa da una presentación de la distribución acumulada de los datos:

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 16

STATGRAPHICS – Rev. 4/25/2007 Histograma 100

porcentaje

80 60 40 20 0 96

97

98

99 100 Temperature

101

102

El gráfico anterior muestra el porcentaje de observaciones en el o por debajo del límite superior de cada intervalo dentro del cual se agruparon los datos. Se puede ver que alrededor del 50% de los datos caen por debajo de 98.3°.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 17

STATGRAPHICS – Rev. 4/25/2007

Diagrama de Tallo y Hojas El diagrama de tallo y hojas también presenta una tabla de los datos. Diagrama de Tallo y Hoja para Temperature: unidad = 0.1 1|2 representa 1.2 BAJO|96.3 96.4 2 6 19 40 (38) 52 19 4 2

96| 96|7789 97|0111222344444 97|556666777888888899999 98|00000000000111222222222233333444444444 98|555666666666677777777888888888899 99|000001112223344 99|59 100|0 ALTO|100.8

Este diagrama, debido a John Tukey (1977), toma cada valor de los datos y lo divide en un tallo y una hoja. Por ejemplo, la temperatura del primer sujeto en la muestra de datos tiene una temperatura de 98.4°. Llamemos a los dos primeros dígitos (“98”) el tallo, y al tercer dígito (“4”) la hoja. Cada fila del diagrama de tallo y hojas corresponde a valores con el mismo tallo, mostrado a la izquierda de la línea vertical. A la derecha de la línea vertical, se muestra un solo dígito presentado la hoja para cada valor de los datos. Por ejemplo, la fila que muestra 98|00000000000111222222222233333444444444

indica que hubo 11 sujetos con temperatura de 90.0°, 3 sujetos con temperatura de 98.1°, 10 con 98.2°, 5 con 98.3°, y 9 con una de 98.4°. Puntos extremos, definidos de igual forma que para el gráfico de caja y bigotes, se grafican en tallos especiales HI y LO (alto y bajo). Los números en la columna de hasta la izquierda, llamados profundidades (depths), dan una cuenta acumulada de las observaciones de arriba y abajo hacia el centro del diagrama. En la fila que contiene la medina, en cambio se muestra puesto entre paréntesis el número de observaciones en esa fila. Aunque similar a un histograma volcado en su costado, Tukey pensó que el gráfico de tallo y hojas era preferible a un diagrama de barras ya que los valores de los datos podían recuperarse a partir del diagrama. Él usaba las profundidades para localizar la median y los cuartiles cuando tabulaba los datos a mano.

Opciones de Ventana

•

Marcar Aberrantes: si se selecciona, los puntos aberrantes se pondrán en tallos separados HI (de high, alto) y LO (de low, bajo). De otro modo, se incluirán en la parte principal del gráfico. © 2005 por StatPoint, Inc. Análisis de Una Variable - 18

STATGRAPHICS – Rev. 4/25/2007

Percentiles El p-ésimo percentil de una distribución de probabilidad continua se define como el valor de X para el cual la probabilidad de ser menor o igual a X es de p/100. Por ejemplo, el 90ọ percentil es el valor por debajo del cual está el 90% de la población. La ventana de Percentiles presenta una tabla de percentiles seleccionados con base en los datos muestrales. Percentiles para Temperature Percentiles Límite Inferior 1.0% 96.4 96.2713 5.0% 97.0 96.829 10.0% 97.25 97.1232 25.0% 97.8 97.6062 50.0% 98.3 98.1222 75.0% 98.7 98.6102 90.0% 99.1 99.0308 95.0% 99.3 99.2774 99.0% 100.0 99.7342

Límite Superior 96.7643 97.2211 97.4677 97.8882 98.3762 98.8922 99.3753 99.6695 100.227

El informe incluye 95.0% de límites de confianza Normal.

Por ejemplo, el 90ọ percentil de los datos de temperatura corporal es igual a 99.1°, lo que implica que 90% de todos los sujetos tuvo temperatura de 99.1° o inferior. Si se solicitan usando las Opciones de Ventana, también se pueden incluir los límites inferior y superior de confianza o cotas de confianza unilaterales, asumiendo que los datos son muestras aleatorias de una distribución normal. El intervalo del 95% de confianza para la temperatura a la cual o debajo de la cual uno encontraría el 90% de todos los individuos semejantes a los del estudio va de 99.03° a 99.38°.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 19

STATGRAPHICS – Rev. 4/25/2007

Opciones de Ventana

•

Percentiles: los porcentajes a los que se deberán calcular los percentiles. Poner en 0 para eliminar el cálculo.

•

Incluir Límites Normales: señalar para incluir límites de confianza o cotas con base en el supuesto de que los datos son muestras aleatorias de una distribución normal.

•

Nivel de Confianza: nivel para los límites o las cotas.

•

Tipo: seleccione Bi-Lateral para un intervalo de confianza, o una cota unilateral, Cota inferior o Cota superior, para calcular una cota inferior o superior, respectivamente, para el percentil.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 20

STATGRAPHICS – Rev. 4/25/2007

Gráfico de Cuantiles Esta ventana grafica los cuantiles (percentiles) de los datos.

Gráfico Cuantil 1

proporción

0.8 0.6 0.4 0.2 0 96

97

98 99 Temperature

100

101

En este gráfico, los datos se ordenan de menor a mayor y se grafican en las coordenadas

j − 0.5 ⎞ ⎛ ⎜ x( j ) , ⎟ n ⎠ ⎝

(29)

La forma de S mostrada arriba es típica de una distribución normal con forma de campana.

Gráfico de Probabilidad Normal A semejanza del Gráfico de Cuantiles, el Gráfico de Probabilidad Normal muestra los datos de menor a mayor. Sin embargo, lo hace de manera que es posible juzgar si los datos provienen o no de una distribución normal.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 21

STATGRAPHICS – Rev. 4/25/2007 Gráfico de Probabilidad Normal 99.9 99

porcentaje

95 80 50 20 5 1 0.1 96

97

98 99 Temperature

100

101

El eje vertical se escala de tal manera que, si los datos provienen de una distribución normal, los puntos deberán caer aproximadamente a lo largo de una línea recta. Para construir el gráfico, los puntos se grafican en las coordenadas ⎛ ⎛ j − 0.375 ⎞ ⎞ ⎜⎜ x( j ) , Φ −1 ⎜ ⎟ ⎟⎟ ⎝ n + 0.25 ⎠ ⎠ ⎝

(30)

donde Φ −1 (u ) representa la distribución normal estándar inversa evaluada en u. Las etiquetas a lo largo del eje vertical son iguales a 100u%, para valores de u que van de 0.001 a 0.999. Para ayudar a determinar que tan cercanamente los puntos corresponden a una línea recta, se puede superponer una línea de referencia en el gráfico que corresponda a una distribución normal con media μ y desviación estándar σ. Hay dos opciones para ajustar la línea: 1. Usando la mediana y los cuartiles muestrales:

μˆ = mediana muestral

(31)

σˆ = rango intercuartílico / 1.35

(32)

2. Ajustando una regresión por mínimos cuadrados de los cuantiles normales de los valores de los datos ordenados.

μˆ = - intercepto / pendiente

(33)

σˆ = 1 / pendiente

(34)

El primer método es más robusto a desviaciones de la normalidad en las colas de la distribución, ya que esencialmente se apoya solo en la mitad central. Valores aberrantes o colas largas tendrán una mayor influencia al usar el método de mínimos cuadrados. © 2005 por StatPoint, Inc.

Análisis de Una Variable - 22

STATGRAPHICS – Rev. 4/25/2007 Como generalmente es el caso, la opción de mínimos cuadrados muestra un ajuste mucho más cercano a los datos de temperatura:

Gráfico de Probabilidad Normal 99.9 99

porcentaje

95 80 50 20 5 1 0.1 96

97

98 99 Temperature

100

101

Excepto por un valor, los demás puntos están muy próximos a la línea. Nota: establezca el método por omisión para ajustar líneas en el gráfico de probabilidad normal usando la ventana AED en la caja de diálogo de las Preferencias, del menú Editar.

Opciones de Ventana

•

Dirección: la orientación del gráfico. Si es Vertical, el Porcentaje se presenta en el eje vertical. Si es Horizontal, el Porcentaje se presenta en el eje horizontal.

•

Línea Ajustada: el método usado para ajustar la línea de referencia a los datos. Si es Usando Cuartiles, la línea pasa por la mediana cuando el Porcentaje es de 50 con una pendiente determinada a partir del rango intercuartílico. Si es Usando Mínimos Cuadrados, la línea se ajusta con la regresión por mínimos cuadrados de los cuantiles normales de las estadísticas de orden. El primer método basado en los cuartiles da más peso a la forma de los datos cerca del centro y frecuentemente permite mostrar desviaciones de la normalidad en las colas que no serían evidentes usando el método de mínimos cuadrados.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 23

STATGRAPHICS – Rev. 4/25/2007

Intervalos de Confianza La ventana Intervalos de Confianza muestra intervalos de confianza para la media y la desviación estándar. Si se le solicita, también incluye intervalos para la media, mediana y desviación estándar calculados por el método bootstrap. Intervalos de Confianza para Temperature Intervalos de confianza del 95.0% para la media: 98.2492 +/- 0.127228 [98.122, 98.3765] Intervalos de confianza del 95.0% para la desviación estándar: [0.653586, 0.835043] Intervalos Bootstrap Media: [98.1262, 98.3938] Desviación Estándar: [0.624436, 0.833003] Mediana: [98.15, 98.4]

Los intervalos de confianza al 95% se construyen de tal manera que, en repetidos muestreos, 95% de tales intervalos contendrán el verdadero valor del parámetro que se estima. También puede ver un intervalo de confianza como especificando el “margen de error” de la misma forma como se enuncia cuando se hace una encuesta de opinión. En el ejemplo anterior, aunque la temperatura media en la muestra fue de 98.25°, la media en la población de la cual los datos fueron muestreados bien puede diferir de esa estimación por 0.13° en cualquier dirección. Los intervalos de confianza para la media y la desviación estándar descansan en el supuesto de que los datos provienen de una distribución normal. Si esto no se puede sostener, entonces una alternativa es construir intervalos usando el método bootstrap. En este método, se forman q submuestras seleccionando aleatoriamente con reemplazo (i.e., la misma observación puede ser seleccionada más de una vez) m observaciones de la muestra original. Para cada una de las q submuestras, se calculan la media, la median y la desviación estándar. Luego se obtienen intervalos de confianza bilaterales o unilaterales usando percentiles de la distribución observada de las estadísticas de las submuestras. Si los datos no provienen de una distribución normal, los intervalos bootstrap pueden diferir considerablemente de los obtenidos analíticamente. También, a causa de la naturaleza aleatoria de este procedimiento, se obtendrán diferentes resultados cada vez que el método bootstrap se lleve a cabo.

Opciones de Ventana

• • • •

Nivel de Confianza: nivel para los intervalos bilaterales o unilaterales. Tipo de Intervalo: seleccione Bi-Lateral para un intervalo de confianza o para una cota de confianza seleccione Cota Superior o Cota Inferior. Incluir Bootstrap: incluye intervalos bootstrap en la salida. Número de Submuestras: el número de submuestras q en las que se basarán los intervalos. Nota: cada submuestra tendrá m = n observaciones, muestreadas con reemplazo.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 24

STATGRAPHICS – Rev. 4/25/2007

Pruebas de Hipótesis Frecuentemente surgen circunstancias donde es necesario determinar si la muestra proviene de una distribución con una media o desviación estándar particulares. Por ejemplo, comúnmente se asume que la temperatura media del ser humano es de 98.6°. Para determinar si esta es o no una aseveración razonable dados los datos que han sido colectados, son posibles dos enfoques: 1. Construir un intervalo de confianza para la media y determinar si 98.6° está o no dentro del intervalo de confianza. 2. Realizar una prueba de hipótesis estadística formal. La ventana de las Pruebas de Hipótesis da soporte al último enfoque. Prueba t para la Media A continuación se muestra la parte superior de la salida: Prueba de Hipótesis para Temperature Media Muestral = 98.2492 Mediana Muestral = 98.3 Desviación Estándar de la Muestra = 0.733183 Prueba t Hipótesis Nula: media = 98.6 Alternativa: no igual Estadístico t = -5.45482 Valor-P = 4.37123E-7 Se rechaza la hipótesis nula para alfa = 0.05.

Para correr una prueba de hipótesis, se formulan dos hipótesis que entran en competencia: •

Hipótesis Nula: una hipótesis tal como μ = 98.6° a la que se le dará el beneficio de la duda. El valor especificado por la hipótesis nula se etiqueta μ0.

•

Hipótesis Alternativa: una hipótesis tal como μ ≠ 98.6° que conducirá al rechazo de la hipótesis nula si hay suficiente evidencia en contra de la nula.

El enfoque estadístico estándar a este problema es construir una prueba t usando:

t=

x − μ0

(35)

s/ n

y comparándola con una distribución t de Student con ν = n - 1 grados de libertad. La tabla anterior muestra los resultados de esta prueba: •

Estadístico t calculado – el valor calculado t = -5.455

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 25

•

STATGRAPHICS – Rev. 4/25/2007 Valor de P – un valor que puede ser usado para rechazar la hipótesis nula si es lo suficientemente pequeño. Al nivel de significancia α = 5%, la hipótesis nula se rechazará si P < 0.05.

En este caso, hay una muy fuerte evidencia de que los datos no provienen de una población en la cual la media sea igual a 98.6°. Prueba para la Mediana Si la distribución de la que provienen los datos no es normal, tal vez sea de mayor interés probar una hipótesis sobre la mediana poblacional más que sobre la media. STATGRAPHICS realiza dos de tales pruebas: una prueba de los signos y una prueba de rangos con signo. Prueba de los signos Hipótesis Nula: mediana = 98.6 Alternativa: no igual Número de valores menores a la mediana hipotética: 81 Número de valores mayores a la mediana hipotética: 39 Estadístico para Grandes Muestras = 3.74277 (aplicada la corrección por continuidad) Valor-P = 0.000182057 Se rechaza la hipótesis nula para alfa = 0.05. Prueba de rangos con signo Hipótesis Nula: mediana = 98.6 Alternativa: no igual Rango medio de valores menores a la mediana hipotética: 67.7222 Rango medio de valores mayores a la mediana hipotética: 45.5 Estadístico para Grandes Muestras = 4.86 (aplicada la corrección por continuidad) Valor-P = 0.00000117545 Se rechaza la hipótesis nula para alfa = 0.05.

La Prueba de los Signos se basa en la comparación del número de observaciones por debajo de la mediana hipotética con el número de observaciones por arriba de la misma. Una gran discrepancia conduce al rechazo de la hipótesis nula. La Prueba de Rangos con Signo le da rango a las diferencias absolutas entre los datos y la mediana hipotética de menor a mayor y compara el rango promedio de las observaciones por debajo de la media hipotética con el rango promedio de las de por arriba. De primordial importancia en la tabla anterior son los Valores de P. Valores pequeños (por debajo de 0.05 si se trabaja al nivel de significancia del 5%) conducen al rechazo de la hipótesis nula. En el presente ejemplo, ambas pruebas rechazan la idea de que la mediana de la temperatura corporal es igual a 98.6°. Prueba para la Desviación Estándar También es posible probar hipótesis sobre la desviación estándar de la población. El estadístico de prueba es

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 26

Χ2 =

(n − 1)s

STATGRAPHICS – Rev. 4/25/2007 2

(36)

σ 02

que se compara con una distribución chi-cuadrada con ν = n - 1 grados de libertad. Pequeños valores de P conducen al rechazo del valor de la desviación estándar σ0 especificado por la hipótesis nula.

Opciones de Ventana

•

Prueba t, Prueba de los Signos, Prueba de Rangos con Signo, Prueba Chi-Cuadrada: definen las pruebas que se llevarán a cabo.

•

Media/Mediana: μ0, el valor de la media o mediana especificada por la hipótesis nula.

•

Desviación Estándar: σ0, el valor de la desviación estándar especificada por la hipótesis nula.

•

Alfa: el nivel de significancia de la prueba, generalmente establecido en 0.01, 0.05 ó 0.10. Éste es igual a la probabilidad de rechazar la hipótesis nula siendo cierta. No afecta al Valor de P, solo las concusiones expuestas inmediatamente a continuación del Valor de P.

•

Hipótesis Alternativa.: la hipótesis alternativa puede ser de dos colas (“Diferente de”) o de una cola (tal como μ < 98.6 si se especifica “Menor que”).

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 27

STATGRAPHICS – Rev. 4/25/2007

Densidad Suavizada La Densidad Suavizada provee una estimación no paramétrica de la función de densidad de probabilidad de la población de la cual fueron muestreados los datos. Se crea contando el número de observaciones que caen dentro de una ventana de ancho fijo que se mueve a través del rango de los datos.

Densidad Suavizada 0.4

densidad

0.3

0.2

0.1

0 96

97

98 99 Temperature

100

101

La función de densidad estimada está dada por: 1 n ⎛ x − xi ⎞ f ( x) = ⎟ ∑W ⎜ hn i =1 ⎝ h ⎠

(37)

donde h es el ancho de la ventana en unidades de X y W(u) es una función ponderadora determinada por la selección en la caja de diálogo de las Opciones de ventana. Se ofrecen dos formas de función ponderadora: Método del Vagón

⎧1 si u ≤ 1 / 2 W (u ) = ⎨ ⎩0 en otro caso

(38)

Función Coseno

⎧1 + cos(2πu ) si u ≤ 1 / 2 W (u ) = ⎨ en otro caso ⎩0

(39)

La última selección generalmente da un resultado más suave, con el valor deseado de h dependiendo del tamaño de la muestra de datos. Para los datos muestrales, la densidad suavizada se parece mucho a una distribución normal. © 2005 por StatPoint, Inc.

Análisis de Una Variable - 28

STATGRAPHICS – Rev. 4/25/2007 Opciones de Ventana

•

Método: la función ponderadora deseada. El Método del Vagón pondera todos los valores de igual forma dentro de la ventana. La función coseno da pesos decrecientes a las observaciones más alejadas del centro de la ventana. La selección por omisión está determinada por las definiciones de configuración en la pestaña AED de la caja de diálogo de las Preferencias del menú Editar.

•

Ancho del Intervalo: el ancho h de la ventana dentro de la cual las observaciones afectan la densidad estimada, como un porcentaje del rango cubierto por el eje x. h = 60% no es irrazonable para una muestra pequeña pero puede no dar tanto detalle como lo haría un valor menor en muestras más grandes.

•

Resolución del Eje X: el número de puntos en los cuales se estimará la densidad.

Gráfico de Simetría El gráfico de simetría se usa para ayudar a juzgar si los datos provienen de una distribución simétrica, i.e., una distribución que tiene una función de densidad con la misma forma a cada lado de la mediana.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 29

STATGRAPHICS – Rev. 4/25/2007 Gráfico de Simetría

distancia sobre mediana

2.5 2 1.5 1 0.5 0 0

0.5

1 1.5 distancia abajo mediana

2

2.5

Para crear este gráfico, los valores de los datos se ordenan y luego se hacen pares con base en su localización con respecto a la mediana. Por ejemplo, con 130 observaciones, los puntos ordenados se aparean así: (x(65),x(66), (x(64),x(67)), (x(63),x(68)), …, (x(1),x(100)) Se grafica la distancia de cada par por arriba y por debajo de la mediana. Si los datos provienen de una distribución simétrica, los puntos deberán caer cerca de una línea a 45 grados. Si no, los puntos se desviarán de la línea en una dirección particular. La gráfica anterior tiende a desviarse por debajo de la línea diagonal sobre mucho del rango de X, lo que indicaría una cola inferior más larga que la superior. Unos valores extremos al final, sin embargo, rompen ese patrón.

Salvar Resultados Se pueden salvar los siguientes resultados en la hoja de datos: 1. Resumen Estadístico – los valores de las estadísticas mostradas en la ventana Resumen Estadístico. 2. Etiquetas de las Estadísticas – las etiquetas para las estadísticas mostradas en la ventana Resumen Estadístico. 3. Percentiles – los valores de los percentiles exhibidos en la ventana Percentiles. 4. Frecuencias – las frecuencias de clase exhibidas en la ventana Tabla de Frecuencias. 5. Frecuencias Acumuladas – las frecuencias acumuladas de clase exhibidas en la ventana Tabla de Frecuencias. 6. Frecuencias Relativas – las frecuencias relativas de clase exhibidas en la ventana Tabla de Frecuencias. 7. Frecuencias Relativas Acumuladas – las frecuencias relativas acumuladas de clase exhibidas en la ventana Tabla de Frecuencias.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 30

STATGRAPHICS – Rev. 4/25/2007 Cálculos Percentiles

1. Calcule la estadística de orden x(j) = j-ésimo valor más pequeño de dato. 2. Para el p-ésimo percentile, sea q=p/100.

(40)

3. Si nq es un entero, sean j1=nq

(41)

j2 = 1+nq

(42)

4. De otro modo si nq no es un entero, sea (43)

j1 = j2 = floor(1+nq) donde la función floor (piso) devuelve el entero más grande menor o igual a su argumento. 5. El p-ésimo percentil está dado por x( j1 ) + x( j2 )

(44)

2 Intervalo de Confianza para la Media

x ± tα / 2,n −1

s n

(45)

Intervalo de Confianza para la Desviación Estándar

⎡ (n − 1)s 2 (n − 1)s 2 ⎤ , ⎢ ⎥ 2 χ 12−α / 2,n −1 ⎦⎥ ⎣⎢ χ α / 2,n −1

(46)

Prueba de los Signos

Dada una mediana hipotética θ0, sea n- = número de xi < θ0

(47)

n+ = número de xi > θ0

(48)

Entonces

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 31

z=

max(n− , n+ ) − 0.5 −

(n− + n+ ) 2

STATGRAPHICS – Rev. 4/25/2007 (49)

n− + n+ 4

se compara con una distribución normal estándar.

Prueba de Rangos con Signo

Dada una mediana hipotética θ0, asigne el rango a las desviaciones de la mediana hipotética |xi θ0|. Sea T- = suma de rangos para todas las xi < θ0

(50)

T+ = suma de rangos para todas las xi > θ0

(51)

Entonces

n(n + 1) 4 n(n + 1)(2n + 1) S − 24 48

(52)

n(n + 1) 4 n(n + 1)(2n + 1) S − 24 48

(53)

T − − 0.5 −

z− =

T + − 0.5 −

z+ =

donde n = n- + n+ y S=0 a menos que haya observaciones empatadas. Si hay g grupos de observaciones empatadas, y tj es igual al tamaño del j-ésimo grupo de empates, entonces g

S = ∑ t j (t j − 1)(t j + 1)

(54)

j =1

Para una prueba de dos colas, la mayor de las dos estadísticas Z se compara con una distribución normal estándar. Para una prueba de una cola, solo se usa la estadística correspondiente a la dirección de la hipótesis alternativa.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 32

Recommend Stories

Story Transcript

Get in touch

Social