Octubre 2015
Ing. Rubén Darío Estrella, MBA Cavaliere dell’ordine al Merito della Repubblica Italiana (2003) Ingeniero de Sistemas (UNIBE 1993), Administrador (PUCMM 2000), Matemático (PUCMM 2007), Teólogo (UNEV 2002) y Maestro (Salomé Uneña 1995)
[email protected] /
[email protected]
www.atalayadecristo.org
Aplicación de las Estadísticas Descriptivas Proyecto Parcial 27/10/2015 - Primer Parcial 20/10/2015 Una empresa multinacional del Sector Supermercados que está ubicada en el Distrito Nacional, Santo Domingo y Santiago, está pensando expandir sus operaciones estableciéndose en otras 3 provincias del País, con este propósito un equipo de estudiantes de Modelos para la Toma de Decisiones fue contratado, para determinar en cuáles y qué orden debe ubicarse tomando en consideración las siguientes informaciones estadísticas: Población Rural y Urbana. / Hogares Rurales y Urbanos. / Población Ocupada. / Población Económicamente Activa. / Proporción de la Ocupada en relación a la Activa. Gasto Anual por Hogar Rural (En alimentos, bebidas y tabaco). Gasto Anual por Hogar Urbano (En alimentos, bebidas y tabaco).
Demanda total (En base a la suma del Gasto Rural y Urbano). Densidad Poblacional. Utilizando las Herramientas estadísticas, algunas consideraciones de Operaciones y Mercadeo, presente su Informe. Característica del Sector Industrial, situación actual, entorno, tendencias, etc. Estilo de vida. / Indice de Desarrollo Humano. / Desarrollo provincial. / Nivel de Educación. Acceso a la tecnología y medios de comunicación. / Nivel de participación de la competencia. Distancia de los centros de distribución. / Impreso y en CD. Sitios de Internet a visitar: www.bancentral.gov.do / www.one.gov.do / www.pnud.org.do
www.tiendalasirena.com / www.superpola.com / www.jumbo.com.do www.ole.com.do / www.supermercadoslacadena.com / www.superbravo.com
Estadística
Es una colección de métodos para planear experimentos,
obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones con base en esos datos. Se ocupa de los métodos y procedimientos para recoger,
clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Es el arte y la ciencia de reunir, analizar, presentar e
interpretar datos.
Estadística Descriptiva
Es el proceso de recopilación, organización y presentación de datos de alguna manera que describa con rapidez y facilidad.
La estadística descriptiva proporciona herramientas para organizar, simplificar y resumir información básica a partir de un conjunto de datos que de otra forma seria poco manejable. Esta incluye la tabulación, representación y descripción de conjuntos de datos.
La estadística es descriptiva cuando los resultados del análisis estadístico no pretende ir más allá del conjunto de datos investigados.
Estadística Inferencial
Implica la utilización de una muestra para extraer alguna inferencia o conclusión sobre la población correspondiente.
Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos.
La estadística es inferencial cuando se derivan conclusiones generales para un conjunto de datos más amplio a partir de la información proporcionada por los datos estudiados.
Es el proceso de reunir datos obtenidos de una muestra para hacer estimaciones o probar hipótesis acerca de las características de una población.
Descriptiva vs. Inferencial Estadística Descriptiva. Obtener
datos
Estadística Inferencial
o
Analizar
recopilación Interpretar Organizar y resumir Llegar a conclusiones Presentar
Herramientas estadísticas que resultan de particular utilidad para organizar los datos. Tabla de frecuencia es un resumen tabular de un
conjunto datos donde se muestra la frecuencia (o cantidad) del objeto de estudio en cada una de varias clases.
Gráficos que pueden proporcionar una representación visual de los datos.
“Una imagen vale más que mil palabras”
Datos no agrupados 270 278 250 278 290 274 242 269 257 272 265 263 234 270 273 270 277 294 279 268 230 268 278 268 262
273 201 275 260 286 272 284 282 278 268 263 273 282 285 289 268 208 292 275 279 276 242 285 273 268
258 264 281 262 278 265 241 267 295 283 281 209 276 273 263 218 271 289 223 217 225 283 292 270 262
204 265 271 273 283 275 276 282 270 256 268 259 272 269 270 251 208 290 220 259 282 277 282 256 293
254 223 263 274 262 263 200 272 268 206 280 287 257 284 279 252 280 215 281 291 276 285 287 297 290
228 274 277 286 277 251 278 277 286 277 289 269 267 276 206 284 269 284 268 291 289 293 277 280 274
282 230 275 236 295 289 283 261 262 252 283 277 204 286 270 278 270 283 272 281 288 248 266 256 292
Tabla de frecuencia RANGO-INTERVALO CLASES
CANTIDAD
POR CIENTO
SUMA
SUMA
PUNTO
DE OBSERVS.
DE C
ACUMULADA
ACUMULADA
MEDIO
EN RANGO
%
DE C
DE D
DEL RANGO
CXG
FRECUENCIA
FRECUENCIA
FRECUENCIA
FRECUENCIA
MARCA DE
FRECUENCIA
ABSOLUTA
RELATIVA
ABSOLUTA
RELATIVA
CLASE
X MARCA DE
ACUMULADA
ACUMULADA
LIMITE
LIMITE
INFERIOR
SUPERIOR
LI
LS
F
FR
FA
FRA
M
F*M
A
B
C
D
E
F
G
H
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
TOTALES
CLASE
Procedimiento para Agrupar 1. Número de Clases: Entre 5 y 20 clases (2x n). Clase: Categoría o Críterio que permite agrupar los puntajes 2. Determine la Anchura o Intervalo de clase.
Anchura = Rango / # de Clases
Número de Clases x Anchura Rango
3. Seleccione como Límite Inferior (LI) de la Clase, ya sea el puntaje más
pequeño o un valor conveniente un poco menor que el puntaje más bajo. 4. Sume la Anchura al LI de la segunda clase, y así sucesivamente hasta completar el número de clases. 5. Registre los Límites Superiores (LS) hasta completar el número de clases - El LS debe ser menor que el LI siguiente. 6. Clasifique cada puntaje en su clase correspondiente.
Tabla de Frecuencia CANTIDAD DE OBSERVS.
POR CIENTO
SUMA SUMA PUNTO ACUMULA DE C DA ACUMULADA MEDIO RANGODEL INTERVALO EN RANGO % DE C DE D RANGO CXG CLASE FRECUENCI FRECUENC FRECUEN MARCA FRECUENCI S A IA CIA FRECUENCIA DE A MARCA DE FRECUENCIA ABSOLUT X MARCA LIMITE LIMITE ABSOLUTA RELATIVA A RELATIVA CLASE DE CLASE AL POR MARCA DE INFERI SUPERI ACUMULA CLASE AL OR OR DA ACUMULADA CLASE CUADRADO CUADR. LI
LS
F
FR
FA
FRA
M
F*M
A
B
C
D
E
F
G
H
M^2
F*M^2
1
200
-
209
9
0.051
9
0.051
204.5
1,840.50
41,820.25
376,382.25
2
210
-
219
3
0.017
12
0.069
214.5
643.50
46,010.25
138,030.75
3
220
-
229
5
0.029
17
0.097
224.5
1,122.50
50,400.25
252,001.25
4
230
-
239
4
0.023
21
0.120
234.5
938.00
54,990.25
219,961.00
5
240
-
249
4
0.023
25
0.143
244.5
978.00
59,780.25
239,121.00
6
250
-
259
14
0.080
39
0.223
254.5
3,563.00
64,770.25
906,783.50
7
260
-
269
32
0.183
71
0.406
264.5
8,464.00
69,960.25
2,238,728.00
8
270
-
279
52
0.297
123
0.703
274.5
14,274.00
75,350.25
3,918,213.00
9
280
-
289
38
0.217
161
0.920
284.5
10,811.00
80,940.25
3,075,729.50
10
290
-
299
14
0.080
175
1.000
294.5
4,123.00
86,730.25
1,214,223.50
175
1
TOTAL ES
46,757.50
12,579,173.75
Investigación de Campo Buscar n. 200 observaciones en cualquier tipo
de Negocios. Descripción de los datos. Tabla de Frecuencias. Gráficos de Frecuencias. Medidas de Tendencia Central. Medidas de Dispersión. Cuantiles. Análisis del Comportamiento de los datos.
HISTOGRAMA Consiste en una escala horizontal para valores de los
datos que se están representando, una escala vertical para las frecuencias, y barras que representan la frecuencia de cada clase de valores. El eje horizontal pueden ser colocadas las marcas de clase. Coloca las clases de una distribución de frecuencia en el eje
horizontal y las frecuencias en el eje vertical.
HISTOGRAMA
60 50
52 38
40 FRECUENCIAS
32
30 20 10 0
14
9
204.5
3
5
4
4
214.5
224.5
234.5
244.5
254.5
14
264.5
MARCAS DE CLASES
274.5
284.5
294.5
HISTOGRAMA DE FRECUENCIAS RELATIVAS
0.297 0.217
0.183 0.080
0.080
MARCAS DE CLASES
4. 5 29
4. 5 28
4. 5 27
4. 5 26
4. 5 25
4. 5 24
4. 5 23
4. 5 22
4. 5
0.017 0.029 0.023 0.023
21
4. 5
0.051
20
FRECUENCIAS RELATIVAS
0.350 0.300 0.250 0.200 0.150 0.100 0.050 0.000
Este puede mostrar cantidades o porcentajes para dos o más valores sobre el eje vertical. Es una forma de gráfica de representar datos cualitativos que se han resumido en una distribución de frecuencias, de frecuencias relativas o porcentuales. Para los datos cualitativos, las barras deben estar separadas par enfatizar el hecho de que cada clase (categoría) es separada.
DIAGRAMA DE BARRAS Relacion Ingresos/Costos 30000 20000
Ingresos
10000 0
Costos 10
20
30
40
50
60
70
80
90 100 110 120 130 140 150 160 170 180 190 200
Unidades Producidas y Vendidas
Análisis de Punto de Equilibrio
CANTIDA COSTO PRECIO COSTO D UNIDAD UNITARI FIJO VARIABL ES O E 10 60 7.5 600 20 60 7.5 1.2 30 60 7.5 1.8 40 60 7.5 2.4 50 60 7.5 3 60 60 7.5 3.6 70 60 7.5 4.2 80 60 7.5 4.8 90 60 7.5 5.4 100 60 7.5 6 110 60 7.5 6.6 120 60 7.5 7.2 130 60 7.5 7.8 140 60 7.5 8.4 150 60 7.5 9 160 60 7.5 9.6 170 60 7.5 10.2 180 60 7.5 10.8 190 60 7.5 11.4 200 60 7.5 12
COSTO
PRECIO
TOTAL
UNITARI INGRES BENEFIC O OS IO 130 1.3 -6.8 130 2.6 -6.1 130 3.9 -5.4 130 5.2 -4.7 130 6.5 -4 130 7.8 -3.3 130 9.1 -2.6 130 10.4 -1.9 130 11.7 -1.2 130 13 -500 130 14.3 200 130 15.6 900 130 16.9 1.6 130 18.2 2.3 130 19.5 3 130 20.8 3.7 130 22.1 4.4 130 23.4 5.1 130 24.7 5.8 130 26 6.5
8.1 8.7 9.3 9.9 10.5 11.1 11.7 12.3 12.9 13.5 14.1 14.7 15.3 15.9 16.5 17.1 17.7 18.3 18.9 19.5
DIAGRAMA DE TALLO Y HOJAS
En una grafica de tallo y hojas ordenamos los datos según un patrón que revela la distribución subyacente. Dicho patrón implica separar un numero (como 257) en dos partes, por lo regular el primer digito o los dos primeros (25) y los demás dígitos (7). El tallo consiste en los dígitos de la izquierda (en este caso 25) y las hojas consisten en los dígitos de la derecha (en este caso 7).
DIAGRAMA DE TALLO Y HOJAS
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
20
0
1
4
4
6
6
8
8
9
21
5
7
8
22
0
3
3
5
8
23
0
0
4
6
24
1
2
2
8
25
0
1
1
2
2
4
6
6
6
7
7
8
9
9
26
0
1
2
2
2
2
2
3
3
3
3
3
4
5
5
5
6
7
7
8
8
8
8
8
8
8
8
8
9
9
9
9
27
0
0
0
0
0
0
0
0
1
1
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4
5
5
5
5
6
6
6
6
6
7
7
7
7
28
0
0
0
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4
5
5
5
6
6
6
6
7
7
8
9
9
9
9
9
29
0
0
0
1
1
2
2
2
3
3
4
5
5
7
7
7
7
7
8
8
8
8
8
8
8
9
9
9
El proceso de construcción de un polígono de frecuencias es similar al del histograma excepto que sólo un punto sobre el punto medio de cada intervalo se utiliza para indicar la frecuencia y los puntos adyacentes se conectan mediante segmentos de líneas.
POLIGONO DE FRECUENCIA
60 52
50 40 FRECUENCIAS
38 32
30 20 10
14
9
0 204.5
3
5
4
4
214.5
224.5
234.5
244.5
254.5
14
264.5
MARCAS DE CLASES
274.5
284.5
294.5
GRAFICA DE SERIE DE TIEMPO
ESTUDIANTES MATRICULADOS EN EL NIVEL SUPERIOR POR INSTITUCION INSTITUCIÓN
AÑO DE
FUNDACION
UASD PUCMM UNPHU INTEC UNIBE
1538 1962 1967 1974 1982
1994 41.139 8.56 6.124 3.074 1.747
AÑOS 1995 51.432 8.816 6.171 2.369 1.665
1996 62.058 9.081 6.22 2.335 1.91
1997 81.753 9.438 6.044 2.803 1.947
GRAFICA DE SERIE DE TIEMPO ESTUDIANTES MATRICULADOS EN EL NIVEL SUPERIOR 90,000 80,000 70,000 60,000 50,000 40,000 30,000 20,000 10,000 -
UASD PUCMM UNPHU INTEC UNIBE 1994
1995
1996
1997
CURVA DE OJIVA
1.2000 1.0000
0.9200
0.8000 FRECUENCIAS ACUMULADAS
1.0000
0.7029
0.6000 0.4000
0.4057
0.2000 0.0000
0.0514
0.0686
0.0971
0.1200
0.1429
0.2229
204.5 214.5 224.5 234.5 244.5 254.5 264.5 274.5 284.5 294.5 MARCAS DE CLASES
DIAGRAMA DE PARETO
Es una grafica de barras en la que las barras se acomodan en orden según la frecuencia. Al igual que los histogramas, las escalas verticales de los diagramas de Pareto pueden representar frecuencias o frecuencias relativas.
En este la barra más alta queda a la izquierda, y la más pequeña a la derecha.
DIAGRAMA DE PARETO Paises o territorios con mayor numero de inmigrantes 25,000,000 20,000,000 15,000,000 10,000,000
Italia
Argentina
Hong Kong
Costa Avorio
Iran
Arabia Saudita
Canada
Alemania
Francia
Estados Unidos
0
Reino Unido
5,000,000
Diagrama de Pareto Problemas o defectos en Botas Razón de defecto Reventado de Piel Costuras fallas Mal montada Piel arrugada Total
Total 369 135 135 99 738
% Acumulado Porcentaje 50.00 0.50 68.29 0.18 86.59 0.18 100.00 0.13 100.00%
400 350 300 250 200 150 100 50 0
Problemas o defectos en Botas Total, 369
Total, 135 Total, 135
Reventado Costuras de Piel fallas
Mal montada
Total, 99
Piel arrugada
Total
DIAGRAMA CIRCULAR, DE SECTORES O TORTAS Es de especial utilidad para mostrar proporciones
(porcentajes) relativas de una variable.
Por ejemplo si una determinada categoría representa el 57.8% del total de los datos u observaciones, el ángulo central deberá ser de 0.578 x 360º = 208º.
DIAGRAMA CIRCULAR, DE SECTORES O TORTAS 8%
5%
3% 2%
200 - 209
2% 2%
8%
22%
210 - 219 220 - 229 230 - 239 240 - 249 250 - 259 260 - 269
18%
270 - 279 280 - 289 30%
290 - 299
Medidas de Tendencias Central Una medida de tendencia central es un
valor que está en el centro o punto medio de un conjunto de datos. Es una medida que ubica e identifica el punto
alrededor del cual se centran los datos. Es un valor númerico que localiza, de alguna
manera el centro de un conjunto de datos.
La Media Aritmética o Promedio La Media Aritmética o Promedio de un conjunto de puntajes es el valor
que se obtiene sumando los puntajes y dividiendo el total entre el numero de puntajes. La media es el punto que menos dista de todas las observaciones. Por esta
razón a veces se le considera como el centro de gravedad de los datos. La media es un una medida más confiable que la mediana y la moda,
porque tiene un menor error de muestreo. Además la media también tiene más facilidad para un tratamiento estadístico posterior que la mediana o la moda. Es una medida que toma en consideración todos los valores de la
distribución. Esto es positivo, pero por la misma razón es muy sensible a la presentación de observaciones extremas que hacen que la media se desplace hacia ellas. En consecuencia no es recomendable usar la media como medida de tendencia central en estos casos, pues la cantidad obenida no es representativa del total de los datos.
La Media Aritmética o Promedio Tiene la ventaja de que es la única y siempre se puede calcular.
Pero cuando se trabaja con datos agrupados, la división en intervalos influye en el valor resultatne de la media. La media es el estadístico de centralización más utilizado para
realizar inferencias debido a una buena propiedad matemática que posee: es el centro de gravedad de la distribución. Depende de todas y cada una de las observaciones. La media es el promedio más utilizado.
La Media Aritmética o Promedio Para datos no agrupados: Media Poblacional = (xi)/N = (x1 + x2 + x3... xN) / N
Media Muestral = xi / n = (x1 + x2 + x3... xn) / n
Caso VIII pág 54 Para datos agrupados:
Media = f*M / n= f*M / f = (f1*M1 + f2*M2 + f3*M3 ... fn*Mn) / f
La Mediana o Media Posicional La Mediana o Media Posicional de un conjunto de puntajes
es el valor que esta en medio, cuando los puntajes se acomodan en orden de magnitud creciente (o decreciente). La mediana deja a un lado y al otro lado de la distribución el
mismo número de observaciones. Como medida descriptiva, tiene la ventaja de no estar afectada
por las observaciones extremas, ya que no depende de los valores que toma la varible, sino del orden de los mismos. Por ello, es adecuado su uso en distribuciones que presentan observaciones extremadamente grandes o pequeñas.
La Mediana o Media Posicional La mediana es la medida de localización que se utiliza con más frecuencia
para datos de ingreso anual y valores catastrales, pues con unos pocos ingreos o con propieades extremadamente grandes se puede inflar la media. En esos casos, la mediana es una mejor medida de la tendencia central. La mediana es el valor de la variable que deja por encima y por debajo la
misma cantidad de datos (una vesz que éstos han sido ordenados de menor a mayor). Al contrario de la media, en su cálculo no interviene más que el valor (o valores centrales). Esta particularidad ofrece: Ventajas: No se ve afectada por la aparición de observaciones anómalas. Por
ello, en tales casos la podemos considerar como una medida más representativa de la mayor parte de los datos que la media. Inconvenientes: No utiliza toda la información de los datos (sólo los valores
centrales).
La Mediana o Media Posicional Para datos no agrupados: Posición de la Mediana = (n + 1)/2
Caso VIII pág 53 1.- Si el numero de puntajes es impar, la mediana es el numero que esta situado exactamente a la mitad de la lista. 2.- Si el numero de puntaje es par, la mediana se obtiene calculando la media de los dos números que están a la mitad.
La Mediana o Media Posicional
Para datos agrupados: Me = LImd + [(n/2 - F)/fmd] (C)
md = clase mediana Clase Mediana es la clase cuya frecuencia acumulada es
mayor que o igual a n/2. LImd = limite inferior de la clase de la mediana. F = frecuencia acumulada de la clase que antecede a la clase de la mediana. fmd = es la frecuencia de la clase de la mediana. C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos).
La Moda La Moda de un conjunto de datos es el puntaje que ocurre con mas frecuencia. La observación modal es la observación que ocurre con mayor frecuencia. Es el punto donde donde se concentra el mayor número de observaciones.
Puede no ser única. Cuando hay dos o más modas hablamos de distribuciones bimodales o plurimodales respectivamente.
La Moda Para datos no agrupados: Mo = Mayor Frecuencia Caso VIII pág 54 Para datos agrupados: Mo = LImo + [1/(2+ 1)]*(C) mo = clase modal Clase Modal es la clase que tiene la mayor frecuencia. LImo = limite inferior de la clase modal 1 = diferencia entre la frecuencia de la clase modal y la clase que la antecede. 2 = diferencia entre la frecuencia de la clase modal y la clase que le sigue. C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos).
Media Ponderada Media Ponderada: Media de una colección
de puntajes a los que se asignado diferentes grados de importancia. Media Ponderada w = (x*w) / w W = es el peso o ponderación asignada a
cada Observación. Caso V pág 56
La Media Geométrica Media Geométrica puede utilizarse para mostrar los
cambios porcentuales en una serie de números positivos. La media geométrica proporciona una medida precisa de
un cambio porcentual promedio en una serie de números. ________________ MG = x1 * x2 * x3 * ... xn La media geométrica se utiliza con mas frecuencia para calcular la tasa de crecimiento porcentual promedio de algunas series dadas, a través del tiempo. Caso VI e VII pág 56
MEDIDAS DE DISPERSION O VARIABILIDAD – PÁG. 43
Las medidas de dispersión miden que tanto se dispersan las observaciones alrededor de su media. El propósito de estas es cuantificar el grado de variación entre el conjunto de valores de una distribución.
La variabilidad se refiere a que tan grandes son las diferencias entre los valores evaluados.
MEDIDAS DE DISPERSION O VARIABILIDAD
EL RANGO O RECORRIDO (INTERVALO). Es la medida de dispersión más simple y
menos útil. Esta se obtiene de la diferencia entre la observación más alta y la mas baja.
Re = X máx – X mín
MEDIDAS DE DISPERSION O VARIABILIDAD
VALORES DE DESVIACION. Para
la variabilidad, se consideran las diferencias entre la media y cada valor. Estas diferencias se llaman valores de desviación.
Valores de desviación = X - _ Valores de desviación = X - X
MEDIDAS DE DISPERSION O VARIABILIDAD VARIANZA. Es el promedio de las observaciones respecto a su media
elevadas al cuadrado. Es la media de la diferencia cuadráticas de N puntuaciones en
relación a su media aritmética. La varianza es útil para comparar la dispersión, o variabilidad,
de dos conjuntos de datos. Al comparar conjuntos de datos, el que tiene mayor varianza tiene mayor dispersión o variabilidad.
MEDIDAS DE DISPERSION O VARIABILIDAD La Varianza para una Población (² = suma de cuadrados).
²=[∑(Xi - )²]/N ² 0 La Desviación Estándar para una población. = ²
Procedimiento para calcular La Varianza para una Población (² = suma de cuadrados) 1. Encuentre la desviación de cada valor de la media: Valores de desviación = X - 2. Eleve al cuadrado cada valor de desviación: (Xi - )² 3. Realice la sumatoria de cada valor de desviación elevado al cuadrado: ∑(Xi - )² 4. Encuentre la varianza dividiendo la sumatoria anterior entre N (totalidad de las observaciones).
MEDIDAS DE DISPERSION O VARIABILIDAD La Varianza para una muestra de datos no agrupados (s²).
_ s²=[(Xi - X)²]/n-1 Caso IX pág 57 La Desviación Estándar para una muestra. s = s²
La Varianza de la muestra de datos agrupados (s²).
_ s²=[(f*M²) - nX²]/n-1
La Desviación Estándar para una muestra. s = s²
MEDIDAS DE DISPERSION O VARIABILIDAD CANTIDAD DE OBSERVS.
POR CIENTO
SUMA SUMA PUNTO ACUMULA DE C DA ACUMULADA MEDIO DEL RANGO-INTERVALO EN RANGO % DE C DE D RANGO CXG CLASE FRECUENCI FRECUEN FRECUEN FRECUENCI MARCA FRECUENCI S A CIA CIA A DE A MARCA DE FRECUENCIA ABSOLUT X MARCA LIMITE LIMITE ABSOLUTA RELATIVA A RELATIVA CLASE DE CLASE AL POR MARCA DE INFERI SUPERI ACUMULA CLASE AL OR OR DA ACUMULADA CLASE CUADRADO CUADR. LI
LS
F
FR
FA
FRA
M
F*M
A
B
C
D
E
F
G
H
M^2
F*M^2
1
200
-
209
9
0.051
9
0.051
204.5
1,840.50
41,820.25
376,382.25
2
210
-
219
3
0.017
12
0.069
214.5
643.50
46,010.25
138,030.75
3
220
-
229
5
0.029
17
0.097
224.5
1,122.50
50,400.25
252,001.25
4
230
-
239
4
0.023
21
0.120
234.5
938.00
54,990.25
219,961.00
5
240
-
249
4
0.023
25
0.143
244.5
978.00
59,780.25
239,121.00
6
250
-
259
14
0.080
39
0.223
254.5
3,563.00
64,770.25
906,783.50
7
260
-
269
32
0.183
71
0.406
264.5
8,464.00
69,960.25
2,238,728.00
8
270
-
279
52
0.297
123
0.703
274.5
14,274.00
75,350.25
3,918,213.00
9
280
-
289
38
0.217
161
0.920
284.5
10,811.00
80,940.25
3,075,729.50
10
290
-
299
14
0.080
175
1.000
294.5
4,123.00
86,730.25
1,214,223.50
175
1
TOTALE S
46,757.50
12,579,173.75
MEDIDAS DE DISPERSION O VARIABILIDAD LA DESVIACION ESTANDAR.
Es la raíz cuadrada de la varianza. dispersión de los datos.
Es una medida importante de la
Esta regresa a la medición de los valores originales, así tiene más valor
descriptivo directo.
La desviación estándar es más útil para describir la variabilidad de un
conjunto de datos que la varianza. La desviación estándar lleva las mismas unidades que los valores originales. La Desviación Estándar para una población. = ² La Desviación Estándar para una muestra. s = s²
MEDIDAS DE DISPERSION O VARIABILIDAD
La Desviación Media o Absoluta.
Se define como el promedio de la suma de las diferencias en valor absoluto de los valores de la variable con respecto a la media. _ Desviación media= |Xi-X|/n
MEDIDAS DE DISPERSION O VARIABILIDAD
Coeficiente de Variación. Este
sirve como medida relativa de dispersión. Determina el grado de dispersión de un conjunto de datos relativo a su media. _ CV = s/X(100)
La distribución normal (o gaussiana) La distribución normal es una distribución de datos continuos(*) (no discretos) que produce una curva simétrica en forma de campana. La distribución gaussiana fue presentada por Karl Friedrich Gauss (1777-1855) en el 1812. La campana de Gauss o curva de distribución normal, curva de probabilidad normal; se caracteriza por: - Es unimodal. - Es simétrica (la simetría es perfecta). - La mitad izquierda de su histograma es aproximadamente una imagen especular de su mitad derecha. - La asimetría de la distribución es cero. - Las colas de la curva se aproximan mas, pero nunca tocan, el eje horizontal. - La media, la mediana y la moda son iguales. - La mitad de las observaciones esta por encima de la media y la mitad esta por debajo. - Si las observaciones están altamente dispersas, la curva en forma de campana se aplanara y se esparcirá.
Campana de Gauss
La distribución normal (o gaussiana) La Regla Empírica o Regla 68-95-99. Esta regla sólo aplica a un conjunto de datos cuya distribución tiene
aproximadamente forma de campana. Esta afirma que: - Cerca del 68% de todos los puntajes u observaciones queda a menos de
una desviación estándar de la media. - Cerca del 95% de todos los puntajes u observaciones queda a menos de
dos desviaciones estándar de la media. - Cerca del 99.7% de todos los puntajes u observaciones que a menos de
tres desviaciones estándar de la media.
Distribuciones de Datos Sesgadas Una distribución de datos esta sesgada, si no es simétrica y se extiende
mas
hacia un lado que hacia otro. Sesgo describe la falta de simetría en una distribución. Los datos sesgados a la izquierda se dice que tienen sesgo negativo; la media y la
mediana están a la izquierda de la moda. Generalmente tiene la media a la izquierda de la mediana. Sesgo negativo describe distribuciones asimétricas en la que la mediana excede a la media; la cola de la distribución es hacia los valores bajos.
Los datos sesgados a la derecha se dice que tienen sesgo positivo; la media y la mediana están a la derecha de la moda. Sesgo positivo describe distribuciones asimétricas en las que la media excede la mediana; los valores se alargan hacia los valores altos. En ambos casos, la moda es por definición la observación que ocurre con mayor frecuencia, por tanto esta en el pico de la distribución.
Coeficiente de Sesgo de Pearson.
P = 3 (Media - Mediana) s
Si P < 0, los datos están sesgados a la izquierda. Si P > 0, los datos están sesgados a la derecha. Si P = 0, los datos están distribuidos normalmente.
Los Cuantiles – PÁG. 43
Cuando los valores ordenados de una variable han de ser divididos en grupos homogéneos en cuanto al tamaño, se suelen utilizar los cuantiles. Entre los cuantiles más utilizados se encuentran: Los cuartiles Q Los deciles D Los percentiles P
Los Cuartiles Así como la mediana divide los datos en dos partes iguales, los tres cuartiles, denotados por Q1, Q2 y Q3, dividen los puntajes clasificados en cuatro partes iguales. (Los puntajes se clasifican cuando se acomodan en orden). A grandes rasgos: Q1 separa el 25% inferior de los puntajes clasificados del 75% superior; - al menos el 25% de los datos es = Q1 - N/4 = 25 - Q1 = P25
Q2 es la mediana; - 2N/4 = 50 - Q2 = P50
Q3 separa el 25% superior del 75% inferior - al menos el 75% de los datos es = Q3 - 3N/4 = 75 - Q3 = P75
Los Cuartiles
25%
25% Q1
25% Q2
25% Q3
Los Deciles Hay nueve deciles, denotados por D1, D2, D3, D4, D5, D6, D7, D8, D9, que
dividen los datos en 10 grupos con aproximadamente el 10% de los datos en cada grupo.
El primer decil es la observación debajo de la cual se encuentra el 10% de las observaciones, mientras que el 90% restante se encuentra encima de este. - al menos el 10% de los datos es = D1 D1 = P10 D2 = P20 D3 = P30 : . D9 = P90
Los Deciles 10%
10% D1
10% D2
10% D3
10% D4
10% D5
10% D6
10% D7
10% D8
10% D9
Los Percentiles Hay 99 percentiles (P1, P2, P3 ... P99), que dividen los datos en
100 grupos con aproximadamente el 1% de los puntajes en cada grupo. - al menos el 1% de los datos es = P1 Ubicación de un Percentil. Lp = (n + 1) (P/100) Caso XIV pág 60 Lp es el sitio del percentil deseado en una serie ordenada. n es el numero de observaciones P es el percentil deseado
Los Percentiles
1%
1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1 2 3 4 5 6 7 8 9 10 11 12 . . . 97 98 99
Otras Medidas de Tendencia Central con los Cuantiles.
Percentil de un puntaje. Percentil del puntaje x = numero de puntajes menores que x . 100 numero total de puntajes Otras Medidas de Tendencia Central con los Cuantiles. intervalo intercuartiles = Q3 - Q1 intervalo semiintercuartiles = Q3 - Q1 (desviación del cuartil) 2
cuartil medio = Q3 + Q1 2 intervalo de percentiles 10-90 = P90 - P10
Los cuartiles (Q) para datos agrupados – PÁG. 48
Q1 = LI + N/4 – Fi * C
fi N/4 = 43.75; primera Fi > N/4 = 71 Q1 = 260 + ( 43.75 – 39) * (10) = 261.48
32
Los cuartiles (Q) para datos agrupados
Q2 = LI + N/2 – Fi * C
fi N/ 2 = 87.50; primera Fi > 2N/4 = 123
Q2 = 270 + 87.50 – 71 * (10) = 273.17
52
Los cuartiles (Q) para datos agrupados
Q3 = LI + 3N/4 – Fi * C
fi 3N/4 = 131.25; primera Fi > 3N/4 = 161
Q3 = 280 + 131.25 – 123 * (10) = 282.17
38
Los cuartiles (Q) para datos agrupados CUARTILES
DECILES
PERCENTILES
Q1
VALOR QUE OCUPA N/4
Q2
VALOR QUE OCUPA 2N/4
Q3
VALOR QUE OCUPA 3N/4
D1
VALOR QUE OCUPA N/10
D2
VALOR QUE OCUPA 2N/10
D9
VALOR QUE OCUPA 9N/10
P1
VALOR QUE OCUPA N/100
P2
VALOR QUE OCUPA 2N/100
P99
VALOR QUE OCUPA 99N/100
CANTIDA POR Los cuartiles (Q) para datos agrupados D CIENTO SUMA SUMA PUNTO DE OBSERV ACUMUL ACUMUL S. DE C ADA ADA MEDIO EN DEL RANGO % DE C DE D RANGO C X G FRECUE FRECUE FRECUE FRECUEN MARCA FRECUEN MARCA NCIA NCIA NCIA CIA DE CIA DE FRECUENCIA ABSOLU RELATIV ABSOLU RELATIV X MARCA CLASE POR MARCA LIMITE TA A TA A CLASE DE AL DE SUPERIO ACUMUL ACUMUL CUADRA CLASE AL R ADA ADA CLASE DO CUADR.
RANGOINTERVALO CLASES LIMITE INFERIOR LI
LS
F
FR
FA
FRA
M
F*M
A
B
C
D
E
F
G
H
M^2
1
200
-
209
9
0.051
9
0.051
204.5
2
210
-
219
3
0.017
12
0.069
214.5
3
220
-
229
5
0.029
17
0.097
224.5
4
230
-
239
4
0.023
21
0.120
234.5
938.00
54,990.25
219,961.00
5
240
-
249
4
0.023
25
0.143
244.5
978.00
59,780.25
239,121.00
6
250
-
259
14
0.080
39
0.223
254.5
3,563.00 64,770.25
906,783.50
Q1
7
260
-
269
32
0.183
71
0.406
264.5
8,464.00 69,960.25 2,238,728.00
Q2
8
270
-
279
52
0.297
123
0.703
274.5 14,274.00 75,350.25 3,918,213.00
Q3
9
280
-
289
38
0.217
161
0.920
284.5
10,811.00 80,940.25 3,075,729.50
10
290
-
299
14
0.080
175
1.000
294.5
4,123.00 86,730.25 1,214,223.50
175
1
TOTALES
N Q1
N/4
43.75
Q2
N/2
87.5
Q3
3N/4
131.25
1,840.50 41,820.25
F*M^2
643.50
376,382.25
46,010.25
138,030.75
1,122.50 50,400.25
252,001.25
46,757.50
12,579,173.75
SPSS Statistics Base 17.0 Pasos para construir una tabla de Frecuencia en SPSS 17. Crear la Base de Datos o Conjuntos de observaciones o puntajes que desea
agrupar. (Leer el Capítulo 5 del Manual de SPSS Statistics Base 17). Opción del menú Transformar. Opción Agrupación Visual. Seleccionar la Variable a transformar. => SALARIOS. Crear nueva “Variable agrupada”. => SALARIOS1. Establecer los Límites Superiores (Intervalos cerrados o abiertos – Incluidos #Cortes = 10 – 1. Anchura. Crear etiquetas – Crear las clases. Aceptar. Se visualiza la nueva “Variable agrupada” SALARIOS1
SPSS Statistics Base 17.0 Pasos para visualizar una tabla de
Frecuencia en SPSS 17. Después de crear la “Variable agrupada”. Seleccionar la opción del Menú Analizar. Seleccionar la opción Estadísticos descriptivos. Seleccionar la opción Frecuencias. Seleccionar la Variable agrupada SALARIOS1. Seleccionar los Estadísticos… Todos y Percentiles deseados. Seleccionar los gráficos…
SPSS Statistics Base 17.0 Crear Base de Datos con SPSS 17 con 50 estudiantes. Después de Leer el Capítulo 5 del Manual de SPSS Statistics Base 17.
Datos a Considerar: Matrícula. Nombre. Apellido. Edad. Fecha de Nacimiento. Lugar de Nacimiento. Sexo. Ingreso Mensual. Gasto Mensual.
Tomar como ejemplo el archivo (file) demo_cs que se encuentra en: Local Disk C:\Program Files (x86)\SPSSInc\Statistics17\Samples\Spanish
Clasificación de las Variables según el Nivel de Medición:
Clasificación de las Variables según el Nivel de Medición:
Los datos se reúnen mediante una de las siguientes escala de medición: nominal, ordinal, intervalo y de razón. La escala o nivel de medición permite determinar la cantidad de información que contienen los datos e indica el resumen de los datos y el análisis estadístico más apropiado. La escala para medir una característica tiene implicaciones en la forma de presentar y resumir la información; también determina el método estadístico
escogido para analizar los datos.
Clasificación de las Variables según el Nivel de Medición: Nivel de medición nominal: Se caracteriza por datos que consisten exclusivamente en nombres, rótulos o categorías. Los datos no pueden acomodarse según un esquema de ordenamiento. Nombres o clases que se utilizan para organizar los datos en
categorías separadas y distintas. La escala de medición para una variable es nominal cuando los datos son etiquetas o nombres que se emplean para identificar un atributo del elemento. Ejemplos: El sexo de los estudiantes de esta clase de estadística. Las bebidas gaseosas refrescantes se pueden clasificar en: Coke, Pepsi, 7-Up o Country Club.
Clasificación de las Variables según el Nivel de Medición: Nivel de medición nominal: La escala de medición es nominal aun cuando los datos son mostrados como valores numéricos. 1. Coke 2. Pepsi 3. 7-Up 4. Country Club El partido político al que pertenecen los miembros de las cámaras de senadores y diputados del país. Los datos evaluados en escala nominal en ocasiones suelen llamarse observacones cualitativas, porque describen una cualidad de la persona o casa estudiada, y observaciones categóricas, si los valores caen en categorías. En general, los datos nominales o cualitativos se describen en términos de porcentajes o proporciones. A menudo se utilizan las tablas de contingencia y las gráficas de barras para mostrar este tipo de información.
Clasificación de las Variables según el Nivel de Medición: Nivel de medición ordinal. La escala de medición para una variable es ordinal si los datos tienen propiedades de datos nominales y el orden de los datos es significativa. Mediciones que jerarquizan los datos en categorías, ordenadas
en virtud de un determinado criterio. Implica datos que pueden acomodarse en algún orden, pero no
es posible determinar diferencias entre los valores de los datos, o tales diferencias carecen de significado. Los datos para una escala ordinal podrían ser no numéricos o
numéricos.
Clasificación de las Variables según el Nivel de Medición: Nivel de medición ordinal. Este nivel ordinal proporciona información sobre comparaciones relativas, pero los grados de las diferencias no se pueden usar en cálculos. Ejemplos: Los productos de un determinado almacén pueden ser clasificados como "buenos", "mejores" y "óptimos".
Un editor califica algunos manuscritos como "excelentes", otros
como "buenos" y algunos como "malos". (No podemos encontrar una diferencia cuantitativa especifica entre "bueno" y "malo"). La Revista Money clasificación las inversiones a partir de los
niveles de riesgos "bajo", "alto" y "muy alto".
Clasificación de las Variables según el Nivel de Medición: Nivel de medición de intervalos. La escala de medición para una variable es una escala de intervalo si los datos tienen las propiedades de datos ordinales y el intervalo entre observaciones se expresa en términos de una unidad fija de medida. Los datos de intervalos siempre son numéricos. Es como el nivel ordinal, con la propiedad adicional de que podemos determinar magnitudes de diferencias entre los datos que tienen algún significado. Mediciones respecto de una escala numérica en la cual el valor del cero es arbitrario, pero la diferencia de valores es importante. La escala Fahrenheit de temperaturas es un ejemplo de escala de intervalos: 70 grados no sólo significan una temperatura mayor que 60 grados, sino que existe la misma diferencia de 10 grados que entre 100 y 90 grados Fahrenheit.
Clasificación de las Variables según el Nivel de Medición:
Nivel de medición de intervalos. La escala de medición para una variable es una escala de intervalo
si los datos tienen las propiedades de datos ordinales y el intervalo entre observaciones se expresa en términos de una unidad fija de medida. Los datos de intervalos siempre son numéricos. Las temperaturas promedian anuales (en grados Celsius) de las capitales de todos los estados de los Estados Unidos. Los años 1000, 2000, 1776 y 1944.
Clasificación de las Variables según el Nivel de Medición: Nivel de medición de proporción o de razón. La Escala de medición para una variable es una escala de razón si los datos tienen todas las propiedades de los datos de intervalos y el cociente de los dos valores es significativa. Variables como distancia, peso, altura y tiempo emplean la escala de razón. Un requisito de esta escala es que pede contener un valor cero que indica que no existe nada para una variable en el punto cero. Mediciones numéricas en las cuales el cero es un valor fijo en
cualquier escala y la diferencia de valores es importante. Es el nivel de intervalo modificado para incluir el punto de partida o cero inherente (donde cero indica que nada de la cantidad esta presente). Para los valores de este nivel, tanto las diferencias como las razones tienen significado.
Clasificación de las Variables según el Nivel de Medición: Nivel de medición de proporción o de razón. De los cuatro niveles de medición, sólo la escala de proporción o de razón se basa en un sistema numérico en el cual el cero tiene sentido. Por consiguiente, las operaciones aritméticas de multiplicación y división también adquieren una interpretación racional. Mediciones tales como el peso, el tiempo y la distancia se miden en escala de proporción, puesto que el cero ocupa un lugar natural. Ejemplo: Distancia (en kilómetros) recorridas por automóviles en una prueba de consumo de combustible. Longitudes (en minutos) de películas de cine. Los valores de cada una estas colecciones de datos se pueden acomodar en orden, las diferencias pueden calcularse y existe un punto de partida o cero inherente. Este nivel se denomina "razón" porque el punto de partida hace que las razones o cocientes tengan significado.
Nivel
Resumen
Ejemplo
Observación
Autos de estudiantes:
Nominal
Sólo categorías. Los datos no pueden acomodarse en un esquema de ordenamiento.
10 Mercedes Benz
Sólo categorías o nombres
20 BMW 40 T oyota
Ordinal
Las categorías están ordenadas, pero no es posible determinar diferencias, o éstas carecen de significado.
Vehículos de los estudiantes: 10 compactos 20 medianos
Se determina un orden con “compactos, medianos y grandes”.
40 grandes
De Intervalo
Se pueden calcular diferencias entre valores, pero no existe un punto de partida inherente. Los cocientes no tienen significado.
T emperaturas: 45º C 80º C
90º no es dos veces más caliente que 45º C.
90º C
De Razón
Igual que el intervalo, pero con un punto de partida inherente. Los cocientes tienen significado
Pesos de deportistas universitarios: 70 kg 85 kg 140 kg
140 kg es dos veces 70 kg.
Variables Cualitativas Son aquellas variables cuyos elementos de variación
tienen un carácter cualitativo no susceptible de medición numérica, por ejemplo el sexo de los estudiantes de estadística, el estado civil de los solicitantes de prestamos, preferencia religiosa, etc. Se pueden dividir en diferentes categorías que se distinguen por alguna característica no numérica. Una variable cualitativa se mide por medios no numéricos. Los datos cualitativos emplean la escala de medición nominal o la ordinal y pueden ser no numéricos o numéricos.
Variables Cualitativas Los datos cualitativos emplean la escala de
medición nominal o la ordinal y pueden ser no numéricos o numéricos. Si
la variable es cualitativa, el análisis estadístico es bastante limitado. Podemos resumir los datos cualitatitativos al contar el número de observaciones en cada categoría cualitativa, o bien, al calcular la proporción de observaciones en cada categoría cualitativa.
Variables Cuantitativas Son
aquellas cuyas características o propiedades pueden presentarse en diversos grados o intensidad y tienen un carácter numérico, como por ejemplo nivel de ingresos, deserción escolar, las calificaciones que los estudiantes reciben en el examen final, el número de kilómetros que recorren los que asisten a la universidad, etc. Según el número de valores que pueden tomar las variables cuantitativas se distingue variables continuas y discontinuas.
Variables Cuantitativas Variables continuas: Son las que pueden tomar cualquier
valor dentro de un intervalo dado. Por muy próxima que puedan estar dos observaciones, si el instrumento de medida tiene la precisión suficiente siempre puede haber una tercera observación que caiga entre las dos primeras. Los valores de una variable continua proceden en general de mediciones, por ejemplo las cantidades de leche que las vacas producen son datos continuos porque son mediciones que pueden asumir cualquier valor dentro de un intervalo continuo. Se pueden obtener de un número infinito de posibles valores
que pueden asociarse a puntos de una escala continua, de tal manera que no haya huecos ni interrupciones.
Variables Cuantitativas Variables discontinuas o discretas: Son las que pueden tomar valores intermedios entre otros dos valores dados, han de hacerlo siempre con valores enteros, por ejemplo el número de alumnos de una escuela, los socios de una cooperativa, etc. Se obtienen de un número finito de posibles valores o bien de un número de posibles valores que pueden
contarse. Sólo puede tomar determinados valores, por lo general números enteros. Puede ser resultado de la enumeración o del conteo. En ninguno de los casos se observaran valores fraccionarios.