No title

Octubre 2015 Ing. Rubén Darío Estrella, MBA Cavaliere dell’ordine al Merito della Repubblica Italiana (2003) Ingeniero de Sistemas (UNIBE 1993), Admi

Author: Rubén Romero García

1 downloads 49 Views 3MB Size

Report

DOWNLOAD PDF

Recommend Stories

No title

Story Transcript

Octubre 2015

Ing. Rubén Darío Estrella, MBA Cavaliere dell’ordine al Merito della Repubblica Italiana (2003) Ingeniero de Sistemas (UNIBE 1993), Administrador (PUCMM 2000), Matemático (PUCMM 2007), Teólogo (UNEV 2002) y Maestro (Salomé Uneña 1995) [email protected] / [email protected]

www.atalayadecristo.org

Aplicación de las Estadísticas Descriptivas Proyecto Parcial 27/10/2015 - Primer Parcial 20/10/2015  Una empresa multinacional del Sector Supermercados que está ubicada en el Distrito Nacional, Santo Domingo y Santiago, está pensando expandir sus operaciones estableciéndose en otras 3 provincias del País, con este propósito un equipo de estudiantes de Modelos para la Toma de Decisiones fue contratado, para determinar en cuáles y qué orden debe ubicarse tomando en consideración las siguientes informaciones estadísticas:  Población Rural y Urbana. / Hogares Rurales y Urbanos. / Población Ocupada. / Población Económicamente Activa. / Proporción de la Ocupada en relación a la Activa.  Gasto Anual por Hogar Rural (En alimentos, bebidas y tabaco).  Gasto Anual por Hogar Urbano (En alimentos, bebidas y tabaco).

 Demanda total (En base a la suma del Gasto Rural y Urbano).  Densidad Poblacional.  Utilizando las Herramientas estadísticas, algunas consideraciones de Operaciones y Mercadeo, presente su Informe.  Característica del Sector Industrial, situación actual, entorno, tendencias, etc.  Estilo de vida. / Indice de Desarrollo Humano. / Desarrollo provincial. / Nivel de Educación.  Acceso a la tecnología y medios de comunicación. / Nivel de participación de la competencia.  Distancia de los centros de distribución. / Impreso y en CD. Sitios de Internet a visitar:  www.bancentral.gov.do / www.one.gov.do / www.pnud.org.do 

www.tiendalasirena.com / www.superpola.com / www.jumbo.com.do  www.ole.com.do / www.supermercadoslacadena.com / www.superbravo.com

Estadística

 Es una colección de métodos para planear experimentos,

obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones con base en esos datos.  Se ocupa de los métodos y procedimientos para recoger,

clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.  Es el arte y la ciencia de reunir, analizar, presentar e

interpretar datos.

Estadística Descriptiva



Es el proceso de recopilación, organización y presentación de datos de alguna manera que describa con rapidez y facilidad.



La estadística descriptiva proporciona herramientas para organizar, simplificar y resumir información básica a partir de un conjunto de datos que de otra forma seria poco manejable. Esta incluye la tabulación, representación y descripción de conjuntos de datos.



La estadística es descriptiva cuando los resultados del análisis estadístico no pretende ir más allá del conjunto de datos investigados.

Estadística Inferencial 

Implica la utilización de una muestra para extraer alguna inferencia o conclusión sobre la población correspondiente.



Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos.



La estadística es inferencial cuando se derivan conclusiones generales para un conjunto de datos más amplio a partir de la información proporcionada por los datos estudiados.



Es el proceso de reunir datos obtenidos de una muestra para hacer estimaciones o probar hipótesis acerca de las características de una población.

Descriptiva vs. Inferencial  Estadística Descriptiva.  Obtener

datos

 Estadística Inferencial

o

 Analizar

recopilación  Interpretar  Organizar y resumir  Llegar a conclusiones  Presentar

Herramientas estadísticas que resultan de particular utilidad para organizar los datos.  Tabla de frecuencia es un resumen tabular de un

conjunto datos donde se muestra la frecuencia (o cantidad) del objeto de estudio en cada una de varias clases.

 Gráficos que pueden proporcionar una representación visual de los datos.

“Una imagen vale más que mil palabras”

Datos no agrupados 270 278 250 278 290 274 242 269 257 272 265 263 234 270 273 270 277 294 279 268 230 268 278 268 262

273 201 275 260 286 272 284 282 278 268 263 273 282 285 289 268 208 292 275 279 276 242 285 273 268

258 264 281 262 278 265 241 267 295 283 281 209 276 273 263 218 271 289 223 217 225 283 292 270 262

204 265 271 273 283 275 276 282 270 256 268 259 272 269 270 251 208 290 220 259 282 277 282 256 293

254 223 263 274 262 263 200 272 268 206 280 287 257 284 279 252 280 215 281 291 276 285 287 297 290

228 274 277 286 277 251 278 277 286 277 289 269 267 276 206 284 269 284 268 291 289 293 277 280 274

282 230 275 236 295 289 283 261 262 252 283 277 204 286 270 278 270 283 272 281 288 248 266 256 292

Tabla de frecuencia RANGO-INTERVALO CLASES

CANTIDAD

POR CIENTO

SUMA

SUMA

PUNTO

DE OBSERVS.

DE C

ACUMULADA

ACUMULADA

MEDIO

EN RANGO

%

DE C

DE D

DEL RANGO

CXG

FRECUENCIA

FRECUENCIA

FRECUENCIA

FRECUENCIA

MARCA DE

FRECUENCIA

ABSOLUTA

RELATIVA

ABSOLUTA

RELATIVA

CLASE

X MARCA DE

ACUMULADA

ACUMULADA

LIMITE

LIMITE

INFERIOR

SUPERIOR

LI

LS

F

FR

FA

FRA

M

F*M

A

B

C

D

E

F

G

H

1

-

2

-

3

-

4

-

5

-

6

-

7

-

8

-

9

-

10

TOTALES

CLASE

Procedimiento para Agrupar  1. Número de Clases: Entre 5 y 20 clases (2x  n).  Clase: Categoría o Críterio que permite agrupar los puntajes  2. Determine la Anchura o Intervalo de clase. 

Anchura = Rango / # de Clases

Número de Clases x Anchura  Rango

 3. Seleccione como Límite Inferior (LI) de la Clase, ya sea el puntaje más

pequeño o un valor conveniente un poco menor que el puntaje más bajo.  4. Sume la Anchura al LI de la segunda clase, y así sucesivamente hasta completar el número de clases.  5. Registre los Límites Superiores (LS) hasta completar el número de clases - El LS debe ser menor que el LI siguiente.  6. Clasifique cada puntaje en su clase correspondiente.

Tabla de Frecuencia CANTIDAD DE OBSERVS.

POR CIENTO

SUMA SUMA PUNTO ACUMULA DE C DA ACUMULADA MEDIO RANGODEL INTERVALO EN RANGO % DE C DE D RANGO CXG CLASE FRECUENCI FRECUENC FRECUEN MARCA FRECUENCI S A IA CIA FRECUENCIA DE A MARCA DE FRECUENCIA ABSOLUT X MARCA LIMITE LIMITE ABSOLUTA RELATIVA A RELATIVA CLASE DE CLASE AL POR MARCA DE INFERI SUPERI ACUMULA CLASE AL OR OR DA ACUMULADA CLASE CUADRADO CUADR. LI

LS

F

FR

FA

FRA

M

F*M

A

B

C

D

E

F

G

H

M^2

F*M^2

1

200

-

209

9

0.051

9

0.051

204.5

1,840.50

41,820.25

376,382.25

2

210

-

219

3

0.017

12

0.069

214.5

643.50

46,010.25

138,030.75

3

220

-

229

5

0.029

17

0.097

224.5

1,122.50

50,400.25

252,001.25

4

230

-

239

4

0.023

21

0.120

234.5

938.00

54,990.25

219,961.00

5

240

-

249

4

0.023

25

0.143

244.5

978.00

59,780.25

239,121.00

6

250

-

259

14

0.080

39

0.223

254.5

3,563.00

64,770.25

906,783.50

7

260

-

269

32

0.183

71

0.406

264.5

8,464.00

69,960.25

2,238,728.00

8

270

-

279

52

0.297

123

0.703

274.5

14,274.00

75,350.25

3,918,213.00

9

280

-

289

38

0.217

161

0.920

284.5

10,811.00

80,940.25

3,075,729.50

10

290

-

299

14

0.080

175

1.000

294.5

4,123.00

86,730.25

1,214,223.50

175

1

TOTAL ES

46,757.50

12,579,173.75

Investigación de Campo  Buscar n. 200 observaciones en cualquier tipo

de Negocios.  Descripción de los datos.  Tabla de Frecuencias.  Gráficos de Frecuencias.  Medidas de Tendencia Central.  Medidas de Dispersión.  Cuantiles.  Análisis del Comportamiento de los datos.

HISTOGRAMA  Consiste en una escala horizontal para valores de los

datos que se están representando, una escala vertical para las frecuencias, y barras que representan la frecuencia de cada clase de valores.  El eje horizontal pueden ser colocadas las marcas de clase.  Coloca las clases de una distribución de frecuencia en el eje

horizontal y las frecuencias en el eje vertical.

HISTOGRAMA

60 50

52 38

40 FRECUENCIAS

32

30 20 10 0

14

9

204.5

3

5

4

4

214.5

224.5

234.5

244.5

254.5

14

264.5

MARCAS DE CLASES

274.5

284.5

294.5

HISTOGRAMA DE FRECUENCIAS RELATIVAS

0.297 0.217

0.183 0.080

0.080

MARCAS DE CLASES

4. 5 29

4. 5 28

4. 5 27

4. 5 26

4. 5 25

4. 5 24

4. 5 23

4. 5 22

4. 5

0.017 0.029 0.023 0.023

21

4. 5

0.051

20

FRECUENCIAS RELATIVAS

0.350 0.300 0.250 0.200 0.150 0.100 0.050 0.000

Este puede mostrar cantidades o porcentajes para dos o más valores sobre el eje vertical. Es una forma de gráfica de representar datos cualitativos que se han resumido en una distribución de frecuencias, de frecuencias relativas o porcentuales. Para los datos cualitativos, las barras deben estar separadas par enfatizar el hecho de que cada clase (categoría) es separada.

DIAGRAMA DE BARRAS Relacion Ingresos/Costos 30000 20000

Ingresos

10000 0

Costos 10

20

30

40

50

60

70

80

90 100 110 120 130 140 150 160 170 180 190 200

Unidades Producidas y Vendidas

Análisis de Punto de Equilibrio

CANTIDA COSTO PRECIO COSTO D UNIDAD UNITARI FIJO VARIABL ES O E 10 60 7.5 600 20 60 7.5 1.2 30 60 7.5 1.8 40 60 7.5 2.4 50 60 7.5 3 60 60 7.5 3.6 70 60 7.5 4.2 80 60 7.5 4.8 90 60 7.5 5.4 100 60 7.5 6 110 60 7.5 6.6 120 60 7.5 7.2 130 60 7.5 7.8 140 60 7.5 8.4 150 60 7.5 9 160 60 7.5 9.6 170 60 7.5 10.2 180 60 7.5 10.8 190 60 7.5 11.4 200 60 7.5 12

COSTO

PRECIO

TOTAL

UNITARI INGRES BENEFIC O OS IO 130 1.3 -6.8 130 2.6 -6.1 130 3.9 -5.4 130 5.2 -4.7 130 6.5 -4 130 7.8 -3.3 130 9.1 -2.6 130 10.4 -1.9 130 11.7 -1.2 130 13 -500 130 14.3 200 130 15.6 900 130 16.9 1.6 130 18.2 2.3 130 19.5 3 130 20.8 3.7 130 22.1 4.4 130 23.4 5.1 130 24.7 5.8 130 26 6.5

8.1 8.7 9.3 9.9 10.5 11.1 11.7 12.3 12.9 13.5 14.1 14.7 15.3 15.9 16.5 17.1 17.7 18.3 18.9 19.5

DIAGRAMA DE TALLO Y HOJAS 

En una grafica de tallo y hojas ordenamos los datos según un patrón que revela la distribución subyacente. Dicho patrón implica separar un numero (como 257) en dos partes, por lo regular el primer digito o los dos primeros (25) y los demás dígitos (7). El tallo consiste en los dígitos de la izquierda (en este caso 25) y las hojas consisten en los dígitos de la derecha (en este caso 7).

DIAGRAMA DE TALLO Y HOJAS

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

20

0

1

4

4

6

6

8

8

9

21

5

7

8

22

0

3

3

5

8

23

0

0

4

6

24

1

2

2

8

25

0

1

1

2

2

4

6

6

6

7

7

8

9

9

26

0

1

2

2

2

2

2

3

3

3

3

3

4

5

5

5

6

7

7

8

8

8

8

8

8

8

8

8

9

9

9

9

27

0

0

0

0

0

0

0

0

1

1

2

2

2

2

2

3

3

3

3

3

3

4

4

4

4

5

5

5

5

6

6

6

6

6

7

7

7

7

28

0

0

0

1

1

1

1

2

2

2

2

2

2

3

3

3

3

3

3

4

4

4

4

5

5

5

6

6

6

6

7

7

8

9

9

9

9

9

29

0

0

0

1

1

2

2

2

3

3

4

5

5

7

7

7

7

7

8

8

8

8

8

8

8

9

9

9

El proceso de construcción de un polígono de frecuencias es similar al del histograma excepto que sólo un punto sobre el punto medio de cada intervalo se utiliza para indicar la frecuencia y los puntos adyacentes se conectan mediante segmentos de líneas.

POLIGONO DE FRECUENCIA

60 52

50 40 FRECUENCIAS

38 32

30 20 10

14

9

0 204.5

3

5

4

4

214.5

224.5

234.5

244.5

254.5

14

264.5

MARCAS DE CLASES

274.5

284.5

294.5

GRAFICA DE SERIE DE TIEMPO

ESTUDIANTES MATRICULADOS EN EL NIVEL SUPERIOR POR INSTITUCION INSTITUCIÓN

AÑO DE

FUNDACION

UASD PUCMM UNPHU INTEC UNIBE

1538 1962 1967 1974 1982

1994 41.139 8.56 6.124 3.074 1.747

AÑOS 1995 51.432 8.816 6.171 2.369 1.665

1996 62.058 9.081 6.22 2.335 1.91

1997 81.753 9.438 6.044 2.803 1.947

GRAFICA DE SERIE DE TIEMPO ESTUDIANTES MATRICULADOS EN EL NIVEL SUPERIOR 90,000 80,000 70,000 60,000 50,000 40,000 30,000 20,000 10,000 -

UASD PUCMM UNPHU INTEC UNIBE 1994

1995

1996

1997

CURVA DE OJIVA

1.2000 1.0000

0.9200

0.8000 FRECUENCIAS ACUMULADAS

1.0000

0.7029

0.6000 0.4000

0.4057

0.2000 0.0000

0.0514

0.0686

0.0971

0.1200

0.1429

0.2229

204.5 214.5 224.5 234.5 244.5 254.5 264.5 274.5 284.5 294.5 MARCAS DE CLASES

DIAGRAMA DE PARETO 

Es una grafica de barras en la que las barras se acomodan en orden según la frecuencia. Al igual que los histogramas, las escalas verticales de los diagramas de Pareto pueden representar frecuencias o frecuencias relativas.



En este la barra más alta queda a la izquierda, y la más pequeña a la derecha.

DIAGRAMA DE PARETO Paises o territorios con mayor numero de inmigrantes 25,000,000 20,000,000 15,000,000 10,000,000

Italia

Argentina

Hong Kong

Costa Avorio

Iran

Arabia Saudita

Canada

Alemania

Francia

Estados Unidos

0

Reino Unido

5,000,000

Diagrama de Pareto Problemas o defectos en Botas Razón de defecto Reventado de Piel Costuras fallas Mal montada Piel arrugada Total

Total 369 135 135 99 738

% Acumulado Porcentaje 50.00 0.50 68.29 0.18 86.59 0.18 100.00 0.13 100.00%

400 350 300 250 200 150 100 50 0

Problemas o defectos en Botas Total, 369

Total, 135 Total, 135

Reventado Costuras de Piel fallas

Mal montada

Total, 99

Piel arrugada

Total

DIAGRAMA CIRCULAR, DE SECTORES O TORTAS  Es de especial utilidad para mostrar proporciones

(porcentajes) relativas de una variable. 

Por ejemplo si una determinada categoría representa el 57.8% del total de los datos u observaciones, el ángulo central deberá ser de 0.578 x 360º = 208º.

DIAGRAMA CIRCULAR, DE SECTORES O TORTAS 8%

5%

3% 2%

200 - 209

2% 2%

8%

22%

210 - 219 220 - 229 230 - 239 240 - 249 250 - 259 260 - 269

18%

270 - 279 280 - 289 30%

290 - 299

Medidas de Tendencias Central  Una medida de tendencia central es un

valor que está en el centro o punto medio de un conjunto de datos.  Es una medida que ubica e identifica el punto

alrededor del cual se centran los datos.  Es un valor númerico que localiza, de alguna

manera el centro de un conjunto de datos.

La Media Aritmética o Promedio  La Media Aritmética o Promedio de un conjunto de puntajes es el valor

que se obtiene sumando los puntajes y dividiendo el total entre el numero de puntajes.  La media es el punto que menos dista de todas las observaciones. Por esta

razón a veces se le considera como el centro de gravedad de los datos.  La media es un una medida más confiable que la mediana y la moda,

porque tiene un menor error de muestreo. Además la media también tiene más facilidad para un tratamiento estadístico posterior que la mediana o la moda.  Es una medida que toma en consideración todos los valores de la

distribución. Esto es positivo, pero por la misma razón es muy sensible a la presentación de observaciones extremas que hacen que la media se desplace hacia ellas. En consecuencia no es recomendable usar la media como medida de tendencia central en estos casos, pues la cantidad obenida no es representativa del total de los datos.

La Media Aritmética o Promedio  Tiene la ventaja de que es la única y siempre se puede calcular.

Pero cuando se trabaja con datos agrupados, la división en intervalos influye en el valor resultatne de la media.  La media es el estadístico de centralización más utilizado para

realizar inferencias debido a una buena propiedad matemática que posee: es el centro de gravedad de la distribución. Depende de todas y cada una de las observaciones.  La media es el promedio más utilizado.

La Media Aritmética o Promedio  Para datos no agrupados:  Media Poblacional = (xi)/N = (x1 + x2 + x3... xN) / N

 Media Muestral = xi / n = (x1 + x2 + x3... xn) / n

Caso VIII pág 54  Para datos agrupados:

Media =  f*M / n=  f*M / f  = (f1*M1 + f2*M2 + f3*M3 ... fn*Mn) / f

La Mediana o Media Posicional  La Mediana o Media Posicional de un conjunto de puntajes

es el valor que esta en medio, cuando los puntajes se acomodan en orden de magnitud creciente (o decreciente).  La mediana deja a un lado y al otro lado de la distribución el

mismo número de observaciones.  Como medida descriptiva, tiene la ventaja de no estar afectada

por las observaciones extremas, ya que no depende de los valores que toma la varible, sino del orden de los mismos. Por ello, es adecuado su uso en distribuciones que presentan observaciones extremadamente grandes o pequeñas.

La Mediana o Media Posicional  La mediana es la medida de localización que se utiliza con más frecuencia

para datos de ingreso anual y valores catastrales, pues con unos pocos ingreos o con propieades extremadamente grandes se puede inflar la media. En esos casos, la mediana es una mejor medida de la tendencia central.  La mediana es el valor de la variable que deja por encima y por debajo la

misma cantidad de datos (una vesz que éstos han sido ordenados de menor a mayor). Al contrario de la media, en su cálculo no interviene más que el valor (o valores centrales). Esta particularidad ofrece:  Ventajas: No se ve afectada por la aparición de observaciones anómalas. Por

ello, en tales casos la podemos considerar como una medida más representativa de la mayor parte de los datos que la media.  Inconvenientes: No utiliza toda la información de los datos (sólo los valores

centrales).

La Mediana o Media Posicional  Para datos no agrupados:  Posición de la Mediana = (n + 1)/2

Caso VIII pág 53  1.- Si el numero de puntajes es impar, la mediana es el numero que esta situado exactamente a la mitad de la lista.  2.- Si el numero de puntaje es par, la mediana se obtiene calculando la media de los dos números que están a la mitad.

La Mediana o Media Posicional

 Para datos agrupados:  Me = LImd + [(n/2 - F)/fmd] (C)

 md = clase mediana  Clase Mediana es la clase cuya frecuencia acumulada es

      

mayor que o igual a n/2. LImd = limite inferior de la clase de la mediana. F = frecuencia acumulada de la clase que antecede a la clase de la mediana. fmd = es la frecuencia de la clase de la mediana. C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos).

La Moda  La Moda de un conjunto de datos es el puntaje que ocurre con mas frecuencia.  La observación modal es la observación que ocurre con mayor frecuencia.  Es el punto donde donde se concentra el mayor número de observaciones.

 Puede no ser única. Cuando hay dos o más modas hablamos de distribuciones bimodales o plurimodales respectivamente.

La Moda Para datos no agrupados: Mo = Mayor Frecuencia Caso VIII pág 54 Para datos agrupados: Mo = LImo + [1/(2+ 1)]*(C) mo = clase modal  Clase Modal es la clase que tiene la mayor frecuencia. LImo = limite inferior de la clase modal 1 = diferencia entre la frecuencia de la clase modal y la clase que la antecede.  2 = diferencia entre la frecuencia de la clase modal y la clase que le sigue. C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos).

Media Ponderada  Media Ponderada: Media de una colección

de puntajes a los que se asignado diferentes grados de importancia.  Media Ponderada w =  (x*w) / w  W = es el peso o ponderación asignada a

cada Observación.  Caso V pág 56

La Media Geométrica  Media Geométrica puede utilizarse para mostrar los

cambios porcentuales en una serie de números positivos.  La media geométrica proporciona una medida precisa de

un cambio porcentual promedio en una serie de números.  ________________  MG = x1 * x2 * x3 * ... xn  La media geométrica se utiliza con mas frecuencia para calcular la tasa de crecimiento porcentual promedio de algunas series dadas, a través del tiempo.  Caso VI e VII pág 56

MEDIDAS DE DISPERSION O VARIABILIDAD – PÁG. 43



Las medidas de dispersión miden que tanto se dispersan las observaciones alrededor de su media. El propósito de estas es cuantificar el grado de variación entre el conjunto de valores de una distribución.



La variabilidad se refiere a que tan grandes son las diferencias entre los valores evaluados.

MEDIDAS DE DISPERSION O VARIABILIDAD

 EL RANGO O RECORRIDO (INTERVALO).  Es la medida de dispersión más simple y

menos útil. Esta se obtiene de la diferencia entre la observación más alta y la mas baja. 

Re = X máx – X mín

MEDIDAS DE DISPERSION O VARIABILIDAD

 VALORES DE DESVIACION.  Para

la variabilidad, se consideran las diferencias entre la media y cada valor. Estas diferencias se llaman valores de desviación.

 

Valores de desviación = X -  _ Valores de desviación = X - X

MEDIDAS DE DISPERSION O VARIABILIDAD  VARIANZA.  Es el promedio de las observaciones respecto a su media

elevadas al cuadrado.  Es la media de la diferencia cuadráticas de N puntuaciones en

relación a su media aritmética.  La varianza es útil para comparar la dispersión, o variabilidad,

de dos conjuntos de datos. Al comparar conjuntos de datos, el que tiene mayor varianza tiene mayor dispersión o variabilidad.

MEDIDAS DE DISPERSION O VARIABILIDAD  La Varianza para una Población (² = suma de cuadrados). 

²=[∑(Xi - )²]/N ²  0 La Desviación Estándar para una población.  = ²

 Procedimiento para calcular La Varianza para una Población (² = suma de cuadrados)  1. Encuentre la desviación de cada valor de la media: Valores de desviación = X -   2. Eleve al cuadrado cada valor de desviación: (Xi - )²  3. Realice la sumatoria de cada valor de desviación elevado al cuadrado: ∑(Xi - )²  4. Encuentre la varianza dividiendo la sumatoria anterior entre N (totalidad de las observaciones).

MEDIDAS DE DISPERSION O VARIABILIDAD  La Varianza para una muestra de datos no agrupados (s²). 

_ s²=[(Xi - X)²]/n-1 Caso IX pág 57 La Desviación Estándar para una muestra. s = s²

 La Varianza de la muestra de datos agrupados (s²). 

_ s²=[(f*M²) - nX²]/n-1

La Desviación Estándar para una muestra. s = s²

MEDIDAS DE DISPERSION O VARIABILIDAD CANTIDAD DE OBSERVS.

POR CIENTO

SUMA SUMA PUNTO ACUMULA DE C DA ACUMULADA MEDIO DEL RANGO-INTERVALO EN RANGO % DE C DE D RANGO CXG CLASE FRECUENCI FRECUEN FRECUEN FRECUENCI MARCA FRECUENCI S A CIA CIA A DE A MARCA DE FRECUENCIA ABSOLUT X MARCA LIMITE LIMITE ABSOLUTA RELATIVA A RELATIVA CLASE DE CLASE AL POR MARCA DE INFERI SUPERI ACUMULA CLASE AL OR OR DA ACUMULADA CLASE CUADRADO CUADR. LI

LS

F

FR

FA

FRA

M

F*M

A

B

C

D

E

F

G

H

M^2

F*M^2

1

200

-

209

9

0.051

9

0.051

204.5

1,840.50

41,820.25

376,382.25

2

210

-

219

3

0.017

12

0.069

214.5

643.50

46,010.25

138,030.75

3

220

-

229

5

0.029

17

0.097

224.5

1,122.50

50,400.25

252,001.25

4

230

-

239

4

0.023

21

0.120

234.5

938.00

54,990.25

219,961.00

5

240

-

249

4

0.023

25

0.143

244.5

978.00

59,780.25

239,121.00

6

250

-

259

14

0.080

39

0.223

254.5

3,563.00

64,770.25

906,783.50

7

260

-

269

32

0.183

71

0.406

264.5

8,464.00

69,960.25

2,238,728.00

8

270

-

279

52

0.297

123

0.703

274.5

14,274.00

75,350.25

3,918,213.00

9

280

-

289

38

0.217

161

0.920

284.5

10,811.00

80,940.25

3,075,729.50

10

290

-

299

14

0.080

175

1.000

294.5

4,123.00

86,730.25

1,214,223.50

175

1

TOTALE S

46,757.50

12,579,173.75

MEDIDAS DE DISPERSION O VARIABILIDAD  LA DESVIACION ESTANDAR.

Es la raíz cuadrada de la varianza. dispersión de los datos.

Es una medida importante de la

 Esta regresa a la medición de los valores originales, así tiene más valor

descriptivo directo.

 La desviación estándar es más útil para describir la variabilidad de un

conjunto de datos que la varianza. La desviación estándar lleva las mismas unidades que los valores originales. La Desviación Estándar para una población.  = ² La Desviación Estándar para una muestra. s = s²

MEDIDAS DE DISPERSION O VARIABILIDAD

 La Desviación Media o Absoluta. 

Se define como el promedio de la suma de las diferencias en valor absoluto de los valores de la variable con respecto a la media. _  Desviación media= |Xi-X|/n

MEDIDAS DE DISPERSION O VARIABILIDAD

 Coeficiente de Variación.  Este

sirve como medida relativa de dispersión. Determina el grado de dispersión de un conjunto de datos relativo a su media. _  CV = s/X(100)

La distribución normal (o gaussiana)  La distribución normal es una distribución de datos continuos(*) (no discretos) que produce una curva simétrica en forma de campana.   La distribución gaussiana fue presentada por Karl Friedrich Gauss (1777-1855) en el 1812. La campana de Gauss o curva de distribución normal, curva de probabilidad normal; se caracteriza por:  - Es unimodal.  - Es simétrica (la simetría es perfecta).  - La mitad izquierda de su histograma es aproximadamente una imagen especular de su mitad derecha.  - La asimetría de la distribución es cero.  - Las colas de la curva se aproximan mas, pero nunca tocan, el eje horizontal.  - La media, la mediana y la moda son iguales.  - La mitad de las observaciones esta por encima de la media y la mitad esta por debajo.  - Si las observaciones están altamente dispersas, la curva en forma de campana se aplanara y se esparcirá.

Campana de Gauss

La distribución normal (o gaussiana)  La Regla Empírica o Regla 68-95-99.  Esta regla sólo aplica a un conjunto de datos cuya distribución tiene

aproximadamente forma de campana. Esta afirma que:  - Cerca del 68% de todos los puntajes u observaciones queda a menos de

una desviación estándar de la media.  - Cerca del 95% de todos los puntajes u observaciones queda a menos de

dos desviaciones estándar de la media.  - Cerca del 99.7% de todos los puntajes u observaciones que a menos de

tres desviaciones estándar de la media.

Distribuciones de Datos Sesgadas  Una distribución de datos esta sesgada, si no es simétrica y se extiende

mas

hacia un lado que hacia otro. Sesgo describe la falta de simetría en una distribución.  Los datos sesgados a la izquierda se dice que tienen sesgo negativo; la media y la

mediana están a la izquierda de la moda. Generalmente tiene la media a la izquierda de la mediana.  Sesgo negativo describe distribuciones asimétricas en la que la mediana excede a la media; la cola de la distribución es hacia los valores bajos.

Los datos sesgados a la derecha se dice que tienen sesgo positivo; la media y la mediana están a la derecha de la moda.  Sesgo positivo describe distribuciones asimétricas en las que la media excede la mediana; los valores se alargan hacia los valores altos. En ambos casos, la moda es por definición la observación que ocurre con mayor frecuencia, por tanto esta en el pico de la distribución.

Coeficiente de Sesgo de Pearson. 



P = 3 (Media - Mediana) s

Si P < 0, los datos están sesgados a la izquierda.  Si P > 0, los datos están sesgados a la derecha.  Si P = 0, los datos están distribuidos normalmente.

Los Cuantiles – PÁG. 43 

 

 

Cuando los valores ordenados de una variable han de ser divididos en grupos homogéneos en cuanto al tamaño, se suelen utilizar los cuantiles. Entre los cuantiles más utilizados se encuentran: Los cuartiles Q Los deciles D Los percentiles P

Los Cuartiles  Así como la mediana divide los datos en dos partes iguales, los tres cuartiles, denotados por Q1, Q2 y Q3, dividen los puntajes clasificados en cuatro partes iguales. (Los puntajes se clasifican cuando se acomodan en orden). A grandes rasgos:  Q1 separa el 25% inferior de los puntajes clasificados del 75% superior;  - al menos el 25% de los datos es = Q1  - N/4 = 25  - Q1 = P25   

Q2 es la mediana; - 2N/4 = 50 - Q2 = P50

    

Q3 separa el 25% superior del 75% inferior - al menos el 75% de los datos es = Q3 - 3N/4 = 75 - Q3 = P75

Los Cuartiles

25%

25% Q1

25% Q2

25% Q3

Los Deciles  Hay nueve deciles, denotados por D1, D2, D3, D4, D5, D6, D7, D8, D9, que

dividen los datos en 10 grupos con aproximadamente el 10% de los datos en cada grupo.

        

El primer decil es la observación debajo de la cual se encuentra el 10% de las observaciones, mientras que el 90% restante se encuentra encima de este. - al menos el 10% de los datos es = D1 D1 = P10 D2 = P20 D3 = P30 : . D9 = P90

Los Deciles 10%

10% D1

10% D2

10% D3

10% D4

10% D5

10% D6

10% D7

10% D8

10% D9

Los Percentiles  Hay 99 percentiles (P1, P2, P3 ... P99), que dividen los datos en

100 grupos con aproximadamente el 1% de los puntajes en cada grupo.  - al menos el 1% de los datos es = P1  Ubicación de un Percentil.  Lp = (n + 1) (P/100)  Caso XIV pág 60  Lp es el sitio del percentil deseado en una serie ordenada.  n es el numero de observaciones  P es el percentil deseado

Los Percentiles

1%

1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1 2 3 4 5 6 7 8 9 10 11 12 . . . 97 98 99

Otras Medidas de Tendencia Central con los Cuantiles.

             

Percentil de un puntaje. Percentil del puntaje x = numero de puntajes menores que x . 100 numero total de puntajes Otras Medidas de Tendencia Central con los Cuantiles. intervalo intercuartiles = Q3 - Q1 intervalo semiintercuartiles = Q3 - Q1 (desviación del cuartil) 2

cuartil medio = Q3 + Q1 2 intervalo de percentiles 10-90 = P90 - P10

Los cuartiles (Q) para datos agrupados – PÁG. 48

 Q1 = LI + N/4 – Fi * C

fi  N/4 = 43.75; primera Fi > N/4 = 71  Q1 = 260 + ( 43.75 – 39) * (10) = 261.48

32

Los cuartiles (Q) para datos agrupados

 Q2 = LI + N/2 – Fi * C

fi  N/ 2 = 87.50; primera Fi > 2N/4 = 123

 Q2 = 270 + 87.50 – 71 * (10) = 273.17

52

Los cuartiles (Q) para datos agrupados

 Q3 = LI + 3N/4 – Fi * C

fi  3N/4 = 131.25; primera Fi > 3N/4 = 161

 Q3 = 280 + 131.25 – 123 * (10) = 282.17

38

Los cuartiles (Q) para datos agrupados CUARTILES

DECILES

PERCENTILES

Q1

VALOR QUE OCUPA N/4

Q2

VALOR QUE OCUPA 2N/4

Q3

VALOR QUE OCUPA 3N/4

D1

VALOR QUE OCUPA N/10

D2

VALOR QUE OCUPA 2N/10

D9

VALOR QUE OCUPA 9N/10

P1

VALOR QUE OCUPA N/100

P2

VALOR QUE OCUPA 2N/100

P99

VALOR QUE OCUPA 99N/100

CANTIDA POR Los cuartiles (Q) para datos agrupados D CIENTO SUMA SUMA PUNTO DE OBSERV ACUMUL ACUMUL S. DE C ADA ADA MEDIO EN DEL RANGO % DE C DE D RANGO C X G FRECUE FRECUE FRECUE FRECUEN MARCA FRECUEN MARCA NCIA NCIA NCIA CIA DE CIA DE FRECUENCIA ABSOLU RELATIV ABSOLU RELATIV X MARCA CLASE POR MARCA LIMITE TA A TA A CLASE DE AL DE SUPERIO ACUMUL ACUMUL CUADRA CLASE AL R ADA ADA CLASE DO CUADR.

RANGOINTERVALO CLASES LIMITE INFERIOR LI

LS

F

FR

FA

FRA

M

F*M

A

B

C

D

E

F

G

H

M^2

1

200

-

209

9

0.051

9

0.051

204.5

2

210

-

219

3

0.017

12

0.069

214.5

3

220

-

229

5

0.029

17

0.097

224.5

4

230

-

239

4

0.023

21

0.120

234.5

938.00

54,990.25

219,961.00

5

240

-

249

4

0.023

25

0.143

244.5

978.00

59,780.25

239,121.00

6

250

-

259

14

0.080

39

0.223

254.5

3,563.00 64,770.25

906,783.50

Q1

7

260

-

269

32

0.183

71

0.406

264.5

8,464.00 69,960.25 2,238,728.00

Q2

8

270

-

279

52

0.297

123

0.703

274.5 14,274.00 75,350.25 3,918,213.00

Q3

9

280

-

289

38

0.217

161

0.920

284.5

10,811.00 80,940.25 3,075,729.50

10

290

-

299

14

0.080

175

1.000

294.5

4,123.00 86,730.25 1,214,223.50

175

1

TOTALES

N Q1

N/4

43.75

Q2

N/2

87.5

Q3

3N/4

131.25

1,840.50 41,820.25

F*M^2

643.50

376,382.25

46,010.25

138,030.75

1,122.50 50,400.25

252,001.25

46,757.50

12,579,173.75

SPSS Statistics Base 17.0  Pasos para construir una tabla de Frecuencia en SPSS 17.  Crear la Base de Datos o Conjuntos de observaciones o puntajes que desea    

     



agrupar. (Leer el Capítulo 5 del Manual de SPSS Statistics Base 17). Opción del menú Transformar. Opción Agrupación Visual. Seleccionar la Variable a transformar. => SALARIOS. Crear nueva “Variable agrupada”. => SALARIOS1. Establecer los Límites Superiores (Intervalos cerrados o abiertos – Incluidos #Cortes = 10 – 1. Anchura. Crear etiquetas – Crear las clases. Aceptar. Se visualiza la nueva “Variable agrupada” SALARIOS1

SPSS Statistics Base 17.0  Pasos para visualizar una tabla de

Frecuencia en SPSS 17.  Después de crear la “Variable agrupada”.  Seleccionar la opción del Menú Analizar.  Seleccionar la opción Estadísticos descriptivos.  Seleccionar la opción Frecuencias.  Seleccionar la Variable agrupada SALARIOS1.  Seleccionar los Estadísticos… Todos y Percentiles deseados.  Seleccionar los gráficos…

SPSS Statistics Base 17.0  Crear Base de Datos con SPSS 17 con 50 estudiantes.  Después de Leer el Capítulo 5 del Manual de SPSS Statistics Base 17.         

Datos a Considerar: Matrícula. Nombre. Apellido. Edad. Fecha de Nacimiento. Lugar de Nacimiento. Sexo. Ingreso Mensual. Gasto Mensual.

 Tomar como ejemplo el archivo (file) demo_cs que se encuentra en:  Local Disk C:\Program Files (x86)\SPSSInc\Statistics17\Samples\Spanish

Clasificación de las Variables según el Nivel de Medición:

 Clasificación de las Variables según el Nivel de Medición:

 Los datos se reúnen mediante una de las siguientes escala de medición: nominal, ordinal, intervalo y de razón. La escala o nivel de medición permite determinar la cantidad de información que contienen los datos e indica el resumen de los datos y el análisis estadístico más apropiado.  La escala para medir una característica tiene implicaciones en la forma de presentar y resumir la información; también determina el método estadístico

escogido para analizar los datos.

Clasificación de las Variables según el Nivel de Medición:  Nivel de medición nominal:  Se caracteriza por datos que consisten exclusivamente en nombres, rótulos o categorías. Los datos no pueden acomodarse según un esquema de ordenamiento.  Nombres o clases que se utilizan para organizar los datos en 

  

categorías separadas y distintas. La escala de medición para una variable es nominal cuando los datos son etiquetas o nombres que se emplean para identificar un atributo del elemento. Ejemplos: El sexo de los estudiantes de esta clase de estadística. Las bebidas gaseosas refrescantes se pueden clasificar en: Coke, Pepsi, 7-Up o Country Club.

     

Clasificación de las Variables según el Nivel de Medición: Nivel de medición nominal: La escala de medición es nominal aun cuando los datos son mostrados como valores numéricos. 1. Coke 2. Pepsi 3. 7-Up 4. Country Club El partido político al que pertenecen los miembros de las cámaras de senadores y diputados del país. Los datos evaluados en escala nominal en ocasiones suelen llamarse observacones cualitativas, porque describen una cualidad de la persona o casa estudiada, y observaciones categóricas, si los valores caen en categorías. En general, los datos nominales o cualitativos se describen en términos de porcentajes o proporciones. A menudo se utilizan las tablas de contingencia y las gráficas de barras para mostrar este tipo de información.

Clasificación de las Variables según el Nivel de Medición:  Nivel de medición ordinal.  La escala de medición para una variable es ordinal si los datos tienen propiedades de datos nominales y el orden de los datos es significativa.  Mediciones que jerarquizan los datos en categorías, ordenadas

en virtud de un determinado criterio.  Implica datos que pueden acomodarse en algún orden, pero no

es posible determinar diferencias entre los valores de los datos, o tales diferencias carecen de significado.  Los datos para una escala ordinal podrían ser no numéricos o

numéricos.

 

 

Clasificación de las Variables según el Nivel de Medición: Nivel de medición ordinal. Este nivel ordinal proporciona información sobre comparaciones relativas, pero los grados de las diferencias no se pueden usar en cálculos. Ejemplos: Los productos de un determinado almacén pueden ser clasificados como "buenos", "mejores" y "óptimos".

 Un editor califica algunos manuscritos como "excelentes", otros

como "buenos" y algunos como "malos". (No podemos encontrar una diferencia cuantitativa especifica entre "bueno" y "malo").  La Revista Money clasificación las inversiones a partir de los

niveles de riesgos "bajo", "alto" y "muy alto".

Clasificación de las Variables según el Nivel de Medición:  Nivel de medición de intervalos. La escala de medición para una variable es una escala de intervalo si los datos tienen las propiedades de datos ordinales y el intervalo entre observaciones se expresa en términos de una unidad fija de medida. Los datos de intervalos siempre son numéricos.  Es como el nivel ordinal, con la propiedad adicional de que podemos determinar magnitudes de diferencias entre los datos que tienen algún significado. Mediciones respecto de una escala numérica en la cual el valor del cero es arbitrario, pero la diferencia de valores es importante.  La escala Fahrenheit de temperaturas es un ejemplo de escala de intervalos: 70 grados no sólo significan una temperatura mayor que 60 grados, sino que existe la misma diferencia de 10 grados que entre 100 y 90 grados Fahrenheit.

Clasificación de las Variables según el Nivel de Medición:

 Nivel de medición de intervalos. La escala de medición para una variable es una escala de intervalo

si los datos tienen las propiedades de datos ordinales y el intervalo entre observaciones se expresa en términos de una unidad fija de medida. Los datos de intervalos siempre son numéricos.  Las temperaturas promedian anuales (en grados Celsius) de las capitales de todos los estados de los Estados Unidos.  Los años 1000, 2000, 1776 y 1944.

Clasificación de las Variables según el Nivel de Medición:  Nivel de medición de proporción o de razón.  La Escala de medición para una variable es una escala de razón si los datos tienen todas las propiedades de los datos de intervalos y el cociente de los dos valores es significativa. Variables como distancia, peso, altura y tiempo emplean la escala de razón. Un requisito de esta escala es que pede contener un valor cero que indica que no existe nada para una variable en el punto cero.  Mediciones numéricas en las cuales el cero es un valor fijo en

cualquier escala y la diferencia de valores es importante.  Es el nivel de intervalo modificado para incluir el punto de partida o cero inherente (donde cero indica que nada de la cantidad esta presente). Para los valores de este nivel, tanto las diferencias como las razones tienen significado.

 



 

Clasificación de las Variables según el Nivel de Medición: Nivel de medición de proporción o de razón. De los cuatro niveles de medición, sólo la escala de proporción o de razón se basa en un sistema numérico en el cual el cero tiene sentido. Por consiguiente, las operaciones aritméticas de multiplicación y división también adquieren una interpretación racional. Mediciones tales como el peso, el tiempo y la distancia se miden en escala de proporción, puesto que el cero ocupa un lugar natural. Ejemplo: Distancia (en kilómetros) recorridas por automóviles en una prueba de consumo de combustible. Longitudes (en minutos) de películas de cine. Los valores de cada una estas colecciones de datos se pueden acomodar en orden, las diferencias pueden calcularse y existe un punto de partida o cero inherente. Este nivel se denomina "razón" porque el punto de partida hace que las razones o cocientes tengan significado.

Nivel

Resumen

Ejemplo

Observación

Autos de estudiantes:

Nominal

Sólo categorías. Los datos no pueden acomodarse en un esquema de ordenamiento.

10 Mercedes Benz

Sólo categorías o nombres

20 BMW 40 T oyota

Ordinal

Las categorías están ordenadas, pero no es posible determinar diferencias, o éstas carecen de significado.

Vehículos de los estudiantes: 10 compactos 20 medianos

Se determina un orden con “compactos, medianos y grandes”.

40 grandes

De Intervalo

Se pueden calcular diferencias entre valores, pero no existe un punto de partida inherente. Los cocientes no tienen significado.

T emperaturas: 45º C 80º C

90º no es dos veces más caliente que 45º C.

90º C

De Razón

Igual que el intervalo, pero con un punto de partida inherente. Los cocientes tienen significado

Pesos de deportistas universitarios: 70 kg 85 kg 140 kg

140 kg es dos veces 70 kg.

Variables Cualitativas  Son aquellas variables cuyos elementos de variación

tienen un carácter cualitativo no susceptible de medición numérica, por ejemplo el sexo de los estudiantes de estadística, el estado civil de los solicitantes de prestamos, preferencia religiosa, etc.  Se pueden dividir en diferentes categorías que se distinguen por alguna característica no numérica.  Una variable cualitativa se mide por medios no numéricos.  Los datos cualitativos emplean la escala de medición nominal o la ordinal y pueden ser no numéricos o numéricos.

Variables Cualitativas  Los datos cualitativos emplean la escala de

medición nominal o la ordinal y pueden ser no numéricos o numéricos.  Si

la variable es cualitativa, el análisis estadístico es bastante limitado. Podemos resumir los datos cualitatitativos al contar el número de observaciones en cada categoría cualitativa, o bien, al calcular la proporción de observaciones en cada categoría cualitativa.

Variables Cuantitativas  Son

aquellas cuyas características o propiedades pueden presentarse en diversos grados o intensidad y tienen un carácter numérico, como por ejemplo nivel de ingresos, deserción escolar, las calificaciones que los estudiantes reciben en el examen final, el número de kilómetros que recorren los que asisten a la universidad, etc.  Según el número de valores que pueden tomar las variables cuantitativas se distingue variables continuas y discontinuas.

Variables Cuantitativas  Variables continuas: Son las que pueden tomar cualquier

valor dentro de un intervalo dado. Por muy próxima que puedan estar dos observaciones, si el instrumento de medida tiene la precisión suficiente siempre puede haber una tercera observación que caiga entre las dos primeras. Los valores de una variable continua proceden en general de mediciones, por ejemplo las cantidades de leche que las vacas producen son datos continuos porque son mediciones que pueden asumir cualquier valor dentro de un intervalo continuo.  Se pueden obtener de un número infinito de posibles valores

que pueden asociarse a puntos de una escala continua, de tal manera que no haya huecos ni interrupciones.

Variables Cuantitativas  Variables discontinuas o discretas: Son las que pueden tomar valores intermedios entre otros dos valores dados, han de hacerlo siempre con valores enteros, por ejemplo el número de alumnos de una escuela, los socios de una cooperativa, etc.  Se obtienen de un número finito de posibles valores o bien de un número de posibles valores que pueden

contarse.  Sólo puede tomar determinados valores, por lo general números enteros. Puede ser resultado de la enumeración o del conteo. En ninguno de los casos se observaran valores fraccionarios.

Recommend Stories

Story Transcript

Get in touch

Social