00 Introducción a la estadística y teoría de probabilidades

00 – Introducción a la estadística y teoría de probabilidades Diego Andrés Alvarez Marín Profesor Asistente Universidad Nacional de Colombia Sede Man

6 downloads 119 Views 3MB Size

Recommend Stories


Probabilidades y Estadística
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA NACIONAL (UNEFA) Probabilidades y Estadística Ing° Luis

Tablas de Probabilidades
Tablas de Probabilidades Ernesto Barrios Zamudio1 ´ Jos´e Angel Garc´ıa P´erez2 Instituto Tecnol´ ogico Aut´ onomo de M´ exico Agosto 2009 Versi´ on 1

Juan Caramuel y el Cálculo de Probabilidades
ESTADÍSTICA ESPAÑOLA Vol. 44, Núm. 150, 2002, págs. 161 a 173 Juan Caramuel y el Cálculo de Probabilidades por FRANCISCO JAVIER MARTÍN PLIEGO Faculta

Story Transcript

00 – Introducción a la estadística y teoría de probabilidades

Diego Andrés Alvarez Marín Profesor Asistente Universidad Nacional de Colombia Sede Manizales

1

Contenido ●

Qué es la estadística?



Qué es la teoría de probabilidades?



Qué es la estadística descriptiva?



Qué es la estadística inferencial

2

Estadística ●

Es la rama matemática relacionada con la colección, el análisis, la interpretación (o explicación) y la representación de datos.

Teoría de probabilidades vs Estadística ●



La teoría de probabilidades es la rama de la matemática relacionada con el análisis de fenómenos aleatorios; esta se desarrolló como un modelo abstracto y sus conclusiones y deducciones están basados en axiomas. La estadística se basa en la aplicación de la teoría de probabilidad a problemas reales y sus conclusiones son inferencias basadas en observaciones.

Ramas de la estadística La estadística se divide en dos ramas: ● ●

Estadística descriptiva Estadística inferencial

Estadística descriptiva

La estadística descriptiva se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos en forma numérica y/o gráfica.

6

Estadística inferencial Esta comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). 7

Estadística descriptiva vs. Estadística inferencial La diferencia entre la estadística descriptiva y la estadística inferencial es que la primera intenta resumir los datos de forma cuantitativa mientras que la segunda se usa para sustentar afirmaciones sobre la población que está representada por los datos recopilados.

8

01 – Estadística descriptiva

Diego Andrés Alvarez Marín Profesor Asistente Universidad Nacional de Colombia Sede Manizales

9

Contenido Definiciones básicas



Medidas de tendencia no central



Medidas de tendencia central



Medidas de dispersión



Momentos



Representación gráfica de la información





Histogramas

10

Definiciones Se quiere estudiar una población. Sin embargo por razones prácticas se analiza una muestra de la población. Los datos se coleccionan mediante un muestreo o experimento. Las observaciones de la muestra aleatoria se usan para calcular ciertas características de la muestra llamadas estadísticas. ●









Población: es el conjunto de elementos de referencia sobre el que se realizan todas las observaciones. La población es la colección de toda la información que caracteriza un fenómeno. Muestra estadística (o aleatoria): es un subconjunto representativo de individuos de la población Muestreo: es la técnica por la cual se selecciona una muestra a partir de una población Una estadística es el resultado de aplicar una función a un conjunto de datos.

Información básica de un conjunto de datos ●

Mínimo y máximo



Percentil



Tendencia central



Dispersión



Momentos

Mínimo y máximo (con MATLAB)

Mínimo y máximo (con MS EXCEL)

Medidas de posición no central Un percentil es el valor de una variable bajo el cual un cierto porcentaje de las observaciones caen. De este modo el percentil 20 es el valor bajo el cual el 20% de las observaciones pueden ser encontradas. Algunos tipos de percentiles importantes son: ● Los cuartiles: percentil 25, 50 (mediana) y 75 ● Los quintiles: percentil 20, 40, 60 y 80 ● Los deciles: percentiles 10, 20, ..., 90

Definiciones de percentil

Ejemplo usando la definición 1 Calcule el percentil 70 de los datos 1200, 11, 23, 27, 25, 29 Primero que todo se deben organizar los datos en orden ascendente 11, 23, 25, 27, 29, 1200 Por lo tanto el percentil 70 es 29

Percentiles con MATLAB

Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos

Percentiles con MS EXCEL

Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos

Medidas de tendencia central Las medidas de tendencia central miden la localización del centro de los datos ●

Media aritmética (o promedio)



Mediana



Moda



Media geométrica



Media armónica



Media acotada (o media truncada) 21

Media aritmética (o promedio)

22

Mediana

23

Mediana

24

Mediana

25

Media geométrica

26

Media geométrica La media geométrica es relevante cuando varias cantidades son multiplicadas para producir un total, o cuando los números son de naturaleza exponencial, como por ejemplo el crecimiento de la población mundial o las tasas de interés de una inversión financiera. La media geométrica es menos sensible que la media aritmética a los valores extremos.

27

Ejemplo

28

Propiedades de la media geométrica

29

Media armónica

30

Ejemplo

31

Ejemplo

32

Media armónica

33

Moda

34

Media acotada (o media truncada)

35

Medidas de tendencia central en MS EXCEL

Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda 36

MEDIA.ACOTADA(datos;porcentaje) Calcula la media de un conjunto de datos después de eliminar el porcentaje de los extremos inferior y superior de los puntos de datos. Puede utilizar esta función cuando desee excluir del análisis los valores extremos. porcentaje es el número fraccionario de puntos de datos que se excluyen del cálculo. Por ejemplo, si porcentaje = 0,2, se eliminarán cuatro puntos de un conjunto de datos de 20 puntos (20 x 0,2), dos de la parte superior y dos de la parte inferior. 37

Medidas de tendencia central en MATLAB

Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda 38

Otras medidas de tendencia central ●

Media generalizada –



Media ponderada –



http://en.wikipedia.org/wiki/Weighted_mean

Punto medio –



http://en.wikipedia.org/wiki/Generalized_mean

http://en.wikipedia.org/wiki/Midrange

Root mean square (RMS) –

http://en.wikipedia.org/wiki/Root_mean_square

39

Notas varias ●

La media armónica es siempre inferior a la media geométrica, que a su vez es siempre inferior a la media aritmética.

Ver: ●



http://en.wikipedia.org/wiki/Inequality_of_arithm etic_and_geometric_means http://en.wikipedia.org/wiki/Pythagorean_means

40

Medidas de dispersión La dispersión de los datos se puede atribuir a pequeñas diferencias de construcción, a mano de obra deficiente, errores humanos, variabilidad inherente al material, así como a errores en las observaciones y en las mediadas. Las medida de dispersión miden la variabilidad de un conjunto de datos. Una medida de dispersión es un número real no negativo, que es cero si todos los dátos son idénticos, y se incrementa a medida que las observaciones son más diversas. 41

Medidas de dispersión ●

Varianza



Desviación estándar



Desviación media



Desviación mediana



Rango (o recorrido)



Rango (o recorrido) intercuartil



Rango (o recorrido) interdecil

42

Varianza y desviación estándar muestral Use siempre estas fórmulas para calcular la varianza y la desviación estándar, a menos que se indique lo contrario. Ver:

http://en.wikipedia.org/wiki/Variance http://en.wikipedia.org/wiki/Standard_deviation

43

Varianza y desviación estándar poblacional

44

Corrección de Bessel

Aunque intuitivamente la fórmula de la desviación estándar (varianza) poblacional es la que se debe usar (denominador n), SIEMPRE que se quieren hacer inferencias acerca de una población, se debe utilizar la desviación estándar (varianza) muestral (denominador n-1). Las razones de esto se entenderán en el Capítulo ***.

45

Recorrido o rango

46

Recorrido interdecil e intercuartil

47

Desviación media (mean absolute deviation - MAD) Desviación mediana (median absolute deviation)

48

Coeficiente de variación (coefficient of variation - C.O.V.)

No confundir con la covarianza! 49

Nota final

A pesar que la media aritmética y la desviación estándar han sido empleadas de manera extensa como medidas de tendencia central y dispersión respectivamente, estas no son siempre las medidas más deseables. Su uso es popular por su varias propiedades teóricas que las hacen muy manipulables desde el punto de vista matemático.

50

Otras medidas de dispersión ●

Momento central de cualquier orden –



Diferencia media –



http://en.wikipedia.org/wiki/Moment_(mathematics) http://en.wikipedia.org/wiki/Mean_difference

Desviación estándar geométrica – http://en.wikipedia.org/wiki/Geometric_standard_deviation

51

Medidas de dispersión en MS EXCEL

52

Haga Alt+F11 para ingresar el código Insertar →Módulo Copy+Paste código Grabar como .xlsm

Como la función para calcular la desviación mediana no existe en MS EXCEL 2007, debemos crear la función usando Visual Basic for Applications (VBA) 53

Medidas de dispersión en MATLAB

54

Valor atípico (outlier) Un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25ºC, pero hay un horno a 350°C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media. 55

Valor atípico (outlier)

Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida. No existe una definición matemática de lo que constituye un valor atípico; este es un ejercicio subjetivo.

56

Sensibilidad de las medidas de tendencia central a valores atípicos

57

Sensibilidad de las medidas de dispersión a los valores atípicos

58

Momentos ●

Coeficiente de asimetría –



Ver: http://en.wikipedia.org/wiki/Skewness

Curtosis –

Ver: http://en.wikipedia.org/wiki/Kurtosis

59

Curtosis y coeficiente de asimetría en MS EXCEL

Curtosis y coeficiente de asimetría en MATLAB

MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular estos parámetros

Histogramas Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables.

Datos Suponga que los siguientes números representan el consumo en m3 de agua por día de una población (observe que están ordenados ascendentemente). Elabore el histograma de dichos datos. 2298 3205 3325 3609 3918 3992 4057

4188 4289 4363 4377 4448 4450 4524

4536 4565 4591 4657 4666 4670 4724

4737 4763 4784 4816 4817 4852 4887

4905 4908 4923 4941 4993 4998 5035

5041 5058 5142 5152 5152 5330 5535

1. Determine el rango de los datos ●

Rango es igual al dato mayor menos el dato menor. Rango = 5535 - 2298 = 3237

2298 3205 3325 3609 3918 3992 4057

4188 4289 4363 4377 4448 4450 4524

4536 4565 4591 4657 4666 4670 4724

4737 4763 4784 4816 4817 4852 4887

4905 4908 4923 4941 4993 4998 5035

5041 5058 5142 5152 5152 5330 5535

2. Obtener el número de clases Una clase (bin) es ...

Supongamos por el momento que Entonces Formaremos por lo tanto 7 clases/intervalos

3. Establecer la longitud de las clases/intervalos (bins)

Establecer la longitud de clase: es igual al rango dividido entre el número de clases Lóngitud de la clase = 3237/7 = 462.4

4. Construir los intervalos de las clases Los intervalos resultan de dividir el rango de los datos en relación al resultado del paso 3 en intervalos iguales.

4. Graficar el histograma de conteo

4. Graficar el histograma de conteo

Consultar la ayuda de la función FRECUENCIA de MS EXCEL para entender su uso

Tenga en cuenta... ● ●



La normalización del histograma La frecuencia relativa refleja la proporción de la observaciones contenidas en una clase Cuando los intervalos de clase son idénticos, el área de los rectángulos representa las frecuencias. Sin embargo, cuando la longitud de los intervalos es diferente, las áreas no representan la frecuencia. Por lo tanto se debe ajustar la altura de los rectángulos para que sus áreas sean proporcionales a la frecuencia.

5. Graficar el histograma de frecuencias relativas

El eje Y tiene unidades de frecuencia por m3/día

Histograma de frecuencia de clase con MATLAB

Histograma de frecuencia de clase con MATLAB El eje Y tiene unidades de frecuencia por m3/día

Histogramas con MS EXCEL MS EXCEL 2003: http://www.bloggpro.com/creating-histograms-in-excel/ MS EXCEL 2007: http://www.bloggpro.com/creating-a-simple-histogram-in-excel-2007/ or just GOOGLE IT! http://www.google.com/search?q=histograms+excel+2007

6. Graficar la distribución de frecuencia relativa acumulada ●

Se obtiene graficando en el eje vertical la frecuencia relativa acumulada de una clase contra el límite inferior de la siguiente clase sobre el eje horizontal y uniendo todos los puntos consecutivos.

El eje Y tiene unidades de frecuencia únicamente

Percentil 80

Número de clases ●



No existe una forma única de escoger el número de intervalos. Esto por lo tanto se deja a criterio del analista. Sin embargo, existen algunas recomendaciones (las cuales generalmente hacen suposiciones sobre la forma de los datos): El número de clases depende del número total de observaciones

Número de intervalos (k) ●

k – número de intervalos (clases)



h – ancho del intervalo



Mi recomendación:







Fórmula de Sturges (1926): su rendimiento es pobre si n

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.