En este caso la variable X es el n de hijos, es por tanto una variable discreta. Veamos todas las frecuencias

ESTADÍSTICA DESCRIPTIVA Concepto v finalidad En los municipios existen unos censos de los ciudadanos con datos de su edad, sexo, residencia, trabajo,

3 downloads 45 Views 386KB Size

Recommend Stories


El verbo es una categoría gramatical variable. El verbo es una categoría gramatical variable
Verbo: Definición El verbo es una categoría gramatical variable persona: 1ª, 2ª, 3ª número: singular, plural tiempo: presente, pasado, futuro modo: i

DISTRIBUCIONES VARIABLE ALEATORIA DISCRETA
Gestión Aeronáutica: Estadística Teórica Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuent

Modelos con Variable Dependiente Discreta
Modelos con Variable Dependiente Discreta Econometría II Alarcón Castillo Henry Champa Del Valle Katherine Mayhuasca Gutierrez Victor Bautista Ramos

Expresividad es sumamente variable. Es una patología genética autosómica dominante
14/03/2014 DISTROFIA MIOTONICA Trastorno multisistémico (músculo, cerebro, corazón, ojos, tracto gastrointestinal, glándulas endócrinas y esqueleto)

Tema 2. DESCRIPCIÓN DE UNA VARIABLE: TABLAS DE FRECUENCIAS
Tema 2. DESCRIPCIÓN DE UNA VARIABLE: TABLAS DE FRECUENCIAS CONTENIDO: 1. Descripción de variables cualitativas 9 Frecuencia absoluta y relativa 9 Diag

Distribución muestral del estadístico F -f- cuando la variable dependiente es discreta y rectangular
Metodología de las Ciencias del Comportamiento 2002. Volumen Especial ISSN 1575-9105 ©2002 AEMCCO Distribución muestral del estadístico F -f- cuando

Story Transcript

ESTADÍSTICA DESCRIPTIVA Concepto v finalidad En los municipios existen unos censos de los ciudadanos con datos de su edad, sexo, residencia, trabajo, etc. Pero si se desea conocer, para lanzar un producto nuevo, el gusto de los consumidores, esto no se puede obtener del censo, hay que realizar una encuesta a los ciudadanos. La Estadística se ocupa de una vez recogidos los datos, ordenarlos y clasificarlos para extraer conclusiones. E inclusa tratar de encontrar las leyes que explique un determinado comportamiento de un fenómeno. Podemos distinguir dos aspectos de la Estadística: - Estadística Descriptiva: estudia las técnicas de ordenación, clasificación, recuento y presentación de datos en tablas y gráficas, y de obtener valores que resuman la información. - Estadística Inferencial: estudia las técnicas de obtención de conclusiones a partir de los datos de una muestra. Elementos de la Estadística Al realizar un estudio estadístico tenemos que conocer: - Población : Es el conjunto de elementos que poseen una determinada característica que deseamos medir o estudiar. - Muestra : Muchas veces nos será imposible estudiar a todos !os individuos de una población. Lo que hacemos entonces, es seleccionar un subconjunto de esa población. A este subconjunto es a lo que llamamos muestra. Este subconjunto debe elegirse al azar, es decir, aleatoriamente. Al nº de elementos de una muestra se le denomina tamaño de la muestra. - Carácter : Es la característica que se va a estudiar en la población. Según como sea esa característica, se pueden dividir en: - Cuantitativos: son aquellas que se pueden cuantificar, como la edad, peso, n° de hijos, etc.. Estas a su vez se dividen en dos: - Cualitativos: cuando se refiere a atributos(algo no medible), lugar de nacimiento, color pelo, año de edición de un obro, etc.. - Modalidad : cada una de las diferentes situaciones posibles de un carácter. Si el carácter es carrera que vais a estudiar tenemos, derecho, económicas, informática, matemáticas, ingeniería,… - Variable estadística: es el conjunto de valores que toma un carácter estadístico. Las variables estadísticas suelen ser: Discretas: cuando sólo toma valores enteros, o un n° finito de valores reales. Continuas: cuando pueden tomar cualquier valor real dentro de un intervalo Recogida de datos Veamos con un ejemplo qué significa seleccionar la muestra aleatoriamente. Supongamos que en una envasadora de botellas queremos comprobar que el proceso es correcto, para ello vamos a escoger una muestra. Si diariamente se envasan 300 cajas con 24 botellas cada caja y nosotros queremos escoger una muestra de 50 botellas, no vamos a tomar ni las primeras 50 botellas, ni botellas de las 10 primeras cajas.

Lo que se puede hacer es un sorteo, de entre todas las cajas se eligen 50, y de cada caja se elige una botella, por ejemplo, la botella nº 13 de cada caja escogida. Recuento y clasificación Supongamos que tenernos ya elegida una muestra de tamaño N y tenemos los datos de la variable que vamos a estudiar. Si N no es muy grande. a simple vista podríamos sacar conclusiones, pero si es muy grande, así no podemos observar nada. Lo que hacemos es ordenar los valores obtenidos según algún criterio, aunque nos aparezcan repetidos. Si a la variable le llamamos X, cada valor observado se denota por xi. Surgen los siguientes conceptos: Frecuencia absoluta del valor xi de una variable X, es el n° de veces que dicho valor aparece en la muestra. Se representa por fi y se tiene que verificar que: f 1 f 2 .....=N Frecuencia relativa del valor xi al cociente fr i =

fi

N Frecuencia absoluta acumulada del valor xi, al n° de veces que se han presentado valores inferiores o iguales a xi; es la suma de todas las frecuencias absolutas inferiores o iguales y se denota por Fi. Frecuencia relativa acumulada del valor xi a la suma de todas las frecuencias relativas de todos los valores inferiores o iguales a xi. Se representa por Fri. Además como vimos que f 1 f 2 .....=N  fr 1 fr 2 ......=

f1 N



f2 N

......=

 fr 1 fr 2 ..... N

=1

Ejemplo: En una encuesta hecha a 115 matrimonios sobre el n° de hijos se han obtenido los siguientes resultados: N° hijos O 1 2 3 4 5 6 Matrimonios 4 19 43 33 12 3 1 En este caso la variable X es el n° de hijos, es por tanto una variable discreta. Veamos todas las frecuencias. Xi 0 1 2 3

fi 4 19 43 33

fri 0.035 0.165 0.374 0.287

% 3.5 16.5 37.4 28.7

Fi 4 23 66 99

Fri 0.035 0.199 0.574 0.861

4 5 6

12 3 1

0.104 0.026 0.009

10.4 2.6 0.9

111 114 115

0.965 0.991 1

En este ejemplo hemos estudiado una variable discreta, sólo toma un número finito de valores. Veamos que ocurre si la variable es continua, es decir, tomo muchos valores y no son enteros. Ejemplo: Los contenidos en cc de las 50 botellas que hemos elegidos de la envasadora son: 197, 187, 202, ... Los datos, como son muchos y  muy distintos los agrupamos en intervalos. Miramos los datos, el mayor es 213 y el menor 182, podemos considerar los datos de 180 a 215 y tomamos intervalos de amplitud 5. Clase

xi 182.5 187.5 192.5 197.5 202.5 207.5 212.5

[180, 185) [185, 190) [190, 195) [195, 200) [200, 205) [205, 210) [210, 215)

fi 3 6 5 16 15 3 2

fri 0.06 0.12 0.1 0.32 0.3 0.06 0.04

Todos los valores que están en un intervalo o clase se identifican con el valor central de éste, que se denomina marca de clase.

Representación gráfica Una vez clasificados los datos, para verlos mejor, se usa la representación gráfica, que es más impactante y puede llegar a ser más comprensible Para el caso de variable discreta tenemos las siguientes representaciones: Diagrama de barras: consideramos unos ejes de coordenadas, donde en un eje se ponen los valore de la variable y en otro la frecuencia absoluta. En cada valor de la variable levantamos un segmento o barra de longitud igual a la frecuencia absoluta. Título principal 45 40 35 30 25 20 15 10 5 0

0

1

2

3

4

5

6

Véase la figura adjunta que corresponde al ejemplo anterior, donde se observa con más facilidad que valor de la variable predomina. Polígono de frecuencias: es el que se obtiene al unir los extremos del diagrama de Título principal

45 40 35 30 25 20 15 10 5 0 0

1

2

3

4

5

6

barras. Lo podemos observar en la figura que sale a continuación: Igualmente se pueden hacer los diagramas de barras con las frecuencias acumuladas y los polígonos de frecuencias acumuladas. Histogramas: son las representaciones que se hacen cuando la variable es continua. En cada intervalo o clase se levanta un rectángulo de área proporcional a la frecuencia absoluta. Cuando los intervalos son de la misma longitud la altura del triángulo se toma como la frecuencia absoluta, pero cuando son de amplitud distinta, se toma la frecuencia absoluta dividida entre la amplitud de cada intervalo. Diagrama de sectores: es la representación que se usa cuando la variable es cualitativa, por ejemplo color del coche, aunque también se puede usar en variable discreta. Para este tipo de variable existe otro tipo de representación que se llama Pictograma. Título principal

0 1 2 3 4 5 6

Parámetros de centralización Las representaciones que hemos visto, producen un impacto visual, pero nos puede interesar muchas veces dar la información en valores. Existen los llamados parámetros estadísticos, que se dividen en 3 tipos: de centralización, posición  y de dispersión. Nos ocupamos ahora de los primeros, que son ciertos valores numéricos que tienden a situarse en general hacia el centro del conjunto de datos ordenados.

- Media: es la medía aritmética. De un conjunto de N observaciones de una variable cuantitativa X, es el valor que se obtiene al dividir la suma de todos los valores de la variable por el n° total N. Se denota como x . Si x 1 , x 2 , x 3,  , x n son los valores de la variable tenemos: x 1⋯x 1x 2 ⋯x 2 ⋯x n , como cada valor lo estamos sumando una serie de x= N veces, que coincide con la frecuencia absoluta, podemos multiplicar cada valor por su frecuencia: n

x=

x 1⋅f 1x 2⋅f 2 ⋯x n⋅f n N

∑ x i⋅f i =

i=1

N

En el caso en que la variable sea continua, como no tenemos los valores concretos de la variable, tomamos como x i las marcas de clase. El cálculo es el mismo. Propiedad: Si tenemos otra variable Y que verifica, Y=aX+b, entonces para la media se verifica la misma relación: y=a xb - .Moda: es el valor más frecuente de la variable estadística, el que más se repite. Si la variable es discreta, la moda corresponde al valor de mayor frecuencia absoluta. Puede ocurrir que este valor sea único, en ese caso la variable se llama unimodal, o puede ser que halla más de uno, se llama entonces bimodal si hay dos o multimodal si hay más. Si la variable es continua, sólo podemos definir aquel intervalo que tiene mayor frecuencia, que se llama intervalo modal o dar cual es la clase modal. - .Mediana: es el valor de la variable que divide a la muestra en dos partes iguales, supuesta la muestra ordenada. Veamos el cálculo para cada uno de los casos. V. Discreta: Encontramos el valor central de la muestra, dividiendo el tamaño N de ésta en dos; .Aquí tenemos que distinguir dos casos, que el tamaño sea par o 2 sea impar: - N par: Tomamos el valor x i cuya frecuencia absoluta acumulada N corresponde a y el valor que ocupa el siguiente lugar y hacemos la 2 media de los dos. - N impar: tomamos como mediana el valor que tiene por frecuencia absoluta N 1 acumulada 2 V. continua: Al igual que con la moda, aquí determinamos un intervalo de clase que ocupe el lugar central de la muestra, al que denominamos intervalo mediano, y a partir de él, mediante una fórmula, determinamos un valor exacto para la mediana. N −F i−1 2 , donde tenemos: M e =L i c⋅ fi

L i : es el límite inferior del intervalo c: es la amplitud del intervalo de clase N : el lugar que ocupa la mediana en la muestra 2 F i−1 : la frecuencia absoluta acumulada del intervalo anterior f i : la frecuencia absoluta del intervalo mediano.

Parámetros de posición Hemos visto que la mediana divide a la muestra en dos partes iguales, se sitúa en el centro de ella. Igualmente podemos encontrar valores que se sitúen en otras posiciones determinadas de la muestra. Cuartiles: dividen a la muestra en cuatro partes iguales, y son 3: Q1 , Q 2 yQ 3 , donde Q 2 =M e . Qué significan, por debajo del primer cuartil está el 25% de la muestra, del segundo el 50% y del tercero el 75%. Deciles: la dividen en 10 partes iguales, D1 , D 2 ,.... D10 Percentiles: la dividen en 100 partes, P 1 , P 2 ,, P 100 El cálculo de estos parámetros es similar al cálculo de la mediana, lo único que hay que hacer es ir mirando la posición que tiene que ocupar cada uno, y eso es lo que varía en la fórmula de cada uno respecto de la de la mediana. Parámetros de dispersión Ocurre muchas veces que dos muestras distintas de una misma variable, tienen los mismos parámetros de centralización, pero una está más repartida a lo largo de los posibles valores que puede tomar la muestra, mientras que la otra se concentra más alrededor de los valores centrales. - Rango: o recorrido, es la diferencia entre el mayor y el menor de los valores observados, R=x n −x 1   Si los valores extremos están muy alejados, lo que se usa es el rango intercuartílico, Q=Q3−Q1 - Desviación media: Si tenemos calculada la media x ,la desviación de un valor x i respecto de la media es la diferencia que hay con la media: x i - x .  La desviación absoluta, es el valor absoluto de las desviaciones: ∣x ­x i∣ Definimos ya la desviación media como la media aritmética de todas las desviaciones absolutas: n

DM=

∑ ∣x i −x∣ i=1

N

-Varianza: un modo natural de medir la dispersión en torno a la media es calcular la n

media de las diferencias.

∑  x i −x ⋅ f i i=1

N Pero hay un inconveniente, que puede haber compensación, al ser unas positivas y otras negativas, con lo cual tomamos esas diferencias al cuadrado y obtenemos:

n

S 2=

2

∑  x i−x  ⋅f i i=1

N - Desviación típica: es la raíz cuadrada de la varianza:

S=



n

2

∑  x i −x  ⋅f i i=1

N

- Coeficiente de variación: para poder comparar la dispersión de dos poblaciones distintas, no nos sirve la desviación típica. Para ello definimos esta nueva medida de dispersión que se llama coeficiente de variación: s CV = x Esta medida no tiene unidades. Ejemplo: Toros de lidia de una ganadería, x 1=510 kg y s1=25 kg Perros de una exposición canina, x 2 =19 kg y s 2 =10 kg La desviación típica de los toros es mayor, pero si miramos el peso medio es una insignificancia. Hacemos entonces el coeficiente de variación: CV1=0.049 CV2=0.526 Luego hay mayor dispersión en los perros.

DISTRIBUCIONES BIDIMENSIONALES Sobre una misma muestra se pueden estudiar 2 o más variables simultáneamente. variando ambas a la vez. Este estudio se realiza para averiguar si existe alguna relación entre las variables estudiadas, es decir, si conociendo una se puede predecir la otra. Como ejemplos podemos considerar: peso y altura de un grupo de personas, grosor y peso de monedas, punto de fusión y punto de ebullición de productos químicos notas de matemáticas y filosofía de un grupo de alumnos. Si notamos que existe una relación entre las dos variables que se miden, intentaremos dar una medida que nos de el grado de relación existente. Además daremos una ecuación matemática que describa con más o menos exactitud la relación. Cuando estamos en estos casos, para representar los datos tenemos dos posibilidades: - Cuando el número de observaciones es pequeño, nos basta con una tabla igual que hemos visto en el tema anterior, donde añadimos una columna más para la otra variable. Por ejemplo, los pesos y alturas de lO alumnos de Bachillerato seleccionados al azar: Peso 76 86 77 86 65 46 46 60 60 60 Altura 191 178 177 167 181 165 1 66 168 174 168 - Pero cuando el número de observaciones es muy grande, no terminaríamos nunca así, con lo cual se toma una tabla de doble entrada, en la que en la casilla de cruce se pone el nª de veces que se repite cada par de valores. Por ejemplo, el n° de hijos e hilas de 100 matrimonios: Hijos 0 1 2 3 4 Hijas 0 10 12 9 6 1 1 9 10 8 2 2 2 6 8 4 2 1 3 2 3 2 1 0 4 0 1 0 1 0 Así, podemos decir que hay 12 matrimonios que tienen un hijo, pero no tienen hijas. La relación que ruede haber entre dos variables es: una total independencia una de la otra, una dependencia funcional, o una relación intermedia que se denomina correlación. - Diagramas de dispersión: El primer paso para ver si hay correlación consiste en representarla gráficamente. Este gráfico recibe el nombre de nube de puntos. Podemos verlo en el ejemplo de los pesos y estaturas:

Peso Altura 250 200 150 Peso Altura 100 50 0 0

20

40

60

80

100

Parámetros estadísticos Lo que pretendemos es obtener una medida numérica que nos de el grado de correlación existente y con ellas intentar dar la mejor relación funcional, ecuación matemática, que se usa para describirla. Las variables las denotamos por X e Y y los valores son los pares  x i , y i  • Medidas marginales: son los parámetros estadísticos de cada una de las componentes por separado. - Media: las medias marginales, x , y son las medias de la primera y segunda coordenada, y  x , y  es el centro de gravedad de la distribución. - Desviación típica: las desviaciones típicas marginales son las desviaciones de cada variable, s x y s y •

Covarianza: es la varianza conjunta de la distribución bidimensional, y se calcula del siguiente modo: n

S xy =

∑  x i −x  yi−y  i=1

n

∑ x i yi i=1

−x y N N Con la covarianza podemos ver ya si la correlación será directa o inversa y además si es un número muy grande, veremos si es fuerte. • Coeficiente de correlación: se denota por r y se calcula del siguiente modo: s xy r= sx sy Tiene las siguientes propiedades: - No tiene dimensión, es decir, no depende de las unidades en las que se expresen las dos variables, si estas cambian, r no cambia. - Es un valor entre 1 y –1. Si se acerca a estos valores la correlación es fuerte. Si está próximo a cero es débil. Si es 1 o –1 entonces es perfecta.



=

Regresión: se llama línea de regresión a la curva que mejor se ajusta a la nube de puntos, es una línea ideal en torno a la cual se distribuyen los puntos de la nube. Nos limitaremos al cálculo de una recta, que recibe el nombre de recta de regresión de Y sobre X, y se calcula del siguiente modo:

y−y=

S xy S 2x

 x−x 

Y la de X sobre Y sería: S xy

 y−y  S 2y La recta de regresión se amolda a la regresión y describe más o menos su tendencia, por ello, se usa para predecir la variable dependiente a partir de la independiente, normalmente x. Al predecir un valor a partir de otro, podemos cometer un error, este será mayor, mientras más nos alejemos de la media y más débil sea la correlación. x−x=

Ejemplo 1: Los pesos y las alturas de 12 alumnos son las siguientes: Peso 70 63 72 60 66 70 74 65 Altura 15 150 180 135 156 168 178 160 5 a) b) c) d)

62 132

67 145

65 139

68 152

Hallar el coeficiente de corre1ación lineal.( x= 66.83 y y= 154.16) Calcular la recta de regresión. Representar el diagrama de dispersión y la recta de regresión. Estimar la altura de un estudiante que pesa 64kg.

Ejemplo 2: Los gastos mensuales (en miles de pesetas) de 50 familias según el número de hijos se expresan en la tabla siguiente: Hijos 0 1 2 3 Gastos 50-80 4 3 1 0 80-100 6 7 8 4 100-150 2 3 3 4 150-300 0 1 1 3 a) Calcula el gasto medio de una familia con 3 hijos y de una familia sin hijos, b) Utiliza la recta de regresión adecuada para calcular el gasto esperado de una familia de 4 hijos. c) Razona la fiabilidad de la predicción anterior .

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.