ESTADISTICA. Prof. Dr. José María Fernández Ponce Dpto. Estadística e Investigación Operativa Universidad de Sevilla

ESTADISTICA Prof. Dr. Jos´e Mar´ıa Fern´andez Ponce Dpto. Estad´ıstica e Investigaci´on Operativa Universidad de Sevilla 2 Pr´ ologo Este libro d

Author: Adolfo San Segundo Peralta

2 downloads 88 Views 335KB Size

Report

DOWNLOAD PDF

Recommend Stories

Prof. Dr. Antonio José Sáez Castillo Departamento de Estadística e Investigación Operativa

Apuntes de M´etodos Estad´ısticos de la Ingenier´ıa Ingenier´ıa T´ecnica Industrial Mec´anica y Qu´ımica Industrial Escuela Polit´ecnica Superior de L

Prof. Dr. Paul Bustamante

UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE PONCE DEPARTAMENTO DE EDUCACIÓN Y CIENCIAS SOCIALES PROF. DR. JOAQUÍN VELÁZQUEZ ALVAREZ

UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE PONCE DEPARTAMENTO DE EDUCACIÓN Y CIENCIAS SOCIALES PROF. DR. JOAQUÍN VELÁZQUEZ ALVAREZ GEHP 3000

Prof. Dr. Paul Bustamante

Prof. Dr. Julio Ceitlin

UNIVERSIDAD DE SEVILLA 1 UNIVERSIDAD DE SEVILLA

/UNIVERSIDAD DE SEVILLA UNIVERSIDAD DE SEVILLA 1 /UNIVERSIDAD DE SEVILLA FACULTAD DE MEDICINA DEPARTAMENTO DE MEDICINA ESTUDIO DE PREVALENCIA, I

Prof. Dr. Hugo Roberto Mansueti

Prof. Dr. EMILIANO J. BUIS

Story Transcript

ESTADISTICA

Prof. Dr. Jos´e Mar´ıa Fern´andez Ponce Dpto. Estad´ıstica e Investigaci´on Operativa Universidad de Sevilla

2

Pr´ ologo Este libro de apuntes ha sido escrito con el objetivo de servir de ayuda a los estudiantes de la asignatura de Estad´ıstica en Ciencias de la Actividad F´ısica y del Deporte de la Universidad de Sevilla. Por tanto, no debe entenderse como un libro de Estad´ıstica, ya que debido a la limitaci´on de tiempo y espacio se ha tenido que resumir en exceso los conceptos evitando al m´aximo la rigurosidad matem´atica que ello conlleva. Lo u ´nico que se ha pretendido es hacer pr´oximo el lenguaje matem´atico y estad´ıstico a un alumnado que necesita de estas herramientas para una mejor comprensi´on de su campo cient´ıfico. Cualquier sugerencia de mejora y correcci´on de errores para usos posteriores ser´an bien recibida.

El autor.

i

ii

´Indice general 1. Introducci´ on al R 1.1. ¿Qu´e es la programaci´on Estad´ıstica? 1.2. El paquete R . . . . . . . . . . . . . . 1.3. Instalaci´on del R . . . . . . . . . . . . 1.4. Introducci´on al R . . . . . . . . . . . . 1.4.1. Entrar y salir del R . . . . . . 1.4.2. El ´area de trabajo. . . . . . . . 1.4.3. Paquetes . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

2. Tratamiento de Datos 2.1. ¿Qu´e es un conjunto de Datos? . . . . . . . . . . 2.1.1. ¿Qu´e es la estad´ıstica? . . . . . . . . . . . 2.1.2. Poblaci´on y Muestra . . . . . . . . . . . . 2.1.3. Los Datos . . . . . . . . . . . . . . . . . . 2.2. Los datos en R . . . . . . . . . . . . . . . . . . . 2.2.1. Asignaciones . . . . . . . . . . . . . . . . 2.2.2. El comando c() para meter datos. . . . . 2.2.3. Uso de funciones sobre un vector de datos. 2.2.4. Factores. . . . . . . . . . . . . . . . . . . 2.2.5. Listas. . . . . . . . . . . . . . . . . . . . . 2.2.6. Acceso a los datos mediante sub´ındices. . . 2.2.7. Selecci´on condicionada. . . . . . . . . . . 2.2.8. Ordenaci´on. . . . . . . . . . . . . . . . . . 2.2.9. Leer datos de otras fuentes. . . . . . . . . 2.2.10. Recodificar variables. . . . . . . . . . . . . iii

. . . . . . .

. . . . . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . . . . .

. . . . . . .

1 1 2 2 3 3 3 4

. . . . . . . . . . . . . . .

7 7 7 8 8 9 9 9 10 11 12 12 13 13 14 15

´INDICE GENERAL

iv 3. Estad´ıstica Descriptiva. 3.1. Resumen de la informaci´on. . . . . 3.2. Resumen de datos categ´oricos. . . 3.2.1. Tablas de frecuencias. . . . 3.2.2. Diagrama de barras. . . . . 3.2.3. Diagrama de Sectores. . . . 3.3. Resumen de datos num´ericos. . . . 3.3.1. Medidas estad´ısticas. . . . . 3.3.2. Gr´aficos. . . . . . . . . . . 3.4. Resumen de Datos seg´ un el grupo. 3.4.1. Medidas Estad´ısticas. . . . 3.4.2. Gr´aficos. . . . . . . . . . . 4. Datos Bivariantes. 4.1. Datos Categ´oricos Bivariantes 4.1.1. Tablas. . . . . . . . . 4.1.2. Gr´aficos . . . . . . . . 4.2. Datos num´ericos. . . . . . . . 4.2.1. Gr´aficos. . . . . . . . 4.2.2. Diagrama de Puntos.

. . . . . .

. . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

. . . . . .

. . . . . . . . . . .

19 19 19 20 20 20 21 21 23 24 24 24

. . . . . .

31 31 31 32 33 33 33

5. Probabilidades. 5.1. El concepto de azar. . . . . . . . . . . . . . . . . . . . . . 5.2. El concepto de Probabilidad. Axiom´atica de Kolmogorov. 5.3. El concepto de variable aleatoria. . . . . . . . . . . . . . . 5.4. Variables Aleatorias Discretas. . . . . . . . . . . . . . . . . 5.4.1. Modelo Bernoulli . . . . . . . . . . . . . . . . . . . 5.4.2. Modelo Binomial. . . . . . . . . . . . . . . . . . . 5.4.3. Modelo de Poisson . . . . . . . . . . . . . . . . . . 5.5. Variables Aleatorias Absolutamente Continuas. . . . . . . 5.5.1. La distribuci´on Normal. . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

37 37 38 39 41 41 41 42 43 43

6. Introducci´ on a la Inferencia Estad´ıstica. 6.1. Planteamiento. . . . . . . . . . . . . . . . . . . . . 6.2. Concepto de Muestra Aleatoria. . . . . . . . . . . . 6.3. Estimadores . . . . . . . . . . . . . . . . . . . . . . 6.4. Intervalos de confianza para medias y proporciones. 6.4.1. Intervalo para la media de una normal. . .

. . . . .

. . . . .

49 49 50 51 52 52

. . . . .

. . . . .

. . . . .

. . . . .

´INDICE GENERAL

v

6.4.2. Intervalo para la media de una no normal. . . . . . . . 53 6.4.3. Intervalo para la proporci´on. . . . . . . . . . . . . . . 54 6.5. Intervalo de confianza para la varianza. . . . . . . . . . . . . . 55 7. Introducci´ on a los contrastes de hip´ otesis. 7.1. Introducci´on a los contrastes de hip´otesis. . 7.1.1. Idea General. . . . . . . . . . . . . . 7.1.2. Fases de un Test Estad´ıstico. . . . . 7.1.3. Ejemplo. . . . . . . . . . . . . . . . 7.2. Concepto de Test. . . . . . . . . . . . . . . . 7.2.1. Soluci´on Intuitiva. . . . . . . . . . . 7.2.2. Soluci´on. . . . . . . . . . . . . . . . 7.3. Errores Aleatorios. . . . . . . . . . . . . . . 7.4. El concepto de p-value . . . . . . . . . . . . 7.5. Test no param´etricos. . . . . . . . . . . . . . 7.5.1. Contraste de normalidad . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

59 59 59 59 60 60 60 60 61 62 62 62

vi

´INDICE GENERAL

Cap´ıtulo 1 Introducci´ on al 1.1.

R

¿Qu´ e es la programaci´ on Estad´ıstica?

Se puede decir que la Estad´ıstica es la ciencia que trata de resumir, representar y extraer conclusiones fiables de un conjunto de datos para extrapolarlos a una poblaci´on. Para realizar estas operaciones es necesario hoy en d´ıa la ayuda de un ordenador y de un programa inform´atico realmente potente debido a la gran cantidad de datos que podemos poseer de un experimento. La programaci´on inform´atica conlleva el control del ordenador, d´andole o´rdenes para que sepa cu´ales son los c´alculos que tiene que hacer, que tipo de gr´aficos, etc. La programaci´on Estad´ıstica es un poco m´as dif´ıcil de explicar. Se podr´ıa decir que es el tipo de programaci´on que realizan los estad´ısticos aunque los estad´ısticos hacen cualquier tipo de programaci´on. Otra podr´ıa ser que es el tipo de programaci´on que se hace cuando se trabaja con estad´ısticas aunque de nuevo las estad´ısticas implican una amplia variedad de computaciones. La programaci´on estad´ıstica implica realizar c´alculos con vistas a presentar an´alisis estad´ısticos. Por ejemplo, un conjunto de datos tiene que ser resumido y representado. Los modelos que se usen se deben ajustar apropiadamente a los datos para as´ı representarlos mejor. Estos objetivos se pueden hacer con multitud de programas inform´aticos: Excel, SAS, SPSS, Statgraphics, etc. Debido a que los gr´aficos juegan un papel importante en la estad´ıstica, ´este ser´a uno de los aspectos a tratar en la programaci´on estad´ıstica. Tambi´en, una parte importante es la simulaci´on estoc´astica. Los ordenadores digitales 1

´ AL CAP´ITULO 1. INTRODUCCION

2

R

son una reproducci´on muy buena de la aleatoriedad del mundo real. En la simulaci´on estoc´astica, se programa un ordenador para que se comporte como si reprodujese de manera aleatoria los resultados reales incluso si sabemos muy poco de ellos, con vistas a que se puedan predecir lo mejor posible.

1.2.

El paquete

R

En este curso vamos a usar el R, el cual es un paquete de libre distribuci´on de programaci´on estad´ıstica. Lo m´as curioso del R es que los usuarios pueden ver como est´a escrito el lenguaje fuente y mejorarlo. R est´a basado en el lenguaje de computaci´on S, desarrollado por John Chambers y colaboradores en los Laboratorios Bell en 1976. En 1993, Robert Gentlemand and Ross Ihaka de la Universidad de Auckland quisieron realizar experimentos con el lenguaje y desarrollaron una implementaci´on que denominaron R. Lo hicieron de fuente libre en 1995 y cientos de personas lo usan y mejoran en el mundo.

1.3.

Instalaci´ on del

R

El R se puede descargar de la direcci´on: http:cran.r-project.org. La mayor´ıa de los usuarios deben descarg´arselo e instalarlo en versi´on binaria. Esta es una versi´on que ha sido traducida a lenguaje m´aquina para ejecutarse en un tipo particular de ordenador con un sistema operativo particular. R est´a dise˜ nado de manera muy manejable y portable: puede usarse en Windows, Linux, Mac, etc. La instalaci´on en Windows es inmediata. Se descarga el programa de instalaci´on, que tendr´a un nombre paracido a R-5.2.1.-win32.exe. Cliqueando sobre este fichero la instalaci´on empieza de manera autom´atica. Aunque es posible adaptarla al usuario, esta opci´on no se aconseja al principio. Una de las caracter´ısticas por defecto de la instalaci´on es que crea un icono de ejecuci´on en el escritorio del ordenador. Una vez que se ha instalado el R ya podemos empezar a realizar programaci´on estad´ıstica.

´ AL 1.4. INTRODUCCION

R

1.4.

Introducci´ on al

1.4.1.

Entrar y salir del

3

R R

En Windows, la instalaci´on del R ha creado un item de men´ u de comienzo y un icono para el R en el escritorio. Se cliquea dos veces en el icono del R para empezar el programa. Lo primero que ocurre es que el R abrir´a una ventana en el que podremos escribir los diferentes comandos. El signo mayor que (>) es el s´ımbolo de entrada de comandos. Cuando aparece, ya se puede empezar a escribir comandos. Por ejemplo, R se puede usar como una calculadora. Se puede escribir una operaci´on aritm´etica simple despu´es del s´ımbolo: >5 + 49 despu´es se presiona la tecla entrada y aparece el resultado 54 con un prefijo por el n´ umero 1 entre corchetes [1]. El [1] indica que es el primer resultado del comando. Otros comandos tienen por salida m´ ultiples valores y cada l´ınea se etiqueta con un n´ umero entre corchetes que indica el n´ umero de datos que hay en esa l´ınea. Cualquier c´alculo que se pueda hacer en una calculadora normal se puede realizar en R. Cuando R encuentra un comando que no entiende, responde con un mensaje de error. Por ejemplo: >sqrt 2 Error: syntax error Para salir de una sesi´on en R, se escribe >q() Si entonces pulsa la tecla Enter el programa te preguntar´a si quieres o no guardar la imagen, o cancelar la acci´on. Si se cancela entonces puedes volver a la sesi´on de R en la que se estaba trabajando.

1.4.2.

El ´ area de trabajo.

Todas las variables que se crean en R se guardan en un a´rea de trabajo com´ un. Para ver cu´ales son las variables que hemos generado y que est´an definidas en el a´rea de trabajo basta con usar la funci´on ls(). Si en alg´ un momento necesitas eliminar algunas variables se hace usando el comando remove(x). Tambi´en es posible guardar el a´rea de trabajo en un fichero en cualquier instante mediante el comando save.image() y se almacenar´a en un fichero denominado .RData en el directorio de trabajo. La versi´on de

´ AL CAP´ITULO 1. INTRODUCCION

4

R

Windows tambi´en hace esto en el men´ u de ficheros. Es importante aclarar que el ´area de trabajo consiste s´olamente en objetos de R , ninguna de las salidas que se haya generado durante la sesi´on se almacenar´an. Si se quiere guardar una salida hay que usar ”Save to file”del men´ u de ficheros o usar el mecanismo estandard de copiar-pegar.

1.4.3.

Paquetes

La instalaci´on del R contiene una librer´ıa de paquetes. Algunos de estos paquetes son parte de la instalaci´on b´asica. Otros se pueden descargar de la p´agina principal, la cual contiene en la actualidad sobre unos cien paquetes distintos para varios objetivos. Cualquier usuario puede crear el suyo propio y ponerlo a disposici´on de la comunidad de usuarios de R. Un paquete contiene funciones escritas en R, son c´odigos compilados escritas en C o en Fortran la mayor´ıa de ellos, as´ı como conjunto de datos. En general se implementa una funcionalidad que la mayor´ıa de los usuarios probablemente no necesiten tenerlos cargados todos al mismo tiempo, esto depender´a de los c´alculos que necesite. Un paquete se carga en R usando el comando library, por ejemplo > library(Rcmdr) ¿Cu´al es la funcionalidad de este paquete? Pues nos permite trabajar en R pero mediante ventanas evitando usar los comandos. Tiene la ventaja que es mucho m´as c´omodo para el usuario pero tiene la desventaja que no se pueden usar algunos paquetes estad´ısticos. Los paquetes que se cargan no se consideran parte del a´rea de trabajo. Si se termina una sesi´on de R y comienza una nueva con el a´rea de trabajo guardado, entonces habr´a que cargar de nuevo los paquetes. Por la misma raz´on, rara vez es necesario eliminar un paquete que ya se haya cargado, pero se puede hacer si lo deseas con el comando > detach("package:Rcmdr") De igual forma, para acceder a variables de un conjunto de datos se puede hacer de manera sencilla. Primero, se une el conjunto de datos >attach(x) y despu´es ya se usan la variables como siempre.

´ AL 1.4. INTRODUCCION

R

5

RESUMEN DE COMANDOS Comando http:cran.r-project.org. >5 + 49 >q() > library(Rcmdr) > detach("package:Rcmdr") > attach(x) > save.image()

Interpretaci´on P´agina donde descargar el R. Operaciones aritm´eticas Comando para salir del R. Comando para cargar el paquete Rcmdr Comando para eliminar un paquete Comando para abrir un conjunto de datos Comando para guardar a´rea de trabajo

6

´ AL CAP´ITULO 1. INTRODUCCION

R

Cap´ıtulo 2 Tratamiento de Datos 2.1.

¿Qu´ e es un conjunto de Datos?

2.1.1.

¿Qu´ e es la estad´ıstica?

Cuando alguien lee las noticias en el peri´odico o las ve en la televisi´on, nos vemos invadidos de datos y de sus interpretaciones. La mayor´ıa de ellos se presentan en forma resumida o mediante gr´aficos. La Estad´ıstica nos permite resumir los datos de una manera sencilla mediante recuentos, porcentajes, medias, etc. Uno de los objetivos del curso es aprender a resumir, representar y realizar inferencias a partir de una base de datos. En definitiva Definici´ on 1 La Estad´ıstica es el conjunto de m´etodos necesarios para recoger, clasificar, representar y resumir datos, as´ı como para hacer inferencias (extraer consecuencias) cient´ıficas a partir de ellos. Por tanto, podemos hacer la siguiente clasificaci´on: 1. Estad´ıstica Descriptiva: recogida, clasificaci´on, representaci´on y resumen de datos. 2. Inferencia Estad´ıstica: Teor´ıa de la Estimaci´on: ¿Cu´al es el tiempo medio que tarda un equipo de f´ utbol en meter un gol? Teor´ıa de Contrastes de hip´otesis: ¿El entrenamiento de tipo A mejora la resistencia aer´obica con respecto al entrenamiento de tipo B? 7

CAP´ITULO 2. TRATAMIENTO DE DATOS

8

2.1.2.

Poblaci´ on y Muestra

Estamos interesados en investigar que ocurre en una poblaci´on acerca de algunas caracter´ısticas. Por ejemplo, ¿son los atletas de raza negra m´as veloces que los atletas de raza blanca? Al no poder observar a todos los individuos de ambas poblaciones es necesario observar s´olamente a un subconjunto de ellos, es decir obtener un conjunto de datos representativos, al que denominaremos Muestra. B´asicamente, podemos decir que un conjunto de datos es una colecci´on ordenada de observaciones emp´ıricas. Para poder tratar la informaci´on contenida en este conjunto de datos es preciso recurrir a las t´ecnicas de la estad´ıstica descriptiva. La extensi´on de lo observado a la poblaci´on vendr´a mediante la Inferencia Estad´ıstica.

2.1.3.

Los Datos

No todas las observaciones emp´ıricas poseen las mismas caracter´ısticas cuantitativas y/o cualitativas. Por ello se requiere de la siguiente clasificaci´on. Se define modalidad a cada una de las maneras en las que se presenta un car´acter. Por ejemplo, el car´acter SEXO tiene dos modalidades: Var´on y Hembra. Tipos de datos. • Cualitativos. Aquellos que se refieren a una cualidad, no son expresables de manera rigurosa por un n´ umero. ◦ Nominales. Las modalidades no son susceptibles de estar ordenadas (sexo, grupo sangu´ıneo, etc). Si s´olo hay dos modalidades se dice que son datos dicot´omicos o binarios. ◦ Ordinales. Cuando las modalidades son susceptibles de estar ordenadas (nivel de satisfacci´on,...). • Cuantitativos. Aquellos que necesariamente requieren de un n´ umero para ser expresados. ◦ Discretos. Aquellos datos que s´olo pueden tomar valores num´ericos aislados (n´ umero de goles conseguidos,...recuentos en general). ◦ Continuos. Pueden tomar cualquier valor dentro de un intervalo (peso, altura, V O2 ,... medidas en general).

2.2. LOS DATOS EN

R

2.2.

Los datos en

2.2.1.

Asignaciones

9

R

Muchas veces es conveniente darle un nombre a un valor num´erico para que se pueda usar m´as adelante. Hacer esta operaci´on se llama Asignaci´ on. Una asignaci´on es directa. Se pone el nombre en la parte izquierda de una igualdad y el valor en la derecha. Una asignaci´on no produce ning´ un valor de salida. >x = 2 >x + 3 [1] 5 El procedimiento de asignaci´on puede crear confusi´on si queremos entender la sintaxis como una ecuaci´on matem´atica. Es decir, si escribimos >x = 2x +1 como ecuaci´on tendr´ıa una soluci´on de x=-1. Pero el R no lo entiende as´ı. Sino que si previamente x=2 despu´es de ejecutar este comando se tendr´ıa que x=5. Este tipo de confusi´on se minimiza usando una asignaci´on alternativa mediante el comando personas [1] 74, 122, 235, 111 ,292, 111, 211 ,133 ,156 ,79 Tipo de los vectores de datos. Una restricci´on sobre los vectores de datos es que todos los valores deben ser del mismo tipo. Este puede ser num´erico, como ocurre con la variable personas o puede ser una cadena de caracteres como por ejemplo >sexo = c("Var´ on", ’Mujer’) Si mezclamos los tipos dentro de un vector de datos, por defecto el R entiende que son cadena de caracteres lo cual provoca errores en las operaciones aritm´eticas.

2.2.3.

Uso de funciones sobre un vector de datos.

Una vez que hemos almacenado sobre una variable un vector de datos podemos usar funciones sobre ella. La mayor´ıa de las funciones en R trabajan de manera vectorial. Por ejemplo, la funci´on sum() suma todos los valores de un vector de datos, y la funci´on length proporciona el n´ umero de valores en el vector. >sum(personas) [1] 1524 >length(personas) [1] 10 Otras funciones importantes son: sort() min() max() range() cumsum()

Orden creciente M´ınimo de los valores M´aximo de los valores M´ınimo y m´aximo de los valores Sumas acumuladas

Tambi´en es posible realizar operaciones aritm´eticas entre vectores, por ejemplo >pshelp("mean") encontrar´a ayuda sobre la funci´on mean(). Esta b´ usqueda funciona bien si recordamos el nombre de la funci´on en cuesti´on en el lenguaje R. Si no fuera as´ı podemos usar la siguiente ayuda >help.search("mean") Editar un conjunto de datos. La funci´on en R que nos permite editar un vector de datos es >data.entry(personas)

2.2.4.

Factores.

Es muy com´ un en un conjunto de datos tener variables cualitativas, indicando alguna subdivisi´on de los datos tal como la clase social, un primer diagn´ostico f´ısico, etc. Usualmente, estas entradas usan un c´odigo num´erico. Tales variables se deben especificar en R como factores. Esta es una estructura (que entre otras cosas) hace posible asignar nombres con significado a las categor´ıas. Existen an´alisis en R donde es importante distinguir entre c´odigos categ´oricos y variables cuyos valores tienen un significado num´erico. La terminolog´ıa es que un factor tiene niveles. Un factor que conste de cuatro niveles consiste en dos puntos b´asicos: a) un vector de enteros entre el 1 y el 4 y b) un vector de caracteres de longitud 4 que contiene cadenas describiendo que cuatro niveles son. Veamos el siguiente ejemplo: >dolorfdolor levels(fdolor) tiempos tiempos personas[1] [1] 74 De igual forma tambi´en el R permite ver un subconjunto de datos de un vector, por ejemplo >personas[1:4] [1] 74, 122, 235, 111 O bien indicando los sub´ındices correspondientes >personas[c(1,5,9)]

2.2. LOS DATOS EN

2.2.7.

R

13

Selecci´ on condicionada.

En la pr´actica, cuando se tiene una base de datos a menudo interesa sacar conclusiones de los individuos o items que cumplan determinados criterios. Por ejemplo, para una base de datos formada por atletas, nos interesa obtener gr´aficos para las atletas. Esto se puede realizar insertando una expresi´on en vez de un sub´ındice de la siguiente manera: >tiempos.pre[tiempos.post>11] en particular este comando dar´ıa como salida los tiempos previos al entrenamiento de los indiviudos que despu´es del entrenamiento han dado tiempos superiores a 11 seg. Desde luego, este tipo de expresiones tiene sentido solamente si las variables inculcadas tienen la misma longitud. Tambi´en se pueden usar operadores l´ogicos. Veamos el siguiente comando: >tiempos.pre[tiempos.post>11 & tiempos.post data(thuesen) >thu2otiempos.pre[o] >tiempos.post[o] Este conjunto de comandos hace lo siguiente. Primero crea un vector de datos denominado o que consiste en los sub´ındices correspondientes a los valores de la variable tiempos.pre ordenados de manera creciente. El segundo comando tiempos.pre[0] proporciona los valores de los tiempos previos ordenados de manera creciente. Y el comando tiempos.post[0] da como salida los valores de los tiempos posteriores que se corresponden con los tiempos previos ordenados. Obviamente estos u ´ltimos no tienen porque estar ordenados. Para hacer una ordenaci´on decreciente hay que hacerlo con el vector de datos con cambio de signo.

2.2.9.

Leer datos de otras fuentes.

Muchas veces, introducir los datos tal como lo hemos hecho hasta ahora puede resultar muy tedioso. Si los datos ya est´an en alg´ un formato, es mejor poder leerlos. La forma de hacerlo depende de como est´en almacenados los datos ya que se pueden encontrar en p´aginas web, en formatos de textos, como hoja de datos o incluso escritos en R. Normalmente, un conjunto de datos se caracteriza porque a cada individuo se le pueden observar varias variables. Cada variable tendr´a un nombre correspondiente. Supongamos que tenemos una base de datos denominada natacion.txt donde a cada individuo se le han observado una serie de variables como pueden ser la edad, el sexo, la velocidad de croll, la velocidad de espalda, etc. ¿C´omo saber el nombre de todas las variables de esta base de datos? El siguiente comando: >xnames(x) [1] “edad”,”sexo”,”VC” Si queremos ver todos los valores de una variable escribiremos >x$edad

2.2.10.

Recodificar variables.

En algunos casos puede resultar interesante recodificar una variable. Pensemos por ejemplo en la variable edad. Nos puede interesar crear categor´ıas seg´ un la edad: Benjam´ın, Infantil, Cadetes y Juvenil. Para realizar esta operaci´on en R haremos lo siguiente: >datos$edadcodx = 2 >xd res table(res) res N Y 2 3 ¿C´omo se har´ıa una tabla de frecuencias relativas en R? >res res.d prop.table(res.d) N Y 0.4 0.6

3.2.2.

Diagrama de barras.

Los datos categ´oricos tambi´en se resumen mediante gr´aficas. La mayor´ıa de las veces mediante un diagrama de barras. Un diagrama de barras en su versi´on m´as simple ordena los niveles de la variable y representa sus frecuencias con una barra cuya altura es proporcional a la frecuencia. En R, los diagramas de barra se hacen con el comando barplot(). Los datos pueden estar representados por su frecuencias o por sus proporciones. Veamos el siguiente ejemplo. >res barplot(res) ] Esta orden no es correcta. >barplot(table(res), xlab=’’Respuesta", ylab=’’frecuencia") >barplot(table(res)/lenght(res), xlab=’’Respuesta", ylab=’’frecuencia")

3.2.3.

Diagrama de Sectores.

El gr´afico de diagrama de sectores se usa para representar las frecuencias relativas o proporciones de los niveles de una variable categ´orica. El diagrama de sectores representa cada nivel como parte de un c´ırculo o trozo de tarta.

´ 3.3. RESUMEN DE DATOS NUMERICOS.

21

Aunque es un gr´afico ampliamente usado en la prensa, desde el punto de vista estad´ıstico aporta muy poco. Crear un diagrama de sectores es m´as o menos igual que hacer un diagrama de barras, pero usando el comando pie(). Se utilizan argumentos similares para a˜ nadir nombres o cambiar los colores. Por ejemplo, >pie(table(res), main=’’respuesta") Estos comandos representan la variable res en un diagrama de sectores con una cabecera denominada respuesta.

3.3.

Resumen de datos num´ ericos.

3.3.1.

Medidas estad´ısticas.

Tipos de medidas. (a) Posici´on. Son aquellas que asignan un valor num´erico al conjunto de datos para localizar un punto que represente en alg´ un sentido a los datos. (b) Dispersi´on. Son aquellas que asignan un valor num´erico con conjunto de datos para cuantificar la dispersi´on o variabilidad de los mismos. Medidas de Posici´ on. (a) MODA. Es el valor de la variable que tiene mayor frecuencia (puede no ser u ´nica). No existe un comando como tal en R para calcular la moda sino que es una combinaci´on de los ya conocidos: >which(table(res)==max(table(res))) (b) MEDIANA. Es el valor de la variable que divide a la muestra ordenada en dos partes iguales (es decir, deja tanto por debajo como por encima el 50 % de las observaciones). La orden en R es median(x). Medidas de Posici´ on. Media Aritm´ etica. (a) Datos no agrupados. Supongamos que tenemos los datos x1 , x2 , · · · , xn la media ser´ıa n X xi x1 + · · · + xn x= = i=1 n n El comando en R es mean(variable).

22

CAP´ITULO 3. ESTAD´ISTICA DESCRIPTIVA.

(b) Datos agrupados. Supongamos que tenemos los datos x1 , x2 , · · · , xn con frecuencias absolutas respectivas f1 , f2 , · · · , fn la media ser´ıa n X

x1 f 1 + · · · + xn f n x= = f1 + · · · + fn

xi f i

i=1

n

No existe un comando para este c´alculo, hay que hacerlo programando. Medidas de Posici´ on. Percentiles. (a) El percentil α (Pα ) es el valor de la variable que divide a la muestra ordenada en dos partes, dejando por debajo el α % de las observaciones y por encima el (100−α) %. Se dice entonces el percentil uno, el percentil veinte, etc. (b) Como casos particulares ser´ıan los cuartiles Q1 = P25 , Q2 = P50 = M e, Q3 = P75 , Q4 = P100 y los deciles: D1 = P10 , · · · , D9 = P90 En general se usa el comando quantile(x,p). Donde x es el nombre de la variable continua a la que le vamos a calcular el cuantil y p es un valor entre 0 y 1 con dos cifras decimales que indica el percentil. Es decir, 100p = α. Medidas de Dispersi´ on. (a) Rango o Amplitud. Se define como la diferencia entre el valor m´aximo y m´ınino del conjunto de datos. Es una medida poco informativa. >diff(range(x)) (b) Varianza para datos no agrupados. Supongamos que tenemos los datos x1 , x2 , · · · , xn con media x entonces la varianza ser´a n X

s2 =

(xi − x)2

i=1

n−1

Se puede calcular de manera sencilla como P X 1 ( xi )2 2 2 s = xi − n−1 n El comando en R es var(x).

´ 3.3. RESUMEN DE DATOS NUMERICOS.

23

(a) Varianza para datos agrupados. Supongamos que tenemos los datos x1 , x2 , · · · , xn con frecuencias absolutas respectivas f1 , f2 , · · · , fn y con media x entonces la varianza ser´ıa n X (xi − x)2 fi

s2 =

i=1

n−1

.

Se puede calcular de manera sencilla como P X 1 ( fi xi )2 2 2 s = fi x i − . n−1 n No existe un comando particular para esta medida. √ (b) Desviaci´ on t´ıpica. Se define como s = s2 .El comando en R es sd(x). Existe en R un comando que muestra la mayor´ıa de los c´alculos anteriores juntos. Este comando es summary(variable).

3.3.2.

Gr´ aficos.

Histogramas. Se puede llegar a tener una idea razonable de la forma de la distribuci´on dibujando un histograma, es decir, un recuento de cuantas observaciones est´an dentro de divisiones particulares del eje x. El comando correspondiente es hist(x). Si a˜ nadimos el argumento breaks=n, se consigue aproximadamente n barras en el histograma ya que al algoritmo intenta crear puntos de corte adecuados. Se puede tener un control absoluto sobre el n´ umero de intervalos haciendo de breaks un vector. Diagrama de Cajas y Bigotes. Un “Boxplot”, m´as conocido por diagrama de cajas y bigotes, es un gr´afico donde se resume la informaci´on de un conjunto de datos num´ericos. Este gr´afico se compone de una caja y de unos bigotes. La caja es un rect´angulo

CAP´ITULO 3. ESTAD´ISTICA DESCRIPTIVA.

24

paralelo al eje x donde se disponen de manera ordenada los valores del conjunto de datos. De tal manera que las dos alturas de la caja coinciden con los cuartiles de la variable. Los bigotes llegan hasta el valor m´as grande y m´as peque˜ no que est´an como m´aximo a una distancia de 1.5 veces la anchura de la caja desde los cuartiles. Si alguna observaci´on cae fuera se consideran valores extremos y se representan de manera separada. El comando en R es boxplot(x).

3.4. 3.4.1.

Resumen de Datos seg´ un el grupo. Medidas Estad´ısticas.

Muchas veces nos interesa estudiar una misma variable seg´ un al grupo al que pertenezcan. Por ejemplo, supongamos que tenemos un conjunto de datos que representan diferentes caracter´ısticas de una muestra de individuos que practican la nataci´on. Una de esas caracter´ısticas es el sexo. Nos interesa obtener un resumen de medidas estad´ısticas de la variable velocidad en croll distinguiendo por sexo. Este caso es el que se denomina resumen de datos seg´ un el grupo. Para ello hay que seguir el siguiente conjunto de comandos. >attach(nombredatos) >tapply(variable,grupo,mean) En el caso que un conjunto de datos tenga valores perdidos y queramos alguna medida del resto de valores bastar´a con a˜ nadir el argumento al comando correspondiente de na.rm=T.

3.4.2.

Gr´ aficos.

Histogramas. Supongamos que a los individuos anteriores los tenemos divididos en dos categor´ıas, delgados y obesos, correpondientes a la variable tipo. Queremos un histograma para la variable altura seg´ un este grupo para poder compararlos. Para ello el conjunto de comandos ser´ıan los siguientes. >attach(nat) >ex.delgadosex.obesospar(mfrow=c(2,1) >hist(ex.delgados,breaks=10,xlim=c(1,13),ylim=c(0,4),col="white") >hist(ex.obesos,breaks=10,xlim=c(1,13),ylim=c(0,4),col="grey") >par(mfrow=c(1,1) El primer comando dispone los par´ametros para que salgan los histogramas uno debajo de otro. Cada histograma tendr´a aproximadamente 10 barras, estando representado en el eje x del intervalo (5, 13) y del intervalo (0, 4) en el eje y. Las columnas del primer histograma son de color blanco y las del segundo de color gris. La u ´ltima orden restablece los par´ametros iniciales. Boxplots paralelos. En este caso, el comando en R ser´ıa >boxplot(altura∼tipo) Fij´emonos que la notaci´on altura∼tipo se debe leer como altura seg´ un tipo.

26

CAP´ITULO 3. ESTAD´ISTICA DESCRIPTIVA.

RESUMEN DE COMANDOS. Comando table(x) >prop.table(table(res.d)) >barplot(x) >pie(table(res)) >mean(res) >median(res) >var(res) >sd(res) >quantile(res, p) >hist(res) >boxplot(res) >tapply(variable,grupo,mean) altura∼tipo

Interpretaci´on Tabla de frecuencias de x Tabla de proporciones de x Diagrama de barras Diagrama de sectores Media Mediana Varianza Desviaci´on T´ıpica Cuantil p Histograma Cajas y Bigotes Media para variable seg´ un grupo Boxplot paralelo de altura seg´ un tipo

´ EL GRUPO. 3.4. RESUMEN DE DATOS SEGUN

27

PROBLEMAS PROPUESTOS 1. Obtener los ficheros Natacion.txt y Nataci´ on.rtf de la siguiente direcci´on web: http://destio.us.es/ferpon/docencia/estadistica 2. Clasificar todas las variables de la base de datos anterior seg´ un su tipolog´ıa. 3. Representar gr´aficamente las variables cualitativas nominales usando sus correspondientes frecuencias relativas. 4. Representar gr´aficamente las variables cualitativas ordinales usando sus correspondientes porcentajes. 5. Representar en gr´aficos distintos dos variables de tipo continuo de dicha base de datos. 6. Representar la variable edad distinguiendo por sexo. 7. Representar gr´aficamente la variable edad para los varones. 8. Representar la variable VE para las hembras. 9. Cambiar el dise˜ no de las gr´aficas obtenidas en los problemas anteriores tanto en los t´ıtulos como en los colores usados. 10. Supongamos que un individuo se considera obeso si su peso es superior o igual a 30 Kgr., normal si su peso es superior o igual a 23 Kgr. e inferior a 30 Kgr. y delgado si su peso es inferior a 23 Kgr. Se pide: (a) ¿Es mayor el tanto por ciento de obesos en los ni˜ nos que en las ni˜ nas? (b) Representar gr´aficamente la variable obesidad seg´ un sexo.

28

CAP´ITULO 3. ESTAD´ISTICA DESCRIPTIVA.

11. Para la variable estad´ıstica frecuencia de croll, se pide: (a) calcular la media y la desviaci´on t´ıpica, (b) calcular los cuartiles, (c) calcular la suma total de dicha variable, (d) obtener el histograma correspondiente. 12. Para la variable estad´ıstica longitud de ciclo de croll, se pide: (a) calcular la mediana y la moda, (b) calcular los percentiles 25 y 63, 52. 13. Para la variable estad´ıstica longitud de ciclo de espalda, se pide: (a) calcular la marca del intervalo con mayor frecuencia relativa, (b) ¿qu´e tanto por ciento tiene un LE inferior o igual a 1, 28571? 14. Para la variable estad´ıstica peso, se pide: (a) calcular la media y la desviaci´on t´ıpica de los ni˜ nos, (b) ¿qu´e tanto por ciento de ni˜ nos tienen un peso inferior o igual a 30,5 Kgrs.? 15. En un estudio comparativo de la variable estad´ıstica talla seg´ un sexo se pide: (a) calcular las medias y las desviaciones t´ıpicas, (b) calcular los cuartiles, (c) Obtener los gr´aficos de cajas y bigotes.

´ EL GRUPO. 3.4. RESUMEN DE DATOS SEGUN

29

16. Supongamos que se crean dos categor´ıas seg´ un la edad: Benjamines (edad inferior o igual a 7 a˜ nos) y Alevines (el resto de edades). Para la variable estad´ıstica velocidad de espalda , se pide: (a) calcular las medias y las desviaciones t´ıpicas de cada categor´ıa, (b) calcular los cuartiles para cada categor´ıa distinguiendo por sexo, (c) representar un histograma seg´ un la categor´ıa.

30

CAP´ITULO 3. ESTAD´ISTICA DESCRIPTIVA.

Cap´ıtulo 4 Datos Bivariantes. En la mayor´ıa de los estudios estad´ısticos no tiene mucho sentido analizar las variables por separados (an´alisis univariante) sino que interesa estudiar que efectos produce una variable en otra, que tipo de relaci´on existe entre ambas. Cuando se pretende realizar este an´alisis entre dos variables se denomina an´alisis bivariante. En particular, en este cap´ıtulo nos vamos a centrar en el an´alisis descriptivo de datos bivariante.

4.1. 4.1.1.

Datos Categ´ oricos Bivariantes Tablas.

Hay que partir del supuesto que las variables que vamos a someter a an´alisis son variables categ´oricas, es decir, para el lenguaje R son factores. En caso que no lo sean debemos factorizarla como ya hemos explicado en el cap´ıtulo 2. Por ejemplo, supongamos que tenemos un conjunto de datos que consiste en ni˜ nos/as que practican la nataci´on. Estamos interesados en saber cu´antos ni˜ nos y ni˜ nas tenemos por edades. Para ello hay que construir una tabla de doble entrada donde nos indique la frecuencia de cada cruce de la variable sexo con la variable edad. Suponiendo que ya son variables categ´oricas, el comando para hacer esta tabla es >table(sexo,edad) Para un f´acil manejo en c´alculos posteriores, podemos construir un objeto en R que almacene dicha tabla: 31

CAP´ITULO 4. DATOS BIVARIANTES.

32

>sexo.edadmargin.table(edad.sexo,1) es decir, calcula las frecuencias absolutas de varones y hembras. Si cambiamos el segundo par´ametro por el valor 2, es decir >margin.table(edad.sexo,2) se obtendr´ıa las frecuencias absolutas de las edades. Fij´emonos que ese par´ametro indica el orden en el que se han introducido en el primer comando table dichas variables categ´oricas. Otra cuesti´on interesante a resolver es, dentro de los varones, que porcentajes se corresponde con las edades. Este tipo de c´alculo se denominan tablas condicionadas. Son condicionadas porque en realidad estamos imponiendo la condici´on de querer calcular determinadas frecuencias sobre una modalidad en particular de la otra variable (los varones ).El comando ser´a >prop.table(table(fsexo,fedad),1) De nuevo el segundo par´ametro tiene la misma interpretaci´on que en el caso de las marginales.

4.1.2.

Gr´ aficos

Diagramas de Barras. En este caso, el comando barplot(x) funciona igual si x es el nombre de una tabla de doble entrada. En este caso sale un diagrama de barras apilado. Si a˜ nadimos el par´ametro beside=T entonces las barras salen unas al lado de otra.

´ 4.2. DATOS NUMERICOS.

4.2.

Datos num´ ericos.

4.2.1.

Gr´ aficos.

33

Diagramas de cajas y bigotes. En este caso se pretende representar dos variables num´ericas en dos boxplots independientes pero en la misma gr´afica. Para ello el comando es: >boxplot(x,y, names=c("xx","pyy")) donde x e y son los nombres de las variables num´ericas a representar, y xx e pyy las etiquetas que aparecen en el gr´afico.

4.2.2.

Diagrama de Puntos.

Los diagramas de puntos (scatterplot) se utilizan para representar en el plano pares de puntos. El comando es muy sencillo: >plot(x,y)

34

CAP´ITULO 4. DATOS BIVARIANTES.

RESUMEN DE COMANDOS. Comando >table(sexo,edad) >margin.table(edad.sexo,1) >prop.table(table(fsexo,fedad),1) barplot(x) >boxplot(x,y, names=c("xx","pyy")) >plot(x,y)

Interpretaci´on Tabla conjunta datos categ´oricos Tabla marginal para variable 1 Tabla condicionada Diagrama de barras apilado Caja y bigotes conjunto Diagrama de puntos para pares

´ 4.2. DATOS NUMERICOS.

35

PROBLEMAS PROPUESTOS 1. Representar gr´aficamente la velocidad de croll y la velocidad de espaldas para todo el conjunto de datos. 2. Igual que el problema anterior pero las ni˜ nas. 3. Representar gr´aficamente la velocidad de espaldas seg´ un el sexo en una misma gr´afica. 4. Para los datos del cap´ıtulo anterior, convertir en variable ordinal a la variable LE a partir del histograma correspondiente. 5. Cruzar la nueva variable con la edad para obtener las tablas de frecuencias relativas correspondientes. 6. Realizar los gr´aficos m´as apropiados del problema anterior.

36

CAP´ITULO 4. DATOS BIVARIANTES.

Cap´ıtulo 5 Probabilidades. 5.1.

El concepto de azar.

A lo largo de la historia, la especie humana ha tenido siempre miedo a la muerte, a lo desconocido. En definitiva a la incertidumbre. De hecho, asociaba el destino como parte de las decisiones divinas. Es muy conocida la c´elebre y famosa ALEA JACTA EST. Es una expresi´on atribu´ıda por Suetonio a Julio C´esar en el momento de cruzar el r´ıo Rubic´on, l´ımite entre Italia y la Galia Cisalpina (provincia que el Senado romano le hab´ıa asignado). Con este paso, se rebel´o contra la autoridad del Senado y dio comienzo a la larga guerra civil contra Pompeyo y los Optimates. Es m´as, muchas decisiones no poco importantes se dejaban en manos de la suerte como el lanzamiento de dados puesto que se cre´ıa que el resultado del mismo era por intervenci´on divina. No es hasta el siglo XVIII cuando se empieza a tomar m´as en serio el problema del azar, simplemente para jugar mejor a los dados en los palacios aristocr´aticos. Es aqu´ı donde empieza a trabajar Jacob Bernoulli. Finales del siglo XVIII y mediados del siglo XIX hay que destacar a Laplace, matem´atico franc´es. Fue profesor de matem´aticas de Napole´on y quien estableci´o la primera axiom´atica rigurosa acerca de las probabilidades. Entrar en cuestiones filos´oficas acerca del azar sale fuera de nuestros prop´ositos. B´asicamente podemos decir que el c´alculo de probabilidades trata de cuantificar la incertidumbre de un experimento. 37

CAP´ITULO 5. PROBABILIDADES.

38

5.2.

El concepto de Probabilidad. Axiom´ atica de Kolmogorov.

Definamos previamente el concepto de experimento aleatorio. Definici´ on 2 Se dice que un experimento es aleatorio cuando (a) de antemano se conocen todos los resultados posibles, (b) antes de realizar una prueba no se sabe cu´al va a ser el resultado. Ejemplo 1

(a) El resultado de lanzar una moneda.

(b) El resultado de lanzar a canasta. (c) Tiempo que se tarde en correr 100 metros. (d) Tiempo en la vuelta al reposo. (e) gr/cc de glucosa en sangre despu´es de un entrenamiento. Veamos ahora el concepto de espacio muestral. Definici´ on 3 Se define espacio muestral de un experimento aleatorio al conjunto de posibles resultados de un experimento. Se denota por Ω. Ejemplo 2

(a) Ω = {CARA, CRU Z}.

(b) Ω = {EN T RA, N O − EN T RA}. (c) Ω = {t ∈ R; t ≥ 9}. (d) Ω = {t ∈ R; t ≥ 380}. (e) Ω = {t ∈ R; 0,6 ≤ t ≤ 1,99}. Muchas veces, ante la incertidumbre del experimento aleatorio, es necesario cuantificarlo para indicar de alguna manera las posibilidades de ocurrencia de los posibles resultados. Tambi´en puede interesarnos cuantificar subconjuntos de los espacios muestrales. Por ejemplo, en el caso de la glucosa se considera que un atleta es apto si su cantidad est´a entre 0.7 y 1.1, y nos interesar´ıa dar las posibilidades de ocurrencia de esa caracter´ıstica. De esta forma vamos

5.3. EL CONCEPTO DE VARIABLE ALEATORIA.

39

a denotar por A a cualquier subconjunto de Ω que vamos a llamar suceso aleatorio. Nuestro objetivo va a ser cuantificar las posibilidades de ocurrencia de A. Una forma muy habitual de tratar a estas posibilidades de ocurrencia es mediante los porcentajes. Por ejemplo, las posibilidades de batir el r´ecord de los cien metros lisos masculinos en las pr´oximas olimpiadas est´an entorno al 10 %. Una forma m´as c´omoda de trabajar con estos porcentajes es llev´andolos a tantos por uno. As´ı diremos que cualquier probabilidad (porcentajes en tantos por uno) va a ser un valor num´erico entro cero y uno. Con vistas a establecer unas reglas l´ogicas de tratamiento en el c´alculo de probabilidades se establece lo que se denomina la axiom´atica de Kolmogorov: (a) P (Ω) = 1. (Posibilidades de ocurrencia del total es del 100 %. (b) P (A) ≥ 0 para todo A. (Las posibilidades de ocurrencia no pueden ser negativas). T S (c) Si A B = ∅ entonces P (A B) = P (A) + P (B).(Porcentaje de la uni´on disjunta es la suma de los porcentajes). Ejemplo 3 En el caso de la moneda se tendr´ıa: P (”CARA”) = p, p, q ≥ 0

P (”CRU Z”) = q, p + q = 1.

Si la moneda fuese perfecta, entonces p = q = 1/2

5.3.

El concepto de variable aleatoria.

De nuevo aqu´ı nos quedaremos con una definici´on demasiado intuitiva pero apta para nuestros prop´ositos. Una variable aleatoria es una caracter´ıstica cuya variabilidad est´a asociada al azar. Es decir, tiene un conjunto de valores con determinadas probabilidades. Ejemplo 4 Consideremos la variable X =n´ umero de goles por partido de un equipo de f´ utbol. Es evidente que posee una componente aleatoria pues antes de un partido no se sabe con total certeza cuantos goles se van a conseguir.

CAP´ITULO 5. PROBABILIDADES.

40

Para simplificar, vamos a suponer que el n´ umero de goles va a variar entre cero y cinco. Antes del partido tenemos total incertidumbre sobre el n´ umero de goles en particular que va a conseguir determinado equipo. Por tanto, resulta interesante cuantificar las posibilidades de ocurrencia de cada n´ umero de goles. Es decir, vamos a calcular: P (X = i) = pi

i = 0, 1, 2, 3, 4, 5.

lo cual significa la probabilidad de que el equipo consiga i goles. Estos valores los notaremos por pi y verifican las siguientes restricciones seg´ un la axiom´atica de Kolmogorov: pi ≥ 0 para todo i y

5 X

pi = 1.

(5.1)

i=0

Las variables aleatorias en definitiva codifican los espaciones muestrales asign´andoles n´ umeros a cada uno de los sucesos aleatorios simples (elementos del espacio muestral). Ejemplo 5 En el caso del lanzamiento de la moneda, tendr´ıamos: ”Salir CARA” ≡ (X = 1) ”Salir CRUZ” ≡ (X = 0) Es decir, la variable aleatoria X que toma dos valores 0 y 1. Sirven para codificar los resultados del lanzamiento de la moneda. Esta codificaci´on facilita la manipulaci´on matem´atica e inform´atica del experimento aleatorio ya que en principio los resultados del mismo son valores cualtitativos. No tiene sentido, desde el punto de vista matem´atico, sumar ”salir cara”m´as ”salir cara”. En el caso que la moneda fuese perfecta se tendr´ıa que: P rob(”CARA”) = P (X = 1) = 0,5 P rob(”CRU Z”) = P (X = 0) = 0,5 En funci´on de la tipolog´ıa del rango de las variables aleatorias hay varios tipos. En este curso vamos a distinguir dos tipos: variables aleatorias discretas y variables aleatorias absolutamente continuas.

5.4. VARIABLES ALEATORIAS DISCRETAS.

5.4.

41

Variables Aleatorias Discretas.

Definici´ on 4 Se dice que una variable aleatoria es discreta si su rango es numerable. ¿Qu´e quiere decir que un conjunto es numerable? Pues b´asicamente y para entenderlo, significa que podemos contar cu´antos elementos tiene aunque sean infinitos.

5.4.1.

Modelo Bernoulli

Se dice que un experimento aleatorio (e.a.) es de tipo Bernoulli cuando el espacio muestral est´a formado u ´nicamente por dos elementos. A uno de ellos se le llama ´exito (el que queremos verificar) y al otro fracaso. La variable aleatoria discreta Bernoulli es aquella que codifica el ´exito como 1 y el fracaso como 0. Es decir, ´ (X = 1) si, y s´olo si ”EXIT O” (X = 0) si, y s´olo si ”F RACASO” La variable discreta Bernoulli, para que est´e completamente determinada necesita de un par´ametro. En particular de la probabilidad del ´exito, el cual notaremos por p, que ser´a un valor entre 0 y 1. Todo esto lo escribiremos como X ∼ Ber(p). Esta notaci´on significa que P (X = 1) = p;

P (X = 0) = 1 − p.

En la mayor´ıa de los e.a. el valor de p es desconocido y uno de los objetivos de la estad´ıstica es aproximarse lo mejor posible a este valor.

5.4.2.

Modelo Binomial.

El e.a. Binomial es una composici´on de e.a. Bernoulli. Supongamos que un jugador de baloncesto tiene una efectividad del 75 %, ¿qu´e significa? pues P rob(”EN CEST AR”) = 0,75

CAP´ITULO 5. PROBABILIDADES.

42 y por tanto

P rob(”N O − EN CEST AR”) = 0,25 es decir, podemos definir una variable aleatoria discreta Bernoulli para codificar si encesta o no encesta, de tal manera que si encesta vale 1 y cero en caso contrario. Ahora bien, supongamos que tira a canasta 10 veces con la misma efectividad, ¿cu´antas canastas conseguir´a? Pues a priori, no lo sabemos con total certeza. Podemos afirmar que conseguir´a entre 0 y 10 canastas, obviamente. Tambi´en parece m´as l´ogico que consiga 7 u 8 canastas que 1 o 2, pero ¿c´omo cuantificar las posibilidades? El modelo que responde a esta pregunta es el denominado Modelo Binomial. Un e.a. Binomial coniste en la repetici´on en id´enticas condiciones de pruebas de Bernoulli. La variable aleatoria X que mide el n´ umero de ´exitos totales en un e.a. Binomial se le conoce con el nombre de variable aleatoria Binomial. Al igual que en el modelo anterior, necesitamos de algunos par´ametros para que quede completamente especificada, es decir, valores para distinguir un modelo binomial de otro. En concreto, estos par´ametros son: (a) N´ umero de repeticiones del e.a. Bernoulli: n. (b) Probabilidad de ´exito en cada prueba p. El modelo binomial lo denotaremos por X ∼ Bi(n, p).

5.4.3.

Modelo de Poisson

El modelo de Poisson sirve para explicar lo que se denominan sucesos raros. Una variable aleatoria se dice que sigue un modelo de Poisson de par´ametro no negativo λ (X ∼ P oi(λ)), si (a) Rango(X) = {0, 1, 2, ...} (b) P (X = k) = e−λ λk /k! Al par´ametro λ tambil´en se le conoce como intensidad media o media del proceso. Para hacer los c´alculos en R es mejor en este caso usar la librer´ıa Rcmdr.

5.5. VARIABLES ALEATORIAS ABSOLUTAMENTE CONTINUAS. 43

5.5.

Variables Aleatorias Absolutamente Continuas.

Podemos considerar que las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un intervalo. Tienen la propiedad que se puede determinar la probabilidad de ciertos intervalos a partir de una curva asociada a dichas variables, conocida como funci´on de densidad de probabilidad. Mientras que los valores posibles de una variable aleatoria discreta se pueden escribir como una sucesi´on de puntos aislados, una variable aleatoria continua es aquella cuyo conjunto de valores posibles es un intervalo. Es decir, una variable aleatoria continua puede tomar cualquier valor comprendido dentro de cierto intervalo. Por ejemplo, variables tales como el tiempo que se tarda en llevar a cabo una determinada prueba o el peso de un individuo se considera que son variables aleatorias continuas. Toda variable continua X tiene una curva asociada a ella. Se puede utilizar esta curva, formalmente conocida como la funci´on de densidad de probabilidad de la variable, para obtener las probabilidades referidas a X. Esto se puede llevar a cabo como sigue. Consideremos dos puntos cualesquiera a y b, siendo a menor que b. La probabilidad de que X tome un valor comprendido entre a y b es igual al a´rea bajo la curva dentro de este intervalo. Esto es, Z b P (a ≤ X ≤ b) = f (x)dx a

donde f (x) es la funci´on de densidad de probabilidad de X.

5.5.1.

La distribuci´ on Normal.

Introducci´ on. Al iniciar el an´alisis estad´ıstico de datos, un primer paso consiste en describir la distribuci´on de probabilidad de las variables estudiadas. Adem´as de las medidas descriptivas, el comportamiento de estas variables se pueden detectar de manera sencilla mediante gr´aficos. Una de las distribuciones te´oricas mejor estudiadas en los textos de Bioestad´ıstica y m´as utilizada en la pr´actica es la distribuci´on Normal, tambi´en llamada Gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fen´omenos naturales y cotidianos

CAP´ITULO 5. PROBABILIDADES.

44

siguen aproximadamente esta distribuci´on. Caracteres morfol´ogicos (como la talla o el peso) o psicol´ogicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen este modelo. Aunque pueden encontrarse algunos cuyo ajuste no sea lo suficientemente bueno. El uso extendido de la distribuci´on Normal en aplicaciones estad´ısticas puede explicarse adem´as por otras razones. Muchos de los procedimientos estad´ısticos suponen la normalidad de los datos. Esta suposici´on siempre hay que contrastarla estad´ısticamente antes de trabajar con ella.

La distribuci´ on Normal. La distribuci´on Normal fue estudiada por primera vez por el franc´es Moivre (1667-1754) aunque su formulaci´on y estudio profundo se debe a Gauss (1777-1855), por eso tambi´en se la conoce con el nombre de campana de Gauss. La distribuci´on Normal o variable aleatoria normal est´a completamente determinada por dos par´ametros en su funci´on de densidad de probabilidad. Uno denominado media (µ) y otro denominado varianza (σ 2 ). Con esta notaci´on, la campana de Gauss es una funci´on real cuya expresi´on es (x − µ)2 1 exp − para todo x ∈ R f (x) = √ 2σ 2 2πσ ¿Qu´e dos propiedades podemos resaltar de esta funci´on?

(a) f (x) > 0 para todo x ∈ R

(b)

R∞ −∞

f (x)dx = 1.

Estas dos propiedades pueden interpretarse como la versi´on continua del caso discreto. La gr´afica correspondiente a una distribuci´on normal de media cero y varianza la unidad (X ∼ N (0, 1)) ser´ıa:

5.5. VARIABLES ALEATORIAS ABSOLUTAMENTE CONTINUAS. 45

Propiedades. • Si X ∼ N (µ, σ 2 ) entonces P (X = x) = 0. • Si X ∼ N (µ, σ 2 ) entonces Z P (a < X < b) =

b

´ f (x)dx ≡ Area debajo de f (x) entre a y b

a

• f (x) es sim´etrica con respecto a su media.

• Tiene una u ´nica mediana, moda y media que coinciden.

46

CAP´ITULO 5. PROBABILIDADES.

• Te´oricamente cualquier valor entre −∞ y +∞ es posible. Por tanto, el a´rea total bajo la curva es 1. • La distancia entre la media y el punto de inflexi´on de la curva es σ.

• Existe aproximadamente un 95 % de posibilidades de obtener un valor en el intervalo: (µ − 1,96σ, µ + 1,96σ). • La forma de la gr´afica de la funci´on depende de µ y de σ, en el sentido que al variar µ lo que hacemos es trasladar la campana sobre el eje OX. Al variar σ se produce el efecto de subir o bajar las colas, y por tanto el valor m´aximo de la funci´on de densidad tenga el efecto contrario a las colas para mentener el a´rea unitaria. N´otese que siempre debe mantenerse el ´area unidad por debajo de la funci´on. De esta u ´ltima propiedad se deduce que no existe una s´ola distribuci´on normal, ya que depender´a de sus par´ametros. Por ello se define la distribuci´on normal est´andard como la que tiene media cero y varianza uno. La impor∼ N (0, 1). A esta tancia se debe a que si X ∼ N (µ, σ 2 ) entonces Z = X−µ σ transformaci´on se le denomina tipificaci´on de X. C´ alculos en R. Al igual que en el caso anterior, cualquier c´alculo asociado a esta distribuci´on se har´a en R bajo el uso de la librer´ıa Rcmdr.

5.5. VARIABLES ALEATORIAS ABSOLUTAMENTE CONTINUAS. 47

PROBLEMAS PROPUESTOS 1. Despu´es de varios entrenamientos se llega a la conclusi´on que un determinado alero de baloncesto tiene una efectividad del 68 % de conseguir canastas de dos puntos. Se pide: (a) Calcular la probabilidad de conseguir una canasta de dos puntos en un tiro. (b) Supongamos que lanza a canastas un total de 15 veces, calcular la probabilidad de conseguir exactamente 5 canastas de dos puntos. 2. Un test detecta con una probabilidad de 0,57 si la orina de un ciclista tiene sustancias prohibidas. El laboratorio recibe 26 muestras de orinas, se pide: (a) Calcular la probabilidad que el test detecte al menos a la mitad de las muestras con sustancias prohibidas. (b) ¿Qu´e n´ umero de muestras tienen m´as probabilidad de ser detectadas? 3. Supongamos que el tiempo que tarda un atleta de alto rendimiento en volver al reposo despu´es de correr 400 metros sigue una distribuci´on normal de media µ = 10 unidades de tiempo (u.t.) y con desviaci´on t´ıpica de σ = 1, 5. Se pide: (a) calcular la probabilidad de que un atleta elegido al azar tarde m´as de 12 u.t. en volver al reposo despu´es de correr 400 metros. (b) Calcular la probabilidad de que tarde menos de 5 u.t. (c) Calcular la probabilidad de que tarde entre 7 y 12 u.t. 4. Supongamos que el nivel de glucosa en la poblaci´on de jugadores profesionales de F´ utbol despu´es de jugar un partido sigue una distribuci´on normal de media µ = 1,6 mmol/l con una desviaci´on t´ıpica de σ = 0, 5 mmol/l. Se pide: (a) Calcular la probabilidad de que un jugador elegido al azar despu´es de un partido tenga unos niveles de glucosa superior 2.6 mmol/l.

CAP´ITULO 5. PROBABILIDADES.

48

(b) Calcular la probabilidad de que un jugador elegido al azar tenga unos niveles de glucosa: a) entre 1.1 y 2.1. b) entre 0.6 y 2.6. c) entre 0.1 y 3.1. 5. Supongamos que la variable Peso en la poblaci´on humana sigue una distribuci´on normal tanto para varones como para hembras. Es m´as, en caso de los hombres tiene una media de µ = 78 Kgr. con una varianza de σ 2 = 4 Kgrs2 , y en las mujeres tiene una media de µ = 68 Kgrs. con una desviaci´on t´ıpica de σ = 1,5 Kgrs. Se pide: (a) ¿es m´as probable que un hombre pese m´as de 80 Kgrs que una mujer pese m´as de 69,5 Kgrs? Justifica la respuesta. (b) ¿Cu´al de los dos sexos tiene m´as probabilidad de pesar m´as de 82 Kgrs? Justifica la respuesta. 6. Supongamos que el n´ umero de goles que consigue un equipo de f´ utbol por partido sigue una distribuci´on de Poisson. Tambi´en se sabe por partidos anteriores que consigue en t´erminos medios una intensidad de 1,5 gol/partido. Se pide: (a) Calcular la probabilidad de no conseguir gol en un partido. (b) Calcular la probabilidad de conseguir cuatro o m´as goles. 7. Supongamos que el n´ umero de vueltas que da Fernando Alonso al circuito de Jerez en diez minutos sigue una distribuci´on de Poisson con una intensidad de 7 vueltas/(10min). Se pide: (a) Calcular la probabilidad de dar 14 vueltas en diez minutos. (b) Calcular la probabilidad de dar 20 vueltas en 20 minutos.

Cap´ıtulo 6 Introducci´ on a la Inferencia Estad´ıstica. 6.1.

Planteamiento.

(a) Las afirmaciones estad´ısticas son siempre generales y se hacen para conjuntos muy grandes de individuos, las poblaciones. (b) Uno de los objetivos fundamentales en Estad´ıstica es sacar conclusiones sobre los par´ ametros que rigen la diversidad de una caracter´ıstica en la poblaci´on. La forma de denotar a los par´ametros poblacionales es con letras griegas. Por ejemplo: θ, µ, σ, entre otras. (c) Los par´ametros son desconocidos porque hacen referencia a toda una poblaci´on, es decir al conjunto de individuos sobre los que se desean obtener conclusiones, y normalmente son inaccesibles. Razones de inaccesibilidad. Imposibilidad f´ısica de acceder a toda la poblaci´ on. No se puede acceder a todos los jugadores de F´ utbol del mundo para someterlos a determinado entrenamiento de Fuerza. Imposibilidad econ´ omica de acceder a toda la poblaci´ on. Acceder a toda la poblaci´on de atletas de Andaluc´ıa para determinar la media del IMC obligar´ıa a pesar y a tallar a varios miles lo cual supondr´ıa gastos de personal y de desplazamientos. 49

´ A LA INFERENCIA ESTAD´ISTICA. 50CAP´ITULO 6. INTRODUCCION Imposibilidad por destrucci´ on del individuo objeto del estudio. Acceder a toda la fabricaci´on de un dispositivo de medici´on de la velocidad, para determinar cuanto tiempo dura sin estropearse, nos obligar´ıa a estropear toda la producci´on con lo que nos quedar´ıamos sin dispositivos para vender. Soluci´on. Si la poblaci´on es inaccesible no queda m´as remedio que tomar una porci´on de esa poblaci´on a la que llamaremos muestra. Por tanto nuestras afirmaciones que intentan ser para la poblaci´on se basar´an en la informaci´on que nos proporciona una parte de ella, la muestra. La inferencia estad´ıstica es un conjunto de m´etodos que nos permiten extender la informaci´on de la muestra a toda la poblaci´on. Del error que se pueda cometer en este salto se ocupa la inferencia. La inferencia estad´ıstica extrae la informaci´on de la muestra para extenderla a toda la poblaci´on.

6.2.

Concepto de Muestra Aleatoria.

Ideas Intuitivas. Si la muestra se va a usar para sacar conclusiones acerca de la poblaci´on es obligado preguntarse ¿a qu´ e poblaci´ on representa? La muestra debe estar bien escogida, debe representar a toda la poblaci´on de forma que sea una imagen lo m´as fiel posible. Definici´ on de Muestra Aleatoria. Para que la muestra sea representativa de la poblaci´on objetivo es preciso que sea extra´ıda de ella de modo que: (a) Todos los individuos de la poblaci´on tengan la misma probabilidad de ser seleccionados e incluidos en la muestra (equiprobabilidad). (b) La selecci´on de un individuo no influya para nada en la selecci´on o no de otro individuo cualquiera (independencia).

6.3. ESTIMADORES

51

Forma de seleccionar una muestra aleatoria Tener determinada la poblaci´on objeto del estudio. Tener identificados a cada uno de los individuos de esa poblaci´on y asignado a cada uno de ellos un n´ umero. Elegir una mestra de los individuos de la poblaci´on por un mecanismo que represente suficientemente bien al azar. Mecanismos que representan bien al azar: Sorteos, Papeletas, Simulaci´on de variables aleatorias.

6.3.

Estimadores

Estimaci´on Puntual. Se trata de asignar al par´ametro poblacional un u ´nico valor que ser´a un valor aproximado y que depende de la muestra. Definici´ on 5 Concepto de Estimador Puntual. Un estimador puntual para un par´ametro es una funci´on de los valores de la muestra cuyos valores son v´alidos como valores para ese par´ametro. Un estimador puntual, al depender de los valores muestrales, no siempre toma el mismo valor. Es decir, cada vez que se tome una muestra es muy probable obtener valores distintos. Notaci´on: el estimador puntual para la media µ se indicar´a como µ bo tambi´en x. Cuando se haya obtenido la muestra y calculado µ b a partir de ella, se dice entonces que ese valor es una estimaci´on de la media µ. Estimaci´on Puntual. Par´ametro Media, µ

Par. Muestral Media Muestral

F´ormula n X 1 µ b=x= n xi i=1

Varianza, σ 2

Var. Muestral

Proporci´on, p

Prop. Muestral

n X 1 2 σ b = n−1 (xi − x)2 i=1

pb =

x n

´ A LA INFERENCIA ESTAD´ISTICA. 52CAP´ITULO 6. INTRODUCCION Desventajas de los estimadores puntuales. (a) Dan una idea del verdadero valor del par´ametro pero no dan el valor exacto. (b) Desconocemos cu´anto de buena es la aproximaci´on. Estimaci´on por Intervalos de Confianza. Definici´ on 6 Concepto de Intervalo de Confianza. Se trata de asignar al par´ametro poblacional desconocido un intervalo de valores (A, B) entre los cu´ales est´a dicho par´ametro θ con una confianza de (1 − α). Es decir P rob(A ≤ θ ≤ B) = 1 − α Se dice entonces que (A, B) es un intervalo de confianza para el par´ametro θ construido al (1 − α) % de confianza. Interpretaci´on de los Intervalos de Confianza. Por cada 100 intervalos que construyamos para estimar un mismo par´ametro, el (1 − α) % de los intervalos obtenidos contienen en su interior al verdader valor del par´ametro. El problema es que no sabemos cu´ales lo contienen y cu´ales no. Para cada muestra se obtienen valores particulares de A y B.

6.4. 6.4.1.

Intervalos de confianza para medias y proporciones. Intervalo para la media de una normal.

Intervalo de Confianza para la Media.  tama˜ no  media Dada una muestra con  desv. t´ıpica

n x s

El intervalo de confianza para µ se calcula como s s x − t(1− α2 ),n−1 √ , x + t(1− α2 ),n−1 √ n n

6.4. INTERVALOS DE CONFIANZA PARA MEDIAS Y PROPORCIONES.53 Donde t(1− α2 ),n−1 es el percentil (1 − α2 ) % de una distribuci´on t-Student con n − 1 grados de libertad.

En este caso la precisi´ on se define como δ = t(1− α2 ),n−1 √sn . Y el tama˜ no muestral m´ınimo para estimar µ ser´ıa n ≥

t

s (1− α 2 ),n−1

2

δ

C´ alculos en R. La forma de calcular un intervalo de confianza para la media de una poblaci´on normal de varianza desconocida o de tama˜ no muestral peque˜ no (n < 25) viene dado por el comando: >t.test(x, conf.level=.95)

6.4.2.

Intervalo para la media de una no normal.

Intervalo de Confianza para la Media.  tama˜ no  media Dada una muestra con  desv. t´ıpica

n x s

Si n ≥ 60 el intervalo de confianza para µ se calcula como s s x − z(1− α2 ) √ , x + z(1− α2 ) √ n n

´ A LA INFERENCIA ESTAD´ISTICA. 54CAP´ITULO 6. INTRODUCCION Donde z(1− α2 ) es el percentil (1 − α2 ) % de una distribuci´on normal estandard. En este caso la precisi´ on se define como δ = z(1− α2 ) √sn . Y el tama˜ no muestral m´ınimo para estimar µ ser´ıa n ≥

z

s (1− α 2)

2

δ

C´ alculos en R. En este caso, s´olamente tenemos que calcular el valor de z(1− α2 ) . Para ello usaremos el comando >zstar = qnorm( 1- α/2)

6.4.3.

Intervalo para la proporci´ on.

Intervalo de Confianza para la Proporci´on.  no n  tama˜ x casos favorables Dada una muestra con  n−x casos no favorables El estimador puntual de la proporci´on de casos que verifican la caracter´ıstica de inter´es es pb = nx . Si x y n − x son mayores que 20 el intervalo de confianza con correcci´on por continuidad para p se calcula como ! r r 1 1 pb(1 − pb) pb(1 − pb) pb − z(1− α2 ) + , pb − z(1− α2 ) + n 2n n 2n Donde z(1− α2 ) es el percentil (1 − α2 ) % de una distribuci´on normal estandard. Intervalo de Confianza para la Proporci´on. En este caso la precisi´ on se define como r pb(1 − pb) 1 δ = z(1− α2 ) + n 2n .

6.5. INTERVALO DE CONFIANZA PARA LA VARIANZA.

55

Y el tama˜ no muestral m´ınimo para estimar µ ser´ıa n≥

2 z(1− α 0,25 ) 2

δ2

.

C´ alculos en R. En este caso el comando es: >prop.test(x,n,conf.level=.95) donde x es la frecuencia de la caracter´ıstica del vector de datos correspondiente y n es el n´ umero de datos.

6.5.

Intervalo de confianza para la varianza.  

tama˜ no media Dada una muestra con  desv. t´ıpica

n x s

El intervalo de confianza para σ 2 se calcula como (n − 1)s2 (n − 1)s2 , . r l Donde r y l verifican P (l ≤ χ2n−1 ≤ r) = 1 − α y χ2n−1 indica la distribuci´on Ji-cuadrado con n − 1 grados de libertad.

´ A LA INFERENCIA ESTAD´ISTICA. 56CAP´ITULO 6. INTRODUCCION C´ alculos en R. La forma de calcular un intervalo de confianza para la varianza de una poblaci´on normal necesitamos u ´nicamente obtener los valores de r y l. >r= qchisq(α/2, df=n-1) >l= qchisq(1- α/2, df=n-1)

6.5. INTERVALO DE CONFIANZA PARA LA VARIANZA.

57

PROBLEMAS PROPUESTOS 1. Para el fichero de datos de Nataci´on.txt se pide: (a) Obtener un intervalo de confianza al 95 % para la media de Frecuencia de Croll. (b) Obtener un intervalo de confianza al 99 % para la media de Velocidad de Croll. 2. Para el fichero de datos de Nataci´on.txt se pide: (a) Obtener un intervalo de confianza al 99 % para la media de velocidad de espaldas. (b) Obtener un intervalo de confianza al 95 % para la desviaci´on t´ıpica de velocidad de espaldas. 3. Para el fichero de datos de Nataci´on.txt se pide: (a) Obtener un intervalo de confianza al 95 % para la media de la talla de los ni˜ nos. (b) De igual forma para la desviaci´on t´ıpica de la talla de los ni˜ nos. 4. Para el fichero de datos de Nataci´on.txt se pide: (a) Obtener un intervalo de confianza al 95 % para la media de los pesos de los ni˜ nos. (b) ¿Cu´al deber´ıa ser el tama˜ no de la muestra para reducir la tolerancia a la mitad? 5. Para el fichero de datos de Nataci´on.txt se considera que un ni˜ no es obeso si su peso es superior a 32 Kgr.: (a) Obtener un intervalo de confianza al 95 % para la proporci´on de ni˜ nos obesos.

´ A LA INFERENCIA ESTAD´ISTICA. 58CAP´ITULO 6. INTRODUCCION 6. Para el fichero de datos de Nataci´on.txt se pide: (a) ¿Cu´antas ni˜ nas son necesarias para obtener un intervalo de confianza al 99 % sobre la proporci´on de obesas con una tolerancia de 0,01? (b) ¿Cu´al ser´ıa la tolerancia para una muestra de 200 ni˜ nas cuya proporci´on de obesas es del 75 %?

Cap´ıtulo 7 Introducci´ on a los contrastes de hip´ otesis. 7.1. 7.1.1.

Introducci´ on a los contrastes de hip´ otesis. Idea General.

(a) El contraste de hip´otesis es un conjunto de t´ecnicas estad´ısticas cuyo objetivo fundamental es rechazar o no rechazar una afirmaci´on o conjetura acerca de una poblaci´on. (b) Intervienen dos tipos de hip´otesis excluyentes: a) Hip´ otesis Nula o H0 es la hip´otesis que se somete a comprobaci´on para ver si se debe rechazar o no. b) Hip´ otesis Alternativa o H1 es la hip´otesis que se acepta cuando se rechaza la hip´otesis nula.

7.1.2.

Fases de un Test Estad´ıstico.

Determinar H0 y H1 . Obtener informaci´on a partir de un experimento aleatorio para ver si hay suficiente evidencia estad´ıstica c´omo para rechazar H0 . Tomar una decisi´on acerca de rechazar o no la hip´otesis nula. 59

´ A LOS CONTRASTES DE HIPOTESIS. ´ 60CAP´ITULO 7. INTRODUCCION

7.1.3.

Ejemplo.

Cierto entrenador sospecha que su alero tira al azar a canasta. Para contrastarlo le hace lanzar 10 veces de las que consigue 9 canastas, ¿qu´e conclusi´on podemos sacar? Formularemos las hip´otesis H0 :≡ lanza al azar ≡ p = 1/2 H1 :≡ no lanza al azar ≡ p 6= 1/2 Vemos que de los diez lanzamientos consigue siete canastas. ¿qu´e decisi´on tomamos? ¿en qu´e nos basaremos para tomar dicha decisi´on?

7.2.

Concepto de Test.

7.2.1.

Soluci´ on Intuitiva.

Si el n´ umero de caras resultante es grande o peque˜ no tendremos suficiente evidencia estad´ıstica como para afirmar que no lanza al azar. Luego la decisi´on en este caso ser´ıa rechazar la hip´otesis nula. Obviamente la decisi´on estar´a basada en la variable aleatoria X = ”N´ umero de canastas en 10 lanzamientos” Todo n´ umero utilizado en la toma de decisi´on se denominar´a Estad´ıstico de contraste.

7.2.2.

Soluci´ on.

En nuestro caso se tiene que X ∼ Bi(10, p). Suponiendo cierta H0 entonces X ∼ Bi(10, 1/2). La funci´on de probabilidad en este caso ser´ıa

7.3. ERRORES ALEATORIOS. X p X p

0 .001

5 2461

61

1 .0098

6 .2051

2 .0439

7 .1172

3 .1172

8 .0439

4 .2051

9 10 .0098 .0010

Observando esta tabla ¿qu´e valores contradicen la hip´otesis nula? Fij´emonos que al conseguir 9 canastas, este suceso se daba con una probabilidad de 0.0098. Por tanto, tenemos suficiente evidencia estad´ıstica como para afirmar que no lanza al azar. O dicho de otra forma, si hubiera tirado al azar lo l´ogico es que consiguiera 5 canastas o entorno a ellas. Al conseguir 9 canastas, esta diferencia no se debe a la ley de probabilidad Bi(10, 1/2) sino que obedece a otra binomial con el valor de p mayor. Ahora bien, el hecho de ser 9 un valor poco probable en la H0 no quiere decir que no sea posible. Por tanto, nuestra decisi´on ser´a rechazar la H0 teniendo en cuenta que podemos equivocarnos. ¿C´omo es ese error? ¿Se pueden cuantificar?

7.3.

Errores Aleatorios.

Error de Tipo I. Es aquel que se comete cuando se rechaza H0 siendo cierta. Error de Tipo II. Es aquel que se comete cuando no se rechaza H0 siendo falsa. Estos dos errores se cometen de forma aleatoria, ya que nuestra decisi´on depende del experimento en cuesti´on. Por tanto, tiene sentido tener en cuenta la probabilidad de cometer dichos errores.

´ A LOS CONTRASTES DE HIPOTESIS. ´ 62CAP´ITULO 7. INTRODUCCION Lo ideal es que ambas probabilidades sean cero, pero esto es matem´aticamente imposible. Luego, por convenio se suele fijar la probabilidad de error de tipo I en un 5 %.

7.4.

El concepto de p-value

Supongamos que tenemos dos hip´otesis H0 y H1 y que la muestra aleatoria nos proporciona un valor del estad´ıstico igual a t. El p-value es la probabilidad que la diferencia que muestra el estad´ıstico respecto de H0 se deba al azar propio de la distribuci´on determinada por dicha Hip´otesis. Cuando el p-value es menor que el 5 % se concluye que la hip´otesis nula hay que rechazarla.

7.5.

Test no param´ etricos.

Hasta ahora, hemos realizado contrastes suponiendo que la poblaci´on de la cual tomamos la muestra pertenec´ıa a una determinada familia de distribuciones y, por tanto, la estimaci´on y/o test nos permit´ıa especificar totalmente esa poblaci´on. A partir de ahora vamos a analizar algunos procedimientos que no exigen ning´ un supuesto, o muy pocos, acerca de la familia de distribuciones a la que pertenece la poblaci´on, procedimientos que, adem´as, soportan observaciones en donde las mediciones se realizan de forma cualitativa o bien se refieren a alguna caracter´ıstica ordenable. A tales procedimientos se les denomina tests no param´etricos.

7.5.1.

Contraste de normalidad

Los contrastes de normalidad son un caso particular de contraste de ajuste, donde se trata de comprobar si los datos provienen de una distribuci´on normal. El contraste de Shapiro-Wilks mide el ajuste de la muestra a una recta al dibujarla en un papel probabil´ıstico normal. Se rechaza la normalidad cuando

´ 7.5. TEST NO PARAMETRICOS.

63

el ajuste es bajo. El lenguaje R permite calcular este contraste directamente bajo el R-commander.

´ A LOS CONTRASTES DE HIPOTESIS. ´ 64CAP´ITULO 7. INTRODUCCION

PROBLEMAS PROPUESTOS 1. Para el fichero de datos de Nataci´on.txt se pide: (a) ¿Hay suficiente evidencia estad´ıstica como para afirmar que la media de FC es 0.5? 2. Para el fichero de datos de Nataci´on.txt se pide: (a) ¿Hay suficiente evidencia estad´ıstica como para afirmar que la media de VE es 0.4 a un nivel de significaci´on de 0.01? 3. Para el fichero de datos de Nataci´on.txt se pide: (a) Obtener un intervalo de confianza al 95 % para la media de la talla de los ni˜ nas. (b) ¿Hay suficiente evidencia estad´ıstica como para afirmar que la desviaci´on t´ıpica de la talla de los ni˜ nos es 1 cm? 4. Para el fichero de datos de Nataci´on.txt se pide: (a) Obtener un intervalo de confianza al 95 % para la media de los pesos de los ni˜ nas. (b) ¿Cu´al deber´ıa ser el tama˜ no de la muestra para reducir la tolerancia a la mitad? 5. Para el fichero de datos de Nataci´on.txt se considera que un deportista menor de edad es obeso si su peso es superior a 32 Kgr.: (a) Obtener un intervalo de confianza al 95 % para la proporci´on de obesos. (b) ¿Hay suficiente evidencia estad´ıstica como para afirmar que dicha proporci´on es superior al 60 % con un nivel de significaci´on del 1 %?

´ 7.5. TEST NO PARAMETRICOS.

65

6. Para el fichero de datos de Nataci´on.txt se pide: (a) ¿Cu´antas ni˜ nos son necesarias para obtener un intervalo de confianza al 99 % sobre la proporci´on de obesos con una tolerancia de 0.01? (b) ¿Cu´al ser´ıa la tolerancia para una muestra de 200 ni˜ nos cuya proporci´on de obesas es del 75 %? Resolver las siguientes cuestiones para el fichero de datos Hockey.txt que se puede descargar de http://destio.us.es/ferpon/docencia/estadistica 7. ¿Podemos aceptar que el porcentaje de grasa y el porcentaje muscular en jugadores de Hockey son iguales? 8. ¿Es significativa la diferencia entre las alturas seg´ un la categor´ıa de los jugadores? 9. Supongamos que se definen dos categor´ıas seg´ un la edad: Junior si la edad es inferior o igual a 22 a˜ nos y Senior si la edad es igual o superior a 23 a˜ nos. ¿Hay suficiente evidencia estad´ıstica como para afirmar que el peso de los jugadores de divisi´on de Honor es diferente seg´ un la categor´ıa de edad? 10. ¿Hay suficiente evidencia estad´ıstica como para afirmar que la velocidad en 30 metros y la velocidad en 50 metros en los jugadores son diferentes? Dar el p-valor correspondiente. ¿Qu´e velocidad es menor estad´ısticamente? 11. ¿Podemos afirmar que en la segunda divisi´on no hay diferencias significativas entre V30 y V50?