14.1 Definición de probabilidad para espacios muestrales no numerables

14 CÁLCULO DE PROBABILIDADES Definición de probabilidad para espacios muestrales no numerables 1) Si A es medible, asimismo lo es R - A. complement
Author:  Esther Toledo Cruz

1 downloads 53 Views 3MB Size

Recommend Stories


ESPACIOS MUESTRALES Y EVENTOS
Probabilidad y Estadística 1 ESPACIOS MUESTRALES Y EVENTOS Definiciones 1. Un experimento aleatorio es aquel que proporciona diferentes resultados

Espacios de Probabilidad
Cap´ıtulo 1 Espacios de Probabilidad 1.1. Introducci´ on El objetivo de la Teor´ıa de Probabilidad es desarrollar y estudiar modelos matem´aticos p

Espacios Muestrales, Combinatoria y Probabilidad. UCR ECCI CI-1204 Matemáticas Discretas Prof. M.Sc. Kryscia Daviana Ramírez Benavides
Espacios Muestrales, Combinatoria y Probabilidad UCR – ECCI CI-1204 Matemáticas Discretas Prof. M.Sc. Kryscia Daviana Ramírez Benavides Combinatori

AE 141
Encuentro sobre uso y resultados de la aplicación de tecnologías económicas para la purificación de aguas en América Latina Proyecto OEA/AE 141 8 y 9

DISTRIBUCIONES MUESTRALES
Distribuciones muestrales DISTRIBUCIONES MUESTRALES Autores: Ángel A. Juan ([email protected]), Máximo Sedano ([email protected]), Alicia Vila (avilag@

Conjuntos finitos y conjuntos numerables
Tema 3 Conjuntos finitos y conjuntos numerables En este tema vamos a usar los números naturales para contar los elementos de un conjunto, o dicho c

Story Transcript

14 CÁLCULO DE PROBABILIDADES

Definición de probabilidad para espacios muestrales no numerables

1)

Si A es medible, asimismo lo es R - A. complemento de A. 621

www.GRATIS2.com

w

w

w

.L i

br

os

pd

f1

.b lo gs p

Un segmento rectilíneo se descompone en dos partes, con el punto de subdivisión elegido al azar. ¿Cuál es la probabilidad de que los dos fragmentos tengan la misma longitud? ¿Cuál es la probabilidad de que el mayor tenga exactamente longitud doble que la del pequeño? ¿Cuál es la probabilidad de que el mayor tenga longitud por 10 menos doble que el menor? Éstos son ejemplos de problemas de probabilidad en los que el espacio muestral es no numerable ya que consta de todos los puntos del segmento. En esta sección se extiende la definición de probabilidad incluyendo los espacios muestrales no numerables. Si siguiéramos el mismo proceso que para espacios muestrales numerables tendríamos que partir de un conjunto no numerable S cualquiera y una u-álgebra de Boole g¡ de subconjuntos de S"y definir una medida de probabilidad que fuera una función de conjunto P no negativa completamente aditiva definida sobre g¡ siendo Pi.S) = 1. Esto origina ciertas dificultades técnicas que no se presentan cuando S es numerable. Pretender la descripción de esas dificultades nos llevaría demasiado lejos. Las evitaremos imponiendo restricciones iniciales al conjunto S y al álgebra de Boolezé' . Primeramente, restringimos S a ser un subconjunto del eje real R, o del n-espacio R", Para el álgebra booleana g¡ empleamos subconjuntos especiales de S que, en el lenguaje de la moderna teoría de la integración, se llaman subconjuntos de S medibles. No intentaremos describir el significado preciso de un conjunto medible; en cambio, mencionaremos algunas de las propiedades que posee la clase de los conjuntos medible s . Consideremos primero subconjuntos de R. Los subconjuntos medible s tienen las propiedades siguientes:

www.GRATIS2.com

ot .c

om

14.1

Cálculo de probabilidades

622

2) Si {Al, A2, Aa , . .. } es una colección numerable de conjuntos medibles, la reunión Al U A2 V A3 U ... también es medible. 3) Todo intervalo (abierto, cerrado, semiabierto, finito o infinito) es medible. Así pues, los conjuntos medibles de R forman una a-álgebra booleana que contiene los intervalos. Existe una a-álgebra booleana mínima (en el sentido de la inclusión) que tiene esta propiedad; sus elementos se llaman conjuntos de Borel en atención al matemático francés Émile Borel (1871-1956). Análogamente, en E existe un a-álgebra booleana mínima que contiene todos los productos cartesianos de pares de intervalos; sus elementos son conjuntos de Borel. Los conjuntos de Borel en En se definen en forma análoga. De ahora en adelante, siempre que utilicemos un conjunto S de números reales como espacio muestral, o, más general, siempre que se use un conjunto S de En como espacio muestral, supondremos que este conjunto es un conjunto de Borel. Los subconjuntos de Borel de S forman asimismo una a-álgebra de Boole; supondremos que nuestras medidas de probabilidad están definidas sobre esas álgebras de Boole. Dichas álgebras son lo bastante amplias para incluir todos 10s sucesos que se presentan en las aplicaciones corrientes de la teoría de probabilidades. ESPACIOS

MUESTRALES

NO NUMERABLES.

br

.L i

w

w

w

14.2

Numerabilidad del conjunto de puntos con probabilidad positiva

Para espacios muestrales numerables la probabilidad de un suceso A se calcula a menudo sumando las probabilidades puntuales P(x) para todo x de A. Este método es aplicable para espacios muestrales no numerables porque, como el siguiente teorema pone de manifiesto, la mayor parte de las probabilidades puntuales son nulas. TEOREMA 14.1. Si (S,!J¿,P) es un espacio de probabilidad y si T es el conjunto de todos los x de S para los que P(x) > O, entonces T es numerable.

Demostración. subconjunto de S:

Para cada n = 1, 2, 3, ... , designemos con T« el siguiente

t; = Si P(x)

> O entonces

x

E

{x

1_+

1

n

_ 1

< P(x)

~

!}. n

T",para un cierto n. Recíprocamente, si x

E

T; para un

www.GRATIS2.com

PARA

Sean S un subconjunto de R", y !J¿ la a-álgebra de Boole de subconjuntos de Borel de S. Una función de conjunto no negativa, completamente aditiva P definida en &1con peS) = 1 se llama medida de probabilidad. La terna (S, !J¿,P) se llama espacio de probabilidad.

www.GRATIS2.com

DE PROBABILIDAD

os

DEFINICIÓN

pd

f1

.b lo gs p

ot .c

om

2

623

Variables aleatorias

cierto n entonces x E T. Luego T = TI U T2 U • Ahora bien T; contiene a lo sumo n puntos, pues si contuviera n + 1 puntos o más la suma de sus probabilidades puntuales excedería a 1. Por lo tanto T es numerable, puesto que es una reunión de conjuntos finitos. El teorema 14.1 nos dice que pueden asignarse probabilidades positivas a lo sumo a un subconjunto numerable de S. Los restantes puntos de S tendrán probabilidad cero. En particular, si todos los resultados de S son igualmente probables, entonces todo punto de S debe tener asignada probabilidad cero.

14.3 Variables aleatorias En muchos experimentos nos interesan números asociados a los resultados del experimento. Por ejemplo, n monedas se lanzan simultáneamente y preguntamos por el número de caras. Un par de dados ruedan y nos interesa la suma de los puntos conseguidos. Se lanza una flecha hacia un blanco circular y queremos saber la distancia desde el punto en que cayó, al centro. Siempre que asociamos un número real a cada resultado de un experimento estamos tratando con una función cuyo dominio es el conjunto de resultados posibles y cuyo recorrido es el conjunto de los números reales en cuestión. Una tal función se llama variable aleatoria. A continuación damos una definición formal de variable aleatoria:

www.GRATIS2.com

w

w

Puesto que la mayor parte de (si no todas) las probabilidades puntuales para un espacio muestral no numerable será cero, no basta conocer las probabilidades puntuales para calcular las probabilidades de sucesos arbitrarios. Se necesita más información; la descripción es mejor utilizando dos conceptos nuevos, las variables aleatorias y las funciones de distribución, a las que nos vamos a referir seguidamente. Dichos conceptos permiten hacer uso del Cálculo integral en muchos problemas con espacios muestrales no numerables. La integración sustituye a la sumación en el Cálculo de probabilidades.

www.GRATIS2.com

w

.L i

br

os

pd

f1

.b lo gs p

ot .c

om

Observación: Puede darse una interpretación física del teorema 14.1 en función de la distribución de masa que ayuda a comprender su significado. Imaginemos que disponemos de una cantidad de masa que totaliza 1. (Esto corresponde a P(S) = 1.) Supongamos que nos es posible distribuir esa masa del modo que queramos a lo largo del eje real, bien con espesor uniforme o variable, o bien colocando porciones discretas de masa en ciertos puntos, o de ambas maneras. (Interpretamos una cantidad positiva de masa como una porción discreta.) Podemos colocar toda la masa en un punto. Podemos dividir la masa en porciones discretas iguales o desiguales entre dos puntos, diez puntos, un millón de puntos, o entre un conjunto no numerable de puntos. Por ejemplo, podemos poner t en 1, t en 2, 1 en 3, etcétera, poner masa (!)n en cada entero n ~ 1. O podemos esparcir la masa sin ninguna porción concentrada. O podemos esparcir parte de ella y distribuir el resto en porciones discretas. El teorema 14.1 nos dice que a 10 más podemos asignar cantidades discretas de masa a un conjunto numerable de puntos.

624

Cálculo de probabilidades

DEFINICIÓN DE VARIABLE ALEATORIA. Sea S un espacio muestral. Una función real definida en S se llama variable aleatoria unidimensional. Si los valores de la función son pares ordenados de números reales (esto es, vectores en E2), la función es una variable aleatoria bidimensional. Más general, una variable aleatoria n-dimensional es simplemente una función cuyo dominio es el espacio muestral dado S y cuyo recorrido es un colección de n-plas de números reales (vectores en En)'

w

A continuación damos algunos ejemplos sencillos de variables aleatorias. EJEMPLO 1. Un experimento consiste en echar un dado y leer el número de puntos conseguido. La variable aleatoria más «natural» a considerar es el número grabado por el fabricante en el dado, a saber:

X(w)=w

para

w=I,2,3,4,5,6.

Si estamos interesados en si el número de puntos es par o impar, debemos considerar otra variable aleatoria Y, definida como sigue: Y(w)

=

O

Y(w) = 1

si co es par, si t» es impar.

(*) La expresron «variable estocástica" se usa también como sinónimo de «variable¡ aleatoria». La palabra «estocástica» procede de una raíz griega que significa «suerte» y según parece fue inventada por J akob Bernoulli y se usa frecuentemente en la literatura de la teoría de probabilidades.

www.GRATIS2.com

w

w

.L i

br

os

pd

f1

Notaciones. Ordinariamente se emplean para representar variables aleatorias unidimensionales letras mayúsculas tales como X, Y, Z. El resultado de un experimento se representa con la letra griega w. Así que, X(w) representa aquel número real que en la variable aleatoria X está asociado al resultado co,

www.GRATIS2.com

.b lo gs p

ot .c

om

Así pues, una variable aleatoria no es más que una función vectorial definida en un conjunto. La palabra «aleatoria» tan sólo se usa para recordar que el conjunto en cuestión es un espacio muestral (*). A causa de la generalidad de la anterior definición es posible tener distintas variables aleatorias asociadas a un mismo experimento. En cada caso particular el experimentador debe decidir cuáles son las variables aleatorias que le interesan. Generalmente, procuramos trabajar con las variables aleatorias cuyas funciones reflejan, con la máxima simplicidad posible, las propiedades de los resultados del experimento que son realmente esenciales.

Ejercicios

625

Los valores O y 1 no son esenciales -podría utilizarse cualquier par de números reales distintos. No obstante, O y 1 sugieren «par» o «impar», respectivamente, porque representan el resto que se obtiene al dividir el resultado w por 2.

w

w

X=t.

= = = =

=

La probabilidad de ese suceso se nota P(X t) en lugar de poner P({w¡X(w) t}). Los símbolos tales como P(X a o X b) Y P(a < X 5 b) se definen de modo parecido. Así pues, el suceso «X a o X b» es la reunión de los dos sucesos «X a» y «X b»; el símbolo P(X a o X b) representa la probabilidad de esa reunión. El suceso «a < X 5 b» es el conjunto de todos los puntos w tales que X( w) pertenece al intervalo semiabierto (a, b], y el símbolo P(a < X 5 b) representa la probabilidad de ese suceso.

=

=

14.4

=

=

=

Ejercicios

1. Sea X una variable aleatoria unidimensional. a) Si a < b, demostrar que los dos sucesos a < X ::5 b y X ::5 a son disjuntos. b) Determinar la reunión de los dos sucesos de la parte a). e) Demostrar que P(a < X ::5 b) = P(X ::5 b) - P(X ::5 a). 2. Sea (X, Y) una variable aleatoria bidimensional definida sobre un espacio muestral S. Esto significa que (X, Y) es una función que asigna a cada w de S un par de números reales (X(w), Y(w». Naturalmente, cada X y cada Y es una variable aleatoria unidimensional definida en S. La notación

X:-::;;a,

r s»

www.GRATIS2.com

w

.L i

br

os

pd

f1

Notaciones. Evitamos la notación engorrosa empleando notaciones breves para describir ciertos tipos de sucesos y sus probabilidades. Por ejemplo, si t es un número real, el conjunto de todos los w del espacio muestral tales que X(w) = t se representa brevemente poniendo

www.GRATIS2.com

.b lo gs p

ot .c

om

EJEMPLO 2. Se lanza una flecha hacia un blanco circular. El conjunto de todos los resultados posibles es el de todos los puntos w del blanco. Si imaginamos un sistema de coordenadas colocado en el blanco con el origen en su centro, podemos asignar diversas variables aleatorias a este experimento. Una de ellas es la variable bidimensional que asigna al punto w sus coordenadas rectangulares (x, y). Otra es el par de coordenadas polares (r, 6) del punto w. Como ejemplos de variables unidimensionales son aquellas que asignan a cada w una de sus coordenadas, tales como la x o la r. En un experimento de este tipo deseamos a menudo conocer la probabilidad de que la flecha toque en una determinada región del blanco, por ejemplo, el primer cuadrante. Este suceso se puede describir de la manera más simple mediante la variable aleatoria que asigna a cada Eunto w su coordenada polar 6, así que X(w) = 6; el suceso «la flecha da en el primer cuadrante» es el conjunto de valores de w tales que O 5 X(w) 5 l/27T.

Cálculo de probabilidades

626

3.

14.5

Funciones de distribución

Volvemos de nuevo al problema del cálculo de probabilidades de un suceso asociado a una cierta variable aleatoria, Sea X una variable aleatoria unidimensional definida en un espacio muestral S, siendo S un conjunto de Borel en En para n 2:: 1, Sea P una medida de probabilidad definida en los subconjuntos de Borel de S, Para cada ro de S, X(ro) es un número real, y cuando ro recorre los elementos de S los números X(ro) recorren un conjunto de números reales (el recorrido de X),

www.GRATIS2.com

6.

www.GRATIS2.com

w

w

w

.L i

br

os

pd

f1

5.

.b lo gs p

ot .c

om

4.

representa el conjunto de todos los elementos w de S tales que X(w) ::; a y Y(w) :s b. a) Si a < b y e < d, expresar, en función de los elementos de S, el significado de la siguiente notación: a < X :s b, e < y ::; d. b) Demostrar que los dos sucesos «X::; u. Y < C» y «X::; a, e < y ::; d» son disjuntos. Interpretar geométricamente esos sucesos. e) Determinar la reunión de los dos sucesos del apartado b). d) Generalizar el ejercicio 1 e) al caso bidimensional. Se echan dos dados correctos, siendo cada resultado un par ordenado (a, b), siendo a y b enteros del 1 al 6. Sea X la variable aleatoria que asigna el valor a + b al resultado (a, b). a) Describir, en la notación en lista, los sucesos «X = 7», «X = 11», «X = 7 Ó X = 11». b) Calcular las probabilidades de los sucesos de la parte a). Consideremos un experimento en el que se lanzan cuatro monedas simultáneamente (o una moneda se lanza cuatro veces). Para cada moneda definimos una variable aleatoria que asigna el valor 1 a la e.ira y el O a la cruz, y representemos esas variables aleatorias por XI, X:!, X;¡, XI, asignando las probabilidades P(X;= t)=P(X;=O)= % para cada X; Considerar. una nueva variable aleatoria Y que asigne a cada resultado el número total de caras de las cuatro monedas. Expresar Y en función de P(Y=O), P(Y=l), y P(Y:Sl). XI, X:!, X;¡, X4 y calcular las probabilidades Una pequeña compañía ferroviaria tiene medios para el transporte de lOO pasajeros por día entre dos ciudades, por un coste (para la compañía) de 7 $ por pasajero. Si algún día compran billetes más de 100 pasajeros la compañía está obligada a proporcionar transporte en autobús a los pasajeros que exceden por un coste de 10 S por persona. Sea X la variable aleatoria que representa el número de pasajeros que compran billetes en un día determinado. Los valores posibles de X son los enteros O, 1, 2, 3, ... hasta una cierto máximo desconocido. Si con Y representamos la variable aleatoria que expresa el coste total diario (en dólares) para la compafiía por los pasajeros despachados, expresar Y en función de X. Una factoría de producción en cadena consta de dos estaciones de trabaje A y B. En la estación A, se montan X unidades por hora; inmediatamente son- transportadas a la estación B, donde son inspeccionadas a razón de Y unidades por hora. siendo y < X. Los posibles valores de X e Y son los enteros 8, 9 Y 10. Si Z es la variable aleatoria que representa el número de unidades que salen de la cadena en la primera hora de producción: a) Expresar Z en función de X e Y, suponiendo cada X y cada Y constantes durante esta hora. b) Describir, de manera parecida, la variable aleatoria U que cuenta el número de unidades producidas en las dos primeras horas. Cada una de las X e Y es constante durante cada hora, pero los valores constantes durante la segunda hora no deben necesariamente coincidir con los de la primera.

Funciones de distribución

62i

Este conjunto puede ser finito, infinito numerable, o no numerable. Para cada número real t consideramos el siguiente subconjunto de S: A(t)

=

{ro I X(w) ~ t}.

os

.L i

br

se llama la función de distribución de la variable aleatoria X.

w

w

w

Observación. Algunas veces, la notación F« se utiliza para resaltar el hecho de que la función de distribución está asociada a una cierta variable X. Entonces el valor de la función en t se escribe Fx(t).

Es importante darse cuenta de que la función de distribución F está definida sobre el eje real completo, aun cuando el recorrido de X puede ser una porción acotada del eje real. En efecto, si todos los números X(w) están en un cierto intervalo finito [a, b], entonces para t < a la probabilidad P(X ::; t) es cero (ya que para t < a el conjunto X ::; t es vacío) y para t ~ b la probabilidad P(X -s t) es 1 (debido a que en este caso el conjunto X ::; t es el espacio muestral completo), Esto significa que para variables aleatorias X acotadas cuyo recorrido está dentro de un intervalo [a, b] tenemos F(t) = O para todo t < a y F(t) = 1 para todo t ~ b, Procederemos ahora a deducir un cierto número de propiedades comunes a todas las funciones de distribución. TEOREMA 14.2. Si F es una función de distribución de una variable aleatoria unidimensional X, entonces a) O ~ F(t) ~ 1 para todo t. b) Pea < X ~ b) = F(b) - F(a) si a < b. e) F(a) ~ F(b) si a < b.

www.GRATIS2.com

f1

= P(X ~ t) pd

F(t)

.b lo gs p

DEFINICIÓN DE FUNCIÓN DE DISTRIBUCIÓN. Sea X una variable aleatoria unidimensional. La función F definida para todo t real mediante la ecuación

www.GRATIS2.com

ot .c

om

Si t es menor que todos los números del recorrido de X, el conjunto A(t) será vacío; de lo contrario, A(t) será un subconjunto de S no vacío. Suponemos que para cada t el conjunto A(t) es un suceso, esto es, un conjunto de Borel. De acuerdo con el convenio establecido al final de la sección 14.3, representamos este suceso con el símbolo X .s t. Suponemos conocida la probabilidad P(X .s t) para todo t real. Este conocimiento nos permitirá calcular las probabilidades de otros muchos sucesos de interés. Para lograrlo se usan las probabilidades P(X ::; t) como base para la construcción de una nueva función F, llamada función de distribución de X que se define de la manera siguiente:

Cálculo de probabilidades

628

Demostración. La parte a) se deduce inmediatamente de la definición de F porque la probabilidad está siempre comprendida entre O y 1. Para demostrar b) observemos que los sucesos «a < X -s b» y «X .s a» son disjuntos. Su reunión es el suceso «X ~ b», Aplicando la aditividad obtenemos Pea

b, ya que X tiene todos sus valores en [a, b], Introduzcamos una nueva función g definida en el intervalo semi abierto' (O, b - a] mediante la ecuación

=

w

w

w

.L i

br

=

g(u) = Pea

< X':::;;a + u)

si

O

0, v > O, u + v ::5 b - a. Esta es la llamada ecuación funcional de Cauchv, Demostraremos en breve que toda solu-

www.GRATIS2.com

F(e

www.GRATIS2.com

+ h) =

.b lo gs p

P(e .:::;;X':::;; e

ot .c

om

Demostración. Supongamos primero que X tiene una función de distribución sobre [a, b]. Si [e, e + h] es un subintervalo cualquiera de [a, b] de longitud h tenemos

Distribuci6n

uniforme

643

sobre un intervalo

ción no negativa de la ecuación funcional de Cauchy viene dada por g(u)

= -- u

para O < u ~ b - a.

g(b - a)

b-a

Aplicando esto en la ecuación (14.18) encontramos que para O < u:5 b - a tenemos u u

~ b)

+

pea

T) = 0.95.

www.GRATIS2.com

.b lo gs p

ot .c

om

=

Cálculo de probabilidades

652

exponencial con deterioro constante .\. El deterioro constante puede calcularse en función de la vida media. Si t, es la vida media entonces t = g(t1)/g(O) = rAI1 , así que .\ = (lag 2)/t,. Por ejemplo, si se sabe que la vida media de una gran muestra de tubos es 693 horas, obtenemos .\ = (log 2)/693 = 0,001. 14.14

Distribuciones

normales

Sean m y a dos números reales fijos, siendo o > O. Se dice que una variable aleatoria X tiene distribución normal de media m y varianza si la función de densidad es (]'2

=

ot .c

F es, naturalmente,

JI

e-[{u-m)/u]2/2

du.

-00

pd os br .L i w w

w

/(111)

=

1 crv

é

2

rr

111

FIGURA

14.9 Función de distribución normal canónica: m = O. (J = 1.

FIGURA

tribución

14.10 Función densidad de una disnormal de media m y varianza a2•

Es evidente que esta función F es monótona creciente y continua en todo el eje real, y que tiende a cero cuando t ~ - oc. También se puede demostrar que F(t) ~.1 cuando t ~ + oo , (Véase ejercicio 7 de la sección 14.16.) El caso particular m O, a 1 es la distribución normal canónica. En tal caso la función F se representa ordinariamente con la letra e],

P[IX - E(X)I

donde e es un número positivo dado. En el caso continuo tenemos = 1-

=

J

+ e]

JE(XI+C

+C()

fx(t)

dt -



E(X)-c

-C()

E(X)-C

fx(t)

-C()

dt

-

+

fx(t)

dt

f+C() fx(t)

E(X)+c

dt ;

.b lo gs p

(14.43)

- e ~ X ~ E(X)

w

w

w

.L i

br

os

pd

f1

por consiguiente, el cálculo de esa probabilidad puede llevarse a efecto tan pronto se conozca la densidad [x. Naturalmente, si [x es incógnita este método no nos da información alguna. No obstante, si la varianza se conoce, podemos obtener una cota superior en (14.43). Tal cota superior nos la proporciona el siguiente teorema de P. L. Chebyshev (1821-1894), famoso matemático ruso que aportó notables contribuciones al Cálculo de probabilidades y a otras ramas de la Matemática, en especial a la Teoría de números. TEOREMA 14.11. DESIGUALDAD DE CHEBYSHEV. Si X es una variable aleatoria unidimensional con esperanza finita E(X) y con varianza Var (X), entonces para todo número positivo e tenemos

P[¡X _ E(X)I

(14.44)

> e]

~ Var ~X) . e

En el caso continuo tenemos:

Demostración.

+C()

Var (X)

=

f

[t - E(X)]2fx(t)

-C()

dt

~E(X)-c

~ J

[t - E(X)]2fx(t) -C()

(J

E(X)-C

~e2

-C()

En virtud

dt

fx(t)dt+

f+C() E(X)+c

+

f+C()

[t - E(X)]2fx(t)

E(X)+c

fx(t)dt.

dt

)

de (14.43), el coeficiente de c2 en el segundo miembro es P[iX-E(X)I>c]. Por consiguiente, dividiendo por c2 obtenemos (14.44). El caso discreto puede tratarse en forma semejante.

www.GRATIS2.com

J

~ e] = 1 - P[E(X)

www.GRATIS2.com

=

P[¡X - E(X)I

om

> e]

ot .c

P[IX - E(X)I

Leyes de los grandes números

6S5

La desigualdad de Chebyshev nos dice que cuanto mayor sea e tanto menor será la probabilidad de que IX - E(X)I > c. Dicho de otro modo, no es probable que X se desvíe mucho del valor E(X); 10 mismo ocurre si la varianza Var(X) es pequeña. Si reemplazarnos e por ka, sicndok > O y u representa la desviación típica [u = vVar(X)], la desiguadad de Chebyshev se convierte en P[IX

> ka] :s;;

- E(X)I

0'

EJEMPLO. Comprobación de una moneda. Deseamos comprobar si una moneda es «correcta» o no, lanzándola 10 000 veces y registrando el número de caras. Para una moneda «correcta» la variable aleatoria X que cuenta el número de caras tiene distribución binomial con parámetros n = 10 000 y p = ~~.La media de X es np = 5 000 y la desviación típica es u = V npq = 50. (Véase el ejemplo 2 en la sección 14.25). Como antes se dijo, la probabilidad para que una variable aleatoria con distribución binomial difiera del valor esperado en más de 3u es aproximadamente 0,003. Por 10 tanto, convendremos en decir que una moneda «no es correcta» si el número de caras en 10000 tiradas difiere de la media en más de 3u. Puesto que E(X) = 5000 y 3u = 150, podríamos afirmar que la moneda «no es correcta» si el número de caras en 10 000 tiradas es menor que 4 850 o mayor que 5 150.

14.29

Leyes de los grandes números

Al hablar de problemas de monedas, se dice a menudo que la probabilidad de

www.GRATIS2.com

www.GRATIS2.com

w

w

w

.L i

br

os

pd

f1

.b lo gs p

ot .c

om

Esto es, la probabilidad de que X difiera de su valor esperado más de k veces la desviación típica no excede de 1/k2• Por ejemplo, cuando k = 10 esa desigualdad nos dice que la probabilidad P[IX - E(X)I > lOu] no excede a 0,010. Es decir, la probabilidad de que un valor observado de X difiera del valor esperado en más de 10 veces la desviación típica, no supera a 0,010. Análogamente, cuando k = 3 encontramos que la probabilidad de que un valor observado difiera de la media en más de tres veces la desviación típica, no supera a 0,111. La desigualdad de Chebyshev es un teorema general que se aplica a todas las distribuciones. En muchas aplicaciones, cuando se tiene más información acerca de la distribución que se considera, se puede mejorar esa desigualdad. Por ejemplo, si X tiene distribución binomial con parámetros n y p se puede demostrar (utilizando la aproximación normal de la distribución binomial) que para valores grandes de n la probabilidad de que un valor observado difiera de la medida en más de tres desviaciones típicas es próxima a 0,003. (Para este resultado, basta n ~ 12.) Esta probabilidad es mucho más pequeña que la 0,111 conseguida con la desigualdad de Chebyshev.

Cálculo de probabilidades

686

que salga cara con una moneda perfectamente equilibrada es lIz. Esto no significa que si una moneda se lance dos veces salga necesariamente cara una sola vez. Ni que en 1 000 tiradas salgan exactamente 500 caras. Representemos con h(n) el número de caras que se presentan en n tiradas. La experiencia nos demuestra que incluso para n muy grande, la razón h(n)/n no es necesariamente lIz. No obstante, la misma experiencia nos dice que esa razón parece aproximarse a lIz cuando n crece, si bien puede oscilar considerablemente en torno a lIz durante el proceso. Esto nos sugiere la posibilidad de demostrar que lim h(n) = 1 n 2 .

(14.45)

n-+oo

Introduciendo una conveniente variable aleatoria y aplicando la desigualdad de Chebyshev podemos conseguir una cota superior útil de esa probabilidad, una cota que no exige un conocimiento explícito de hin), Esto nos lleva a un nuevo límite que reemplazará en forma adecuada al (14.45). No exige gran esfuerzo tratar el caso más general de una sucesión de pruebas de Bemoulli, en la que la probabilidad de «éxito» o «suceso favorable» sea p y la de «fallo» o «suceso contrario» sea q. (En el lanzamiento de la moneda, el «éxito» será por ejemplo «cara» y tomamos p = lIz.) Sea X la variable aleatoria que cuenta el número de sucesos favorables en n pruebas independientes. En tal caso X tiene distribución binomial con esperanza E(X) = np y varianza Var(X) = = npq. Luego la desigualdad de Chebyshev es aplicable; ella nos dice que (14.46)

P(lX

-

npl

> e)

S nP2Q



e

Puesto que nos interesa la razón X]n, que podemos llamar frecuencía relativa del

www.GRATIS2.com

www.GRATIS2.com

w

w

w

.L i

br

os

pd

f1

.b lo gs p

ot .c

om

Desgraciadamente, esto no es posible. Una de las dificultades es que el número h(n) depende no tan sólo de n, sino también de la ejecución del experimento. No tenemos medio de conocer de antemano cómo varía h(n) de un experimento a otro. Pero la dificultad real es que es posible (aunque no muy probable) que en alguna determinada experiencia la razón h(n)/n no tienda a lIz en absoluto. Por ejemplo, no hay razón para excluir la posibilidad de que salga cara en todas las tiradas de la moneda, en cuyo caso h(n) = n y h(n)/n ~ 1. Por consiguiente, en lugar de intentar la demostración de la fórmula (14.45), encontraremos más razonable (y más útil) averiguar la probabilidad de que h(n)/n difiera de lIz en una cierta cantidad. Dicho de otro modo, dado un cierto número positivo e, determinar la probabilidad

Leyes de los grandes números

Ix -

suceso, dividimos la desigualdad así

>

np!

e por n

687

y volvemos

a escribir (14.46)

(14.47)

Ya que esto es válido para todo e > O, podemos hacer que e dependa de n y escribir e = En, siendo E un número positivo fijo. Entonces (14.47) se transforma en

> O, fijo,

pd

f1

E

w

w

w

.L i

br

os

que se denomina la ley de los grandes números para la distribucián de Bernoulli Ella nos dice que, dado un E > O (por pequeño que sea), la probabilidad de que la frecuencia relativa del suceso difiera de p en más de E es una función de n que tiende a O cuando n ~ oo , Esta relación nos da una justificación matemática para la asignación de la probabilidad % al suceso de conseguir cara con una moneda perfectamente equilibrada. El límite (14.48) es un caso particular de un resultado más general en el que la «frecuencia relativa» X/n es reemplazada por la media aritmética de n variables aleatorias independientes con la misma esperanza y la misma varianza. Este teorema más general se conoce con el nombre de ley débil de los grandes números; puede establecerse así: TEOREMA 14.12. LEY DÉBIL DE LOS GRANDES NÚMEROS. Sean Xl> X2, ••• .X; n variables aleatorias independientes, todas con la misma esperanza y la misma varianza, y sean

y

=

Var (Xk)

a2

para

k

=

1,2, ...

,n.

Definamos una nueva variable aleatoria X (llamada media aritmética de Xl> X2, ••• , X,,) mediante la igualdad

x=

1

-¿X

11

11

k~l

k'

www.GRATIS2.com

para todo

(14.48)

www.GRATIS2.com

.b lo gs p

ot .c

om

El hecho de que aparezca n en el denominador del segundo miembro sugiere que hagamos tender n a oo , Esto nos conduce a la fórmula

Cálculo de probabilidades Entonces,

para todo

E

>

O, fijo, tenemos

(14.49)

1im P(

IX -

In I

> E)

= O.

1l-00

Una proposición

equivalente

es

mi ~

lim P(I X -

(14.50)

E)

= 1.

n-e co

la desigualdad de Chebyshev y la varianza de X. Éstas son: _ Var (X)

y

a

X. Para ello ne-

a2 =-.

pd

f1

.b lo gs p

(Véase el ejercicio 5 de la sección 14.27.) La desigualdad de Chebyshev se convierte en P(IX - mi > c) .s a2/(nc2). Haciendo que n ~ 00 y sustituyendo e por E obtenemos (14.49) y por lo tanto (14.50).

w

w

w

.L i

br

os

Observación. Para demostrar que el límite (14.48) es un caso particular del teorema 14.12, supongamos que cada X¡ tiene los valores posibles O 't 1, con probabilidades P(Xk = 1) = p y P(Xk = O) = 1 - p. Entonces X es la frecuencia relativa de éxito en n pruebas independientes, E(X)= p, y (14.49) se reduce a (14.48).

El teorema 14.12 se denomina ley débil porque existe también una ley fuerte de los grandes números que (bajo las mismas hipótesis) establece que (14.51)

p(limIXn~oo

mi =

o) = 1.

La diferencia esencial entre (14.51) y (14.50) es que las operaciones «límite» y «probabilidad» están intercambiadas. Puede demostrarse que la ley fuerte implica la débil, pero no al revés. Obsérvese que la ley fuerte (14.51) parece ser más próxima a la (14.45) que a la (14.50). En realidad, (14.51) nos dice que lim X = m «casi siempre», es decir, con probabilidad 1. En particular, si la aplicamos al juego de cara y cruz, nos dice que el que no se cumpla la igualdad (14.45) es menos probable que el conseguir siempre cara al lanzar repetidamente una moneda correcta. La ley fuerte pone de manifiesto por qué la teoría de la probabilidad corresponde a la experiencia y a nuestra sensación intuitiva de lo que «debe ser» la probabilidad. La demostración de la ley fuerte es larga y la omitiremos. Puede verse en las obras citadas en las referencias 1, 3, 8 Y 10 del final de este capítulo.

www.GRATIS2.com

ot .c

n

www.GRATIS2.com

=m

E(X)

om

Demostración. Aplicamos cesitamos conocer la esperanza

El teorema central del límite

14.30

El teorema central del límite

=

1,2, ....

las n primeras

diferencias



Sr¡

= L(Xk

w

.L i

br

XI;-ml;:

w

w

(14.52)

-

mk)·

k~l

En lugar de las X¿ sumamos las diferencias de manera que la suma S; tendrá por valor esperado el O. El problema consiste en determinar la forma límite de la función de distribución de S; cuando n ~ oo , Si X" X2, ••• , X; son independientes, tenemos [en virtud del ejercicio 4 e) de la sección 14.27] r¡ Var (Sr¡)

= LVar

(Xk

-

k~l



m

k)

= LVar k~l



(Xk)

= La:. k=l

Ordinariamente, la Var(Sn) será grande aunque las varianzas particulares (1% sean pequeñas. Las variables aleatorias con gran varianza no interesan porque sus valores tienden a presentar gran dispersión respecto al valor esperado. Por este motivo, se introduce una nueva variable aleatoria Tn mediante la fórmula (14.53)

=

T n

Esta variable tiene esperanza

Sr¡ ~Var (Sr¡)

O y varianza

1 y se llama variable aleatoria

reducida.

www.GRATIS2.com

Sn sumando

aleatoria

pd

una nueva variable

k

os

Formamos

f1

y

www.GRATIS2.com

.b lo gs p

ot .c

om

En muchas aplicaciones del Cálculo de probabilidades, las variables aleatorias son sumas de otras variables aleatorias. Por ejemplo, el resultado (en dinero) después de varias partidas de juego es la suma de las ganancias en cada una. Un hecho sorprendente acontece cuando se suman un gran número de variables aleatorias. Bajo condiciones generales (aplicable casi a todos los casos prácticos que se presentan) la distribución de la suma tiende a ser normal, prescindiendo de las distribuciones de cada una de las variables aleatorias que forman la suma. El enunciado preciso de este hecho notable se conoce como el teorema central del límite del Cálculo de probabilidades. Lo que explica la importancia de la distribución normal tanto en la teoría como en la práctica. La discusión completa de este teorema pertenece al estudio superior del Cálculo de probabilidades. En esta sección se explicará solamente lo que afirma el teorema. Sea una sucesión indefinida de variables aleatorias, X" X2, ••• , con esperanzas y varianzas finitas. Sean éstas:

Cálculo de probabilidades

690

La variable aleatoria reducida T n tiene pleno sentido aun cuando las variables Xl' X2, ••• , X; no sean independientes. Introducimos ahora la siguiente definición: DEFINICIÓN

DE LA PROPIEDAD

CENTRAL DEL LÍMITE.

Sea

(14.54) una suceston de cada X; tiene una mediante (14.52) central del límite

variables aleatorias (no necesariamente independientes), donde esperanza m¿ y una varianza a~ ambas finitas. Se definen Sn y T; y (14.53). Se dice que la sucesión (14.54) satisface la propiedad si, para todo par a y b siendo a .s b, tenemos

w

w

w

.L i

br

os

pd

f1

00

Tn

=

L~~lXk

- nm

a.Jn-'

Lindeberg se dio cuenta de que tan sólo la independencia no es suficiente para garantizar la propiedad central del límite, pero formuló otra condición (1a condición de Lindeberg) que, junto con la independencia es suficiente. En 1935, W. Feller demostró que la condición de Lindeberg es necesaria y suficiente para que las variables aleatorias independientes satisfagan la propiedad central del límite. Aquí no haremos la discusión de la condición de Lindeberg, sólo mencionaremos que ella implica Var

(Sn)

---+

CXJ

cuando n

---+

CXJ.

www.GRATIS2.com

.b lo gs p

Dicho de otro modo, las variables aleatorias (14.54) satisfacen la propiedad central del límite si la distribución de la variable reducida T•• se aproxima a una distribución normal cuando n ~ oo , [La igualdad (14.55) es válida también si a = o b = + oo.] Laplace fue el primero en comprobar que muchas sucesiones de variables aleatorias satisfacen esta propiedad, si bien antes De Moivre conocía un caso particular (el de variables aleatorias que constituyen una sucesión de pruebas de Bernoulli). La figura 14.11 muestra una distribución binomial y la correspondiente aproximación normal. Laplace estableció un teorema central del límite general que fue demostrado por primera vez en forma completa por el matemático ruso A. Lyapunov en 1901. En 1922, J. W. Lindeberg generalizó el resultado de Laplace demostrando que la propiedad se cumple si las variables aleatorias son independientes y tienen una distribución común con las mismas esperanzas y varianzas, o sea E(Xk) = m y Var(Xk) = (72 para todo k. En tal caso la variable reducida es:

www.GRATIS2.com

ot .c

om

(14.55)

Ejercicios

691

Afortunadamente, muchas variables aleatorias independientes que en la práctica se presentan, satisfacen la condición de Lindeberg y por consiguiente también la propiedad central del límite. Hasta ahora, la teoría para variables aleatorias dependientes es incompleta. Tan sólo se han tratado unos pocos casos particulares. La investigación contemporánea en Cálculo de probabilidades en gran parte está centrada en la búsqueda de teoremas generales referentes a variables dependientes. 14.31 Ejercicios 1. Demostrar la desigualdad de Chebyshev en el caso discreto. 2. Si a es un número real cualquiera, demostrar que

al >

1 cA) ~ 2 e

ot .c

.b lo gs p

f1 pd os br .L i

w

w

w

4. Se lanza n veces una moneda «correcta»; el número de caras se representa por X. Encontrar el menor valor de n para el que la desigualdad de Chebyshev implique

p( 0.4 < ~ < 0.6)

> 0.90.

5. En una cadena de producción el número X de artículos manufacturados defectuosos en una determinada hora se sabe que tíene una distribución de Poisson con media E(X) = 100. Emplear la desigualdad de Chebyshev para calcular una cota inferior para la probabilidad de que en una hora determinada los artículos defectuosos producidos esté comprendidos entre 90 y 110. 6. Supongamos que una variable aleatoria X tenga una distribución normal canónica (media y varianza 1). Representemos con p la probabilidad de que X difiera de su esperanza E(X) en más de tres veces la desviación típica. Aplicar la desigualdad de Chebyshev para encontrar una cota superior de p. Seguidamente, usando las correspondientes tablas de la distribución normal, comprobar que hay una cota superior de p que es aproximadamente igual a un cincuentavo de la obtenida por la desigualdad de Chebyshev. 7. Dada una sucesión de variables independientes XI, Xz, ... .con distribución normal cada una. Sean ni. = E(X.) y a~ = Var (Xd. Probar que tal sucesión tiene la propiedad central del limite. [Indicación: Recuérdese el ejercicio 7 de la sección 14.24.J 8. Sean las variables aleatorias independientes Xl, Xz, ... , con la misma distribución bino. mial. Supongamos que cada X. toma los valores O y 1 con probabilidades P(X. = 1) = P y P(X. = O) = q, siendo p + q = 1. La variable aleatoria Z" = Xl + Xz + ... + X" cuenta el número de éxitos en n pruebas de Bernoullí.

°

www.GRATIS2.com

om

e~

para todo e > 0, siendo ;\2 = (t- a)2 fx(t) dt, La desigualdad de Chebyshev es el caso particular en el que a = E(X). 3. Sea X la variable aleatoria que cuenta el número de éxitos en n pruebas independientes de una sucesión de Bernoulli; la probabilidad dc éxito es p. Demostrar que, para todo € > 0,

www.GRATIS2.com

P(IX -

Cálculo de probabilidades

692 a) Demostrar

que la propiedad

central del límite toma la forma siguiente:

lim P Z" ---- (

IIp

~ t ) = --

J7;¡;q

,,->00

lIt

Jk

e-U

2



12

du .

_eh

+ ~) _

IIpq

((/-

IIp -

J7;¡;q

t)

cuando

11

-->-

cc ,

w

w

w

.L i

.J

b) Se lanza un dado in sesgado o correcto 180 veces. Usar la aproximación sugerida en la parte a) para estimar la probabilidad de que salga un seis exactamente 30 veces. Para los cálculos hacer uso de las tablas de distribución normal 14.1. 10. Se lanza un dado insesgado o correcto 100 veces, Utilizar la aproximación sugerida en el ejercicio 9 a) para estimar la probabilidad de que salga un seis a) exactamente 25 veces, b) por lo menos 25 veces. Para los cálculos utilizar tablas de distribución normal.

Referencias

citadas

1. H. Cramér, Elements of Probabilitv Theory, Iohn Wiley, New York, 1955. 2. H. Crarnér, Mathematical Methods of Statistics, Prineeton Univ. Press, Princeton, N. J., 1946. 3. W. Fel1er, An lntroduction lo Probability Theory and its Applications, 2.aedición [ohn Wiley, New York, 1957. 4. B. V. Gnedenko y A. N. Kolmogorov, Limit Distnbutions; for Sums of Jndependent Randoni Variables. Addison-Wesley, Reading, Mass., 1954. 5. S. Goldberg, Probability, an lntroduction, Prentice-Hall, Englewood Cliffs, N. J., 1960. 6. H. Levy y L. Roth, Elements of Probability, Oxford Univ. Press, London y New York, 1936. 7. M. Loeve, Probabilitv Theory: Foundations, Random Sequen ces, Van Nostrand, Ncw York, 1955.

www.GRATIS2.com

pd I~

os

(b -

k

br

*(11) r«:' _

6

f1

.b lo gs p

ot .c

donde '1> es la distribución normal canónica. En este caso particular puede demostrarse que la fórmula también es válida cuando ti y 12 son funciones de n dadas por ti = (a - np)/,rnpq y /2 = (b - np)/v npq, donde a y b son constantes positivas prefijadas, a < b. a) Demostrar que esta relación implica la fórmula asintótica

www.GRATIS2.com

om

b) Usar la aproximación sugerida en la parte a) para estimar la probabilidad de obtener un número de caras comprendido entre 45 y 55 si se lanza 100 veces una moneda correcta. Recurrir a tablas de distribución normal para realizar el cálculo. 9. Con la notación del ejercicio 8, el teorema central dcl límite para variables aleatorias que forman una sucesión de pruebas de Bernoulli puede escribirse en la forma

Referencias citadas

693

www.GRATIS2.com

www.GRATIS2.com

w

w

w

.L i

br

os

pd

f1

.b lo gs p

ot .c

om

8. M. E. Munroe, Theory 01 Probability, McGraw-Hill Book Co., Inc., New York, 1951. 9. J. Neyman, First Course in Probability and Statistics, Holt, Rinehart and Winston, New York, 1950. 10. E. Parzen, Modern Probabilitv Theory and its Applications, Iohn Wiley, New York, 1960. 11. I. Todhunter, A History 01 the Mathematical Theory 01 Probability [rom the Time 01 Pascal to Laplace, Chelsea Publishing Co., New York, 1949. 12. J. V. Uspensky, 1ntroduction to Mathematical Probability, MacGraw-HiIl Book Co., Inc., Ncw York, 1937.

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.