Story Transcript
1306 ESTADISTICA
Alumno: Edmundo Héctor Osorio Guzmán Matricula: 1996-1300-1300 Licenciatura en Contaduría Pública
Fecha: 01 de Septiembre de 2011
Cuando algunas personas escuchan la palabra estadística, inmediatamente se imaginan cosas como: promedios de bateo, índices de accidentes, tasas de mortalidad etc, esta rama de la estadística recibe el nombre de estadística descriptiva, la cual consiste en organizar, resumir y simplificar, información que a menudo es bastante compleja. Otra rama de la estadística estudia la probabilidad, de gran utilidad para analizar situaciones en las que interviene el azar. La inferencia constituye una tercera rama de la estadística, consiste en el análisis e interpretación de una muestra de datos. Algunas veces se llevan a cabo estudios de mercado de los nuevos productos en ciudades claves, para establecer el grado de aceptación por el consumidor, el muestreo reduce la cantidad de datos que se deben reunir y analizar, por lo tanto, dicha operación reduce el costo. Las tres ramas de la estadística no son independientes y distintas por completo, en lugar de ello, tienden a superponerse considerablemente. Existen tres áreas muy relacionadas de interés en estadística: la descripción y resumen de datos, la teoría de la probabilidad y el análisis e interpretación de los datos de muestra. Las tres ramas de la estadística utilizan el método científico, que consiste en cinco pasos básicos Definir cuidadosamente el problema Formular un plan para recopilar los datos necesarios Reunir los datos Analizar e interpretar los mismos Anotar las conclusiones y otros descubrimientos. En la actualidad es común que los estudiantes crean que los cursos deben tener cierta utilidad, pero se debe considerar lo siguiente: Los métodos estadísticos se utilizan ampliamente En muchas circunstancias, los gerentes requieren saber estadística Uno de los principales instrumentos empleados ampliamente en estadística es el uso de modelos, los cuales constituyen versiones simplificadas de algunos problemas o situaciones de la vida real, existen muchos ejemplos del uso de modelos en la vida diaria. Un modelo interesante que se puede utilizar para ilustrar la forma como se realiza el muestreo, es una gran urna que contiene canicas de diferentes colores, las cuales representan los elementos que forman una población cualquiera. Otros modelos, como las gráficas y los diagramas, se utilizan para crear una imagen mental de una idea importante, las tablas y las ecuaciones sirven para resolver problemas. La estadística descriptiva requiere del uso de modelos numéricos y gráficos para resumir y presentar datos.
2
Un modelo es una versión simplificada de algún problema o situación de la vida real, concebida para destacar ciertos aspectos del problema, sin tener que analizar cada detalle. Los modelos son útiles en múltiples formas, entre otras cosas pueden servir para comunicar una idea o concepto, a menudo los modelos se consideran ideales como patrones de comparación, respecto a los cuales se puede juzgar o medir algo, los modelos ofrecen una forma relativamente barata y segura de probar las ideas antes de ponerlas en práctica, otra característica importante de los modelos, es que obligan al ejecutivo o a otro usuario a cuantificar y establecer concretamente toda la información que se tiene acerca del problema. Los aspectos fundamentales en el análisis estadístico son como reunir información útil y qué hacer con ella una vez obtenida, las distribuciones de probabilidad se incluyen tanto en la estadística descriptiva como en la teoría de la probabilidad y constituyen la base de la inferencia estadística. Los métodos estadísticos comprenden el análisis e interpretación de números, ventas mensuales, calificaciones de exámenes etc, a tales números se les conoce como datos. Los datos no procesados pueden carecer de significado, el procesamiento de datos nos sirve debido a que disminuye la cantidad de detalles, sin embargo, facilita la tarea de establecer relaciones. Las gráficas y los diagramas son particularmente eficaces para el procesamiento de datos, ya que proporcionan una imagen objetiva de las características principales de los mismos, los resúmenes visuales y numéricos también desempeñan un papel importante en el análisis estadístico; algunos usos comunes de ellas en las empresas son el balance general. Los datos estadísticos se obtienen mediante un proceso que comprende la observación o medición de conceptos, tales conceptos reciben el nombre de variables. Seleccionar el procedimiento que se habrá de utilizar para analizar o describir datos estadísticos depende de qué tipo sean, se debe aprender a identificar y manejar cuatro tipos de datos: continuos, discretos, nominales y jerarquizados. Las variables continuas pueden asumir cualquier valor en un intervalo continuo. Los datos que se obtienen acerca de estas variables reciben el nombre de datos continuos Las variables discretas adquieren valores enteros, los datos discretos son resultado de contar un número de conceptos y objetos. Los datos nominales se obtienen cuando se definen las categorías y se cuenta el número de observaciones que queda en cada una. Los datos jerarquizados constan de valores relativos asignados para denotar orden. 3
El análisis de datos suele realizarse de diversas maneras, dependiendo de si existe una cantidad pequeña o grande de datos que se deba analizar, con frecuencia un conjunto de números se puede reducir a una o unas cuantas medidas numéricas sencillas que resumen el conjunto total. Dos importantes características de los datos que las medidas numéricas pueden poner de manifiesto son: 1) el valor central o típico del conjunto y 2) la dispersión de los números. Las medidas de tendencia central se utilizan para indicar un valor que tiende a tipificar o a ser el más representativo de un conjunto de números. La media aritmética es lo que viene a l mente de la mayoría de las personas cuando se menciona la palabra promedio, la media presenta ciertas propiedades útiles e interesantes, que explican porqué se utiliza más ampliamente: La media siempre se puede calcular para un conjunto de números Existe una media única para un conjunto dado de números La media es sensible a cada valor del conjunto Si se suma una constante a cada valor del conjunto, la media aumentará por la misma cantidad. La suma de desviaciones de los números de un conjunto a partir de la media es cero. La segunda medida de tendencia central de un conjunto de números es la mediana, su característica principal es que divide un conjunto ordenado en dos grupos iguales, la mitad de los números tendrá valores que son menores que la mediana y la otra mitad alcanzará valores mayores que esta. El procedimiento para obtener la mediana es como sigue: Ordenar o clasificar los valores Contar para saber si existe un número de valores par o impar En caso de que se tenga un número impar de valores, la mediana es el valor intermedio. Elegir el uso de la media o la mediana como medidas de tendencia central depende de varios factores, la media se ve afectada o es influida por todo valor del conjunto, incluyendo los extremos, la mediana es relativamente insensible a valores extremos. La moda es el valor que con más frecuencia se presenta en un conjunto, el valor modal es descriptivo cuando se trabaja con conteo de datos. En comparación con la media y mediana, la moda es la menos útil para la mayoría de los problemas estadísticos, sin embargo desde un punto de vista puramente descriptivo, la moda es indicativa del valor típico en términos del valor que se presenta con mayor frecuencia.
4
Para describir en forma adecuada un conjunto de datos, son necesarios dos tipos de medidas de resumen, es conveniente también tener un método para expresar la cantidad de dispersión o difusión que hay entre los números. Es conveniente considerar cuatro variables de dispersión: La amplitud de variación: es generalmente la medida más sencilla de calcular y comprender. Dicha medida se puede expresar en dos formas: a) La diferencia entre los valores mayor y menor. b) Los valores mayor y menor del grupo. La desviación media: La desviación absoluta media mide la desviación promedio de valores con respecto a la media del grupo, sin tomar en cuenta el signo de la desviación. La variancia: La variancia de una muestra se calcula casi en la misma forma que la desviación media con dos pequeñas diferencias: a) Las desviaciones se elevan al cuadrado antes de ser sumadas b) Se obtiene el promedio utilizando n-1 en lugar de n, ya que esto pretende proporcionar u mejor cálculo de la variancia de la población. La desviación estándar: La desviación estándar de un conjunto de números se define como la raíz cuadrada positiva de la variancia. Todas estas medidas, excepto la amplitud de variación, toman a la media como punto de referencia. Los seres humanos requieren que en su vida haya un alto grado de estructura u organización, para desenvolverse en forma adecuada. Los métodos principales para organizar datos estadísticos comprenden el ordenamiento de elementos en subconjuntos que presentes cualidades semejantes. Una distribución de frecuencia es un agrupamiento de datos en clases que muestra el número o porcentaje de observaciones de cada una de ellas, una distribución de frecuencia se puede presentar en forma tabular y gráfica. Al elaborar una distribución de frecuencias que utiliza datos continuos, se pierde cierta información debido a que los valores individuales pierden su identidad cuando se agrupan en clases, esto puede o no suceder en el caso de datos discretos. Una distribución de frecuencias acumulada está diseñada para indicar el número o porcentaje de elementos que son menores que cierto valor específico o iguales a éste, las anteriores distribuciones se pueden convertir fácilmente a distribuciones acumuladas mediante sumas sucesivas de frecuencias de clase. Quizá las distribuciones de frecuencias más fáciles sean las que se utilizan para datos nominales y jerarquizados, esta simplicidad radica en el hecho en que las clases se ponen de manifiesto con más facilidad, de modo que los cálculos son mínimos.
5
Las probabilidades se utilizan para expresar cuán probable es determinado evento. Las probabilidades se plantean con respecto a algún evento, el evento en cuestión puede ser que llueva, que haya ganancias, etc. La probabilidad de algún evento es un número que va del 0 al 1 y que indica cuán probable es la ocurrencia del evento, cuanto más cerca se encuentre el número 1 tanto mayor es la probabilidad, cuanto más cercano sea el número a 0, menor es la probabilidad de que el evento ocurra. Uno de los conceptos matemáticos fundamentales, utilizados en el estudio de la probabilidad es el del conjunto, este es un grupo de objetos o elementos que tienen ciertas características comunes, hay dos formas de describir los elementos de un conjunto, uno es enumerar todos o los suficientes de ellos, de manera que quede de manifiesto que forman parte del conjunto; un segundo método de indicar un conjunto es establecer una regla. La probabilidad sólo tiene significado en el contexto de un espacio muestral, que es el conjunto de todos los posibles resultados de una muestra o experimento, los resultados de un experimento se denominan eventos. Los cálculos de probabilidades toman en consideración cómo se relacionan entre sí diversos eventos, los términos complemento, mutuamente excluyentes, y colectivamente exhaustivos se utilizan para escribir algunas de dichas relaciones. El complemento de un evento consta de todos los resultados del espacio muestral que no forman parte de él. Los eventos son mutuamente excluyentes si no presentan elementos en común. Se dice que los eventos son colectivamente exhaustivos si por lo menos uno de ellos debe ocurrir durante un experimento. Suele ser útil representar gráficamente un espacio muestral, dado que esto simplifica la visualización de los elementos del espacio muestral, esto se puede llevar a cabo utilizando un diagrama de Venn, que indica los espacios muestrales y los eventos mediante círculos, cuadrados o cualquier otra forma geométrica conveniente. Hay tres formas de calcular o estimar probabilidades: El enfoque clásico: este enfoque es el de las situaciones que tienen resultados igualmente probables, cuando los resultados son de este tipo, la probabilidad de cada resultado es simplemente una función del número de resultados posible. Probabilidades : las posibilidades y las probabilidades están estrechamente relacionadas, de hecho, las posibilidades son otra forma de expresar probabilidades, la única diferencia es que las primeras comparan el número de resultados favorables con el de no favorables, mientras que las probabilidades
6
establecen una comparación entre la cantidad de resultados favorables con el número total posible. El enfoque clásico de la asignación de probabilidades se ve limitado a situaciones en las que los resultados son igualmente probables, como cabría pensar, son muchos los casos en los que los resultados no son de ese tipo, actualmente no es del todo esencial realizar un experimento para obtener datos de muestreo, en muchos casos, se dispondrá de información histórica, la cual se puede utilizar precisamente de la misma manera. Cuando se emplea el enfoque empírico, es importante tomar en cuenta los siguientes puntos:
La probabilidad obtenida de esa manera es únicamente una estimación del valor real. Cuanto mayor sea el tamaño de la muestra, tanto mejor será la estimación de la probabilidad. La probabilidad es propia de sólo un conjunto de condiciones idénticas a aquellas en las que se obtuvieron los datos.
Cuando se utilizan frecuencias relativas, la definición correspondiente a las posibilidades se convierte en: Posibilidades a favor de A Posibilidades en contra de A Las probabilidades obtenidas mediante el enfoque clásico o el empírico reciben el nombre de probabilidades objetivas, ya que se derivan de hechos, sin embargo existen numerosas situaciones en las que no se puede emplear el enfoque objetivo. En estos casos, se debe hacer una evaluación subjetiva de la probabilidad. Nos hemos concentrado en las diversas definiciones de probabilidad y en la forma como dichas definiciones se pueden utilizar para determinar la probabilidad de cierto evento, estas ideas son importantes, pero no proporcionan la información suficiente para poder comprender realmente en qué forma se puede utilizar las probabilidades en la toma de decisiones. La probabilidad de que dos eventos ocurran recibe el nombre de probabilidad conjunta, y su cálculo difiere, dependiendo de si los eventos en cuestión son independientes o no, se considera que dos eventos son independientes entre sí, cuando la ocurrencia de un evento no esta relacionada con la ocurrencia del otro, si los eventos son dependientes, entonces saber que uno ha ocurrido puede ser útil para predecir la ocurrencia del otro.
7
La variable que tiene resultados o valores que tienden a variar de observación en observación debido a llos factores con el azar, recibe el nombre de variable aleatoria, es muy conveniente definir una variable aleatoria asociada con una muestra, de tal manera que sus resultados posibles sean numéricos. Una variable aleatoria es una función valorada numéricamente, cuyo valor está regida por factores en los que interviene el azar, una variable aleatoria se considera discreta si los valores que asume se pueden contar, se considera continua si puede asumir cualquier valor dentro de un determinado intervalo, esta diferencia es muy importante debido a que los diferentes modelos de probabilidad se utilizan según el tipo de variable aleatoria en consideración. Es interesante observar que el valor esperado se puede calcular aun cuando no se ha llevado a cabo observaciones muestrales y el valor esperado se puede estimar a partir de datos de muestreo, cuando las decisiones en finanzas se basan n valores esperados, se supone que existe una valuación lineal de las cantidades de dinero. Existe cierto número de situaciones en las que se deseará considerar una variable aleatoria que sea por si misma la suma de dos o más variables aleatorias, en estos casos se debe poder determinar la media y la desviación estándar respecto a la variable aleatoria resultante. La media de la suma de dos o más variables aleatorias es igual a la suma de las medias de dichas variables, la variancia de la suma de dos o más variables aleatorias es la suma de las variancias de dichas variables. Las distribuciones probabilísticas son las de distribuciones de frecuencias para los resultados de un espacio muestral, las frecuencias son frecuencias relativas o probabilidades, de este modo, las probabilidades indican el porcentaje de veces respecto a un gran número de observaciones en que se espera que se presenten los diversos resultados de una variable aleatoria. Dada una distribución de probabilidad es fácilmente evidente que algunos resultados de una variable aleatoria sean más probables que otros, además la probabilidad de un determinado resultado o grupo de resultados, se puede determinar sin mucho esfuerzo, en términos prácticos, por lo general no es necesario molestarse en calcular cada una de las probabilidades para obtener una distribución probabilística. Además del hecho de que las distribuciones probabilísticas proporcionan un método sencillo para la determinación de ciertas probabilidades, los tipos de distribución se pueden considerar como modelos que describen situaciones que comprenden resultados generados aleatoriamente. Los modelos comprenden establecer supuestos simplificadores y eliminar detalles sin importancia y a menudo se puede utilizar para hacer que los problemas complejos sean más cortos y fáciles de manejar, con mucha frecuencia se puede
8
utilizar un reducido número de modelos básicos para obtener soluciones para una amplia variedad de problemas que, a primera vista, parecen no estar relacionados. En estadística existe una gran variedad de tipos de distribuciones probabilísticas, cada una de las cuales tiene su propio conjunto de supuestos que definen las condiciones en las que cada tipo de distribución se puede emplear eficazmente. La validez de utilizar determinada distribución para un problema, dependerá de qué tan cerca se aproxime la situación de éste al conjunto de condiciones supuestas por la distribución probabilística. Las distribuciones probabilísticas discontinuas comprenden variables aleatorias para el conteo de datos, como el número de acaecimientos por muestra o la cantidad de ocurrencias por unidad con respecto a un intervalo de tiempo, área o distancia. El término binominal se utiliza para designar situaciones en las que los resultados de una variable aleatoria se pueden agrupar en dos clases o categorías, las categorías deben ser mutuamente excluyentes y deben ser colectivamente exhaustivas, por lo que no es posible obtener ningún otro resultado. Existen dos métodos para obtener las probabilidades de una variable aleatoria que está distribuida binominalmente, uno de ellos consiste en utilizar la fórmula binominal y el otro en consultar una tabla de probabilidades binominales. Las tablas de probabilidad ofrecen un método muy práctico párale análisis estadístico, proporcionan probabilidades con muy poco esfuerzo, hay dos tipos de tablas binomiales, uno proporciona las probabilidades de los resultados únicos o individuales de una variable aleatoria, en tanto que el otro establece las probabilidades de un conjunto de resultados. Cuando el interés radica en la determinación de la probabilidad de un valor único en una distribución binomial, entonces puede ser muy útil una tabla de probabilidades binomiales individual, como sucede con la fórmula, se requieren tres factores de información. Muchos problemas en estadística requieren del empleo de la probabilidad combinada de un grupo de resultados en lugar de un resultado único, por lo general, los resultados de interés son aquellos que son mayores a cierto número especificado, el formato de una tabla binomial acumulativa es casi idéntica a la tabla de probabilidades binomiales individuales, los valores seleccionados de p y la probabilidad de éxito se enumeran en la parte superior de la tabla, en tanto que el número posible de ocurrencias para varios tamaños muestrales se indica en sentido descendente en uno de los lados de la misma. Las tablas ofrecen el método más sencillo y práctico para determinar probabilidades, no obstante, hay situaciones en que no se pueden utilizar.
9
Cuando una variable aleatoria asume cualquier valor en una escala continua entre dos puntos, de tal forma que ningún valor sea más probable que otro, entonces las probabilidades asociadas con la variable aleatoria se pueden describir mediante la distribución uniforme. Gráficamente la distribución uniforme se representa como un rectángulo limitado por los puntos a y b, los cuales constituyen el intervalo de resultados posibles. Para ciertas aplicaciones es necesario utilizar la media y la variancia de una distribución probabilística. Las distribuciones normales ocupan un lugar importante, tanto en la estadística teórica como en la aplicada, por numerosas razones, una de ellas es que suelen coincidir muy cercanamente con las distribuciones de frecuencia, otro motivo es que se pueden utilizar para aproximar probabilidades binomiales cuando n es grande, lo que hace más importante a la distribución normal es que las distribuciones de medias muestrales y proporciones de grandes muestras tienden a distribuirse normalmente, lo que tiene repercusiones importantes en el muestreo. A esta distribución a veces se le conoce como distribución gausiana, en reconocimiento a las aportaciones de Karl Gauss a la teoría matemática de la distribución normal Las curvas normales tienen ciertas características especiales en términos de su configuración y de la forma como están especificadas y como se utilizan para obtener probabilidades. La gráfica se asemeja mucho a una campana, menos evidente es el hecho de que la curva se extiende hacia el infinito en ambas direcciones a partir de la media. Otra característica importante es que es posible especificar ampliamente una distribución normal por medio de dos parámetros: la media y la desviación estándar. Diferentes combinaciones de la media y la desviación estándar producen curvas normales distintas. La probabilidad de que una variable aleatoria que está distribuida normalmente asuma un valor entre dos puntos cualesquiera es igual al área bajo la curva normal entre esos dos puntos. Es esencial darse cuenta de que una distribución normal es una distribución teórica, en el caso de mediciones físicas que se tengan que agrupar en una distribución de frecuencia, constituye una distribución ideal ya que ningún conjunto de datos reales coincidirá exactamente con ella. Cuando se afirma que una variable aleatoria está distribuida normalmente, se deberá interpretar como que una distribución de frecuencias de sus resultados posibles se puede aproximar con certeza razonable a una curva modelo. La distribución normal es una familia de distribuciones infinitamente grande, hay una para cada combinación posible de la media y la desviación estándar.
10
Si una variable está distribuida normalmente, entonces alrededor del 68% de sus valores quedarán dentro de una desviación estándar de la media; 95.5% caerán dentro de dos desviaciones estándares de la media y casi el 99.7% quedarán dentro de tres desviaciones estándares de la media. Existe una gran ventaja en poder pensar y trabajar con valores relativos, esto significa que en lugar de tener que emplear una familia ilimitada de distribuciones normales, se puede utilizar una sola distribución para todos los valores. Las áreas bajo la curva para cualquier distribución normal se pueden encontrar utilizando una tabla normal estándar y cambiando a unidades estándares la escala de unidades reales, la media de la distribución sirve como punto de referencia, y la desviación estándar como la unidad que mide distancias relativas a partir de la media. Como la distribución normal es simétrica con respecto a su media, el lado izquierdo de la curva es una imagen especular del lado derecho, en otras palabras para cada parte del lado izquierdo existe un segmento correspondiente en el lado derecho. Una particularidad de una tabla nominal típica es que los valores de z se presentan en dos partes, lo que siempre es un poco confuso para principiantes, pero que no causa problemas una vez familiarizado con ella. Muchas situaciones de la vida real son consideradas adecuadamente por la distribución binomial, el problema es que las tablas binomiales rara vez se extienden debido simplemente a que existen tantos resultados que el gran tamaño de las tablas resultantes dificultaría su impresión. El uso de la distribución normal para aproximar probabilidades binomiales presenta una dificultad conceptual de que no era una consideración que utilizase aproximaciones de Poisson, la distribución normal es continua, mientras que las distribuciones de Poisson y binomial son discretas. Las distribuciones probabilísticas discretas tienen valores de probabilidad en los enteros pero no entre ellos, las distribuciones continuas, no obstante, son alisadas mas que con protuberancias, ya que todos los valores tienen probabilidades asociadas a ellos. El problema se resuelve asignando intervalos de la distribución continua para representar valores enteros que sean comunes a variables discretas. La distribución exponencial comprende probabilidades acerca de la longitud de tiempo o distancia entre ocurrencias con respecto a un intervalo continuo. Existe una estrecha relación entre las distribuciones exponencial y la de Poisson.
11
Un censo comprende el examen de todos los elementos de un determinado grupo, mientras que el muestreo comprende el análisis de una pequeña parte de ellos. El objeto del muestreo es establecer generalizaciones con respecto a un grupo total de elementos sin tener que examinarlos uno por uno. La parte del grupo de elementos que se examinan recibe el nombre de muestra, y el grupo total a partir del cual se seleccionó la muestra se conoce como población o universo. Los términos población y muestra están relacionados con un conjunto específico de circunstancias. Como el fin del muestreo es generalizar con respecto a la población fundamental, es axiomático que la población objetivo se deba establecer de manera que se puedan hacer generalizaciones significativas. Las poblaciones de tamaño limitado se conocen como poblaciones finitas, en tanto que las que tienen tamaño ilimitado se conocen como poblaciones infinitas. El problema de regresar o no un elemento muestreado a una población antes de sacar otro de ésta, surge cuando se muestrea de una población finita, ya que la probabilidad de incluir elementos de una población en una muestra dependerá de si estamos muestreando con reposición o sin reposición. Aunque no sea muy evidente, el seleccionar una muestra completa de inmediato equivale a muestrear sin reposición. Cuando se muestrea con reposición es posible obtener el mismo resultado más de una vez, en tanto que tomando la muestra total de una vez, sería imposible que eso sucediera. Existen varias razones del porque el muestreo sin reposición se lleva a cabo en la práctica real:
Los efectos suelen ser insignificantes y puede ser más conveniente hacerlo así. Si se realizan ensayos destructivos, será imposible regresar los elementos muestreados a la población. En el muestreo industrial será difícil persuadir a los inspectores carentes de adiestramiento en estadística de que regresen los elementos muestreados a la población particularmente si éstos están defectuosos. Cuando se regresa un objeto muestreado a la población, existe una posibilidad de que sea incluido en un ensayo subsecuente.
Una muestra generalmente comprende el examen de una parte de los elementos de una población, mientras que un censo consiste en estudiar todos los elementos de ésta. Superficialmente puede parecer más conveniente inspeccionar de manera completa todos los elementos de una población que estudiar una muestra de éstos.
12
Algunas situaciones en las que el muestreo es útil:
La población puede ser infinita Una muestra puede ser más oportuna que un censo. Pueden intervenir ensayos destructivos El costo de efectuar un censo puede ser excesivo. La exactitud puede verse afectada cuando se hace un censo de una gran población. El tipo de información puede depender de si se utiliza una muestra o un censo.
Existe una gran variedad de métodos para tomar una muestra, quizá el más importante de ellos es el muestreo aleatorio, de hecho, la mayoría de las pruebas estadísticas que consideraremos se basan en el muestreo al azar, el muestreo aleatorio requiere que cada elemento de una población tenga la misma oportunidad de ser incluido en la muestra. Una muestra aleatoria de una población discreta sería entonces una muestra en la que la probabilidad de obtener cualquiera de los N elementos de la población en una sola inspección es 1/N. Si una población objetivo es infinita se puede considerar como un proceso probabilístico, anotando los elementos en el orden en que ocurren, es posible obtener una muestra que sea representativa del proceso. Si la población objetiva es finita, esencialmente hay dos formas de seleccionar una muestra aleatoria simple, un método consiste en elaborar una lista o marco de referencia de cada uno de los elementos de la población, y aplicar después un método aleatorio a la lista, el segundo método se utiliza cuando los objetos que forman la población no se identifican claramente, lo que imposibilita un listado. La posibilidad de obtener una muestra aleatoria verdadera es mucho mayor cuando se puede listar cada uno de los elementos, cabe observar que una lista de los elementos de una población generalmente no se considera como un censo de ésta, ya que sólo se indica un medio de identificación de los elementos Las tablas de números aleatorios contienen los 10 dígitos, tales dígitos se pueden leer individualmente o en grupos y en cualquier orden, en columnas hacia abajo, columnas hacia arriba, en fila, diagonalmente etc, y es posible considerarlos aleatorios. Una característica es que los dígitos están ordenados de tal manera que la probabilidad de que aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad de que ocurra cualquier otro, la otra es que las combinaciones de dígitos tienen la misma probabilidad de ocurrir que las otras combinaciones de un número igual de dígitos.
13
El objeto de efectuar un muestreo es obtener una idea del valor de uno o más de los parámetros de una población, como la media de la población, la desviación estándar o la proporción de elementos en la población que poseen cierta característica en común. Las estadísticas de la muestra que corresponden a estos parámetros d e la población se emplean para aproximar los valores desconocidos de dichos parámetros. Una distribución de muestreo es una distribución probabilística que indica el grado en el que el valor estadístico de la muestra tenderá a variar debido a la variación al azar del muestreo aleatorio. Se estableció que el muestreo aleatorio tiende a producir valores estadísticos muestrales que son representativos de los parámetros de la población, esta característica de ser representativos da lugar a valores estadísticos muestrales que tienden a agruparse alrededor de los valores reales de la población. La distribución binomial también proporciona un método conveniente para ilustrar la relación básica entre el tamaño muestral y la variabilidad en la distribución de muestreo, las probabilidades se obtienen a partir de una atabla de probabilidades binomiales convertidas a porcentajes de éxitos o aciertos. Existen tres puntos muy importantes, uno de ellos es que a medida que aumenta el tamaño muestral, la distribución de los resultados muestrales se asemeja a la de tipo normal en lo que a forma se refiere. Un segundo punto es que a medida que aumenta el tamaño de la muestra, existirá cada vez menos variabilidad entre proporciones muestrales. Un tercer punto es que en cada ejemplo la media de la distribución de muestreo es igual al parámetro de la población, la distribución binomial proporciona un método conveniente para ilustrar ciertas propiedades de las distribuciones de muestreo, no obstante, los resultados son más generales que las aplicaciones que comprenden proporciones, a diferencia de la distribución binomial, la de muestreo siempre es simétrica con respecto a su media. Una distribución de muestreo de medias es de tipo probabilístico e indica cuán probables son diversas medias de la muestra, para cada combinación de la media de la población, de la desviación estándar de la población y del tamaño de la muestra habrá una distribución de muestreo única de los valores medios de la muestra. La desviación estándar de la distribución de muestreo parece disminuir a medida que aumenta el tamaño de las muestras, esto significa que el promedio o valor esperado de la media de la muestra será igual a la media de la población, y que
14
las muestras más grandes tienden a ser más confiables que las muestras menores. La fórmula para la distribución estándar indica, en efecto, que la cantidad de dispersión en la distribución de muestreo depende de dos cosas: 1. La dispersión de la población 2. La raíz cuadrada del tamaño de la muestra. La capacidad para utilizar muestras y obtener inferencias con respecto a parámetros de población depende del conocimiento de la distribución de muestreo. Existe una tendencia a que las distribuciones de medias y proporciones sean normales, en el caso de los valores medios muestrales se puede demostrar matemáticamente que si una población está distribuida de modo normal, la distribución de los valores medios de la población que se obtienen de esa población también lo estarán respecto a cualquier tamaño de la muestra, esto indica que no es necesario saber cual es la distribución de la población para estar en condiciones de obtener inferencias con respecto a la población a partir de datos muestrales, esto se conoce como el Teorema del Límite Central, y quizá constituyan el concepto más importante de inferencia estadística. Una distribución de proporciones muestrales indica cuan probable es un conjunto particular de proporciones muestrales, dados el tamaño de la muestra y la proporción de la población, las probabilidades para los diferentes resultados posibles se pueden obtener directamente de una tabla de probabilidades binomiales simplemente convirtiendo el número de éxitos a porcentajes. Teóricamente debemos usar una corrección para la continuidad, ya que se está usando la distribución normal para aproximar probabilidades binomiales, desde un punto de vista práctico, el esfuerzo adicional por lo general es innecesario. Las distribuciones de muestreo de proporciones y número de ocurrencias son esencialmente las mismas, ambas se relacionan con el conteo de datos más que con mediciones, comprenden el uso de tablas binomiales para probabilidades deseadas cuando el tamaño de la muestra es menor que 20 y se pueden aproximar mediante la distribución normal para tamaños grandes de muestras. La diferencia es que la distribución de muestreo para proporciones tiene valores, enunciados como porcentajes, en tanto que la distribución de muestreo para el número de ocurrencias tiene valores enunciados como conteos. La mayor parte del muestreo se hace sin reposición por razones psicológicas, así como por razones de costo y comodidad, mientras que el tamaño de la muestra sea pequeño comparado con el de la población, el muestreo sin reposición produce básicamente la misma variabilidad que si se lleva a cabo con reposición.
15
La estimación es el proceso de utilizar datos muestrales para estimar los valores de parámetros desconocidos de una población. Los valores estadísticos muestrales se utilizan como estimadores de los parámetros de población, así, la media de una muestra se utiliza como una estimación del valor medio de la población; una desviación estándar muestral se emplea como una estimación de la desviación estándar de la población; y la proporción de elementos de una muestra con cierta característica en común se usa para estimar la proporción de una población. Estimación de punto: Estimación de un valor único de un parámetro de la población Estimación de intervalo: Estimación que incluye un intervalo de valores posibles en el que se considera que está comprendido un parámetro de la población. La capacidad para estimar los parámetros de población mediante el empleo de datos muestrales, se relaciona directamente con el conocimiento que se tiene acerca de la distribución de muestreo del valor estadístico que se está utilizando como estimador. Para reducir el riesgo es necesario establecer un intervalo más amplio de valores posibles para la media de la población, independientemente del nivel de confianza que se escoja, no se puede decir que una muestra determinada es menor o mayor que el valor no conocido de la media de la población. No hay forma de saber si un determinado valor estadístico de la muestra es demasiado alto, demasiado bajo o casi igual al valor real, por tanto, se establece una categoría o intervalo de valores posibles. El valor de la media de la muestra tiene dos significados, uno de ellos es que sirve como punto medio del intervalo de confianza, un intervalo de confianza proporciona un intervalo de valores, centrado en el valor estadístico de la muestra, en el cual supuestamente se ubica el parámetro de la población, con un riesgo de error conocido. El otro significado es que funciona como estimación puntual de la media real. La pregunta de cuán cerca puede estar determinado valor medio muestral con respecto a la media de la distribución de muestreo, en unidades reales, depende de la variabilidad de la distribución de muestreo. El método empleado para estimar la media de una población depende de si se conoce la desviación estándar de la misma o si ésta se debe estimar a partir de los datos muestrales. Cuando se conoce la desviación estándar de la población, las estimaciones de punto y de intervalo de la media de la población se calculan con fórmulas. 16
La estimación de intervalo de la media poblacional se basa en el supuesto de que la distribución de muestreo de los valores medios de la muestra es normal, en el caso de tamaños de muestra considerables se aplica el Teorema del Límite Central. El error de estimación de intervalos se refiere a la desviación entre el valor medio de la muestra y la media real de la población, el error máximo probable equivale a la mitad de la amplitud del intervalo.. la fórmula para el error indica que realmente hay tres factores determinantes del tamaño o grado de error: 1) la confianza deseada, 2) la dispersión en la población y 3) el tamaño de la muestra, aumentar el grado de confianza da como resultado una ampliación del intervalo, un aumento en el tamaño de la muestra provocará que se reduzca el intervalo. El tamaño muestral necesario dependerá de 1) el grado de confianza deseado, 2) la cantidad de dispersión entre los valores individuales de la población y 3) cierta cantidad especificada de error tolerable. Cuando se conoce el valor de la desviación estándar de la población, la desviación estándar de la muestra se utiliza como una estimación en ecuaciones para intervalos de confianza y errores, esto no presenta dificultades importantes, ya que la desviación estándar de la muestra proporciona una aproximación al valor verdadero, muy razonable en la mayoría de los casos; los cálculos de los intervalos de confianza se deben basar en la distribución t, que es la distribución teóricamente correcta siempre que se utiliza. La forma de la distribución t es muy parecida a la de la distribución normal, la principal diferencia entre las dos consiste en que la distribución t presenta un área mayor en sus extremos. El aspecto interesante con respecto a la distribución t es que no es una de tipo estandarizado en el mismo sentido que lo es la distribución normal, en tanto que la distribución normal es esencialmente independiente del tamaño de la muestra, la distribución t no lo es, la distribución t es teóricamente correcta en los casos en que no se conoce la desviación estándar de la población, independientemente del tamaño de la muestra que se esté utilizando. Hay una tabla para los valores de t, para utilizar una tabla se deben conocer dos cosas: el nivel de confianza deseado y los grados de libertad, existe el requisito de que la suma de las desviaciones con respecto a la media de la muestra sea cero, lo que significa que el último valor debe obligadamente establecer la diferencia entre la suma hasta ese punto y la suma total, la cual es cero. Obsérvese que la tabla está ordenada de una manera un poco diferente que la tabla normal, las áreas se indican en la parte superior de la tabla en lugar de en el cuerpo de la misma, los valores de t se dan en dicho cuerpo y los grados de libertad están en la columna del lado izquierdo.
17
La prueba de significación y la estimación son dos de las ramas principales de la inferencia estadística. El objeto de la prueba de significación es evaluar proposiciones o afirmaciones acerca de los valores de los parámetros de población. A partir del análisis sobre la estimación se sabe que los valores estadísticos de la muestra, tales como medias y proporciones, pueden servir como estimaciones de punto de los correspondientes parámetros de población, se observó que, debido a la variabilidad del muestreo, los valores estadísticos de la muestra tienden a aproximar en lugar de a igualar los parámetros poblacionales. De ahí que el aspecto principal de la prueba de significación sea determinar si la diferencia entre un valor propuesto de un parámetro de población y el valor estadístico de la muestra se debe razonablemente a la variabilidad del muestreo, o si la discrepancia es demasiado grande para ser considerada de esa manera. La pregunta que se habrá de contestar mediante la prueba de significación es si la afirmación pronunciada por el proveedor es verdadera. El primer paso de la prueba de significación es formular dos hipótesis con respecto a dicho aserto, las hipótesis son explicaciones potenciales que intentan informar acerca de hechos observados en situaciones en las que existen algunos factores desconocidos. Dos tipos de hipótesis que se requieren formular son, la que señala que la proposición es verdadera recibe el nombre de hipótesis nula y la segunda que afirma que la proposición es falsa se denomina hipótesis alternativa. Si la decisión después de efectuar el análisis es aceptar la hipótesis nula, esto significa que la discrepancia entre el porcentaje de productos defectuosos observado en la muestra y el porcentaje de elementos defectuosos de la población se debe probablemente a la variación casual del muestreo. La prueba consiste en saber si algún valor estadístico muestral observado puede provenir razonablemente de una población que presente el parámetro propuesto.. El segundo paso en la prueba de significación es identificar la distribución de muestreo adecuada, ya que ésta describirá ampliamente la variación casual. No todas las situaciones serán tan evidentes como para poder visualizarlas de esta manera, por tanto, se requerirá de un método más rigurosa para resolver el problema.
18
La distribución de muestreo teórico se extiende más allá del infinito, de manera que se debe trazar la línea en alguna parte, además, se está de acuerdo en que ciertos valores podrían parecer tan improbables que se les rechazaría inmediatamente. Los valores críticos que generalmente se seleccionan en las pruebas de significación son los que comprenden riesgos del 5%, 2.5% o 1% de rechazar la hipótesis nula cuando sea verdadera. El nivel de significación de una prueba es la probabilidad de rechazar una hipótesis nula que sea verdadera. El tercer paso en una prueba de este tipo es seleccionar un nivel de significación que sea aceptable, esto a su vez, indicará un valor crítico correspondiente que servirá como un estándar de comparación respecto al cual juzgar un valor estadístico de prueba observado. Un valor estadístico de prueba se calcula a partir de datos de la muestra y del valor esperado, el cual es comparado con el valor crítico, un valor estadístico de prueba superior al valor crítico señala que se debe rechazar la hipótesis nula, mientras que un valor de prueba menor que el valor crítico indica que se debe aceptar la hipótesis nula. El interés por detectar desviaciones no aleatorias a partir de un parámetro especificado, puede comprender desviaciones en ambas direcciones o en una sola. En esencia, la hipótesis alternativa se utiliza para indicar qué aspecto de variación no aleatoria resulta de interés, existen tres casos posibles: 1) concentrarse en ambas direcciones, 2) concentrarse en desviaciones por debajo del valor esperado o 3) concentrarse en desviaciones por encima del valor esperado. En la práctica, se utiliza la prueba bilateral siempre que la divergencia en ambas direcciones sea crítica, como podría ser en el caso de la fabricación de ropa, donde las camisas que sean demasiado grandes o demasiado pequeñas no corresponderán con una talla establecida. La prueba de cola izquierda es útil cuando se quiere observar si se ha cumplido un estándar mínimo, una prueba de cola derecha sirve cuando estándares máximos no deben ser excedidos. Existen dos tipos de errores que son inherentes al proceso de la prueba de significación, se comete un error tipo I si se rechaza la hipótesis nula cuando es verdadera, se comete un error de tipo II si se acepta la hipótesis nula cuando no es verdadera.
19
Se utiliza una prueba de una muestra para probar una afirmación con respecto a una media de una población única, se toma una muestra de n observaciones y se calcula el valor medio de la muestra, posteriormente, la desviación entre el valor propuesto y este valor medio de la muestra se compara con la variabilidad de la distribución de muestreo basada en dicha afirmación, desviaciones grandes indican que la afirmación es falsa; desviaciones pequeñas sustentarán dicha aseveración. La distribución de muestreo será distribuida normalmente para muestras que se obtengan a partir de una población normal con una desviación estándar conocida y presentará una distribución t cuando la desviación estándar de la población sea estimada a partir de la desviación estándar de la muestra s. Conceptualmente los valores críticos se pueden establecer en valores que se relacionen específicamente con un problema dado, es muy importante establecer un nivel de significación previo al muestreo, de otra manera, existe la posibilidad de que la persona que esté evaluando los datos de la muestra seleccione un nivel de significación que lleve a una decisión que corresponda a su idea preconcebida de cómo debe ser el resultado de la prueba. Una vez que se elija el nivel de significación, se pueden reunir los datos de la muestra y calcular el valor estadístico de prueba. Cuando se conoce la desviación estándar de la población, la distribución de muestreo adecuada es la distribución normal, si la población no es normal, o si se desconoce su forma, se puede utilizar una prueba de una muestra solamente para tamaños de muestra mayores de 30 observaciones. Se puede proceder como sigue: Establecer las hipótesis nula y alternativa Seleccionar un nivel de significación y dividir la distribución de muestreo adecuada Calcular el valor estadístico de prueba Comparar el valor estadístico de prueba con el valor crítico.. Cuando no se conoce la desviación estándar de la población, esta debe ser estimada a partir de los datos muestrales, utilizando la desviación estándar de la muestra, cuando esto sucede la distribución t resulta la distribución de muestreo más adecuada. Las pruebas de dos muestras se utilizan para decidir si las medias de dos poblaciones son iguales, se requieren dos muestras independientes, una de cada una de las dos poblaciones. Las diferencias casuales se deben distinguir de las diferencias reales.
20
Con frecuencia se utilizan pruebas de dos muestras para comparar dos métodos de enseñanza, dos marcas, dos ciudades, y otras cosas semejantes. La prueba se concentra en la diferencia relativa entre las medias de dos muestras una de cada población. Esta diferencia se divide entre la desviación estándar de una distribución de muestreo. Se comete un error de tipo II, al aceptar la hipótesis nula cuando es falsa, a fin de calcular la probabilidad de que esto ocurra, es útil considerar la probabilidad como la cantidad que la distribución de muestreo, con base en la media real de población, superpone en la región de aceptación. El procedimiento para determinar la probabilidad de error de tipo II es como sigue:
Establecer la región de aceptación para la hipótesis nula utilizando la media de la población propuesta y los datos específicos del problema. Agregar una distribución de muestreo que tenga como base la media real de la población Utilizando el valor verdadero como punto de referencia, determinar el área entre aquél y la regla de decisión. Sumar 50% o restar esta cantidad, para obtener P dependiendo de si el valor verdadero está dentro o fuera de la región de aceptación..
La finalidad general de las pruebas de medias es evaluar las afirmaciones o proposiciones con respecto a las medias de poblaciones, se utiliza una prueba de una muestra si la proposición es acerca de un valor medio de una población única, en tanto que se emplea una prueba de dos muestras si la afirmación establece que dos poblaciones tienen la misma media. El análisis de variancia es una técnica que se puede utilizar para decidir si las medias de dos o más poblaciones son iguales, la prueba se basa en una muestra única obtenida a partir de cada población. Existen tres supuestos básicos que se deben satisfacer antes de que se pueda utilizar el análisis de variancia:
Las muestras deben ser de tipo aleatorio independiente. Las muestras deben ser obtenidas a partir de poblaciones normales. Las poblaciones deben tener variancias iguales.
El análisis de variancia comprende el cálculo de variancias, la variancia de una muestra es el promedio de las desviaciones elevadas al cuadrado de la media del grupo.
21
Para obtener la variancia muestral, el procedimiento es el siguiente:
Calcular la media muestral Restar la media de cada valor de la muestra. Elevar al cuadrado cada una de las diferencias Sumar las diferencias elevadas al cuadrado Dividir entre n-1
Un examen de las variancias puede revelar si todas las medias de la población son iguales o no. El análisis de variancia utiliza dos métodos un poco diferentes para estimar las variancias de la población. Si la hipótesis nula es verdadera, entonces las muestras se habrán obtenido de poblaciones con medias iguales. Y como se supone que todas las poblaciones son normales y poseen variancias iguales, cuando la hipótesis nula es verdadera se presenta una situación conceptualmente idéntica a otra en la que todas las muestras hayan sido tomadas realmente a partir de una población única.} Si la hipótesis nula es falsa entonces las muestras provendrán de poblaciones que no presentan todas la misma media. Una forma de calcular la variancia poblacional es sacar el promedio de las variancias de las muestras, es evidente que se podrá utilizar cualquiera de las variancias muestrales, pero el promedio de todas ellas por lo general proporcionará la mejor estimación debido al mayor número de observaciones que representa. Como se supone que las variancias de la población son iguales, independientemente de si las medias lo son o no, la estimación interna de variancia no se altera por la verdad o falsedad de la hipótesis nula, una segunda estimación llamada estimación intermediante de variancia, esta segunda estimación es sensible a diferencias entre las medias de población. La estimación de variancia entre muestras determina una estimación de las variancias iguales de la población de una forma indirecta a través de una distribución de muestreo de medias. Por el Teorema del Límite Central, se sabe que la distribución de muestreo de medias, obtenida de una población normal, estará distribuida normalmente y que la desviación estándar de la distribución de muestreo está directamente relacionada con el tamaño de la desviación estándar de la población. A menudo se ha utilizado la variancia o desviación estándar de una muestra para estimar la variancia o desviación estándar de la distribución a partir de la que se obtuvo de dicha muestra.
22
La estimación intermediante de variancia se concentra en la variancia entre los valores medios de la muestra, y relaciona esto con una estimación de la variancia de población en términos de una distribución de muestreo de medias.
La razón F a diferencia de otras pruebas de medias que se basan en la diferencia existente entre dos valores, el análisis de variancia utiliza la razón de las dos estimaciones, dividiendo la estimación intermediante entre la estimación interna. Características de la distribución F:
Existe una distribución F diferente para cada combinación de tamaño de muestra y número de muestras. La distribución es continua respecto al intervalo de 0 a infinito positivo, la razón más pequeña es 0, la razón no puede ser negativa, ya que ambos términos de la razón F están elevados al cuadrado. La forma de cada distribución de muestreo teórico F depende del número de grados de libertad que estén asociados a ella.
Los grados de libertad para el numerador y el denominador de la razón F se basan en los cálculos necesarios para derivar cada estimación de la variancia de la población. La estimación intermediante de variancia comprende la división de la suma de las diferencias elevadas al cuadrado entre el número de medias menos uno. La suma de las diferencias elevadas al cuadrado entre el valor medio de la muestra y cada valor de la misma se divide entre el número de observaciones de la muestra menos uno. Los valores que se indican en la tabla de F son valores críticos: es decir las líneas divisorias que separan la variación aleatoria de la no aleatoria. Al realizar un análisis de la prueba de variancia, las dos estimaciones muestrales de la variancia se utilizan para calcular una razón F. El valor crítico de F se encuentra en el punto de intersección de la fila y la columna que corresponde a los grados de libertad del numerador y denominador. La razón F es la razón de la estimación de la variancia, basada en los valores medios de la muestra respecto de la estimación de la variancia, basada en las variancias muestrales. En consecuencia se concluye que las muestras probablemente no provengan de poblaciones que tengan medias iguales. Se acostumbra mostrar en forma tabular las partes componentes de los cálculos del análisis de variancia, esto no sólo proporciona una idea de la fuente de variación, sino que también provee de un mecanismo para comprobar los cálculos.
23
Cuando el objeto del muestreo es evaluar la validez de una afirmación con respecto a la proporción de una población, es adecuado utilizar una prueba de una muestra, la metodología de prueba depende de si el número de observaciones de la muestra es grande o pequeño. Las pruebas de grandes muestras de medias y proporciones son bastante semejantes, de este modo, los valores estadísticos de prueba para ambos tipos miden la desviación de un valor estadístico de muestra a partir de un valor propuesto. Y ambas pruebas se basan en la distribución normal estándar para valores críticos, quizá la única diferencia real entre las ambas radica en la forma como se obtiene la desviación estándar de la distribución de muestreo. Como ocurrió con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas, la primera alternativa establece una prueba de cola derecha, la segunda, una de cola izquierda y la tercera una prueba de dos colas. Cuando el número de observaciones es de 20 o menos, se puede utilizar la tabla binomial acumulativa, para evaluar datos de la muestra. Cabe observar que si se utiliza una prueba de dos colas se debe incluir como parte del área de la cola, la probabilidad del resultado de la muestra. El objeto de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cuales presentan la misma proporción de elementos con determinada característica, la prueba se concentra en la diferencia relativa entre las dos proporciones muestrales. Diferencias pequeñas denotan únicamente la variación casual producto del muestreo, en tanto que grandes diferencias significan lo contrario. La finalidad de una prueba de k muestras es evaluar la aseveración que establece que todas las k muestras independientes provienen de poblaciones que presentan la misma proporción de algún elemento. Si la hipótesis nula es verdadera, entonces las variaciones entre las muestras se deben únicamente al azar, supóngase inicialmente que este es el caso entonces las cuatro muestras se deben considerar como cuatro muestras provenientes de la misma población. Esta estimación del porcentaje de la población se puede utilizar para calcular el número esperado de éxitos de cada categoría bajo el supuesto de que la hipótesis nula es verdadera. A menudo es conveniente incluir tanto las frecuencias esperadas como las frecuencias observadas en una sola tabla, para propósitos de análisis, las frecuencias esperadas generalmente se indican entre paréntesis.
24
La diferencia entre los dos conjuntos de frecuencias se puede determinar de la siguiente manera:
Restar la frecuencia esperada de la frecuencia observada para cada casilla. Elevar al cuadrado cada una de estas diferencias Estandarizar las diferencias elevadas al cuadrado dividiendo cada una entre la frecuencia esperada de cada casilla Sumar todos los términos para obtener el valor total, el total recibe el nombre de valor estadístico de prueba ji o chi cuadrada.
Como sucede con las distribuciones t y F, la distribución ji cuadrada tiene una forma que depende del número de grados de libertad asociados a un determinado problema, debido a esta tendencia, el valor crítico será función de los grados de libertad, así, para obtener un valor crítico a partir de una tabla de ji cuadrada, se debe seleccionar un nivel de significación y determinar los grados de libertad para el problema que se esté analizando. Los grados de libertad reflejan el tamaño de la tabla, al calcular las frecuencias esperadas, tanto para las columnas como para las filas, el valor esperado de la última celda se podría obtener simplemente restando la suma de las otras frecuencias esperadas de esa fila o columna, de las filas o columnas totales. Los grados de libertad de la columna son el número de filas menos 1, como también se conocían los totales de las hileras, podría obtenerse cualquier valor esperado de cada una de ellas utilizando la diferencia entre el total de la fila y la suma de las otras frecuencias de la misma. La prueba requiere la comparación del valor calculado de ji cuadrada con el obtenido a partir de una tabla de valores críticos de esta última, utilizando los grados de libertad apropiados, si el valor estadístico de prueba es menor que el valor tubular, la hipótesis nula es aceptada; si no ocurre así es rechazada. El análisis de una tabla de r por k es una extensión del análisis de una tabla de 2 x k, cada tabla todavía tiene k columnas pero ahora hay más de dos hileras, esto significa que los resultados de la muestra son clasificados en más de dos categorías. La ventaja de que haya más de dos clases por muestra es que esto proporciona una diferenciación más fina que facilita la comparación; cuanto más fina mejores serán las posibilidades de distinguir entre muestras de poblaciones con proporciones iguales y las de proporciones diferentes. El procedimiento de la prueba comprende la determinación de las frecuencias esperadas de casilla, bajo el supuesto de que la hipótesis nula es verdadera y el cálculo de un valor estadístico de prueba que refleja las desviaciones elevadas al cuadrado.
25
El objeto de las pruebas en las que intervienen muestras relacionadas es medir el efecto de algún tratamiento sobre una variable de interés. El proceso de evaluación comprende la formación de dos grupos uno de prueba y otro de control. Para interpretar correctamente los resultados de dicha comparación, es necesario tratar de igualar los dos grupos tanto como sea posible, en términos de los factores importantes. La necesidad de equiparar estos dos grupos puede dar lugar a problemas importantes, una dificultad que generalmente se presenta, es la capacidad para identificar satisfactoriamente factores importantes, otra, es la medición de estas variables, una vez que hayan sido identificadas y todavía más que es la de ensamblar los dos grupos de manera que tengan características que los asemejen. La prueba de signos se utiliza para probar pares igualados, a fin de determinar si los valores de una muestra son menores o mayores que los valores de la otra muestra, o iguales a éstos. Se puede utilizar siempre y cuando los dos valores de cada par puedan ser jerarquizados, la prueba de signos requiere que cada variable sea continua. Utiliza los signos más y menos en lugar de datos numéricos, de existir datos numéricos, los valores se convierten a signos antes de continuar con el proceso. La hipótesis nula establece que no existe diferencia entre los dos grupos, y la hipótesis alternativa, que ha habido un cambio. Se considera que interviene el azar cuando el número de signos + y – es aproximadamente el mismo, mientras que la eficacia de un curso se reflejaría en muchos signos + y pocos signos -- . El problema de poner a prueba los signos + o los signos -- en realidad es debatible, dado que la distribución es simétrica y el número de signos + y – se suman a n. En otras palabras, se obtendrá la misma respuesta, independientemente de cuál se utilice, es importante determinar si se utilizará una prueba de cola izquierda o de cola derecha. Cuando los datos para pares equiparables no son mediciones, hay pocas posibilidades, excepto utilizar la prueba de signos para evaluar el efecto de cierto tratamiento, sin embargo, cuando se dispone de mediciones, utilizar la prueba de signos puede llevarnos a tomar una decisión incorrecta. El motivo es que en esta prueba se desperdicia mucha información, ya que no toma en cuenta la magnitud del cambio, sino que solo mide la dirección del mismo. La prueba de signos bien puede indicar que la hipótesis nula debe ser aceptada, cuando lo más razonable puede ser rechazarla, cuando sea posible determinar la magnitud y dirección del cambio en el caso de pares equiparables generalmente 26
es de más utilidad emplear la prueba de signos con Jerarquización, ya que dicha prueba desperdicia menos información. La prueba consiste en el cálculo de las diferencias de rendimiento para cada par y en la posterior Jerarquización de dichas diferencias, sin considerar si son de signo más o menos. El procedimiento de prueba se explica a continuación: En primer lugar se encuentra la diferencia entre cada par, a continuación se jerarquizan las diferencias sin considerar el signo, no tomando en cuenta ningún valor cero, después a cada rango se le proporciona el signo de la diferencia a la cual está asociado, ahora determinaremos la suma de los rangos que tienen el menor número de signos. Si la hipótesis nula es verdadera, cabría esperar que los rangos estuvieran igualmente divididos entre los valores positivos y negativos, y que las dos sumas fueran aproximadamente iguales. La prueba de Mann-Whitney se utiliza para verificar si dos muestras independientes provienen de poblaciones con medias iguales. La prueba se puede utilizar como una posibilidad para la prueba de medias de dos muestras, estudiada anteriormente, la cual requería que ambas poblaciones tuvieran la misma variancia, el único supuesto consiste en que el nivel de medición esté sobre una escala continua, e incluso este supuesto no es absolutamente estricto. La prueba se basa en una suma de rangos. Los datos están jerarquizados como si todas las observaciones formaran parte de una muestra única. Es posible comprobar cualquier conjunto de rangos, sin embargo, es determinante saber que, si un conjunto de rangos es más alto que el esperado, el otro conjunto deberá ser más bajo que el mismo. Si los tamaños de la muestra no son iguales, la suma de rangos estará dividida en proporción a los tamaños de la muestra. Proceder en estas circunstancias puede invalidar los resultados. Otro método posible para probar si tres o más muestras independientes se obtuvieron a partir de poblaciones con muestras iguales, es utilizar la prueba de Kruskal-Wallis. Se trata de una prueba de análisis de variancia en un sentido, que utiliza rangos en lugar de mediciones reales y cuyos supuestos en lo que respecta a los datos son relativamente débiles. El procedimiento que se habrá de seguir en la prueba es convertir cada observación en un rango, esto se logra considerando todas las observaciones como si pertenecieran a una muestra única.
27
La correlación mide la fuerza de una relación entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos. Los datos necesarios para el análisis de regresión y correlación provienen de observaciones de variables relacionadas. La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describa la relación entre dos variables. Las ecuaciones de regresión pueden ser utilizadas de diversas formas. Se emplean en situaciones en las que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o , por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre o mismo. Otra forma de emplear las ecuaciones de regresión es para explicar los valores de una variable en términos de la otra, se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Un tercer uso de la ecuación de regresión es para predecir los valores futuros de una variable. Las ecuaciones lineales son aquellas cuya gráfica es una línea recta, son importantes porque aproximan estrechamente muchas relaciones del mundo real y además porque es relativamente fácil trabajar con ellas e interpretarlas. Dos características importantes de una ecuación lineal son: 1) la pendiente de la recta y 2) la localización de la recta en algún punto. Este método de sustituir valores de x en la ecuación y despejar y generalmente es preferible a leer valores en la gráfica, ya que permite un grado de precisión mayor que el que es posible obtener al utilizar una gráfica ordinaria. Es importante darse cuanta de que no en todos los casos se puede obtener una aproximación mediante una ecuación lineal. Debido a ello, suele ser necesario realizar un trabajo preliminar a fin de determinar si un modelo lineal será el adecuado. El procedimiento más simple es graficar los datos y determinar por examen si parece existir u8na relación lineal. En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos, la variable y recibe el nombre de variable dependiente y la variable x el de variable independiente. El procedimiento que más se utiliza para adaptar una recta a un conjunto de puntos se conoce como método de los mínimos cuadrados. La recta resultante presenta dos características importantes: 1) es nula la suma de las desviaciones 28
verticales de los puntos a partir de la recta y 2) es mínima la suma de los cuadrados de dichas desviaciones. Los datos muestrales que se utilizan para calcular una línea de regresión se pueden considerar como un número relativamente pequeño de posibles observaciones a partir de una población infinita de pares de valores. En este sentido, la línea de regresión calculada se puede considerar como una estimación de la relación real, pero desconocida que existe entre las dos variables de la población. La dispersión en la población significa que para cualquier valor dado de x, habrá muchos valores posibles de y. El análisis de regresión supone que, para cada valor posible de x existe una distribución de las y potenciales que es de carácter normal. Esta recibe el nombre de distribución condicional. Aun cuando es muy poca o nula la relación entre dos variables de una población, es posible obtener valores muestrales que hacen que parezca que las variables están relacionadas, es importante probar los resultados de tales cálculos, a fin de determinar si son significativos. Por tanto, es conveniente distinguir entre esos casos en los que dos variables se relacionan y aquellos en los que las variables no están relacionadas. Si esta razón es relativamente pequeña, tenderá a significar que el valor verdadero puede ser realmente 0, mientras que si es relativamente grande, ocurriría lo contrario, la prueba de significación puede indicar que el valor verdadero probablemente no sea cero. El intervalo de confianza puede tener una doble finalidad, sin duda, indica el intervalo probable en el que pueda estar el valor verdadero, pero también se puede utilizar para probar la significación de una pendiente de la muestra. La principal razón para considerar la prueba de significación para la pendiente es que una prueba de esta naturaleza es típica del análisis de regresión realizado con una computadora. Una medida útil, asociada a la línea de regresión es el grado en el que las predicciones que se basan en la ecuación de regresión son superiores a las basadas en y, el coeficiente de determinación, r cuadrada interviene directamente en esto. La variación de los puntos respecto de y recibe el nombre de variación total. Las desviaciones verticales de las y, respecto de la línea de regresión reciben el nombre de variaciones no explicadas. El grado de desviación explicada mediante la línea de regresión es la diferencia entre la variación total y la variación no explicada. El porcentaje de variación explicada, es la razón de la variación explicada a la variación total. 29
Los números índices se utilizan para indicar cambios relativos en cantidades, precios o valores de una mercancía en un determinado período. En sentido estricto, no es necesario que los números índices se refieran únicamente a comparaciones entre diferentes períodos; también se pueden utilizar para comparaciones dentro del mismo marco de referencia temporal. Existen tres clasificaciones de los números índices utilizados en economía y en administración: Índices de precio, de cantidad y de valor. Un número índice simple mide el cambio relativo de un solo elemento o variable económico que se presenta entre dos períodos, los números índices simples que utilizan un período base común reciben el nombre de relativos de base fija, otro tipo de número índice, llamado relativo de enlace concentra la atención en los cambios anuales. Los números índices compuestos se utilizan para indicar el cambio relativo en precio, cantidad o valor de un grupo de elementos o mercancías, a continuación se considerarán dos métodos para obtener números índices compuestos: El método de agregados ponderados: el problema en la medición de cambios de precios en el caso de una serie de mercancías es que usualmente se registran cambios en las cantidades adquiridas, así como en los precios, se requiere saber hasta qué grado los cambios en valor se deben a cambios en el precio, sin tener que considerar cambios en cantidades. Una forma de lograr esto es permitir que las cantidades del año en curso se igualen a las cantidades del año base. Método del promedio ponderado de relativos: este es un enfoque alternativo al método de agregados ponderados, da lugar exactamente a la obtención de los mismos números, existen consideraciones de cálculo que influyen en la selección de los métodos para una situación dada. Los números índices son intentos burdos para captar y apreciar el cambio económico, existen peligros inherentes al utilizar e interpretar dichos indicadores, por ejemplo, los cambios de calidad y la frecuente introducción de nuevos productos alteran las comparaciones efectuadas en periodos prolongados, también los cambios de definición. La elección de un periodo base es importante, idealmente la base debería ser bastante reciente y presentar precios estables, a fin de obtener comparaciones significativas, por último la elección del índice es importante. Algunas veces se desea correr la base de un índice de un periodo a otro, un objetivo de este cambio podría ser el tener como año base un periodo más reciente, esto constituye una medida de cambio más actual, otro objetivo podría ser el permitir que dos series de bases diferentes sean comparables.
30
El procedimiento para llevar a cabo el corrimiento es en realidad bastante simple, únicamente se requiere que cada número de la serie sea dividido entre el número índice del nuevo periodo base. Los números índices administrativos y económicos generalmente son considerados como barómetros de la actividad financiera y económica, los que supuestamente indican períodos de inflación, recesión, ciclos comerciales y estancamiento, entre los índices más utilizados se encuentran: Índice de precios al consumidor: Este índice es publicado mensualmente, es lo que generalmente se conoce en los medios noticiosos como el índice del costo de la vida. En realidad mide cambios de precisos de artículos y servicios adquiridos por trabajadores y empleados. Los valores del índice de precios al consumidor se expresan como promedios anuales y mensuales, este índice se puede usar de múltiples maneras, un uso común es para medir el poder adquisitivo del consumidor, se utiliza también para medir el ingreso real, que es el ingreso ajustado para cambios de precios. Índice de precios al mayoreo: Este índice intenta medir los cambios relativos de los precios que los fabricantes pagan por la materia prima, e incluye todos los principales productos y materias que se utilizan en la industria, los valores del índice de precios al mayoreo se publican mensual y anualmente. Promedio industrial Dow Jones: Este es quizá el mejor conocido de un grupo de índices cuyo objetivo es mostrar los cambios de precios en el mercado de valores, el índice Dow Jones incluye 30 acciones industriales comunes. Índice de producción industrial: Este índice es publicado con base en la información obtenida de otras instituciones gubernamentales, mide los cambios en el volumen de producción de las empresas manufactureras, mineras y de servicios, y contiene aproximadamente 100 miembros. Cuando las cifras se establecen en cantidades de dinero, tales cantidades incluyen cambios, tanto en las cantidades como en los precios, los cambios en el precio, que se deben generalmente a la inflación o a la deflación, pueden oscurecer los cambios en las cantidades. Las ventas en unidades monetarias se pueden convertir a cifras de cantidad, descomponiendo en factores los cambios globales de precios como si fueran medidos por un índice como el IPC. Las cantidades originales en dinero son deflacionadas dividiendo entre el valor del IPC para el período correspondiente.
31
Una serie cronológica es un conjunto de observaciones ordenado en términos de tiempo. El objeto de analizar tales datos es determinar si se presentan ciertos patrones o pautas no aleatorias, algunas veces se trata de descubrir patrones no aleatorios que se puedan utilizar para predecir el futuro. Los valores parecen ser observaciones al azar de alguna distribución probabilidad, como la distribución normal, en tanto que las pruebas significación de medias y proporciones son bastante útiles para evaluar desviaciones respecto de una norma, las pruebas de series cronológicas concentran en los valores extremos.
de de las se
El modelo clásico o de descomposición, considera que los datos de series cronológicas están compuestos de cuatro patrones básicos:
La tendencia se refiere a un desplazamiento de los datos de modo uniforme y suave, a largo plazo, hacia arriba o hacia abajo. Las variaciones cíclicas, existe un patrón cíclico cuando las fluctuaciones muestran cierto grado de regularidad, los economistas han encontrado modelos cíclicos en la demanda de productos duraderos y de tipo agrícola. Las variaciones estacionales son cíclicas y de plazo relativamente corto, las cuales a menudo se relacionan con el cambio de estaciones Las variaciones irregulares se componen de cosas tales como desastres, huelgas y todo lo restante después de haber considerado los primeros tres factores.
En el modelo clásico, el método consiste en descomponer una serie cronológica en cada uno de estos componentes básicos de variación, analizar cada componente en forma separada y combinar después las series a fin de describir las variaciones observadas en la variable en estudio. Existen dos variaciones del modelo clásico, una recibe el nombre de multiplicativo y la otra de aditivo, la primera de éstas considera a una serie cronológica como si fuera la resultante del producto de los componentes individuales, en tanto que la última la considera como si fuera la resultante de la suma de los componentes individuales. La tendencia secular se refiere a desplazamientos de los datos a largo plazo hacia arriba o hacia abajo, existen dos objetivos básicos para aislar el componente de la tendencia de una serie cronológica, uno es identificar la tendencia y utilizarla, el otro consiste en eliminar la tendencia, de manera que se puedan estudiar los otros componentes de una serie cronológica. Existen dos métodos generales para aislar la tendencia: Aislamiento de la tendencia mediante el análisis de regresión: los modelos de regresión se pueden aplicar al análisis de datos de series cronológicas, al sustituir la variable independiente x por el tiempo y al utilizar los valores correspondientes
32
de las observaciones de las series cronológicas como la variable dependiente y. La tendencia puede ser lineal o curvilínea. Promedios móviles: un segundo método para el análisis de la tendencia es utilizar un promedio móvil, el cual es un valor medio de los últimos k puntos de datos. Primero se calcula el total móvil y que el promedio móvil se obtiene dividiendo el total móvil entre el número de periodos en dicho total. La práctica usual es ubicar al promedio móvil en un punto que se encuentre a la mitad entre los puntos cronológicos de las observaciones más reciente y más antigua. Si el propósito es predecir el siguiente valor, se deberá utilizar el valor actual del promedio móvil, si el intento es únicamente alisar los datos, entonces es más apropiado colocar en el centro el promedio móvil entre el primer y el último puntos. Un problema del método de centrado es manejar un promedio móvil que tenga un número par de periodos. El efecto de utilizar un promedio móvil es alisar las variaciones estacionales, cíclicas, irregulares y aleatorias, siendo considerado lo restante como la tendencia. Las variaciones cíclicas son de tipo periódico y presentan más de un año de duración. Comúnmente tales variaciones no se pueden apartar de las de naturaleza irregular, por lo que se analizarán juntas. Las variaciones estacionales se suprimen en forma efectiva utilizando cifras anuales o bien al analizar cifras utilizando un promedio móvil de doce meses, a continuación se extrae la tendencia de los datos, y lo que queda se considera como el total de las fluctuaciones cíclicas e irregulares. Para eliminar la tendencia se requiere obtener una recta de tendencia. La eliminación de la tendencia a partir de los datos depende de si se utiliza el modelo aditivo o el multiplicativo. Las fluctuaciones estacionales son variaciones que se repiten regularmente en un periodo de un año. Existen dos objetivos generales para aislar el componente estacional de una serie cronológica. El primero es eliminar ese patrón, a fin de estudiar las fluctuaciones. La segunda finalidad es identificar factores estacionales, de manera que se puedan considerar en la toma de decisiones. El método de la razón al promedio móvil produce índices semanales, mensuales o trimestrales, que establecen observaciones de series cronológicas, en términos de un porcentaje del total anual. Si la finalidad de un análisis de series cronológicas es concentrarse sobre un solo componente de las series, las técnicas anteriores resultan adecuadas. Sin embargo, algunas veces es deseable reunir todos los componentes.
33
CUESTIONARIO 1.¿Qué comprende la Estadística? R. Datos como promedios, índices, tasas 2.La Estadística se divide en tres ramas principales, ¿cuáles son?. R. Rama descriptiva, Teoría de la probabilidad y el Muestreo. 3.Es una versión simplificada de algún problema o situación de la vida real, concebida para destacar ciertos aspectos del problema, sin tener que analizar cada detalle: R. Modelo 4. Las tres ramas de la estadística utilizan este método en la cual una de sus funciones es analizar e interpretar datos: R. Método Científico 5. Estos datos se obtienen cuando se definen las categorías y se cuenta el número de observaciones que queda en cada una: R. Datos Nominales 6. Es un conjunto de números mayor que la mitad de los valores y menor que la otra mitad de los mismos: R. Mediana 7. ¿Qué es la variancia de una muestra? R. Se utiliza para decidir si las medias de dos o mas poblaciones son iguales 8.¿De que consta el complemento de un evento? R de todos los resultados del espacio muestral que no forman parte de él. 9. Esta probabilidad es una evaluación personal de la posibilidad de que ocurra un evento: R. Azar 10.Una variable aleatoria se considera dentro de este grupo si puede asumir cualquier valor dentro de un determinado intervalo como: R. Continua 11. Este término se utiliza para designar situaciones en las que los resultados de una variable aleatoria se puede agrupar en dos clases o categorías. R. Probabilidad 12. Uno de los supuestos de este personaje dice: la probabilidad de un acaecimiento u ocurrencia es la misma a través de todo el campo de observación: R. Regla de Bayes 13 Este comprende el análisis de una pequeña parte de determinados grupos: R. 14. En estas poblaciones, una muestra aleatoria es aquella en la que cada elemento de la población tiene la misma oportunidad de ser incluido en la muestra: R Poblaciones discretas 15.Se consideran tres procedimientos del muestreo probabilístico, ¿cuáles son? R. Sistemático, estratificado y de agrupación 16. ¿Qué es la estimación? R. es el proceso de utilizar datos muestrales para estimar los valores de parámetros desconocidos de una población. 17. ¿Qué proporciona un intervalo de valores? R. 34
18. Este error de intervalos se refiere a la desviación entre el valor medio de la muestra y la media real de la población: R. error de estimación 19. Para utilizar una tabla de valores t, se deben conocer dos cosas: el nivel de confianza deseado y los: R. Grados de libertad 20. ¿Qué es el objeto de la prueba de significaciones? R. es evaluar las proporciones con respecto a medias de la población 21. ¿Qué es la hipótesis nula? R. es un enunciado que expresa que el parámetro de la población es como se especificó 22. ¿Cuándo se comete un error de tipo I? R. Cuando se rechaza la hipótesis nula cuando es verdadera 23. La finalidad general de las pruebas de medias es: R. para probar una afirmación con respecto a una media de una población única 24. Las pruebas de dos muestras se utilizan para decidir si las medias de dos poblaciones son: R. Iguales 25. ¿Para que se utiliza el análisis de la variancia? R. Para decidir si las medias de dos o mas poblaciones son iguales. 26. La estimación interna de variancia sirve como: R. una norma respecto a la cual se puede comparar la estimación intermediante de variancia. 27. Los grados de libertad para el numerador y el denominador de la razón F se basan en: R. Los cálculos necesarios para derivar cada estimación de la variancia de la población. 28. Los valores que se indican en la tabla F son: R. Valores críticos 29. Cuando el objeto del muestreo es evaluar la validez de una afirmación con respecto a la proporción de una población, es adecuado utilizar una prueba de una: R. sola muestra 30. La finalidad de una prueba de varias muestras es evaluar la aseveración que establece que todas las muestras independientes provienen de poblaciones que presentan la misma proporción de algún elemento, esto es: R. Prueba de proporciones de k muestras 31. ¿Qué es el método de mínimos cuadrados? R. es un procedimiento que se utiliza para adaptar una recta a un conjunto de puntos. 32. ¿Qué son los números índices compuestos? R. son los que se utilizan para indicar el cambio relativo en precio, cantidad o valor de un grupo de elementos o mercancías. 33. ¿Qué son las variaciones estacionales? R. son cíclicas y de plazo relativamente corto, y se relacionan con el cambio de estaciones
35
34. ¿Qué es la prueba de Mann Whitney? R. se utiliza para verificar si dos muestras independientes provienen de poblaciones con medias iguales 35. ¿Qué es regresión lineal? R. comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describa la relación entre dos variables. 36. ¿Qué es prueba de signos? R. se utiliza para probar pares igualados a fin de determinar si los valores de una muestra son menores, mayores o iguales que los valores de la otra muestra. 37. ¿Qué es la tendencia? R. se refiere a un desplazamiento de los datos de modo uniforme y suave, a largo plazo, hacia arriba o hacia abajo. 38. ¿Qué es la corrida? R. una secuencia ininterrumpida de observaciones que poseen una característica semejante. 39. ¿Qué es la variable “y”? R. es la variable dependiente 40. ¿Qué es la correlación? R. mide la fuerza de una relación entre variables 41. ¿Qué son los números índices? R. son una forma importante de resumir el cambio que experimentan las variables económicas durante cierto período. 42 ¿Qué son los números índices simples? R. Son los que miden el cambio relativo de un solo elemento o variable económico que se presenta entre dos períodos. CONTESTA FALSO Y VERDADERO 43. Las variables continuas pueden asumir cualquier valor en un intervalo continuo. Los datos que se obtienen acerca de estas variables reciben el nombre de datos continuos ( V ) 44. Una distribución de frecuencia no se puede ni se debe presentar en forma tabular y gráfica ( F ) 45 Un espacio muestral es el conjunto de todos los resultados posibles de un experimento o muestra. Los resultados de un experimento se conocen como eventos ( V ) 46. El Teorema de Bayes es una técnica que se utiliza para verificar las estimaciones iniciales de la probabilidad con base en los datos de la muestra ( V ) 47. Una variable aleatoria es una función valorada numéricamente, cuyo valor está regido por factores en los que interviene el azar ( V ) 48. La probabilidad de que una variable aleatoria tenga un valor entre dos puntos cualesquiera es igual al área bajo la curva normal entre esos dos puntos ( V ) 49. La curva normal tiene forma de rombo ( F ) 50. Las áreas bajo la curva de cualquier distribución normal solamente se pueden encontrar con la fórmula de la moda ( F ) 51. La distribución normal es continua, mientras que las distribuciones de Poisson y binominal son discretas ( V ) 36
52. La distribución de muestreo es una distribución probabilística que indica el grado en el que el valor estadístico de la muestra tenderá a variar debido a la variación al azar del muestreo aleatorio ( V ) 53. El teorema del límite central especifica que si la población no es normal, la distribución de valores medios de la muestra será aproximadamente normal respecto a un tamaño muestral grande ( F ) 54. Mientras que el tamaño de la muestra sea pequeño comparado con el de la población que se está muestreando, el muestreo sin reposición produce básicamente la misma variabilidad entre muestras que si se llevan a cabo con reposición ( V ) 55. El nivel de significación de una prueba es la probabilidad de rechazar una hipótesis nula que sea verdadera ( V ) 56. Cuando se conoce la desviación estándar de la población, la distribución de muestreo adecuada es la distribución no normal ( F ) 57. La razón F es la razón de la estimación de la variancia, basada en los valores medios de la muestra respecto de la estimación de la variancia, basada en las variancias muestrales ( F )
37