Story Transcript
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
NÚMEROS Y PALABRAS. Autor: Juan M. R. Parrondo Para la mayoría de la gente los números y las palabras pertenecen a reinos separados e incluso antagónicos. O se es “de letras”, o “de ciencias”, y cada materia pertenece a uno u otro campo sin posibilidad de conexión entre sí. Sin embargo, desde hace varias décadas, existe una disciplina que aplica técnicas matemáticas al estudio del lenguaje: la lingüística matemática . Una parte importante de esta disciplina es la lingüística cuantitativa, que consiste en el estudio estadístico de textos, facilitado por la mayor potencia y capacidad de memoria de los ordenadores actuales. Vamos a explorar algunas curiosidades de esta lingüística cuantitativa utilizando textos que se pueden encontrar en Internet: Don Quijote , Cien años de soledad y el original en inglés del Ulysses de Joyce. Los he analizado por medio de TextStat, un programa gratuito que realiza estadísticas elementales de cualquier texto, creado por la Universidad Libre de Berlín. Se pueden encontrar muchos programas como éste en Internet, algunos gratuitos y otros comerciales, bajo el nombre genérico de Natural Language Processing (NPL) software (programas para el procesamiento del lenguaje natural). Han sido diseñados para tratar aspectos gramaticales del lenguaje, para administrar grandes conjuntos de textos que se denominan corpus, para encontrar concordancias, es decir, las apariciones de una determinada palabra en un corpus, y para algunas otras funciones relacionadas con el estudio matemático del lenguaje. Uno de los primeros hallazgos de la lingüística cuantitativa fue la llamada ley de Zipf , una sorprendente regularidad en cómo se distribuyen las palabras en un texto de cualquier lengua. Se toma un texto suficientemente largo y se cuenta el número de veces que aparece en él cada palabra. Hay palabras, como “el”, “de” o “que”, que aparecerán un gran número de veces, y otras más raras que sólo aparecerán una vez. A continuación colocamos las palabras en una lista, ordenándolas de más a menos frecuentes. El orden que una palabra ocupa en la lista se denomina rango . Así, en el caso de Cien años de soledad , el rango de “de” es 1, el de “la” es 2, el de “que”, 3, el de “y”, 4, el de “el”, 5, etc. Pues bien, la ley de Zipf afirma que la frecuencia f de una palabra dada es inversamente proporcional a su rango r , es decir: f=
a r
en donde a es una constante que depende del texto utilizado. Se trata evidentemente de una ley aproximada, puesto que puede dar frecuencias no enteras e incluso menores de uno para rangos muy grandes. Una generalización de la ley, también aproximada pero que se adapta mejor a cualquier tipo de texto, supone que la distribución de frecuencias es una ley de potencias : f=
a rb
en donde b es un exponente cercano a 1. Para ver si un texto satisface la ley de Zipf o su generalización, es necesario construir la lista y representar las frecuencias f de cada palabra en función de su rango r . Sin embargo, es más útil hacer esa representación en ejes logarítmicos , es decir, en ejes en donde cada cantidad no varía de unidad en unidad sino en intervalos dados por las distintas potencias de diez. Esta representación 1 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
equivale a dibujar la gráfica del logaritmo de f frente al logaritmo de r, que se relacionan de la siguiente forma: log( f )=log(a)−b⋅log(r ) Como a es una constante, esta ecuación nos dice que la gráfica de log f en función de log r , o, equivalentemente, la de f en función de r con ejes logarítmicos, será una recta inclinada hacia abajo y con pendiente b. Cien años de soledad verifica la ley de Zipf. La novela tiene un total de 138.014 palabras, entre las cuales hay 16.019 diferentes. TextStat realiza una tabla con la frecuencia de cada una de estas 16.019 palabras. En la figura 1 pueden ver la gráfica de la frecuencia en función del rango. Los puntos azules son las frecuencias de cada palabra en el texto y la línea roja es la recta que mejor se aproxima a los puntos: una ley de potencias con a = 13.083 y b = 1,0086. El exponente b es muy cercano a 1, de modo que podemos decir que la ley de Zipf original se cumple con bastante aproximación en la novela de García Márquez. En la figura 2 podemos ver la ley de Zipf para Don Quijote , en el que hay 22.941 tipos de palabras entre las 381.222 que componen el texto. La línea roja representa de nuevo la ley de potencias que mejor se ajusta a los datos “experimentales” y en este caso es la función f = 142.271∙ r–1,2136, es decir, una ley de potencias con exponente b = 1,2136. El exponente se aleja significativamente de 1, el exponente de la ley de Zipf original, pero también podemos observar que no reproduce bien el comportamiento de las palabras más frecuentes. He dibujado en verde la ley de Zipf “genuina”, es decir, con exponente b = 1, que mejor se ajusta a los datos y el resultado no es peor que el de la mejor ley de potencias. Lo que ocurre en este caso es que la ley de Zipf genuina se ajusta bien a los puntos con mayor frecuencia, pero se desvía de los puntos con mayor rango y menor frecuencia. ¿Qué se puede concluir entonces? Yo diría que ni la ley de Zipf ni la de potencias se ajustan a los datos de El Quijote. Aunque las palabras más frecuentes sí cumplen aquélla, parece haber un número 2 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
demasiado pequeño de palabras “raras”, es decir, de palabras que aparecen sólo una vez. Esta escasez hace que al ajustar una ley de potencias, ésta se incline en exceso y no pueda dar cuenta de modo preciso del comportamiento de las palabras más frecuentes. Para ver la universalidad de la ley de Zipf, les presento el análisis del original en inglés del Ulises de James Joyce. A pesar de ser una novela en donde hay una mayor experimentación con el lenguaje, los datos se ajustan bastante bien a la ley de Zipf. Frecuencia y rango están relacionados por una ley de potencias con a = 52.467 y exponente b = 1,0793, aunque se observa una desviación con respecto a la ley en las palabras más frecuentes. Zipf introdujo su ley en 1949, en un libro titulado El comportamiento humano y la ley del mínimo esfuerzo. La razón de este título es que la ley puede derivarse suponiendo que el lenguaje natural se ha desarrollado de modo que transmita la mayor cantidad de información con el menor número de palabras. Benoit Mandelbrot también realizó en 1951 una demostración similar. Sin embargo, ambas demostraciones implican una relación entre el rango de la palabra y su longitud, de modo que las palabras más frecuentes son las más cortas. Por último, la ley de Zipf, aunque es sólo válida de modo aproximado, permite hacer algunas predicciones interesantes acerca de la estadística de un texto. Una de ellas es la relación entre el tamaño de un texto o número total de palabras que lo componen, y su vocabulario. Esta relación nos da una idea de la riqueza de vocabulario de cada texto.
LA ENIGMÁTICA SUCESIÓN DE TITIUSBODE. Autor: Vicente Viana Martínez Cuando se formó el Sistema Solar, hace unos 4.600 millones de años, nueve planetas comenzaron a orbitar alrededor de una joven estrella siguiendo unas órbitas elípticas de baja excentricidad que, para mayor sencillez vamos a considerar circulares. La distancia a la cual giran los planetas alrededor del Sol quedó establecida según unos procesos físicos que hoy en día ignoramos en su detalle, y al margen de improbables perturbaciones exteriores siguen girando verificando inexorablemente la segunda ley de la dinámica de Newton. Nos podíamos preguntar si las distancias a las que orbitan los planetas siguen alguna ley o bien su distribución alrededor del Sol es totalmente aleatoria. Como las teorías sobre la formación del Sistema Solar no son lo suficientemente satisfactorias, son muchas las dudas que los científicos tienen sobre el origen de los planetas y lo 3 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
más sensato sería pensar que se distribuyeron al azar con unas masas y una composición impredecible antes de su formación. Sin embargo, en 1.766 Johann Daniel Titius formuló una teoría muy curiosa basada en una sucesión de números. En primer lugar tomó las distancias medias del Sol a cada uno de los 6 planetas conocidos en ese momento (Mercurio, Venus, Tierra, Marte, Júpiter y Saturno). Dividió esas distancias entre el valor de la distancia SolTierra, cuyo valor es de 149,6 millones de kilómetros y que se conoce como 1 unidad astronómica (1 U.A.), resultando los siguientes valores. PLANETAS
DISTANCIA AL SOL
Mercurio
0,4 U.A.
Venus
0,7 U.A.
Tierra
1 U.A.
Marte
1,5 U.A.
Júpiter
5,2 U.A.
Saturno
9,5 U.A.
Ahora estableció una sucesión de término general, 0,4 + primer término de la sucesión se establece como 0,4 para n = 1.
n−2
3· 2 10
para
n ≥ 2 . El
Dando valores a n obtenemos los términos. 0,4 0,7 1 1,6 2,8 5,4 10 19,6 38,8 77,2 ... Si comparamos con los siete primeros términos de la sucesión de Titius comprobamos la casi total correspondencia entre dicha sucesión y las distancias planetarias al Sol medidas en Unidades Astronómicas. Existe una importante discrepancia en esta sucesión. El valor 2,8 en la sucesión de Titius no aparece en las distancias de los planetas. Parece como si entre Marte y Júpiter tuviera que existir otro planeta situado a 2,8 U.A. del Sol. Lo asombroso del asunto es que a dicha distancia exactamente, se descubrieron posteriormente los asteroides Ceres e Ícaro y posteriormente lo que se conoce con el nombre de cinturón de asteroides, fragmentos de un antiquísimo 5º planeta que nunca llegó a formarse, conformando el actual conjunto de asteroides que giran siguiendo la trayectoria original de ese quinto planeta que nunca existió. Sin embargo, lo que despertó la admiración de todos los astrónomos fue el descubrimiento por Herschell en 1.781 del planeta Urano a una distancia de 19,2 U.A. del Sol, muy próximo al valor predicho por el octavo término de la sucesión de Titius que es de 19,6. Inmediatamente, los astrónomos se dedicaron a buscar otro planeta situado a 38,8 U.A. del Sol, de acuerdo con el siguiente término de la sucesión de Titius. 4 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
En 1.846 Galle descubrió Neptuno, a 30,1 U.A. del Sol, con lo que el noveno término de la sucesión de Titius presentaba un ligero error, pero seguía siendo una aproximación aceptable dentro de la escala astronómica. Posteriormente, en 1.930, Tombaugh descubrió el décimo planeta, bautizado como Plutón, que no encajaba en la sucesión, pues su distancia al Sol es de 39,4 U.A., muy lejos del valor predicho por Titius que es de 77,2 U.A. Sin embargo, Plutón es un planeta extraño. Por un lado la inclinación de su órbita con relación al plano del sistema Solar es de 17º, un valor anormalmente alto, pues en general todos los planetas orbitan en el mismo plano. Además, su excentricidad es también anormalmente alta (0,25), lo cual provoca que en ciertos puntos de su órbita, esté más cerca del Sol que Neptuno. Su tamaño también es anormalmente pequeño (menor que nuestra Luna), es el planeta más pequeño de todo el Sistema Solar, cuando todos los planetas más allá de Júpiter son planetas gigantes, muchísimo mayores que la Tierra. Todo esto nos lleva a pensar que Plutón no es un planeta del Sistema Solar sino un cuerpo celeste extraño, capturado por la órbita de Neptuno, lo que explicaría sus anomalías. Por lo tanto, la ley de Titius no es aplicable a este extraño y frío planeta, manteniendo su casi mágico nivel de exactitud para el resto de los planetas del Sistema Solar. Ahora podemos preguntarnos. •
¿Por qué los planetas siguen la Ley de Titius?.
•
¿Puede ser considerado azar un supuesto que se cumple para los 9 primeros planetas del Sistema Solar?.
•
¿Cómo se formó el Sistema Solar y qué desconocida ley física situó los planetas a esas 3· 2n−2 distancias que siguen la sucesión de término general 0,4 + ? 10
•
¿Existe otro planeta a 77,2 U.A. del Sol según predice el siguiente término de la sucesión de Titius?
•
¿Es aplicable la Ley de Titius a otros sistemas solares? ✔ Los cuatro satélites galileanos de Júpiter más el satélite interno más grande, Amaltea, cumplen perfectamente la ley de Bode. ✔ Las lunas grandes de Urano tienen una adaptación a la ley de Bode magnífica. ✔ Con el avance en las técnicas de descubrimiento de planetas extrasolares ya se han descubierto varios sistemas planetarios sobre los que es posible aplicar la ley. Un reciente estudio trata de aplicar la ley a algunos de estos sistemas, la conclusión es que Kepler 11 y HD 10180 cumplen perfectamente la ley, el estudio consigue aplicarla también a Gliese 876, Gliese 581 y 55 Cancri, conformado por cinco planetas. (Fin del artículo de Vicente Viana Martínez)
INTENTAREMOS APROXIMAR LA LEY DE TITIUSBODE MEDIANTE TÉCNICAS DE ESTADÍSTICA BIDIMENSIONAL. Las distancias medias de los 9 planetas al Sol son (datos actualizados): 5 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
Objeto
Mercurio
Venus
Tierra
Marte
Asteroides
Jupiter Saturno Urano Neptuno Plutón
Posición
1
2
3
4
5
6
7
8
9
10
Distancia
0,39
0,72
1
1,52
2,65
5,2
9,54
19,19
30,07
39,52
Se ha tomado como unidad la distancia entre la Tierra y el Sol, a lo que se llama unidad astronómica (U.A.). El quinto lugar está ocupado por los asteroides que, para estos efectos, son considerados como un planeta más. Se pretende hacer un estudio bidimensional completo de la variables: X = Posición del objeto por su distancia con respecto al Sol Y = distancia al Solo en U.A. También se hará un análisis del mejor ajuste de datos mediante distintas funciones. 1. Nube de puntos.
2. Parámetros unidimensionales. ̄x =5,5 σ x =2,8723
̄y =10,98 σ y =13,2580
3. Correlación. σ xy=33,759 r = 0,8865 4. Coeficiente de determinación. La medida que usaremos para juzgar la bondad del ajuste es la razón de correlación, también llamada coeficiente de determinación que representa la proporción de la variación de Y explicada 6 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
por el modelo de regresión. Para el caso de Regresión Lineal, obtenemos un coeficiente de determinación: R² = r² En las otras aproximaciones, utilizaremos la varianza residual de Y: N
∑ ( y j − ý j ) ² · n j Varianza residual de Y = σ r ² = Con
j =1
N
ý j el valor obtenido mediante la correspondiente curva de regresión.
El coeficiente de determinación se define como: Coeficiente de determinación = R² =1−
σ ² Varianza residual = 1− r Varianza total σy²
El ajuste será mejor cuanto más cerca esté R² de 1 5. Regresión Lineal a. Recta de Regresión de Y sobre X:
y=4,0919 x−11,5257
R² = r² ' = 0,7859
b. Recta de Regresión de X sobre Y:
x=0,1921 y +3,3912
R² = r² ' = 0,7859
7 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
c. Centro de gravedad de las Rectas de Regresión
6. Regresión cuadrática: y = 0, 8192 x² – 4.9192 x + 6,4965
R² = 0,9875
7. Regresión Polinómica. a. Grado 3: y = 0.0615 x 3 − 0.1958 x² − 0.2378 x + 1.2183
R² = 0,9941
8 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
b. Grado 4: y = −0.0186 x 4 + 0.471 x 3 − 3.1923 x² + 7.9513 x − 5.1691
8. Regresión Potencial: y = 0.1734 · x 2.0911
R² = 0,9974
R² = 0,6911
9. Exponencial: a. Base “e”: y = 0.2125 · e0.5373 · x
R² = 0,964
b. Base “2”: y = 0.2131 · 20.7754 · x
R² = 0,9631
9 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
10. Ley de Titius:
y =0,4 +
3 · 2x −2 10
R² = 0,1486
En la ley de TitiusBode el coeficiente de determinación es muy bajo, pero si eliminamos el error del décimo planeta, obtenemos coeficiente de determinación R² = 0,9564 . Por último, si quitamos el error cometido al incluir el noveno planeta, obtenemos un coeficiente de determinación para los 8 primeros objetos de R² = 0,9997 . Cuando la ley se descubrió se sabía de la existencia de Mercurio, Venus, Marte, Júpiter y Saturno, cuando más tarde se descubrió Urano muy cerca de la posición que predecía la ley esta tomó importancia y se empezó a buscar un hipotético planeta entre Marte y Júpiter que la ley predecía pero no se conocía. Fue así como se descubrió Ceres, el objeto principal del cinturón de asteroides, que se encuentra justo en esa posición. Por lo que la fórmula se ajustaba muy bien a los objetos conocidos hasta ese momento
10 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
HAY QUE DECIRLO MÁS: CORRELACIÓN NO IMPLICA CAUSALIDAD Extraído de Blog Gaussianos: http://gaussianos.com Autor: DiAmOnD | Publicado el 27 de noviembre de 2013 Correlación no implica causalidad, hay que decirlo más. Y hay que decirlo más porque en general no llegamos a comprender qué significa esta frase. Bueno, o eso o que aun comprendiéndola intentamos confundir a quien no la entiende haciéndole creer que una cosa sí que implica a la otra. Prácticamente a diario nos encontramos en (principalmente) medios de comunicación noticias cuyo titular tiene una estructura parecida a algunos de los siguientes: Un estudio afirma que cuanto más A más B. Un estudio afirma que quienes son A tienen menos B. Un estudio afirma que dado que A es así entonces B es de esta otra forma. … En principio, todos esos titulares indican básicamente que lo que dice A es lo que provoca que ocurra B, o, lo que es lo mismo, que B es consecuencia de A. Normalmente, cuando uno se lee esas noticias, acaba dándose cuenta de que lo que hay es una correlación entre A y B (vamos, una relación entre esos dos sucesos), pero, en principio, sin ningún indicio de que sea uno de ellos, A en este caso, el que provoca el otro, B. El estudio de la correlación entre dos variables es uno de los temas que se trata en Estadística. Resumiendo un poco, la cuestión sería algo como lo siguiente: •
A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal (mediante la que buscamos si hay relación lineal hay entre las variables), pero hay muchos más tipos posibles: cuadrática, exponencial, logarítmica…
•
Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta) que nos determina exactamente qué relación hay entre esas variables.
•
Se estudia la correlación real entre ellas (es decir, cómo de fuerte es la relación que habíamos estimado a partir de los datos iniciales) mediante un coeficiente de correlación. Este coeficiente toma valores entre 1 y 1, y se interpreta de la siguiente forma: •
Cuanto más cerca de 1 esté, mayor correlación positiva (es decir, que cuando aumenta una también lo hace la otra) hay entre las variables.
•
Cuanto más cerca de 1 esté, mayor correlación negativa (es decir, que cuando aumenta una disminuye la otra) hay entre las variables.
•
Cuanto más cerca de 0 esté, menor correlación hay entre las variables.
Ahora, que la relación entre las variables sea muy fuerte (esto es, que sea casi 1 o casi 1) no significa que una de ellas sea la causa de la otra. En ningún sitio esta teoría nos deja asegurar con tanta ligereza que el hecho de que haya una correlación muy fuerte entre A y B significa que la variable A es la que está provocado que se presente la variable B. La teoría habla de relación entre las variables, no de que una sea la causa de la otra. Por cierto, buenísima esta tira de XKCD sobre el 11 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
tema:
Hasta aquí bien, ¿no? Vale, sigamos. Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar una cierta relación entre dos variables presentes en los sujetos estudiados se tiran a la piscina afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no hay ninguna evidencia de que esto sea verdad (simplemente hay correlación). Supongo que más de uno se estará preguntando lo siguiente: ¿entonces es mentira que correlación implique causalidad? Pues no, no es mentira, y verdad tampoco. Me explico: Cuando se dice que la frase correlación no implica causalidad (en latín, Cum hoc ergo procter hoc) es cierta lo que se quiere decir es que el hecho de que haya correlación entre dos variables no significa que una provoque a la otra, pero eso no significa que si encontramos correlación entre dos variables automáticamente podamos descartar que una sea causa de la otra. Hay casos en los que A es la causa de que ocurra B, en otros es al revés, en otros hay alguna variable adicional la que hace que se produzca esa correlación…y a veces todo es fruto de la casualidad (sí, casualidad, no “causalidad”). El problema de creerse que una fuerte correlación implica una cierta relación causal entre las variables es que esa creencia se puede usar (malintencionadamente o no) para engañarnos, ya que no es demasiado difícil encontrar correlación entre dos variables que en principio ni están relacionadas a poco que queramos “forzarla”. Por ejemplo, si os digo que el descenso de piratas en el mundo está provocando una subida de la temperatura media global de nuestro planeta, ¿qué pensaríais? Posiblemente que estoy muy mal de la cabeza, ¿no? Bien, echadle un ojo a esta gráfica:
12 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
Fuente: Wikimedia Commons. En ella se ve claramente que desde 1860 se ha producido un descenso del número de piratas y a la vez un aumento de la temperatura media de la Tierra, y que hay correlación lineal (la gráfica se acerca bastante a una recta) entre las dos variables. ¿Es el descenso de piratas la causa de la subida de temperatura? Pues no parece que sea así. ¿Y al revés? ¿Es la subida de la temperatura media global la causa del descenso de piratas? Pues tampoco parece que sea así. Es muy posible que esta relación sea pura casualidad. UNA INTERESANTE MANERA DE OBTENER BUENAS ESTIMACIONES DE LOS RESULTADOS DE UNA ENCUESTA Extraido de Blog Gaussianos: http://gaussianos.com Método visto en “El hombre anumérico”, de John Allen Paulos. Estoy seguro de que a la mayoría de vosotros os habrán hecho alguna vez una encuesta, y también estoy seguro de que muchos de vosotros no habréis sido totalmente sinceros (por no decir que “habréis mentido”) en alguna de las preguntas de dicha encuesta por lo comprometedor de la misma. Preguntas relacionadas con temas conflictivos (como la eutanasia, la pena de muerte o el aborto) o con temas tabú (como todo lo relacionado con el sexo) pueden llevarnos a no marcar la respuesta que creemos más cercana a la realidad por miedo o pudor. Entiendo que las personas encargadas de realizar las encuestas cuentan con esto, conviven con ello, y por tanto tendrán mecanismos para disminuir lo máximo posible la influencia de esta circunstancia en los resultados de las encuestas (o deberían). Lo que puede resultar curioso es que una opción para que esto ocurra con menos frecuencia sea incluir el azar en el propio acto de responder a la encuesta. Sí, el azar puede ayudarnos a obtener un resultado más fiable de nuestra encuesta. Vamos a ver cómo. Imaginemos que queremos realizar una pregunta a un grupo grande de personas, digamos 15000. Y supongamos que la pregunta es algo “conflictiva”, algo así como ¿Ve habitualmente (dos o más veces por semana) los documentales de La2? Seguro que muchos de los encuestados dirían en primera instancia que “Sí”, pero ante una pregunta como ésta uno puede no tener muy claro si la respuesta ha sido sincera o no. Vamos a introducir el azar de la siguiente manera: El proceso para responder a la pregunta será el siguiente: El encuestado tira una moneda al aire y mira el resultado (sin que lo vea nadie más). Si ha salido cara responde con total sinceridad a la pregunta, y si ha salido cruz responde “No”. De esta forma se entiende que eliminamos la posibilidad de que el encuestado responda algo que no piensa por el hecho de que el encuestador esté delante, o porque luego vayan a asociar con él una respuesta “comprometida” (que no ve los documentales de La2), ya que si ha respondido “No” puede haber sido porque en realidad respondió sinceramente “No” o porque simplemente obtuvo una cruz al tirar la moneda. Bien, vayámonos al lugar del encuestador. ¿Para qué le sirve esto? Muy sencillo. 13 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
Imaginemos que al repasar las respuestas ve que hay, por ejemplo, 14144 respuestas negativas. Por el hecho de que tanto la probabilidad de obtener cara como la de obtener cruz al lanzar una moneda es ½ , aproximadamente la mitad de los encuestados, unos 7500, habrán respondido “No” porque les salió una cruz. Eliminando estas respuestas tenemos 141447500=6644 respuestas negativas que se entiende que son sinceras de entre 150007500=7500 respuestas posibles. Eso nos da una probabilidad de P(no ver habitualmente los documentales de la2)=
6644 ≃ 0,8857 7500
Es decir, que aproximadamente el 88,57% de los encuestados no ve habitualmente (dos o más veces por semana) los documentales de La2.
14 / 14