NÚMEROS Y PALABRAS. Autor: Juan M. R. Parrondo

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA NÚMEROS Y PALABRAS. Autor: Juan M. R. Parrondo Para la mayoría

2 downloads 32 Views 767KB Size

Recommend Stories


a = mq m (a)+r m (a) y 0 r m (a) < b
Divisibilidad [1] M´ ultiplos y divisores Divisores. Definici´ on. Un n´ umero entero m es divisor de un n´ umero entero a si hay un n´ umero entero q

Resistencia a la tracción R m Tensile strength R m Resistenza alla trazione R m
Tabla 2 Aceros estructurales no aleados según norma europea Table 2 Non-alloy structural steels according to European standard Tavola 2 Acciai struttu

Story Transcript

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

NÚMEROS Y PALABRAS. Autor: Juan M. R. Parrondo Para la mayoría de la gente los números y las palabras pertenecen a reinos separados e incluso antagónicos. O se es “de letras”, o “de ciencias”, y cada materia pertenece a uno u otro campo sin posibilidad de conexión entre sí. Sin embargo, desde hace varias décadas, existe una disciplina que aplica técnicas matemáticas al estudio del lenguaje: la lingüística matemática . Una parte   importante   de   esta   disciplina   es   la  lingüística   cuantitativa,  que   consiste   en   el   estudio estadístico de textos, facilitado por la mayor potencia y capacidad de memoria de los ordenadores actuales. Vamos a explorar algunas curiosidades de esta lingüística cuantitativa utilizando textos que se pueden encontrar en Internet:  Don Quijote  ,  Cien años de soledad  y el original en inglés del Ulysses  de   Joyce.   Los   he   analizado   por   medio   de  TextStat,   un   programa   gratuito   que   realiza estadísticas elementales de cualquier texto, creado por la Universidad Libre de Berlín. Se pueden encontrar muchos programas como éste en Internet, algunos gratuitos y otros comerciales, bajo el nombre   genérico   de  Natural   Language   Processing   (NPL)   software  (programas   para   el procesamiento   del   lenguaje   natural).   Han   sido   diseñados   para   tratar   aspectos   gramaticales   del lenguaje, para administrar grandes conjuntos de textos que se denominan  corpus,    para encontrar concordancias,  es decir, las apariciones de una determinada palabra en un corpus, y para algunas otras funciones relacionadas con el estudio matemático del lenguaje. Uno de los primeros hallazgos de la lingüística cuantitativa fue la llamada ley de Zipf , una sorprendente regularidad en cómo se distribuyen las palabras en un texto de cualquier lengua. Se toma un texto suficientemente largo y se cuenta el número de veces que aparece en él cada palabra. Hay palabras, como “el”, “de” o “que”, que aparecerán un gran número de veces, y otras más raras que sólo aparecerán una vez. A continuación colocamos las palabras en una lista, ordenándolas de más a menos frecuentes. El orden que una palabra ocupa en la lista se denomina rango . Así, en el caso de Cien años de soledad , el rango de “de” es 1, el de “la” es 2, el de “que”, 3, el de “y”, 4, el de   “el”,   5,   etc.   Pues   bien,   la   ley   de   Zipf   afirma   que   la   frecuencia  f    de   una   palabra   dada   es inversamente proporcional a su rango r , es decir: f=

a r

en donde  a    es una constante que depende del texto utilizado. Se trata evidentemente de una ley aproximada, puesto que puede dar frecuencias no enteras e incluso menores de uno para rangos muy grandes. Una generalización de la ley, también aproximada pero que se adapta mejor a cualquier tipo de texto, supone que la distribución de frecuencias es una ley de potencias : f=

a rb

en donde b  es un exponente cercano a 1. Para ver si un texto satisface la ley de Zipf o su generalización, es necesario construir la lista y representar las frecuencias f  de cada palabra en función de su rango r . Sin embargo, es más útil hacer esa representación en ejes logarítmicos , es decir, en ejes en donde cada cantidad no varía de unidad en unidad sino en intervalos dados por las distintas potencias de diez. Esta representación 1 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

equivale a dibujar la gráfica del logaritmo de f  frente al logaritmo de r,  que se relacionan de la siguiente forma: log( f )=log(a)−b⋅log(r ) Como a  es una constante, esta ecuación nos dice que la gráfica de log f  en función de log r , o, equivalentemente, la de f  en función de r  con ejes logarítmicos, será una recta inclinada hacia abajo y con pendiente b. Cien   años   de   soledad verifica   la   ley   de   Zipf.   La   novela tiene un total de 138.014 palabras, entre   las   cuales   hay   16.019 diferentes.   TextStat   realiza   una tabla con la frecuencia de cada una de   estas   16.019   palabras.   En   la figura 1 pueden ver la gráfica de la frecuencia   en   función   del     rango. Los   puntos   azules   son   las frecuencias   de   cada   palabra   en   el texto y la línea roja es la recta que mejor   se   aproxima   a   los   puntos: una   ley   de   potencias   con  a    = 13.083 y b  = 1,0086. El exponente b    es muy cercano a 1, de modo que podemos decir que la ley de Zipf original se cumple con bastante aproximación en la novela de García Márquez. En la figura 2 podemos ver la ley de Zipf para  Don Quijote  , en el que   hay   22.941   tipos   de   palabras entre   las   381.222   que   componen   el texto.   La   línea   roja   representa   de nuevo la ley de potencias que mejor se ajusta a los datos “experimentales” y   en   este   caso   es   la   función  f    = 142.271∙  r–1,2136, es decir, una ley de potencias con exponente b = 1,2136. El   exponente   se   aleja significativamente de 1, el exponente de   la   ley   de   Zipf   original,   pero también   podemos   observar   que   no reproduce bien el comportamiento de las   palabras   más   frecuentes.   He dibujado   en   verde   la   ley   de   Zipf “genuina”, es decir, con exponente b = 1, que mejor se ajusta a los datos y el resultado no es peor que el de la mejor ley de potencias. Lo que  ocurre  en este  caso  es  que  la  ley  de  Zipf  genuina  se  ajusta  bien  a  los   puntos  con  mayor frecuencia, pero se desvía de los puntos  con mayor rango y menor frecuencia. ¿Qué se puede concluir entonces? Yo diría que ni la ley de Zipf ni la de potencias se ajustan a los datos de  El Quijote.   Aunque   las   palabras   más   frecuentes   sí   cumplen   aquélla,   parece   haber   un   número 2 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

demasiado  pequeño de  palabras  “raras”, es  decir,  de palabras  que aparecen sólo una  vez. Esta escasez hace que al ajustar una ley de potencias, ésta se incline en exceso y no pueda dar cuenta de modo preciso del comportamiento de las palabras más frecuentes. Para ver la universalidad de la   ley   de   Zipf,   les   presento   el análisis  del  original  en  inglés   del Ulises  de James Joyce. A pesar de ser una novela en donde hay una mayor   experimentación   con   el lenguaje,   los   datos   se   ajustan bastante   bien   a   la   ley   de   Zipf. Frecuencia   y   rango   están relacionados   por   una   ley   de potencias   con  a    =   52.467   y exponente  b    = 1,0793, aunque se observa   una   desviación   con respecto   a   la   ley   en   las   palabras más frecuentes. Zipf introdujo su ley en 1949, en un libro titulado El comportamiento humano y la ley del mínimo esfuerzo. La razón de este título es que la ley puede derivarse suponiendo que el lenguaje natural se ha desarrollado de modo que transmita la mayor cantidad de información con el menor número de palabras. Benoit Mandelbrot también realizó en 1951 una demostración similar. Sin embargo, ambas demostraciones implican una relación entre el rango de la palabra y su longitud, de modo que las palabras más frecuentes son las más cortas.  Por   último,   la   ley   de   Zipf,   aunque   es   sólo   válida   de   modo   aproximado,   permite   hacer algunas predicciones interesantes acerca de la estadística de un texto. Una de ellas es la relación entre el tamaño de un texto o número total de palabras que lo componen, y su vocabulario. Esta relación nos da una idea de la riqueza de vocabulario de cada texto.

LA ENIGMÁTICA SUCESIÓN DE TITIUS­BODE. Autor: Vicente Viana Martínez Cuando   se   formó   el   Sistema   Solar,   hace   unos   4.600   millones   de   años,   nueve   planetas comenzaron   a   orbitar   alrededor   de   una   joven   estrella   siguiendo   unas   órbitas   elípticas   de   baja excentricidad que, para mayor sencillez vamos a considerar circulares. La distancia a la cual giran los planetas alrededor del Sol quedó establecida según unos procesos físicos que hoy en día ignoramos en su detalle, y al margen de improbables perturbaciones exteriores siguen girando verificando inexorablemente la segunda ley de la dinámica de Newton. Nos podíamos preguntar si las distancias a las que orbitan los planetas siguen alguna ley o bien su distribución alrededor del Sol es totalmente aleatoria. Como   las   teorías   sobre   la   formación   del   Sistema   Solar   no   son   lo   suficientemente satisfactorias, son muchas las dudas que los científicos tienen sobre el origen de los planetas y lo 3 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

más   sensato   sería   pensar   que   se   distribuyeron   al   azar   con   unas   masas   y   una   composición impredecible antes de su formación. Sin embargo, en 1.766 Johann Daniel Titius formuló una teoría muy curiosa basada en una sucesión de números. En primer lugar tomó las distancias medias del Sol a cada uno de los 6 planetas conocidos en ese momento  (Mercurio, Venus, Tierra, Marte, Júpiter  y  Saturno).  Dividió esas   distancias   entre   el   valor   de   la   distancia   Sol­Tierra,   cuyo   valor   es   de   149,6   millones   de kilómetros y que se conoce como 1 unidad astronómica (1 U.A.), resultando los siguientes valores. PLANETAS

DISTANCIA AL SOL

Mercurio

0,4 U.A.

Venus

0,7 U.A.

Tierra

1 U.A.

Marte

1,5 U.A.

Júpiter

5,2 U.A.

Saturno

9,5 U.A.

Ahora   estableció   una   sucesión   de   término   general,   0,4 + primer término de la sucesión se establece como 0,4 para n = 1.

n−2

3· 2 10

para

n ≥ 2 .  El

Dando valores a n obtenemos los términos. 0,4 0,7 1 1,6 2,8 5,4 10 19,6 38,8 77,2 ... Si comparamos con los siete primeros términos de la sucesión de Titius comprobamos la casi   total   correspondencia   entre   dicha   sucesión   y   las   distancias   planetarias   al   Sol   medidas   en Unidades Astronómicas. Existe una importante discrepancia en esta sucesión. El valor 2,8 en la sucesión de Titius no aparece en las distancias de los planetas. Parece como si entre Marte y Júpiter tuviera que existir otro   planeta   situado   a   2,8   U.A.   del   Sol.   Lo   asombroso   del   asunto   es   que   a   dicha   distancia exactamente, se descubrieron posteriormente los asteroides Ceres e Ícaro y posteriormente lo que se conoce con el nombre de cinturón de asteroides, fragmentos de un antiquísimo 5º planeta que nunca llegó a formarse, conformando el actual conjunto de asteroides que giran siguiendo la trayectoria original de ese quinto planeta que nunca existió. Sin embargo, lo que despertó la admiración de todos los astrónomos fue el descubrimiento por Herschell en 1.781 del planeta Urano a una distancia de 19,2 U.A. del Sol, muy próximo al valor predicho por el octavo término de la sucesión de Titius que es de 19,6. Inmediatamente, los astrónomos se dedicaron a buscar otro planeta situado a 38,8 U.A. del Sol, de acuerdo con el siguiente término de la sucesión de Titius. 4 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

En 1.846 Galle descubrió Neptuno, a 30,1 U.A. del Sol, con lo que el noveno término de la sucesión de Titius presentaba un ligero error, pero seguía siendo una aproximación aceptable dentro de la escala astronómica. Posteriormente, en 1.930, Tombaugh descubrió el décimo planeta, bautizado como Plutón, que no encajaba en la sucesión, pues su distancia al Sol es de 39,4 U.A., muy lejos del valor predicho por Titius que es de 77,2 U.A. Sin embargo, Plutón es un planeta extraño. Por un lado la inclinación de su órbita con relación al plano del sistema Solar es de 17º, un valor anormalmente alto, pues en general todos los planetas orbitan en el mismo plano. Además, su excentricidad es también anormalmente alta (0,25), lo cual provoca que en ciertos puntos de su órbita, esté más cerca del Sol que Neptuno. Su tamaño también es anormalmente pequeño (menor que nuestra Luna), es el planeta más pequeño de todo el Sistema Solar, cuando todos los planetas más allá de Júpiter son planetas gigantes, muchísimo mayores que la Tierra. Todo esto nos lleva a pensar que Plutón no es un planeta del Sistema Solar sino un cuerpo celeste extraño, capturado por la órbita de Neptuno, lo que explicaría sus anomalías. Por lo tanto, la ley de Titius no es aplicable a este extraño y frío planeta, manteniendo su casi mágico nivel de exactitud para el resto de los planetas del Sistema Solar. Ahora podemos preguntarnos. •

¿Por qué los planetas siguen la Ley de Titius?.



¿Puede ser considerado azar un supuesto que se cumple para los 9 primeros planetas del Sistema Solar?.



¿Cómo se formó el Sistema Solar y qué desconocida ley física situó los planetas a esas 3· 2n−2 distancias que siguen la sucesión de término general   0,4 + ? 10



¿Existe otro planeta a 77,2 U.A. del Sol según predice el siguiente término de la sucesión de Titius?



¿Es aplicable la Ley de Titius a otros sistemas solares? ✔ Los cuatro satélites galileanos de Júpiter más el satélite interno más grande, Amaltea, cumplen perfectamente la ley de Bode. ✔ Las lunas grandes de Urano tienen una adaptación a la ley de Bode magnífica. ✔ Con el avance en las técnicas de descubrimiento de planetas extrasolares ya se han descubierto varios sistemas planetarios sobre los que es posible aplicar la ley. Un reciente estudio trata de aplicar la ley a algunos de estos sistemas, la conclusión es que Kepler 11 y HD 10180 cumplen perfectamente la ley, el estudio consigue aplicarla también a Gliese 876, Gliese 581 y 55   Cancri,   conformado   por   cinco planetas. (Fin del artículo de Vicente Viana Martínez)

INTENTAREMOS  APROXIMAR LA LEY  DE TITIUS­BODE  MEDIANTE  TÉCNICAS  DE ESTADÍSTICA BIDIMENSIONAL. Las distancias medias de los 9 planetas al Sol son (datos actualizados): 5 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

Objeto

Mercurio

Venus

Tierra

Marte

Asteroides

Jupiter Saturno Urano Neptuno Plutón

Posición

1

2

3

4

5

6

7

8

9

10

Distancia

0,39

0,72

1

1,52

2,65

5,2

9,54

19,19

30,07

39,52

Se   ha   tomado   como   unidad   la   distancia   entre   la   Tierra   y   el   Sol,   a   lo   que   se   llama   unidad astronómica (U.A.). El quinto lugar está ocupado por los asteroides que, para estos efectos, son considerados como un planeta más. Se pretende hacer un estudio bidimensional completo de la variables: X = Posición del objeto por su distancia con respecto al Sol Y = distancia al Solo en U.A. También se hará un análisis del mejor ajuste de datos mediante distintas funciones.    1.­ Nube de puntos.

2.­ Parámetros unidimensionales. ̄x =5,5 σ x =2,8723

̄y =10,98 σ y =13,2580

3.­ Correlación. σ xy=33,759 r = 0,8865 4.­ Coeficiente de determinación. La medida que usaremos para juzgar la bondad del ajuste es la razón de correlación, también llamada coeficiente de determinación que representa la proporción de la variación de Y explicada 6 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

por el modelo de regresión. Para el caso de Regresión Lineal, obtenemos un coeficiente de determinación: R² = r²  En las otras aproximaciones, utilizaremos la varianza residual de Y: N

∑ ( y j − ý j ) ² · n j Varianza residual de Y = σ r ² = Con 

j =1

N

ý j el valor obtenido mediante la correspondiente curva de regresión.

El coeficiente de determinación se define como: Coeficiente de determinación = R² =1−

σ ² Varianza residual = 1− r   Varianza total σy²

El ajuste será mejor cuanto más cerca esté R² de 1 5.­ Regresión Lineal a.­ Recta de Regresión de Y sobre X:

y=4,0919 x−11,5257

R² = r² ' = 0,7859

b.­ Recta de Regresión de X sobre Y:

x=0,1921 y +3,3912

R² = r² ' = 0,7859

7 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

c.­ Centro de gravedad de las Rectas de Regresión

6.­ Regresión cuadrática: y = 0, 8192 x² – 4.9192 x + 6,4965

R² = 0,9875

7.­ Regresión Polinómica. a.­ Grado 3:  y = 0.0615 x 3 − 0.1958 x² − 0.2378 x + 1.2183

R² = 0,9941

8 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

b.­ Grado 4:  y = −0.0186 x 4 + 0.471 x 3 − 3.1923 x² + 7.9513 x − 5.1691

8.­ Regresión Potencial:  y = 0.1734 · x 2.0911

R² = 0,9974

R² = 0,6911

9.­ Exponencial: a.­ Base “e”:  y = 0.2125 · e0.5373 · x

R² = 0,964

b.­ Base “2”:  y = 0.2131 · 20.7754 · x

R² = 0,9631

9 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

10.­ Ley de Titius:

y =0,4 +

3 · 2x −2 10

R² = 0,1486

En la ley de Titius­Bode el coeficiente de determinación es muy bajo, pero si eliminamos el error del décimo planeta, obtenemos coeficiente de determinación   R² = 0,9564 . Por   último,   si   quitamos   el   error   cometido   al   incluir   el   noveno   planeta,   obtenemos   un coeficiente de determinación para los 8 primeros objetos de  R² = 0,9997 . Cuando la ley se descubrió se sabía de la existencia de Mercurio, Venus, Marte, Júpiter y Saturno, cuando más tarde se descubrió  Urano muy cerca de la posición que predecía la ley esta tomó  importancia y se empezó  a buscar un hipotético planeta entre Marte y Júpiter que la ley predecía pero no se conocía. Fue así como se descubrió Ceres, el objeto principal del cinturón de asteroides, que se encuentra justo en esa posición. Por lo que la fórmula se ajustaba muy bien a los objetos conocidos hasta ese momento 

10 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

HAY QUE DECIRLO MÁS: CORRELACIÓN NO IMPLICA CAUSALIDAD Extraído de Blog Gaussianos: http://gaussianos.com Autor: DiAmOnD | Publicado el 27 de noviembre de 2013 Correlación no implica causalidad, hay que decirlo más. Y hay que decirlo más porque en general   no   llegamos   a   comprender   qué   significa   esta   frase.   Bueno,   o   eso   o   que   aun comprendiéndola intentamos confundir a quien no la entiende haciéndole creer que una cosa sí que implica a la otra. Prácticamente   a   diario   nos   encontramos   en   (principalmente)   medios   de   comunicación noticias cuyo titular tiene una estructura parecida a algunos de los siguientes: Un estudio afirma que cuanto más A más B. Un estudio afirma que quienes son A tienen menos B. Un   estudio   afirma   que   dado   que   A   es   así   entonces   B   es   de   esta   otra   forma. … En principio, todos esos titulares indican básicamente que lo que dice A es lo que provoca que ocurra B, o, lo que es lo mismo, que B es consecuencia de A. Normalmente, cuando uno se lee esas noticias, acaba dándose cuenta de que lo que hay es una correlación entre A y B (vamos, una relación entre esos dos sucesos), pero, en principio, sin ningún indicio de que sea uno de ellos, A en este caso, el que provoca el otro, B. El   estudio   de   la  correlación  entre   dos   variables   es   uno   de   los   temas   que   se   trata   en Estadística. Resumiendo un poco, la cuestión sería algo como lo siguiente: •

A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal (mediante la que buscamos si hay relación lineal hay entre las variables), pero hay muchos más tipos posibles: cuadrática, exponencial, logarítmica…



Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta) que nos determina exactamente qué relación hay entre esas variables.



Se   estudia   la   correlación   real   entre   ellas   (es   decir,   cómo   de   fuerte   es   la   relación   que habíamos estimado a partir de los datos iniciales) mediante un  coeficiente de correlación. Este coeficiente toma valores entre ­1 y 1, y se interpreta de la siguiente forma: •

Cuanto   más   cerca   de   1   esté,   mayor   correlación   positiva   (es   decir,   que   cuando aumenta una también lo hace la otra) hay entre las variables. 



Cuanto   más   cerca   de   ­1   esté,   mayor   correlación   negativa   (es   decir,   que   cuando aumenta una disminuye la otra) hay entre las variables.



Cuanto más cerca de 0 esté, menor correlación hay entre las variables. 

Ahora, que la relación entre las variables sea muy fuerte (esto es, que sea casi 1 o casi ­1) no significa que una de ellas sea la causa de la otra. En ningún sitio esta teoría nos deja asegurar con tanta ligereza que el hecho de que haya una correlación muy fuerte entre A y B significa que la variable A es la que está provocado que se presente la variable B. La teoría habla de relación entre las variables, no de que una sea la causa de la otra. Por cierto, buenísima esta tira de XKCD sobre el 11 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

tema:

Hasta aquí bien, ¿no? Vale, sigamos. Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar una cierta relación  entre  dos  variables  presentes  en los  sujetos  estudiados  se tiran  a la  piscina afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no hay ninguna evidencia de que esto sea verdad (simplemente hay correlación). Supongo   que  más   de   uno  se   estará   preguntando   lo   siguiente:   ¿entonces   es   mentira   que correlación implique causalidad? Pues no, no es mentira, y verdad tampoco. Me explico: Cuando se dice que la frase  correlación no implica causalidad  (en latín, Cum hoc ergo procter hoc) es cierta lo que se quiere decir es que el hecho de que haya correlación entre dos variables   no   significa   que   una   provoque   a   la   otra,   pero   eso   no   significa   que   si   encontramos correlación entre dos variables automáticamente podamos descartar que una sea causa de la otra. Hay casos en los que A es la causa de que ocurra B, en otros es al revés, en otros hay alguna variable adicional la que hace que se produzca esa correlación…y a veces  todo es fruto de la casualidad (sí, casualidad, no “causalidad”). El problema de creerse que una fuerte correlación implica una cierta relación causal entre las variables es que esa creencia se puede usar (malintencionadamente o no) para engañarnos, ya que no   es   demasiado   difícil   encontrar   correlación   entre   dos   variables   que   en   principio   ni   están relacionadas a poco que queramos “forzarla”. Por ejemplo, si os digo que el descenso de piratas en el mundo está provocando una subida de la temperatura media global de nuestro planeta, ¿qué pensaríais? Posiblemente que estoy muy mal de la cabeza, ¿no? Bien, echadle un ojo a esta gráfica:

12 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

Fuente: Wikimedia Commons. En ella se ve claramente que desde 1860 se ha producido un descenso del número de piratas y a la vez un aumento de la temperatura media de la Tierra, y que hay correlación lineal (la gráfica se acerca bastante a una recta) entre las dos variables. ¿Es el descenso de piratas la causa de la subida de temperatura? Pues no parece que sea así. ¿Y al revés? ¿Es la subida de la temperatura media global la causa del descenso de piratas? Pues tampoco parece que sea así. Es muy posible que esta relación sea pura casualidad. UNA INTERESANTE MANERA DE OBTENER BUENAS ESTIMACIONES DE LOS RESULTADOS DE UNA ENCUESTA Extraido de Blog Gaussianos: http://gaussianos.com Método visto en “El hombre anumérico”, de John Allen Paulos. Estoy seguro de que a la mayoría de vosotros os habrán hecho alguna vez una encuesta, y también estoy seguro de que muchos de vosotros no habréis sido totalmente sinceros (por no decir que “habréis mentido”) en alguna de las preguntas de dicha encuesta por lo comprometedor de la misma. Preguntas relacionadas con temas conflictivos (como la eutanasia, la pena de muerte o el aborto) o con temas tabú (como todo lo relacionado con el sexo) pueden llevarnos a no marcar la respuesta que creemos más cercana a la realidad por miedo o pudor. Entiendo que las personas encargadas de realizar las encuestas cuentan con esto, conviven con ello, y por tanto tendrán mecanismos para disminuir lo máximo posible la influencia de esta circunstancia en los resultados de las encuestas (o deberían). Lo que puede resultar curioso es que una opción para que esto ocurra con menos frecuencia sea incluir el azar en el propio acto de responder a la encuesta. Sí, el azar puede ayudarnos a obtener un resultado más fiable de nuestra encuesta. Vamos a ver cómo. Imaginemos que queremos realizar una pregunta a un grupo grande de personas, digamos 15000. Y supongamos que la pregunta es algo “conflictiva”, algo así como ¿Ve habitualmente (dos o más veces por semana) los documentales de La2? Seguro que muchos de los encuestados dirían en primera instancia que “Sí”, pero ante una pregunta como ésta uno puede no tener muy claro si la respuesta ha sido sincera o no. Vamos a introducir el azar de la siguiente manera: El proceso para responder a la pregunta será el siguiente: El encuestado tira una moneda al aire y mira el resultado (sin que lo vea nadie más). Si ha salido cara responde con total sinceridad a la pregunta, y si ha salido cruz responde “No”. De esta forma se entiende que eliminamos la posibilidad de que el encuestado responda algo que no piensa por el hecho de que el encuestador esté delante, o porque luego vayan a asociar con él una respuesta “comprometida” (que no ve los documentales de La2), ya que si ha respondido “No” puede haber sido porque en realidad respondió sinceramente “No” o porque simplemente obtuvo una cruz al tirar la moneda. Bien,   vayámonos   al   lugar   del   encuestador.   ¿Para   qué   le   sirve   esto?   Muy   sencillo. 13 / 14

CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA

Imaginemos que al repasar las respuestas ve que hay, por ejemplo, 14144 respuestas negativas. Por el hecho de que tanto la probabilidad de obtener cara como la de obtener cruz al lanzar una moneda es ½ , aproximadamente la mitad de los encuestados, unos 7500, habrán respondido “No” porque les salió una cruz. Eliminando estas respuestas tenemos 14144­7500=6644 respuestas negativas que se   entiende   que   son   sinceras   de   entre   15000­7500=7500   respuestas   posibles.   Eso   nos   da   una probabilidad de P(no ver habitualmente los documentales de la2)=

6644 ≃ 0,8857 7500

Es decir, que aproximadamente el 88,57% de los encuestados no ve habitualmente (dos o más veces por semana) los documentales de La2.

14 / 14

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.