Story Transcript
(#128). INDICADORES FORMATIVOS EN ECUACIONES ESTRUCTURALES [REVISIÓN DE ARTÍCULO] La medición de variables latentes con indicadores formativos es un tema muy discutido, tal y como los autores exponen en el comienzo del artículo. Un indicador formativo se diferencia de uno reflectivo en el que el primero afecta a la variable latente, mientras que en el segundo es la variable latente la que produce un efecto en el indicador. Están, por tanto, causalmente relacionados con la variable latente de manera opuesta. La correcta especificación de un modelo usando indicadores reflectivos o formativos es esencial. La estimación del modelo y su interpretación cambian ostensiblemente según se haya hecho la modelización de una forma o de otra. Por eso este tema es tan importante en cualquier tipo de planteamiento donde se empleen variables latentes. El objetivo de este artículo es revisar las principales críticas hacia este tipo de indicadores y tratar de rebatirlas. Distinción entre indicadores formativos y reflectivos Una forma de hacerlo es a través de experimentos mentales. Por ejemplo, hacerse la sencilla pregunta de: ¿es el indicador el que causa variaciones en la variable latente o al revés? En el primer caso estaríamos hablando de indicadores formativos y en el segundo de reflectivos. También abogan por una comparación empírica de varias conceptualizaciones competitivas, para escoger aquella con
mejor ajuste, pero en este caso se podría dar un ajuste con una mala especificación, por lo que resulta mucho más adecuado establecer a priori el tipo de medición antes de cualquier análisis. Recordemos que una variable latente, en definición de uno de los autores (Bollen), es una variable en la que no hay una realización muestral en al menos alguna observación en la muestra. Esto quiere decir que, de forma habitual, las variables latentes no tienen valores observables en la muestra. Según los autores, los indicadores formativos pueden ser o no la única combinación posible de indicadores para formar el concepto, o lo que es lo mismo, el concepto se define a través de los indicadores que lo forman, ya sea de forma perfecta (sin término de error), o de manera aproximada (con término de error). Este segundo caso es el más habitual para Bollen y Diamantopoulos, y se resume matemáticamente así: Variable latente = Lambda_1*x1 Lambda_n*xn + Error formativo
+
Lambda_2*x2
+
…
+
En el caso de 3 indicadores la ecuación formativa quedaría así: Variable latente = Error formativo
Lambda_1*x1 + Lambda_2*x2 + Lambda_3*x3 +
Sin embargo la ecuación reflectiva sería así: x1 = Lambda_1*Variable latente + Error_1 x2 = Lambda_2*Variable latente + Error_2 x3 = Lambda_3*Variable latente + Error_3 Como puede comprobarse, la especificación es distinta, y las implicaciones causales también. Es muy importante recalcar que las variaciones en la variable latente son determinadas de
manera diferente; para los indicadores formativos, ellos mismos pueden contribuir a la variación de la variable latente, mientras que para los reflectivos esa variación tiene que ser externa a los indicadores. En un planteamiento formativo los pesos de los indicadores pueden fijarse a priori según la teoría o estimarse, y permite la flexibilidad de no tener que admitir que los indicadores puedan ser intercambiables o que tengan que estar todos fuertemente correlacionados. Si dudamos en que ello sea así, es que probablemente estemos ante un caso de indicadores formativos. Los autores también distinguen entre variables latentes donde los indicadores tienen unidad conceptual, y variables compuestas donde los indicadores suman sus efectos para obtener un índice. Esta divergencia de planteamiento es fundamental para ellos. Crítica 1. Un constructo medido con indicadores formativos no existe separadamente de sus indicadores Es decir, si se cambian los indicadores se cambia el constructo. Pero los autores argumentan que esto es así cuando se forman índices o variables compuestas, pero no cuando la variable latente está formada por indicadores y existe un término de error. Al hacer una definición a priori del constructo, al igual que sucede si fuera una variable latente reflectiva, es ese constructo el que justifica la selección de indicadores. Crítica 2. medidas
Los indicadores formativos son causas, más que
Para mí esta es la parte más controvertida, ya que los autores no justifican el trasfondo de la crítica. Un indicador formativo puede en realidad convertirse en una variable latente y un indicador reflectivo.
Por ejemplo, si definimos la variable latente “Calidad de un servicio” con dos indicadores formativos (elementos tangibles, elementos intangibles), claramente podemos re-especificar esos indicadores como dos variables latentes diferentes con un indicador reflectivo cada una. Así, tanto los elementos tangibles como los intangibles afectarían a la calidad del servicio, es decir, serían causas, mientras que los indicadores reflectivos de esas causas serían las medidas. Bollen y Diamantopoulus no hacen referencia a este simple razonamiento, que es en mi opinión la base de la crítica a los indicadores formativos. Crítica 3. Los indicadores formativos implican múltiples dimensiones de un constructo En realidad no implican múltiples dimensiones como indican los autores, pero la crítica se refiere más al hecho comentado en el apartado anterior, en que los indicadores de un constructo pueden re-especificarse como múltiples dimensiones con indicadores reflectivos cada una de ellas. Esto
trae
también
la
discusión
del
concepto
de
dimensionalidad, ya que esas nuevas variables latentes pueden ser consideradas causas de la variable latente primaria (como en el caso del ejemplo comentado de la calidad del servicio), con un error de determinación asociado, lo que bajo mi punto de vista conllevaría la desaparición de la dimensionalidad, y la aceptación de que son constructos diferentes que causan variación en la variable latente principal. Crítica 4. Los indicadores formativos se asumen que están libres de error de medida Los autores se escudan en que existe un error asociado a esa determinación de la variable latente, como en un modelo de regresión habitual: Variable
latente
=
Lambda_1*x1
+
Lambda_2*x2
+
…
+
Lambda_n*xn + Error formativo Ese “Error formativo” es diferente del error de medida en los indicadores observables x1…xn, y es ahí de nuevo donde una reespecificación con un modelo de variables latentes reflectivas solucionaría el problema. Crítica 5. Los indicadores formativos están sujetos a confundido interpretativo El confundido interpretativo no es más que la consecuencia de establecer un modelo causal amplio entre varias variables latentes, de tal manera que la especificación de la medición en otras variables o relaciones entre ellas puede condicionar la propia relación entre un constructo y sus indicadores observables. Los autores advierten que este es un problema tanto para indicadores reflectivos como formativos. Ante esta situación, en mi opinión, hay que construir modelos causales con amplitud de miras, fijando parte las mediciones de cada variable (tipo indicador gold standar en la terminología de Leslie A. Hayduk). Crítica 6. Los indicadores formativos restricciones de proporcionalidad
no
pasan
las
Realmente los test de restricciones de proporcionalidad son una forma de ver si esos indicadores son adecuados o no, más que una limitación de los mismos. Crítica 7. Los coeficientes de los indicadores formativos deben fijarse a priori No es necesario según su conceptualización de indicadores formativos. Además, el hecho de fijar indicadores puede ser parte también de una forma de testar mediciones reflectivas,como el caso del gold standard de Hayduk. Conclusión/Comentarios
Creo que los autores hacen un buen trabajo profundizando en las críticas sobre los indicadores formativos, distinguiendo claramente entre variables que son latentes e índices creados artificialmente. En el segundo caso no se estaría hablando de una variable latente en el sentido estricto de la palabra, y por tanto tampoco de indicadores formativos en la conceptualización entendida como opuesta a los reflectivos. Si admitimos esa buena distinción de los autores, la cuestión que habría que abordar con mayor claridad es la posible reespecificación de los indicadores formativos en variables latentes reflectivas. Bajo mi punto de vista, esto concordaría mucho más con las visiones sobre medición de otros grandes nombres en la metodología actual (ej. Hayduk, Borsboom), y ayudaría a modelar los errores de medida que cualquier indicador puede tener. Ante esta situación, mi visión a día de hoy es que es preferible la re-especifiación, y luego seguir una estrategia de modelado similar a la recomendada por Hayduk en su libro de 1996, fijando los indicadores gold standar, y reduciendo al mínimo posible los indicadores de cada variable latente. Lo que sí es importante es, desde luego, saber distinguir los indicadores reflectivos de los formativos, y no emplear indicadores reflectivos “a discreción”, que es uno de los errores comunes que algunos investigadores cometen. Una buena reflexión acerca de la natualeza de las mediciones en el modelo planteado es el primer paso, para después pensar acerca de posibles re-especificaciones y estrategias de análisis. Bollen, K. A. & Diamantopoulos, A. (2015). In defense of causal-formative indicators: A minority report. Psychological Methods, doi: 10.1037/met0000056
Indicadores de calidad de la revista*
Impact Factor Cuartil (2014)
Categoría
Thomson-Reuters (JCR)
7.34
Q1
PSYCHOLOGY-MULTIDISCIPLINARY
Scimago (SJR)
4.95
Q1
PSYCHOLOGY
* Es simplemente un indicador aproximado para valorar la calidad de la publicación
(#127). AJUSTE EXACTO ECUACIONES ESTRUCTURALES
EN
[REVISIÓN DE ARTÍCULO] El profesor Leslie A. Hayduk es uno de los mayores expertos en los modelos de ecuaciones estructurales (SEM), una de las metodologías más empleadas en ciencias sociales. En este artículo intenta lo más didácticamente posible exponer postulados fundamentales sobre su correcto uso, algo que, lamentablemente, no se lleva a cabo por la mayoría de investigadores que utilizan este método. De este modo, el autor comenta algunos de los puntos clave para entender que la única vía posible es la del ajuste exacto mediante el test de la chi-cuadrado, rebatiendo algunos argumentos falaces. 1. Hipótesis nula con cero efectos En muchos contextos de investigación esto se refiere a la especificación de una hipótesis nula con escaso interés para la investigación, ya que postula cero efecto en la población, lo que puede alejarse del verdadero interés de estudiar la existencia de un efecto sustantivo.
Sin embargo, en SEM la hipótesis nula sí que tiene interés por sí misma porque encapsula afirmaciones teóricas sobre las estructuras que producen las variables observables. En SEM, la hipótesis nula hace referencia a que la matriz de covarianzas entre las variables implicada por el modelo propuesto es compatible con la matriz observable, dentro del error muestral (de ahí el test estadístico). En otras palabras, testa si la conceptualización que se especifica es consistente con los datos empíricos. Así, la matriz de covarianzas implicada por el modelo es la muestra, y la de los datos empíricos es la de la población. Esto tiene que quedar muy claro, porque es una de las grandes diferencias con el modo de enfocar las hipótesis nulas en los test estadísticos más habituales: diferencia de medias, correlación, etc. Una de las grandes ventajas de SEM es que podemos testar coeficientes no nulos, es decir, fijar el valor de determinados parámetros y ver si el modelo se ajusta. Esto sería equivalente a analizar si un tamaño de efecto determinado para una asociación entre variables es compatible con los datos empíricos. 2. El desajuste del modelo no tiene necesariamente que estar asociado al grado de mala especificación Este es otra de las ideas que cuesta asimilar, porque difiere del pensamiento más intuitivo de considerar que cuanto más pobre sea el ajuste del modelo peor va a ser el grado de mala especificación, y que cuanto mejor sea el ajuste el modelo será más correcto. Esta falacia se derrumba al considerar los modelos equivalentes, que son un tipo de modelos que obtienen el mismo ajuste pero con una especificación causal diferente. También al entender que los modelos saturados (mismo número de ecuaciones que de incógnitas) produce a menudo ajuste
perfecto, aunque la especificación obviamente puede ser incorrecta. El uso del análisis factorial exploratorio es otra vía para ver que modelos causalmente mal especficados pueden pasar el test de la chi-cuadrado, es decir, ajustarse. Incrementando el número de factores puede mejorarse el ajuste. Como bien indica Hayduk, como ese tipo de modelos mal especificados pueden indicar ajustes perfectos, una pequeña variación de sus especificaciones causales puede producir pequeños grados de desajuste estadístico, cuando el grado de mala especificación real sigue siendo enorme. De este modo, confiar en índices incrementales de ajuste (CFI, IFI, RMSEA, etc.) no tiene sentido, porque no sabemos si los valores que se aconsejan de esos índices están relacionados con una correcta especificación, y además no hay ningún criterio estadístico para establecer un punto de corte. 3. El uso de los intervalos de confianza Muchos investigadores emplean el RMSEA y sus intervalos de confianza como criterio de ajuste. Hayduk utiliza el argumento anterior para criticarlo. Como no hay una relación directa entre el grado de mala especificación y el grado de ajuste incremental o aproximado que provee el RMSEA, el uso de los intervalos de confianza es innecesario. Es muy diferente el caso del test de parámetros o tamaños de efecto, donde sí hay una correspondencia entre el resultado de los intervalos de confianza y el valor del parámetro desde el punto de vista estadístico. 4. Potencia estadística La potencia es un atributo deseable porque nos permite detectar con más seguridad desviaciones de la hipótesis nula en los test de parámetros, por ejemplo correlaciones, diferencia de medias, etc.
La potencia estadística debe evaluarse en conjunción con el tamaño del efecto encontrado, lo que es un fundamento básico de la interpretación de los análisis estadísticos, con el fin de evitar la confusión entre efectos estadísticamente significativos y sustancialmente significativos. Sin embargo, en SEM las cosas son diferentes. Bien es cierto que al aumentar el tamaño de la muestra se pueden detectar más fácilmente modelos que fallan, pero de nuevo tenemos que admitir que modelos que se ajustan pueden estar mal especificados, y que modelos que fallan trivialmente pueden estar gravemente mal especificados. Tamaños de muestra altos son deseables en SEM, al igual que en cualquier metodología. La chi-cuadradado se calcula así: Chi-cuadrado = N*F0 siendo N el tamaño de la muestra -1, y F0 el resultado de la función de discrepancia o el grado en que los residuos son importantes al comparar la matriz implicada por el modelo y la de datos observados. Pero en modelos correctamente especificados F0=df/N, siendo df los grados de libertad, por lo que da igual lo grande que sea N, ya que se cancela. Es decir, si el modelo es correcto, aunque tengamos un elevado tamaño muestral no vamos a poder detectar desviaciones de la hipótesis nula. 5. Todos los modelos son falsos Hayduk hace referencia a este mantra que, aunque no lo especifica en el artículo, está muy extendido en el área de la dinámica de sistemas. Es cierto que los modelos son aproximaciones a la realidad, pero usando SEM se pueden especificar restricciones causales en aspectos que no conocemos bien de los modelos. Es decir, todo de puede modelar.
6. Pescar los p-valores Emplear el clásico valor de corte de 0.05 para los p-valores significa que alrededor de 1 de cada 20 test estadísticos reportarán un resultado significativo cuando el efecto sea realmente cero. Este estándar se admite en ciencia, como la probabilidad de cometer un error Tipo I. Hayduk sostiene que los investigadores tienen que ser cautos a la hora de re-especificar sus modelos en base a las mejoras potenciales de ajuste. Esas modificaciones tienen siempre que estar ligadas por la teoría subyacente. Recordemos que SEM es un método para contrastar teorías, por lo que si se acometen nuevas especificaciones en aras de buscar un mejor ajuste de los datos, estas deben testarse con nuevos datos, es decir, replicarse. Otro elemento importante en relación al p-valor es el punto de corte. Santificar el 0.05 no tienen ningún sentido científico, ya que es una mera convención. Los autores deben hacer el mismo esfuerzo por evaluar sus modelos con p-valores de 0.04, 0.06, 0.08 o 0.03. La idea es siempre la misma, realizar una evaluación crítica del modelo propuesto, que evidentemente tendrá connotaciones diferentes cuando no existe el ajuste por la chi-cuadrado. Cuando se está en la frontera del ajuste, ya esté por encima o por debajo de 0.05, la interpretación debe ser similar. 7. Asunciones estadísticas El test de la chi-cuadrado es sensible a las desviaciones de normalidad multivariante. Pero existen correcciones, como el test escalado de Satorra-Bentler, que pueden permitir seguir confiando en el test en situaciones de desviación de normalidad. No obstante, Hayduk no comenta casos de desviaciones importantes o de uso de datos categóricos, donde existen otros procedimientos de estimación que requieren de tamaños de muestra necesariamente elevados.
8. Sesgo editorial y honestidad de los investigadores Hay un gran problema en la ciencia actual relacionado con la creencia de que sólo los resultados que encuentran efectos tienen interés científico. En el caso de parámetros sería encontrar un efecto significativo, y en el caso de ecuaciones estructurales sería que el modelo se ajustara. Esta tremenda tontería hace que haya un sesgo de publicaciones y que un número considerable de investigadores no sean honestos con sus datos y modelos, cometan fraude y manipulen. Los modelos teóricamente bien construidos, aunque no se ajusten, son de interés científico, y los editores y revisores no deberían desdeñarlos. Así la ciencia avanzaría de una manera mucho más rápida. Es mucho más informativo y útil testar una teoría contra los datos empíricos y que no sea consistente, que artificialmente forzar el ajuste de la teoría a los datos para que se cumplan los objetivos de la investigación. Esto hace que se generen cientos y cientos de artículos todos los años sin ningún interés científico, ni utilidad práctica alguna, embolicando mucho más todavía los marcos teóricos para las investigaciones subsiguientes. Hayduk ilustra con una anécdota bien conocida entre los que seguimos este mundo de la ecuaciones estructurales el porqué algunos “padres” de los programas informáticos más usados introdujeron los índices de ajuste aproximado, Karl Joreskog y Dag Sorbom: “Another one [anecdote] is from about 1985 when we gave a LISREL workshop. At that time, when use of the new methodology was not widespread at all, there were many LISREL applications producing large or huge chi-squares. We had just added GFI and AGFI to the program. In his lecture Karl would say that the chi-square is really all you need. One participant then asked “Why have you then added GFI?” Whereupon Karl answered “Well, users threaten us saying they would stop using LISREL if it always produces such large chi-
squares. So we had to invent something to make people happy. GFI serves that purpose.”” Conclusión/Comentarios Leslie A. Hayduk lleva toda su vida investigando en el ámbito de los modelos de ecuaciones estructurales. Su libros de 1987 y 1996 son, a día de hoy, todavía recomendables. Fue un adelantado a su tiempo hablando de tópicos hace 20 o 30 años que hoy se han mostrado como válidos. Tiene un carácter ciertamente agrio en ocasiones, seguirlo a través de SEMNET es un verdadero desafío porque las luchas dialécticas son brutales. No obstante, una revisión calmada y crítica de toda su obra es esclarecedora. Y obviamente no está sólo en esos postulados, existen otros bien reputados investigadores que lo secundan. La defensa del test de la chi-cuadrado es un elemento fundamental en SEM. Los investigadores que no respetan la evidencia estadística de este test están realizando una mala praxis, porque los índices incrementales o aproximados no están relacionados necesariamente con el grado de mala especificación, y porque los valores de corte son arbitrarios y han cambiado a lo largo de los años. Obviamente el test de la chi-cuadrado no es perfecto, porque no es capaz de discriminar entre modelos equivalentes, pero es ahí donde la teoría sustantiva se convierte en fundamental. Lo que Hayduk defiende es ser honesto con los datos empíricos y con el proceso de modelización, reportar cuando hay inconsistencias entre los datos observables y el modelo propuesto, y profundizar en los modelos para entender las causas por las que fallan. Propone un uso sincero y responsable de SEM, admitiendo las debilidades que tiene, pero instando a los investigadores, revisores y editores a que abracen de una vez el paradigma del ajuste exacto, como la única vía válida para evaluar modelos.
Al fin y al cabo no es más que reclamar que los investigadores mimen todo el proceso de investigación, desde el planteamiento inicial, la recogida de datos, hasta la forma de tratar esos datos estadísticamente, y no se dejen llevar por esa equivocada tendencia de buscar la significación estadística a toda costa, o la aproximación al ajuste del modelo empleando índices que fueron creados de manera espuria para que los investigadores manejaran el software comercial. Bajo mi experiencia personal, es posible obtener modelos que se ajusten vía chi-cuadrado (tengo publicados artículos así), y creo que ese es el camino correcto. Al comienzo de mi carrera como investigador publiqué un par de artículos empleando el ajuste aproximado, debido a los equivocados consejos de algunos maestros que tuve. Pero en cuanto me interesé personalmente por este tema, investigué por mi cuenta, y leí la bibliografía más relevante, me di cuenta de que confiar en índices como CFI, TLI, RMSEA, IFI, GFI, etc. es una lotería, algo que incrementa ostensiblemente el riesgo de que mis investigaciones no sirven para absolutamente nada. La chi-cuadrado no es perfecta, de nuevo hay que recalcarlo, pero es el único paso consistente para intentar plantear modelos útiles y tratar de entender la complejidad de los fenómenos bajo estudio. Si no se está dispuesto a ello, creo que lo más adecuado es no emplear esta metodología, y explorar con otro tipo de métodos no paramétricos, tratando de considerar relaciones complejas y no lineales, y yendo paso a paso y caminando despacio. Pero si se usa SEM, hay que hacerlo de manera honesta. Si no se hace así, se estará perdiendo el tiempo, el dinero, y la reputación. Hayduk,
L.
A.
(2014).
Shame
for
disrespecting
evidence:
the
personal consequences of insufficient respect for structural equation model testing. BMC Medical Research Methodology, 14, 124.
Indicadores de calidad de la revista*
Impact Factor (2014)
Cuartil
Categoría
Thomson-Reuters (JCR)
2.27
Q2
HEALTH CARE SCIENCES & SERVICES
Scimago (SJR)
1.28
Q2
EPIDEMIOLOGY
* Es simplemente un indicador aproximado para valorar la calidad de la publicación
(#10). EL DESCUBRIMIENTO DEL ARGÓN [MONOTEMA] El descubrimiento del Argón es un artículo del economista de Virginia Tech, Aris Spanos, una de las personalidades más destacadas en su campo sin lugar a dudas. Este es uno de los artículos científicos que más me ha gustado en los últimos años porque explica, a través de la historia del descubrimiento del gas Argón,
varios
elementos fundamentales en la metodología científica que siempre debemos tener presentes los investigadores aplicados. En este post, voy a comentar detalladamente este artículo, con el fin de exponer sus puntos más relevantes e ilustrar de la manera más sencilla posible cómo Spanos propone proceder a la hora de analizar datos, basándose en la perspectiva que él mismo, junto a la filósofa Deborah G. Mayo, también de Virgina Tech, llevan defendiendo desde hace dos décadas: Error-statistics, y que sorprendentemente no está diseminada de la forma que quizá debiera. Intentaré emplear un lenguaje lo más cercano posible, aunque ello haga quizá que se pierda cierto rigor conceptual, pero creo que merece la pena hacerlo así para que este post se entienda mejor.
Aprender de los datos Uno de los aspectos sobre los que más se discute en metodología es acerca de la aproximación deductiva frente a la inductiva. Básicamente la distinción entre estas dos aproximaciones se sustenta en teorizar primero y analizar después (deductiva), frente a analizar los datos y teorizar después (inductiva). Por ejemplo, si tengo una teoría sobre el movimiento de los planetas, debo poner a prueba esa teoría con las observaciones empíricas con el fin de contrastar si los datos son consistentes con la teoría. En este caso, opero de manera deductiva. Para
generalizar
esta
teoría
debo
replicarla
con
múltiples
observaciones en múltiples experimentos. Si esos datos no son consistentes con la teoría, entonces debo aprender de ellos, realizar más experimentos para buscar el porqué de esas inconsistencias y, si es necesario, replantear la teoría. Aquí se está produciendo un proceso de inducción, en el que los datos nos “hablan” para que confirmemos o modifiquemos el conocimiento existente. En realidad, muchos vemos este proceso de una forma similar a como lo hacía el filósofo C. S. Pierce, donde deducción e inducción son parte secuencial del mismo mecanismo de generación de conocimiento, precedido de una etapa de abducción o generación de las teorías o hipótesis en base al cuerpo de conocimiento existente. Esa secuencia de abducción->deducción–>inducción se realimenta constantemente. En definitiva, se trata de poner a prueba las teorías con los datos empíricos, y si los datos me dicen que no son compatibles con la teoría, entonces debo buscar explicaciones alternativas que sean a su vez confirmadas por los datos (en sucesivas replicaciones), y que puedan, de este modo, generalizarse. El cómo se generan esas ideas/teorías/hipótesis puede fundamentarse en otros datos empíricos, teorías alternativas, etc. Las discrepancias empíricas Spanos comienza su artículo explicando cómo Lord Rayleigh y su colaborador Sir William Ramsay, en la última década del siglo XIX realizaron una serie de experimentos que permitieron encontrar una discrepancia en la medida de la densidad del gas nitrógeno producido por dos procedimientos diferentes. Rayleigh intentaba medir el peso atómico del nitrógeno a través de conocer su densidad. Para ello lo
extrajo del aire, el cual se creía entonces que estaba compuesto de oxígeno, nitrógeno, dióxido de carbono y vapor de agua, con trazas de amoniaco, y empleó el conocido método del amoniaco.
Rayleigh estaba
dispuesto a publicar sus resultados, pero inteligentemente pensó que debía utilizar otros métodos distintos de medición que, considerando siempre el error experimental, dieran el mismo resultado. Rayleigh empleó en este segundo experimento un procedimiento más tradicional; tratar aire con cobre caliente. Para su sorpresa, el peso del nitrógeno obtenido era 1/1000 superior que el obtenido por el procedimiento anterior. Aquí ya tenemos dos importantes elementos a destacar que son esenciales metodológicamente hablando. Primero, Rayleigh implementó un procedimiento de triangulación metodológica, en el cual, si existen dos métodos válidos para estudiar un fenómeno, los resultados del primero deben coincidir estadísticamente con los del segundo. Al fin y al cabo esa triangulación es una replicación que, en lugar de hacerse al aplicar el mismo método varias veces, se ejecuta empleando diferentes métodos una vez. Segundo, Rayleigh evaluó el tamaño del efecto de la discrepancia como grande, a pesar de que en realidad es un número muy pequeño (una milésima). Esto nos recuerda que es esencial valorar los tamaño de efecto (las discrepancias sustantivas de las hipótesis nulas) de manera cualitativa en función del contexto y problema de investigación que se esté estudiando. Como esa discrepancia era relevante, Rayleigh realizó otro experimento con otro procedimiento; esta vez no empleó aire, sino oxígeno puro para producir nitrógeno, es decir, una producción “química” del nitrógeno.
La discrepancia fue en esta ocasión 5 veces mayor.
Llegados a este punto Rayleigh se planteó ya muy seriamente que los datos obtenidos hasta ahora eran inconsistentes con la teoría imperante sobre la composición del aire atmosférico. Pero Rayleigh decidió seguir investigando con el fin de dar robustez a sus resultados. El siguiente paso fue de nuevo replicar sus resultados empleando 4 métodos distintos para obtener nitrógeno del aire y otros 4 métodos distintos para obtenerlo químicamente. Para cada uno de esos 8 métodos
empleó diversas muestras (de tamaño entre 1 y 4), cuyas mediciones promedió. De nuevo tenemos que detenernos aquí, ya que lo que hizo Rayleigh fue equivalente a obtener diferentes mediciones de un mismo fenómeno con el fin de disminuir el error experimental, o más concretamente, mejorar la fiabilidad de las mediciones. Es decir, si no hay ningún error sistemático de medición, cuantas más observaciones individuales se promedien (se incremente el tamaño de la muestra), la media muestral (que es un estimador insesgado de la media poblacional) tendrá menor varianza. Por tanto, se obtiene una estimación más precisa de la media poblacional. Ciertamente, Rayleigh empleó muestras extremadamente pequeñas (como he dicho, entre 1 y 4 observaciones por cada método), lo que sería una posible limitación de su procedimiento. De hecho, en alguna de sus observaciones la diferencia entre sus mediciones era mayor que esa milésima que él consideraba un tamaño de efecto importante. De este modo (y esto no lo comenta Spanos), Rayleigh quizá debería haber incrementado el tamaño de sus muestras con el fin
de aumentar la precisión de los valores medios estimados
de cada uno de sus 8 métodos. Conviene matizar también que muestras muy
pequeñas
podrían
ser
suficientes
para
observaciones
muy
homogéneas, es decir, con dispersiones muy bajas. Finalmente, y tras el proceso de obtención de los valores medios de los 8 métodos, Rayleigh volvió a agregarlos (4 en el grupo de “aire” y 4 en el grupo de “químico), obteniendo un valor medio para el método del aire y un valor medio para el método químico. La resta de ambos promedios fue de 0.010515, es decir, una diferencia en peso de unos 11 miligramos, lo que llevó al investigador a concluir que, dado que el nitrógeno obtenido químicamente y el obtenido a través del aire atmosférico diferían de ese modo, debía haber una razón desconocida que explicara esa divergencia.
Rayleigh basó esa conclusión en que
las diferencias intra-métodos eran prácticamente despreciables, y esos 11 miligramos debían ser reflejo de una diferencia real entre la obtención de nitrógeno por ambos métodos. Como vemos, aquí sí que Rayleigh valoró las diferencias intra-método, es decir, las ocho diferentes
observaciones
(promedios)
de
empleado, que eran menores de 1 milésima.
cada
método
diferente
Rayleigh obtuvo unos datos que eran inconsistentes con la teoría establecida. El investigador, en aras de dar robustez a sus resultados, replicó sus experimentos empleando diferentes métodos. Una vez que se aseguró (en la medida de lo posible) que sus datos eran fiables y que no había errores sistemáticos, entonces ejecutó un último
paso:
planteó
dos
hipótesis
que
podrían
explicar
esa
divergencia; (1) que el nitrógeno atmosférico fuera demasiado pesado debido a la eliminación imperfecta de oxígeno, y; (2) que el nitrógeno obtenido por el método químico fuera menos pesado debido a la contaminación con otros gases, como el hidrógeno. Ambas hipótesis fueron descartadas dado el conocimiento existente, como bien explica Spanos. Rayleigh incluso llegó a realizar más experimentos en aras de eliminar otras hipótesis similares relativas a la imperfección de los métodos empleados, es decir, trató de llevar al extremo las hipótesis que podrían explicar esa discrepancia asociadas a la mala ejecución de los experimentos, pero no encontró ninguna evidencia de que así fuera. Nuevas hipótesis Llegados a este punto, el investigador tenía una discrepancia de la teoría existente que necesitaba de nuevas hipótesis para ser explicada. Aquí pasamos de nuevo al proceso de abducción, donde Rayleigh se planteó de nuevo dos alternativas; (1) que el nitrógeno atmosférico fuera demasiado pesado porque efectivamente contenía un gas más pesado, y; (2) que el nitrógeno químico fuera demasiado ligero porque contenía un gas más ligero. Fue aquí cuando pidió el consejo del eminente químico William Ramsay para tratar de arrojar luz sobre la primera hipótesis, ya que la segunda de ellas estaba prácticamente descartada por sus experimentos. Ambos investigadores realizaron de nuevo otra serie de experimentos, con otros métodos diferentes a los de los experimentos originales, y de nuevo se mostró esa discrepancia, esta vez de 0.011167, prácticamente idéntica a la anterior. De este modo, y ya con mucho más fundamento, se atrevieron a exponer que había un nuevo gas en el aire, al que llamaron Argón, del griego “inactivo”, ya que este nuevo elemento debía ser químicamente inerte. Como tantas veces ocurre en la ciencia, este descubrimiento fue visto con desconfianza por otros reputados investigadores, entre ellos
Dimitri Mendeleev, el creador de la tabla periódica porque, entre otras razones, no cuadraba dentro de su clasificación de elementos (posteriormente Moseley solucionaría este problema). Como comenta Spanos, no fue hasta el descubrimiento de otros gases nobles (helio, neón, kriptón, xenón y radón) entre 1895 y 1900 cuando la comunidad científica en pleno aceptó los resultados de Ramsay y Rayleigh. El punto de vista estadístico Hay que recordar que los procedimientos estadísticos de contraste de hipótesis e inferencia, tal y como hoy los conocemos, no aparecieron hasta la década de 1930. Pero, como bien indica Spanos, lo interesante de los procedimientos descritos anteriormente es que mimetizan, en cierta forma, los estándares que hoy tenemos en estadística aplicada. De este modo, hoy en día seguiríamos los siguientes pasos: 1. Establecer un modelo estadístico La fiabilidad de una inferencia depende de la validez de las asunciones probabilísticas, es decir, del modelo estadístico. Esto es muy importante recalcarlo porque un modelo estadístico no es sólo establecer una relación entre variables sino también una serie de asunciones que deben cumplirse, y que son parte intrínseca del modelo. Pensad en la cantidad de artículos que leemos en revistas académicas que son incluso de gran nivel y que sólo inciden en ver la significación
de
la
relación
entre
variables
sin
conjunto
de
atender
al
cumplimiento de las asunciones. El
modelo
estadístico
es
pues
un
asunciones
probabilísticas. Este tipo de asunciones condicionan el siguiente punto. 2. Formalizar el test para detectar la discrepancia Como Rayleigh quería estudiar si verdaderamente existía una diferencia sustantiva entre los dos métodos de medición (nitrógeno atmosférico frente al nitrógeno químico), esto llevaría actualmente a la formalización de un test de diferencia de medias empleando la prueba T de Student, si las asunciones sobre los datos son las de normalidad, independencia y varianzas constantes (Spanos añade también la asunción de medias constantes dentro de cada método, pero esta es una asunción
particular para este diseño de Rayleigh). Así, se establece una hipótesis nula en la que esa diferencia es cero, y una alternativa en la que esa diferencia sea mayor que cero. Es importante resaltar aquí que la hipótesis alternativa es unidireccional, o “de una cola”, ya que
firmemente
estamos
proponiendo
que
el
peso
de
nitrógeno
atmosférico es mayor por la presencia del gas inerte. Si nuestras asunciones son otras entonces el test elegido será consistente con esas asunciones. Por ejemplo, la no existencia de normalidad hace que el test T no deba implementarse (y aquí, ciertamente, podríamos discutir acerca de la cantidad de artículos en los últimos años que ha habido sobre la robustez de este test ante el incumplimiento de las asunciones, pero lo dejaremos para otro post). 3. Establecer una discrepancia estadística Llegados
a
este
punto
aplicamos
el
test
y
vemos
si
existe
significación estadística, es decir, si se rechaza la hipótesis nula. Y, como de nuevo excelentemente bien matiza Spanos, si un resultado es estadísticamente significativo no quiere decir necesariamente que exista una diferencia sustantiva o que exista un valor particular de la hipótesis alternativa (falacia del rechazo), mientras que si el resultado no es estadísticamente significativo tampoco significa necesariamente que no haya evidencia de que realmente lo sea (falacia de la aceptación), ya que en este último caso el test puede no ser lo suficientemente
sensible
como
para
detectar
una
discrepancia
sustantiva (suele ocurrir con tamaños de muestra pequeños o con dispersiones muy grandes). 4. Establecer una discrepancia sustantiva Spanos, en base al trabajo de Mayo (1996), propone establecer un análisis de severidad, que no es más que una especie de criba que el test elegido tiene que pasar. En realidad es la hipótesis la que tiene que pasar un test severo empleando los datos existentes, es decir, cuando se afirma que una hipótesis es rechazada o aceptada en función de los datos empíricos, se debe realizar esa afirmación siempre que esté fundamentada en un test severo. Conviene asimismo recordar que, desde el punto de vista frecuentista, se está analizando P(D|H0), es decir, se estima la probabilidad de los datos (D) asumiendo que la
hipótesis nula (H0) es cierta. Cuando esa probabilidad es menor que un determinado umbral alfa (usualmente 0.05), entonces la probabilidad de los datos es tan baja que se suele rechazar H0, admitiéndose una discrepancia (tamaño de efecto). Es importante recalcar que ese “pvalor” no es equivalente a la probabilidad de H0, sino a la de los datos (D). Nótese que la perspectiva bayesiana computa P(H0|D), lo que resulta mucho más intuitivo. La cuestión relevante es cuál es la discrepancia de la hipótesis nula garantizada por el test elegido, dados los datos de la muestra. Así, un test provee evidencia para una hipótesis en la medida en que los datos no sólo concuerdan con la hipótesis sino, además, ese resultado habría sido aún más probable si la hipótesis fuera falsa. Dicho de otro modo, si encuentro evidencia a favor de mi hipótesis (lo que se llama “resultado no significativo”), entonces debería analizar la probabilidad de obtener ese mismo resultado si la hipótesis fuera falsa. Es muy importante señalar que la severidad puede ser alta y la potencia baja. Esto ocurre porque la potencia se evalúa en un punto de corte de la distribución del estadístico independientemente de cuál sea el valor muestral obtenido. Mayo y Spanos (2006) lo explican perfectamente. Esto no quiere decir que el análisis de potencia haya que obviarse, ni mucho menos, pero reportar la severidad en conjunción con la potencia nos puede dar una visión mucho más completa de la medida en que la hipótesis nula se acepta pasando un test severo. En cualquier caso, este
es un punto un tanto polémico en el empleo del
test de severidad. De más interés si cabe resulta el caso en el que la hipótesis nula sea rechazada; el test de severidad se refiere a la máxima discrepancia garantizada por los datos (tamaño de efecto “lambda”), es decir, una vez fijado un valor de severidad (que puede ser, por ejemplo, 0.95), puedo conocer el máximo valor del tamaño de efecto garantizado por los datos. Por tanto, teniendo simplemente la estimación muestral y la hipótesis nula, la severidad me indica una forma de evaluar el tamaño del efecto. En el caso de los experimentos de Rayleigh, esas 0.01 unidades de discrepancia corresponden con un nivel de severidad de 0.85 (bastante
alto), lo que indica que la hipótesis alternativa de que el nitrógeno atmosférico pesaba 0.01 unidades más que el nitrógeno químico pasa un test de severidad con valor de 0.85, es decir, esa discrepancia que para Rayleigh era sustantiva (tamaño de efecto importante) está garantizada por los datos empíricos. Fiabilidad de la inferencia y adecuación estadística Pero, como he dicho, aquí no acaba el trabajo, ahora hay que garantizar la fiabilidad de la inferencia a través de la verificación del cumplimiento de las asunciones del modelo. Spanos llama a este paso la adecuación estadística del modelo. En palabras llanas: Hay que evaluar la validez de las asunciones. La forma en la que Spanos propone realizar esta validación es a través de procedimientos formales (tests) e informales (análisis de gráficos) empleando los llamados test de mala especificación, basados en los residuos y en los datos brutos. Recordemos que, de manera general, los residuos reflejan las discrepancias entre las predicciones del modelo ajustado y los valores nominales. Es decir, los residuos nos comunican la bondad de ajuste del modelo estadístico. Para el caso específico de los experimentos de Rayleigh: 1. La asunción de normalidad se cumple tras emplear el test de Shapiro-Wilks. 2. La asunción de independencia se cumple tras emplear el test de rachas, que recordemos es un test no paramétrico. 3. La asunción de homogeniedad de las medias dentro de cada método se cumple tras aplicar ANOVAs para cada uno de los dos grupos. 4. La asunción de homogeniedad de varianzas no se cumple tras aplicar el test F. Spanos comenta, sin embargo, que aplicando el test de Welch, que es una forma de corregir el test T cuando las varianzas de ambos grupos no son iguales, los resultados son muy similares. Por tanto, el proceso de análisis de datos concluye aquí, verificando
el cumplimiento de las asunciones (en el caso de la homogeneidad de varianzas modificando el test), por lo que los resultados pueden escribirse e interpretarse con garantías. Conclusión El excepcional investigador Aris Spanos nos explica fundamentos básicos de estadística aplicada a través de la revisión de uno de los descubrimientos más importantes del siglo XIX en química; el gas Argón. Es admirable cómo Rayleigh siguió de manera intuitiva un proceso metodológico que no se formalizaría hasta 30 años después, y que le permitió sustentar su descubrimiento
en base a los datos
empíricos obtenidos. Este artículo nos hace reflexionar sobre el dinamismo de los procesos de abducción, deducción e inducción, y nos conmueve cuando nos damos cuenta de cómo los investigadores antaño cuidaban y mimaban sus estudios hasta asegurarse de que sus resultados eran válidos. La diferencia de cómo se opera en muchas ocasiones en la ciencia actual (especialmente en ciencias sociales) es patente, donde la prisa, la falta de replicación, y las meteduras de pata estadísticas son constantes. Casi ninguno de nosotros estamos al margen de esta falta de rigor, que conste, todos podemos equivocarnos alguna vez y la presión
por
publicar
es
muy
alta.
La
diferencia
entre
unos
investigadores y otros radica precisamente en que algunos tratan de buscar mejorar día a día, aunque ello haga que vayan más despacio a la hora de publicar, y ser honestos con los datos con el perjuicio que eso supone también de cara a la publicación. Otros investigadores, sin embargo, no se preocupan por ello, cogen unos datos, los tabulan y les dan al botón de análisis “a ver qué pasa”, y si ven un p-valor que se ajuste a lo que quieren pues ya está…y a publicar. A estos últimos investigadores, bajo mi punto de vista, habría que, de vez en cuando, ponerles en el brete que el genial Nassim Taleb recordaba en “Antifragile”: que apuesten su propio dinero a que sus resultados son válidos…o mejor aún, que al igual que los romanos hacían dormir a los ingenieros que construían puentes debajo de los mismos con toda su familia durante los primeros días tras la construcción, estos investigadores de “a ver qué pasa” durmieran con una espada de
Damocles
representando
seguramente,
el
mundo
la
validez
de
la
de
sus
estudios.
investigación
social
Entonces, cambiaría
radicalmente. Spanos nos introduce, además, en el análisis de severidad, una forma de cribar la calidad del test para que no realicemos afirmaciones a la ligera sobre aceptación o rechazo, y nos recalca la importancia de los test de mala especificación para garantizar la idoneidad del modelo. Muchos de vosotros pensaréis que, si para este caso simplísimo del análisis de diferencia de medias entre dos grupos hemos de realizar todo este laborioso proceso, cuando las hipótesis y los modelos se compliquen la situación será mucho más difícil. Y es cierto. Pero, afortunadamente,
los
investigadores
aplicados
contamos
con
herramientas que nos pueden facilitar un poco el trabajo (test robustos, test no paramétricos, procedimientos de remuestreo, etc.). En cualquier caso, la filosofía de Spanos (basada en su trabajo conjunto con Deborah Mayo) es pertinente en todas las situaciones de análisis de datos. El descubrimiento del Argón, una apasionante historia de metodología de investigación. Ojalá la profesora que tuve cuando empezaba en esto, en mis curso de doctorado de “Análisis de datos”, me hubiera explicado esta historia con este nivel de detalle, en lugar de decirme (a mí y a todos los demás doctorandos) textualmente: “Cuando le deis al botón de análisis en un Anova y una prueba T únicamente tenéis que mirar que el p-valor sea menor que 0.05”.