Story Transcript
LA FIABILIDAD DE LOS TEST Y ESCALAS Recordemos que la validez se refería al significado que podemos atribuir. Es decir, estar seguro de que se mide lo que se dice medir, pero NO hay que entenderlo como una característica del instrumento. Con una validez alta podemos garantizar el significado de las puntuaciones de los sujetos. Por tanto si cambio de muestra puede cambiar mi fiabilidad y mi validez, porque cambio de sujetos. Hay que intentar que las muestras sean heterogéneas. CONCEPTOS PRELIMINARES DE FIABILIDAD. La fiabilidad es una característica de los resultados, de unas puntuaciones obtenidas en una muestra determinada. Un mismo instrumento puede medir bien a los sujetos de una muestra, con mucha precisión y mal, con un margen de error grande, a los sujetos de otra muestra. En principio la fiabilidad expresa el grado de precisión en la medida. Con una fiabilidad alta los sujetos en ocasiones sucesivas quedaran ordenados de manera semejante. Ej. Si tiene una actitud favorable hacia la homosexualidad no puede a veces ser desfavorable. Otro concepto es el de consistencia o predictibilidad. Un test es fiable si sabemos de antemano como va a contestar un sujeto, y lo sabemos porque lo hemos comprobado en muchas ocasiones. Errores sistemáticos: son los que siempre ocurren. Ej. A cada sujeto se le dan dos puntos mas Están relacionados con la validez. Errores aleatorios: los que ocurren al azar. Relacionados con la fiabilidad. ENFOQUES DE LA FIABILIDAD. 1. Como formas paralelas. Son dos versiones del mismo test: los ítems son distintos pero se pretende medir lo mismo. Se espera que un sujeto saque en ambos test las mismas puntuaciones verdaderas. La puntuación empírica se divide en la puntuación verdadera y en los errores (modelo lineal de Spearman). • Condiciones para que sean formas paralelas: 1ª Las puntuación empíricas pueden ser diferentes pero las verdaderas son siempre iguales. 2ª La dispersión de los errores o la varianza error debe ser la misma en ambos test. • Indicador de equivalencia. Puede ser un indicador de equivalencia entre los dos test: si la correlación es alta, las dos formas del mismo test dan resultados parecidos, es decir, ambas son intercambiables. Si la correlación es baja, miden cosas distintas. • Confirmación adicional.
1
Una confirmación adicional para ver que son formas paralelas es comprobar si la correlación media Inter − ítem dentro de cada forma es de magnitud similar y también la correlación de los ítems de una forma con los de la otra versión. 2. Estabilidad Temporal (Test − Retest) Los sujetos responden dos veces al mismo test dejando un intervalo de tiempo entre ambas. Se refiere a que si el test se aplica hoy o dentro de un tiempo, siga siendo valido y fiable, es decir, que se encuentre una relación entre lo que se obtiene hoy y lo que se obtiene mas adelante. • Indicador de estabilidad. Es un indicador de estabilidad o de no ambigüedad en la medida en que en ambas ocasiones los resultados son parecidos. 3. Consistencia Interna. Expresa hasta que punto las respuestas son suficientemente coherentes y relacionadas para concluir que todos los ítems miden lo mismo y son sumables en una puntuación única que representa o mide un rasgo (recordemos que estamos en la escala tipo Lickert y que para sumar ítems deben medir lo mismo). Podemos hallarla de dos maneras: • Procedimiento de las dos mitades: mediante a) la formula de Spearman Brown, b) Flanagan, c) de Cronbach. Es habitual dividir el test en ítems pares e impares, pero puede dividirse en dos mitades cualesquiera, teniendo ambas el mismo numero de ítems. Si emparejamos los ítems según contenido de manera que cada mitad del test conste de ítems muy parecidos, obtendremos una estimación más alta de la fiabilidad. Cuando la mitad de los ítems son positivos y la otra negativos es útil que las dos mitades estén compuestas una por ítems positivos y otra por los negativos. Una correlación entre los dos subtest en torno a 0,50 o mayor indica suficiente coherencia entre los dos tipos de ítems y no se manifiesta aquiescencia. Se parte el test en dos mitades, y para decir que son formas paralelas tienen que tener: a) la misma media, b) la misma varianza. Y si los correlaciono me dara la fiabilidad de una parte o de otra (son la misma) y con el coeficiente de Spearman − Brown hallamos la fiabilidad del conjunto. R12 = correlación entre las dos mitades del test Esta formula calcula la fiabilidad de todo el test. Supone que las dos mitades tienen medias y varianzas idénticas, por lo que sobreestima la fiabilidad. • Procedimiento informativo de cada ítem: cuando parto el test en tantas partes como ítems hay. Podemos usar el de Cronbach (para ítems continuos) y la Kuder−Richardson (para ítems dicotómicos). Son preferibles a los métodos de las dos mitades porque equivalen a la fiabilidad media que obtendríamos 2
dividiendo un test en todas sus posibles dos mitades. SUPUESTOS DE LA TEORIA CLASICA 1º La media empírica es igual a la media verdadera mas los errores. X = V + E 2º La media de los errores tiene que ser 0, es decir aleatorios. 3º No tiene que haber relación entre la puntuación verdadera y los errores, porque sino serian sistemáticos. 4º La correlación entre los errores de dos test paralelos tiene que ser 0 porque sino serian sistemáticos. COEFICIENTES DE CONSISTENCIA INTERNA La varianza de las puntuaciones totales de un test es:
= Varianza total: expresa todo lo que hay de diferente en las puntuaciones totales. La varianza será mayor si los sujetos difieren mucho entre si y estará asociada a mayor fiabilidad.
= Varianza verdadera: expresa lo que hay de diferente debido a que los sujetos son distintos en lo que pretendemos medir, es decir, lo que hay de diferente debido a lo que los ítems tienen en común.
= Varianza debida a errores de medición: debida a que los ítems miden en parte cosas distintas. Puede haber más fuentes de error pero controlamos la debida a falta de homogeneidad. La fiabilidad es la proporción de varianza verdadera, es decir la fiabilidad es igual a la varianza debida a lo que hay de coherente en las respuestas entre la varianza debida tanto a lo que hay de coherente como de no coherente en las respuestas y su formula básica es: REQUISITOS PARA UNA FIABILIDAD ALTA. 1º Tendremos una fiabilidad alta cuando haya diferencias en las respuestas a los ítems, es decir, cuando los ítems discriminan. Si un ítem no esta relacionado con los demás puede ser que no este midiendo lo mismo y que no sea discriminante. 2º Y también cuando las respuestas de los ítems estén relacionadas entre si, entonces habrá consistencia interna. Esto es que los sujetos tienden a puntuar alto en todos o bajo en todos. Con respuestas diferentes y además coherentes, los sujetos quedan más diversificados, mejor clasificados por sus puntuaciones totales y esto se refleja en una mayor varianza. La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a través de sus respuestas en todos los ítems. FORMULAS DE KUDER RICHARDSON 20 Y DE CRONBACH Se trata de la misma formula, una expresada para ítems dicotómicos y otra para ítems continuos.
3
El denominador es la varianza de las puntuaciones totales del test. El numerador es la varianza verdadera, o la suma de covarianzas de los ítems. Si los ítems no discriminan sus desviaciones típicas serán pequeñas, bajara el numerador y bajara la fiabilidad. Si las desviaciones típicas son grandes pero los ítems no están relacionados bajara la fiabilidad, porque esa no relación entre los ítems hace que las puntuaciones totales estén menos diferenciadas. Coeficiente de Cronbach. K = numero de ítems
= suma de las varianzas de los ítems
= varianza de los totales. Formula Kuder Richardson. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD. Los coeficientes de fiabilidad tienden a aumentar cuando: • La muestra es heterogenea: es más fácil clasificar a los sujetos cuando son distintos. • La muestra es grande: es más probable que haya sujetos muy distintos. • Las respuestas a los ítems son más de dos: mayor probabilidad de que las respuestas difieran mas, de que se manifiesten las diferencias que de hecho existen. • Cuando los ítems son muchos: hay más oportunidad de que los sujetos queden más diferenciados en la puntuación total. Si queremos aumentar la fiabilidad del test podemos aumentar el numero de ítems siempre que sean buenos y relacionados. Pero la relación longitud − fiabilidad no es lineal (porque sino seria infinita), la relación que hay entre ambas muestra un efecto techo. En test cortos no muy fiables si aumentamos el numero de ítems aumentara mucho la fiabilidad, sin embargo en test largos pasa lo contrario, la fiabilidad aumenta poco por el efecto techo. Para aumentar los ítems existen unas formulas (Pág. 9) • La formulación de los ítems es muy semejante: si hay diferencias entre los sujetos, aparecerán en todos los ítems y subirán sus intercorrelaciones. INTERPRETACION DE LOS COEFICIENTES DE CONSISTENCIA INTERNA. • Expresa la proporción de varianza debida a lo que los ítems tienen de relacionado. Un coeficiente de 0,70 indica el 70% de la varianza se debe a lo que los ítems tienen en común, y un 30% se debe a errores de medición. 4
• Son indicadores de homogeneidad de los ítems, de que todos midan lo mismo. La homogeneidad conceptual se interpreta como descriptor del rasgo que suponemos presente en todos los ítems. • Son una estimación del coeficiente de correlación que podemos esperar con un test similar, con el mismo número y tipo de ítems. De un universo de posibles ítems hemos escogido una muestra de ítems. Si la fiabilidad es alta, con otra muestra de ítems de la misma población de ítems obtendríamos unos resultados semejantes. • La fiabilidad nos dice si un test discrimina adecuadamente, si clasifica bien a los sujetos, si detecta bien las diferencias en aquello que es común a todos lo ítems. • La raíz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlación entre las puntuaciones obtenidas y las puntuaciones verdaderas, a estos e le llama índice de precisión. Una fiabilidad de 0,75 indicaría una correlación de 0,86 (= ). Este índice expresa el valor máximo que puede alcanzar el coeficiente de fiabilidad. • El error típico es la oscilación probable de las puntuaciones si los sujetos hubieran respondido a una serie de test paralelos. A mayor fiabilidad bajara la magnitud del error probable. CUANDO UN COEFICIENTE DE FIABILIAD ES SUFICIENTEMENTE ALTO. Tabla 3 Cuando baja la fiabilidad sube el error típico, que con una forma paralela del mismo test podría ser distinta. Los valores del coeficiente de fiabilidad oscilan entre 0 y 1. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD. 1º En principio confirman que todos los ítems miden lo mismo y se utilizan como un control de calidad. 2º Permiten calcular el error típico de las puntuaciones individuales, es decir, entre que valores se encontrara nuestra puntuación verdadera, entendiendo por ello la que tendríamos si pasásemos varios test. 3º Permiten estimar los coeficientes de correlación que hubiéramos obtenido entre dos variables si su fiabilidad fuera perfecta (se denominan corregidos por atenuación). Los coeficientes no dependen exclusivamente de la redacción de los ítems, de la complejidad o simplicidad de la definición del rasgo que queremos medir y además influyen en la fiabilidad características de la muestra. Por que un coeficiente alto no expresa necesariamente que los ítems son suficientemente homogéneos. 1º La consistencia interna expresa una relación de hecho, estadística, entre los ítems pero no supone necesariamente una coherencia conceptual. 2º Una fiabilidad alta puede deberse a un numero grande de ítems que en ocasiones no se prestan a una interpretación clara. Una fiabilidad alta se puede conseguir con muchos ítems con relaciones bajas entre si y también con dos bloques de ítems con claras correlaciones entre los ítems dentro de cada bloque, pero con poca o nula relación con los ítems del otro bloque. 3º Puede deberse también a una concepción del rasgo muy limitada, con ítems de contenido casi idéntico.
5
Error típico de la medida. Es de utilidad en interpretaciones individuales. Viene a ser la desviación típica de las puntuaciones verdaderas, e indica el margen de error o variación de las puntuaciones individuales. El mejor uso del coeficiente de fiabilidad es utilizarlo para calcular el error típico cuando interese situar a casa uno en su banda de posibles probables resultados. El error típico se interpreta como cualquier desviación típica e indica la variabilidad probable de las puntuaciones obtenidas, observadas • Las puntuaciones verdaderas. Es la media más probable que un sujeto hubiera obtenido si le hubiéramos medido repetidas veces en el mismo rasgo. Las puntuaciones verdaderas tienden a ser menores que las obtenidas cuando estas son superiores a la media y mayores cuando son inferiores a la media. La puntuación verdadera exacta no la sabemos pero podemos estimar entre que limites se encuentra. Correlación corregida por atenuación. La correlación calculada entre dos variables queda siempre disminuida por los errores de medición, por su no perfecta fiabilidad. Esta correlación corregida por atenuación es la que hubiéramos obtenido si hubiésemos podido suprimir los errores de medición en las dos variables. Conociendo la fiabilidad de las dos variables podemos estimar la verdadera relación: rxx y ryy son coeficientes de fiabilidad. CUANDO TENEMOS COEFICIENTES DE FIABILIDAD BAJOS. 1º Puede ser debido a una inadecuada formulación de los ítems. Puede que los sujetos entiendan los ítems de una manera distinta a como lo pretende el autor del instrumento. La coherencia conceptual prevista la comprobamos con la coherencia que de hecho encontramos en las respuestas; y si no entienden el significado previsto habrá que eliminarlos. 2º Homogeneidad de la muestra. A veces la causa es que apenas hay diferencias entre los sujetos. Y si no hay diferencias tampoco habrá relación clara y verificada entre las respuestas. 3º Definición compleja del rasgo medido. Una fiabilidad baja con una muestra heterogenea puede significar una concepción del rasgo excesivamente compleja.
6
Los rasgos definidos de manera compleja pueden tener ítems poco relacionados entre si. 4º Utilidad del error típico cuando la fiabilidad es baja. Con coeficientes bajos siempre es conveniente utilizar el error típico, sobre todo cuando se trata de tomar decisiones sobre sujetos. FORMULAS QUE RELACIONAN FIABILIDAD CON NÚMERO DE ITEMS • Si queremos saber en cuanto aumentara la fiabilidad si aumentamos el numero de ítems multiplicando el numero de ítems inicial, tenemos la formula de Spearman − Brown : rxx es el coeficiente de fiabilidad conocido. Rxx´ es el nuevo coeficiente de fiabilidad estimado. n es el numero de formas paralelas que alargo en el test inicial. Ejemplo: tenemos un test inicial de 20 ítems con una fiabilidad de 0,42, y le vamos a añadir otros 20 ítems. 20 ítems − rxx´ = 0,42 40 ítems − rxy NO podríamos hacer una regla de tres porque eso supondría una relación lineal, que ya hemos dicho que no existe entre longitud del test y fiabilidad, pues sino aumentaría hasta el infinito. En este ejemplo n (numero de formas paralelas) no es 20 porque eso supondría que tendríamos 400 ítems en vez de 40. El test inicial de 20 ítems tiene 1 forma paralela, así que si ahora añado otros 20 ítems añado otra forma paralela, n = 2. Cuando ya tenemos 40 ítems y 2 formas paralelas se le llama forma alargada del test. • Si tenemos una fiabilidad conocida y queremos llegar a otra más alta, ¿en cuantos ítems tendríamos que alargar el test? rnn es la fiabilidad deseada. r11 es la fiabilidad obtenida con el número original de ítems. Ejemplo del ejercicio 7: Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiríamos en la formula y nos daría n = 3, 86 formas paralelas. Ahora en este caso si se podría utilizar la regla de tres. 40 ítems − 1 forma paralela X ítems − n − 1 = 2,86 formas paralelas Y el resultado seria 115 ítems que vamos a añadir.. ¡OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que 7
restarle la forma paralela que ya teníamos en el test inicial. Si no la restamos nos saldrían 154 ítems que son el total, no los que hemos añadido (115). Los casos que hemos visto siempre nos salen números redondos pero puede suceder que no lo sean, en cualquier caso el procedimiento seria el mismo: Inicial 15 ítems 1 forma paralela Añado 10 ítems n − 1 = 0,66 (sale de una regla de tres) Final 25 ítems n = 1,66 forma paralela. TEMA V.− INTRODUCCION A LOS METODOS NO PARAMÉTRICOS: Los métodos no paramétricos no suponen condiciones previas en la población. Se han hecho especialmente populares como alternativa los métodos paramétricos cuando los datos no se ajustan a los supuestos teóricos de dichos métodos. Son relativamente sencillos y especialmente aptos para muestras pequeñas. I.− LOS SUPUESTOS DE LOS METODOS PARAMÉTRICOS: • EN RELACION AL TIPO DE ESCALA O NIVEL DE MEDIDA: Lo que supone es que la escala utilizada es de intervalo, es decir, que hay una unidad propiamente dicha aunque el punto cero sea arbitrario. El problema de la unidad esta relacionado con las escalas de medida. En principio, el nivel de medida condiciona las operaciones matemáticas permisibles. Los números pueden significar un criterio de clasificación: En este caso no son números en sentido propio. Se trata de las denominadas escalas nominales. En estos casos podemos contar cuantos elementos hay en cada categoría de clasificación, pero los números con los que designamos los grupos no expresan necesariamente ni orden ni cantidad. Los números pueden significar orden: En este caso tenemos escalas ordinales. Podemos ordenar los sujetos u objetos de más a menos, pero no hay una unidad en sentido propio. Los números pueden significar cantidad o distancia: Aquí disponemos de una unidad en sentido propio (4 es el doble que 2) se trata de las escalas de intervalo (y que si tienen un punto cero absoluto se denominan escalas de razón). Cuando disponemos de una unidad podemos hacer los operaciones aritméticas habituales. Si se da una correspondencia suficiente entre los modelos matemáticos y los datos observados se denomina isomorfismo. El investigador Stevens planteó el problema de la utilización de métodos paramétricos con medidas que, en sentido estricto, solo son ordinales y no disponen de una unidad. • Justificación de la suposición de una unidad en los datos de que disponemos: 8
Las razones aducidas para actuar de este modo son de dos tipos: • Unas consideraciones son de corte más teórico: Suponemos que las escalas que utilizamos son de intervalo aunque imperfectas; las variables subyacentes o rasgos los conceptualizamos como continuos y con distribución normal. No se trata de escalas literalmente de intervalo pero se aproximan lo suficiente como para tratar los datos como si lo fueran. • Otras razones son de tipo puramente experimental: Los datos teóricamente ordinales funcionan bien como si se tratara de escalas de intervalo. Podemos suponer en la practica que, por ejemplo, entre poco y algo hay la misma distancia que entre algo y bastante como si hubiera una unidad, por lo que podemos asignar a esas respuestas números consecutivos. Estas y parecidas razones hacen que el punto de vista dominante hoy día es que la distinción entre escalas ordinales y de intervalo es irrelevante para determinar cual es el método de análisis apropiado para comprobar hipótesis estadísticas. Así, las pruebas paramétricas se consideran legitimas con medidas ordinales. • EN RELACION A LAS CARACTERISTICAS DE LAS POBLACIONES: Se supone: • Una distribución normal. • Homogeneidad de varianzas. Esta suficientemente probado que en la mayoría de las situaciones la violación de estos supuestos no afecta al poder (de rechazar la hipótesis nula cuando es falsa) de las pruebas paramétricas. II.− CUANDO ES PREFERIBLE UTILIZAR LOS METODOS NO PARAMETRICOS: Los métodos no paramétricos son una alternativa preferible cuando se dan estas dos circunstancias: • Cuando no se pueda presumir la normalidad en la población: cuando muestras pequeñas tienen una distribución obviamente muy alejada de la distribución normal. El supuesto de normalidad en la población se puede asegurar mejor cuidando la calidad del instrumento. Lo que ocurre es que a veces la calidad del instrumento no es modificable o simplemente se trata de estudios improvisados en los que no se puede o no interesa invertir tiempo en el instrumento. • Con muestras pequeñas de tamaño claramente desigual y con varianzas obviamente muy desiguales. Independientemente de los problemas de los métodos paramétricos, esta bien demostrada la calidad de los métodos no paramétricos. Aun así, si los métodos alternativos paramétricos se pueden utilizar son en principio preferibles porque en ellos se utiliza toda la información disponible (no solamente el orden). La perdida de información es mayor en la medida en que aumenta el numero de sujetos. III.− METODOS NO PARAMÉTRICOS MAS UTILIZADOS: Los métodos no paramétricos podemos dividirlos en dos grandes grupos según se trate de datos nominales 9
(sujetos u observaciones clasificados en categorías) u ordinales (lo que conocemos y utilizamos de cada observación es su rango o numero de orden). 1. − METODOS APROPIADOS PARA DATOS NOMINALES: Clasificaciones: • En esta categoría entran todas las variantes del ji cuadrado. Estos métodos deben utilizarse junto con los coeficientes de asociación correspondientes (como el coeficiente , el coeficiente de contingencia,...etc) Con frecuencia métodos que requieren métodos ordinales desembocan en la distribución de ji cuadrado (sobre todo al aumentar el tamaño de la muestra) o simplemente se utiliza el orden para dicotomizar las puntuaciones y aplicar después el ji cuadrado convencional (como en la prueba de la mediana). • Para muestras independientes y muy pequeñas, que se pueden disponer en cuadros de 2x2, y en las que por el bajo numero de sujetos el ji cuadrado convencional no es aplicable, tenemos la prueba exacta de Fhiser. • Para dos muestras relacionadas, también dispuestas en cuadros de 2x2, es muy útil la prueba de McNemar para detectar cambios: los sujetos se clasifican según sus respuestas, 1 ó 0, antes y después. Lo que se compara es la proporción de unos antes y después. • Para muestras muy pequeñas divididas solo en dos categorías (equivale al contraste entre proporciones) es muy útil la aplicación directa de la distribución binomial (solo requiere consultar tablas). La distribución binomial es también aplicable a muestras grandes, pero en este caso la distribución pasa a ser normal y estamos en el caso habitual de diferencias entre proporciones. • Algunos métodos que requieren datos ordinales terminan en la distribución nominal, como la prueba de los signos para verificar cambios; numero de sujetos con cambio positivo y numero de sujetos con cambio negativo. 2. − METODOS ORDINALES EN LOS QUE SE UTILIZAN RANGOS: En estos métodos se sustituye la puntuación directa por su rango o numero de orden y se opera con estos rangos. Aunque es cierto que existen algunos de ellos en los que no se utilizan sino que se supone que la variable es ordinal y continua. Los métodos en los que se utilizan los rangos tienen en principio una ventaja obvia, y es que no se ven afectados por sujetos con puntuaciones muy extremas y atípicas. 2.1. − Cuando Tenemos Solamente Dos Muestras: • La U de Mann−Whitney para comparar dos muestras independientes: Es la alternativa más utilizada a la t de Student para muestras independientes. Comprueba si dos distribuciones son distintas. • La T de Wilcoxon para dos muestras relacionadas: Es también la alternativa ,más utilizada a la t de Student para muestras relacionadas. Se utiliza para detectar cambios o en diseños de sujetos igualados. Para comprobar cambios (muestras relacionadas) es también popular la prueba de los signos, que solo requiere datos ordinales y no utilizan los rangos. Otros métodos no paramétricos de interés suponen variables al menos ordinales y continuas aunque no se utilicen los rangos, como sucede en:
10
• La prueba de Kolmogorov−Smirnov para una muestra o para dos muestras independientes: no se utilizan rangos sino frecuencias acumuladas, pero se supone, al menos, una escala ordinal. Cuando se trata de dos muestras lo que se detecta con estas pruebas es si las muestras tienen distribuciones distintas. Aplicada a una sola muestra, esta prueba es especialmente útil, como prueba de bondad de ajuste, para verificar si la distribución observada se aparta de una distribución hipotética que suele ser la distribución normal. • La prueba de las rachas de Wald−Wolfowitz, semejante a la prueba de Kolmogorov−Smirnov, nos permite determinar si las dos muestras pertenecen a poblaciones distintas en tendencia central o dispersión. 2.2 Cuando Tenemos Mas De Dos Muestras: Cuando tenemos mas de dos muestras, estamos ante las alternativas no paramétricas al análisis de varianza. Para mas de dos muestras independientes: • La H de Kruskal−Wallis: es una alternativa al análisis de varianza más sencillo: Anova A−EF−CA. Cuando el supuesto de homogeneidad de varianzas no es sostenible, permite poner a prueba la hipótesis de que varias medias proceden de la misma población. Si hay rangos repetidos es más difícil rechazar la hipótesis nula pero el mismo procedimiento incluye los ajustes necesarios. • La prueba de Jonckheere comprueba si se da una tendencia significativa a aumentar de menos a mas, entre varias muestras independientes. Para mas de dos muestras relacionadas: • La prueba de Friedman: Es también una alternativa no paramétrica del análisis de varianza convencional de varias muestras relacionadas: Anova A−EF−MR. En este análisis de varianza parametrico disponemos, como calculo complementario, de los coeficientes de fiabilidad. De manera análoga, como complemento de la prueba de Friedman se puede utilizar el coeficiente W de Kendall, denominado coeficiente de concordancia, porque suele utilizarse para comprobar el grado de coincidencia entre varios evaluadores que ordenan a los mismos sujetos u objetos. A partir del valor de W se puede calcular rápidamente el valor medio de la correlación entre las columnas y la fiabilidad de las filas (sujetos) al ordenar a las columnas. Este tipo de cálculos son de interés precisamente para verificar el grado de concordancia, unanimidad,... etc. • Para mas de dos muestras relacionadas y cuando la variable dependiente es dicotómica contamos con la prueba Q de Conchran (una extensión de la prueba de McNemar), que nos dice si las diferencias en las condiciones (columnas) tiene un efecto significativo en las respuestas de los sujetos (filas). • La prueba de tendencia L de Page, que puede considerarse como una extensión de la prueba de Friedman, se utiliza para comprobar si en una serie de puntuaciones se da una tendencia a aumentar o disminuir. IV.− LOS METODOS NO PARAMETRICOS MÁS COMUNES: Si categorizamos las muestras según sean dos o más de dos, e independientes o relacionadas, los métodos no paramétricos posiblemente mas utilizados son: 11
PSICOMETRIA: I.− ANALISIS DE ITEMS EN LAS PRUEBAS OBJETIVAS: 1.− EL CONTEXTO: LAS PRUEBAS OBJETIVAS: Al estudiar el análisis de ítems de las pruebas objetivas, hay que tener en cuenta todo el contexto. Las pruebas objetivos (tipo−test) pueden ser muy cómodas fundamentalmente porque: • Las pruebas objetivas se pueden corregir con lectura óptica, la tarea es mecánica, simple,...,etc. • Con las pruebas objetivas es mas sencillo establecer criterios de clasifican y también pueden justificarse mejor estos criterios. En las pruebas objetivas la corrección sí es objetiva, pero tanto la formulación de las preguntas como donde se pone el mínimo para el apto son decisiones subjetivas del autor. Su frecuente mala calidad se debe sobre todo a: • No es tan fácil redactar buenas preguntas objetivas. • No es frecuente planificar estas pruebas aunque sea de manera muy elemental, puede por lo tanto haber mas preguntas de lo que es fácil preguntar y no tanto de lo mas importante. Una manera de mejorar la calidad de estas preguntas objetivas es analizarlas. Este tipo de pruebas se prestan a hacer una serie de análisis de interés que pueden referirse: • A toda la muestra. • A cada pregunta en particular. 2.− UTILIDAD DEL ANALISIS DE LOS ITEMS: Analizar las pruebas objetivas puede ser de interés porque: • Sirve para ir mejorando su calidad: la información que nos dan este tipo de análisis nos permite ir mejorando las pruebas sucesivas que vallamos haciendo. • Esta información que puede ser muy especifica puede ayudar a caer en la cuenta de errores generalizados, a entender puntos difíciles, a condicionar un estudio posterior de mas calidad,...,etc. • También nos aportan datos que pueden influir indirectamente en nuestros criterios de calificación: podemos descubrir preguntas ambiguas, con dos respuestas correctas o con la clave de corrección equivocada,...,etc. • Por otra parte todos estos análisis son fácilmente programables, y si utilizamos una hoja de respuestas de lectura óptica y un programa adecuado de ordenador casi sin darnos cuenta podemos acumular una información muy útil. 1.− ANALISIS ESTADISTICOS CONVENCIONALES: 1.− ANALISIS REFERIDOS A TODA LA PRUEBA: • EL COEFICIENTE DE FIABILIDAD: Este coeficiente indica en que medida en pruebas semejantes los sujetos habrían quedado ordenados de manera parecida. Dos factores influyen en la magnitud de este coeficiente.
12
• La homogeneidad de los ítems: En la medida en que los ítems midan lo mismo la fiabilidad será mayor; con preguntas muy distintas y poco relacionadas la fiabilidad será menor. • Homogeneidad de la muestra o diferencias entre los sujetos: Si los sujetos tienen resultados muy parecidos la fiabilidad tenderá a bajar; no se puede clasificar u ordenar bien a sujetos muy semejantes. Fundamentalmente la fiabilidad depende de las diferencias entre los sujetos por lo que se puede cuestionar la fiabilidad de un test o de una prueba objetiva como indicador necesario de su calidad; si todos saben todo o casi todo o casi nada. Un coeficiente de fiabilidad alto es claramente deseable cuando las diferencias entre los sujetos son legitimas y esperadas; y esto es lo que suele suceder en los test psicológicos. No hay que olvidar que una fiabilidad alta no es sinónimo sin mas de calidad porque puede faltar lo que es mas importante, la validez. • EL ERROR TIPICO DE LAS PUNTUACIONES INDIVIDUALES: El error típico se deriva del coeficiente de fiabilidad y viene a indicar el margen probable de oscilación de las puntuaciones de unas ocasiones a otras en exámenes hipotéticamente semejantes. Puede servir para relativizar los resultados individuales. Equivale a una desviación típica y se interpreta de manera semejante. 2.− ANALISIS DE CADA PREGUNTA O DE CADA ALTERNATIVA: • LA CORRELACION ITEM−TOTAL O INDICE DE HOMOGENEIDAD CORREGIDO: Se trata de un dato de cada e indica en que medida cada uno de ellos discrimina, es decir, diferencia a los que saben mas de los que saben menos. Se trata de la correlación de cada pregunta con la suma de todas las demás. Lo que expresa esta correlación es en que medida el responder correctamente a un ítem está relacionado con puntuar alto en todo el test. • Una correlación positiva: quiere decir que puntuar bien en esa pregunta esta relacionado con puntuar bien en el conjunto de la prueba. • Una correlación próxima a 0: quiere decir que responder bien a eso pregunta no tiene que ver con estar bien en el conjunto del test. • Una correlación negativa: quiere decir que responder bien a esa pregunta esta relacionado con estar mas bien mal en el conjunto de la prueba. • LA CORRELACION DE CADA ALTERNATIVA CON EL TOTAL: Es la correlación entre escoger cada una de las alternativas ( tanto la verdadera como las falsas) y el total del test. Lo que podemos esperar es que el escoger una alternativa falsa correlacione negativamente con el total. 2.− ANALISIS DE LAS DIVERSAS ALTERNATIVAS: TABULACION DE LAS RESPUESTAS: Este análisis, se limita a la mera tabulación de las respuestas. Se trata de organizar las respuestas de manera que permitan una reflexión rápida. El proceso es el siguiente: • Se ordenan los sujetos de mas a menos según su puntuación total en la prueba y se seleccionan el 25% con 13
puntuación total mas alta (grupo superior) y el 25% con puntuación total mas baja (grupo inferior). • Se tabulan las respuestas de estos dos grupos en cada ítem, de manera que se pueda ver cuantos de cada grupo, superior e inferior, han escogido cada opción. Cuadro 1 En el supuesto numerador tenemos el numero de alumnos del grupo superior que ha escogido cada opción, y debajo el numero de alumnos del grupo inferior que ha escogido esa misma opción; la respuesta correcta esta señalada con un asterisco. 3.− INDICES DE DIFICULTAD Y DISCRIMINACION: 1.− PARA CADA ITEM: Estos índices no se calculan para toda la muestra sino para el 25% con una puntuación total mas alta en todo el test y para el 25% con una puntuación total mas baja. El numero de sujetos entre ambos grupos es por lo tanto el mismo; solo se analiza el 50% de la muestra. Este tipo de análisis es análogo al que se hace cuando se construye una escala de actitudes. SIMBOLOS UTILIZADOS: N: Numero de sujetos en uno de los dos grupos (los dos grupos tienen idéntico numero de sujetos). N + N: Numero total de sujetos analizados.
AS: Numero de acertantes en el grupo superior AI: Numero de acertantes en el grupo inferior.
• INDICE DE DIFICULTAD: Indica la proporción de aciertos en la muestra de alumnos que estamos utilizando. Es la media de éste 50% de sujetos analizados. El término de dificultad se presta a equívocos: in índice mayor indica un pregunta mas fácil. • Las preguntas que discriminan mucho tienden a ser de dificultad media (responden bien la mitad de los sujetos analizados). Df = 0.50 (AS = N; AI = 0) • INDICES DE DISCRIMINACION: Los índices de discriminación expresan en que medida cada pregunta o ítem diferencia a los que mas saben de los que menos saben • Indice de discriminación 1: Depende del grado de dificultad del ítem. Es la diferencia entre dos proporciones, los acertantes del grupo superior menos los acertantes del grupo inferior. Es el índice probablemente mas utilizado. Expresa hasta que punto la pregunta discrimina, establece diferencias, contribuye a situar a un sujeto en el grupo superior e inferior. • A mayor diferencia, en numero de acertantes entre los grupos superior e inferior, el ítem es mas discriminante, contribuye mas a situar a un sujeto entre los primeros o entre los últimos. 14
• Equivale a una estimación de la correlación item−total y puede interpretarse de la misma manera. • Los valores extremos que puede alcanzar son 0 y ± 1. • Si todos responden correctamente (pregunta muy fácil), tendremos que: Dc1=0. (AS = AI = N) • Si todos se equivocan (pregunta muy difícil) tendremos que: Dc1=0. (AS = AI = 0) Es decir, las preguntas muy fáciles y muy difíciles no discriminan, no establecen diferencias; nos dicen que todos saben o no saben una pregunta, pero no quien sabe mas y quien menos. Estas preguntas no contribuyen a la fiabilidad del test, pero eso no quiere decir necesariamente que sean malas preguntas. • Si todos y solos los del grupo superior responden correctamente, tendremos que: Dc1=1. (AS = N; AI = 0) • Si todos y solos los del grupo inferior responden correctamente, tendremos que: Dc1= −1. (AS = 0; AI = N) Las preguntas con discriminación negativa favorecen al grupo inferior y en principio deberían ser revisadas (mal formuladas, ambiguas, error en la clave de corrección,...,etc.). • Una limitación de este índice es que el valor máximo de 1 solo se alcanza cuando aciertan todos los del grupo superior y se equivocan todos los del inferior. • Puede haber preguntas que discriminen bien pero que sean difíciles y fallen algunos del grupo superior. • Puede ocurrir que discriminen bien pero que sean fáciles y las acierten algunos del grupo inferior. Por estas razones algunos refieren al otro índice de discriminación. • El indice maximo de dificultad cuando aciertan mas de la mitad es el que hubiera habido manteniendo el mismo numero de aciertos y que ninguno del grupo superior hubiera fallado. El valor maximo de discriminación manteniendo los 12 aciertos es que el hubieramos obtenido si AS = 10 (todos los del grupo superior aciertan) y los dos aciertos restantes se los dejamos al grupo inferior. El indice maximo de discriminación cuando han acertado menos de la mitad es el que hubieramos obtenido si todos los acertantes pertenecieran al grupo superior. • Indice de discriminación 2. Indica la proporcion de aciertos en el grupo superior con respecto al numero total de acertantes. Es satisfactorio si es superior a o,50: mas de la mitad de los acertantes pertenecen al grupo que sabe mas. • Este indice es independiente del grado de dificultad de la pregunta. Llega a 1 si todos los acertantes, aunque sean pocos, pertenecen al grupo superior. 15
Nos dice cuanto discrimina el item, tanto si es facil como si es muy difícil. 1º Una pregunta muy facil, con N =10 en casa grupo. La aciertan 10 del superior y 9 del inferior. • El Dc1 diria que apenas discrimina, que es muy facil. • El Dc2 diria que aunque es muy facil, de fallar alguien esta pregunta pertenece al grupo de los que menos saben. 2º Una pregunta muy difícil. • El Dc1 dice que discrimina muy poco porque es muy difícil. • El Dc2 dice que la discriminación es perfecta, que de saberla alguien, este perteneceria al grupo superior. Este indice es util para comparar la dificultad de varios test, sobre todo si tienen un numero distinto de ítems. El numero de ítems es la diferencia maxima posible, la que habria entre un sujeto que hubiera respondido bien a todos y el que no hubiera respondido a ninguno. Valoración de estos indices. Describen como ha funcionado una pregunta en una situación dada, pero no hacen juicios sobre la calidad de la pregunta. Las preguntas muy discriminantes nos indican donde falla los que tienen malos resultados sobre todo. La discriminación supoen diferencias y el que haya diferencias no es necesariamente un buen resultado. En examenes amplios la no discriminación puede indicar que no se detectan diferencias que de hecho existen. En el conjunto del examen y para poder calificar con cierto matiz debe haber preguntas de dificultad media que discriminen bien. Las preguntas muy discriminantes (nunca seran las mas difíciles) son utiles en examenes de segunda convocatoria, prescindiendo de lo muy facil y de lo muy difícil. Para extrapolar los resultados harian falta muestras grandes, N=400, sin embargo los indices obtenidos con grupos pequeños, si se mantiene constante el tipo de muestra, dan lo que se puede esperar en grupos similares. Estos indices describen como han funcionado los ítems, y son utiles para evaluar las preguntas, sugerir que se puede revisar pero malas preguntas pueden tener indicen que podrian considerarse optimos. Es peligroso interpretar estos indices como indicadores automaticos de la calidad de una pregunta. El analisis de las diversas alternativas, comprobando cuantos eligen cada una, es util para ir mejorando las preguntas. PSICOMETRIA: I.− GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES: ¿POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?: Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar 16
cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestión, o ver donde se sitúa un sujeto en un continuo de menos a mas. A veces el medir actitudes con una sola pregunta es muy útil como medida complementaria de instrumentos mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud que van a ser sumados después como indicador de esta actitud o variable. Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo: • Con una serie de ítems describimos y medimos mejor constructos relativamente complejos. Una única pregunta simplifica frecuentemente en exceso el concepto que vamos a medir. • En conjunto una medida formada por varios ítems es mas valida, no solamente porque describen mejor un constructo complejo, sino porque una única pregunta puede ser de hecho poco afortunada, o ser mal entendida por muchos sujetos. Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas preciso y fundado sobre como cómo está una persona en un rasgo concreto. Este tipo de razones tiene mas peso cuando se van a tomar decisiones sobre los sujetos o interesa un buen diagnostico individual. • Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada ítem en particular, merecen mas confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de ítems podemos calcular el coeficiente de fiabilidad. • Una razón de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos van a quedar mas nítidas, va a ser mas fácil clasificarlos y, en definitiva, va a aumentar la varianza. Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables. De los diversos tipos de escalas nos limitaremos aquí a tratar las denominadas escalas tipo Likert en las que la suma de una serie de respuestas a ítems supuestamente homogéneos sitúa al sujeto en la variable medida. 1.− PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES: El proceso se puede describir de varias maneras, pero básicamente se puede concretar en los pasos siguientes: 1.− DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR: El primer paso es siempre clarificar el rasgo que se desea medir; una definición o explicación previa da coherencia al resto del proceso. Puede ayudar el hacer previamente una descripción de la persona que supuestamente tenga de manera clara la actitud que se desea medir. No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en diversos grados de abstracción, y pueden ser muy genéricos o muy específicos. Puede ayudar también revisar otros instrumentos ya hechos. 2.− REDACCION DE LOS ITEMS: Pueden redactarse de diversas maneras pero, en general, y tratándose de escalas de actitudes, suelen formularse en forma de opiniones con las que se puede estar o no estar de acuerdo. 17
• Los ítems deben tener las siguientes características: • Deben ser relevantes: claramente relacionados con la actitud que se desea medir. • Deben ser opiniones con las que se pueda estar o no estar de acuerdo. • Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razón: • Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusión en la respuesta. • Deben contener una única idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o con otra. Una misma idea se puede formular de mas de una manera para comprobar después que formulación es mas eficaz. • Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos estarán de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garantía de que los ítems miden lo mismo si simultáneamente diferencian a los mismos sujetos. • Cabe formular ítems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con ítems muy similares se consiguen fácilmente coeficientes de fiabilidad altos, el constructo queda expresado de una manera muy simple. • Es preferible redactar los ítems en las dos direcciones positiva y negativa, es decir, que unas veces el estar de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redacción bipolar tiene varias ventajas: • Obliga a una definición previa mas matizada del rasgo o constructo. • Requiere una atención mayor por parte del que responde. • Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemáticas. • Si hay un numero aproximado de ítems positivos y negativos, y sumamos a cada sujeto sus puntuaciones a los dos tipos de ítems, podemos calcular la correlación entre los dos totales parciales como si se tratara de dos subescalas. Esta correlación debe alcanzar un valor de 0.50 o mas, y mostrará en este caso una coherencia global en las respuestas. • Comprobar la coherencia es prácticamente lo mismo que comprobar que no se da la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmación, incluso con afirmaciones que se contradicen. Cuando se de esta aquiescencia suele deberse a la ambigüedad en la redacción o falta de claridad de los ítems. La irrelevancia o ambigüedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los ítems no discriminan. La no discriminación puede indicar también que un ítem no mide lo mismo que los demás o que los sujetos lo entienden de otra manera. Si un ítem discrimina en sentido contrario puede haber un error en la clave de corrección. Sobre el numero inicial de ítems que deben redactarse: no hay un numero optimo, pero a mayor numero inicial de ítems, mayor probabilidad de encontrar en el análisis un conjunto de ítems definitivos con una fiabilidad suficiente. A mayor numero de ítems buenos también será mayor la fiabilidad. 3.− REDACCION Y NUMERO DE RESPUESTAS: • Redacción de las respuestas: Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido del item, pero puede haber otras mas apropiadas como grado de interés, de importancia,...,etc. 18
Cuadro 1 Caben otros formatos en las respuestas como utilizar números especificando con palabras el significado de los extremos (muy de acuerdo o muy en desacuerdo). O con letras. En general parece preferible el empleo de letras o palabras, al menos si se juzga que los números pueden condicionar la respuesta. Las repuestas en términos de frecuencia están muy avaladas por la investigación científica. Cuadro 2 • Numero de respuestas: El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de respuestas en los ítems, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de respuestas no supere la capacidad de discriminación de los que responden: el numero máximo se suele situar entre seis y siete respuestas y el mínimo en tres. • Numero par o impar de respuestas: Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor. El incluir un numero par de categorías tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos categorías, de acuerdo y en desacuerdo, y se elimina además la posibilidad de que los sujetos se evadan escogiendo la respuesta central. 4.− PREPARAR LA CLAVE DE CORRECCION: Las respuestas se codifican siempre con números íntegros sucesivos. En principio es preferible evitar el 0 y comenzar a partir de 1. La clave en números debe hacerse de acuerdo con el sentido del ítem, de manera que la respuesta mas favorable a la actitud tenga el numero mayor. Cuadro 3 5.− PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES: Además de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o instrumentos que puedan estar ya hechos, y que los sujetos responderán al mismo tiempo, para recoger datos adicionales. Estos nuevos datos o preguntas tienen que ver con la verificación de la validez del instrumento. • El obtener datos adicionales de interés es importante por varias razones: • Buscar mas datos hipotéticamente relacionados con lo que queremos medir contribuye a que nos hagamos una idea mas clara del rasgo o actitud que nos interesa medir. • Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un considerable ahorro de tiempo y esfuerzo. • Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al proceso de construcción del instrumento, en el sentido de que nos pueden sugerir ideas validas como criterio en la misma selección de los ítems, en la búsqueda de muestras determinadas,...,etc. • El pensar en otros datos tiene que ver con la comprobación de la validez de nuestro instrumento y de los datos que con él recojamos. 19
Comprobar la validez de un instrumento tiene que ver con la comprobación o confirmación del significado de lo que medimos, y también de su utilidad. Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino también con que otros rasgos puede estar relacionado ese rasgo, a que grupos puede diferenciar,...,etc. Estos datos adicionales son básicamente de dos tipos: • Datos cesales o sociológicos: Como edad, sexo, ocupación o curso, estado civil, etc. Estos datos servirán para describir la muestra y para hacer análisis adicionales. • Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o escalas que pueden estar relacionados con la variable que estamos midiendo. 6.− OBTENER DATOS DE UNA MUESTRA: Una vez preparada la versión inicial del instrumento, se recogen las respuestas de una muestra para poder hacer los análisis correspondientes, sobre todo el análisis de ítems y el calculo de la fiabilidad; estos análisis nos van a permitir dar forma al instrumento definitivo. • El tipo de muestra elegido debe ser semejante al tipo de población con el que se va a utilizar después. A mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta. • Sobre el numero de sujetos necesario; para que los análisis tengan suficiente consistencia y sean extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por ítem inicial. Si se piensa hacer después una análisis factorial debe haber unos 10 sujetos por ítem; en cualquier caso no deben ser menos de 200. 7.− ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD: En primer lugar y una vez obtenidos los datos calculamos: • La media y la desviación típica de los totales: cada sujeto tiene un total que es la suma de todas sus respuestas a los ítems. • La media y la desviación de cada ítem. A continuación llevaremos a cabo el análisis de ítems y calcularemos la fiabilidad. • −análisis de ítems Tenemos que comprobar si cada ítem mide lo mismo que los demás, y por tanto es sumable en una puntuación total que supuestamente mide el rasgo y que es la que después interpretamos y utilizamos. Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos tienden a responder de manera que podamos deducir que todos los ítems expresan el mismo rasgo. En definitiva comprobamos si los ítems tienden a diferenciar a los sujetos, si discriminan adecuadamente. Los procedimientos que podemos utilizar son dos: 1. Correlación ítem−total Se trata de la correlación de cada ítem con la suma de todos los demás o correlación de cada ítem con el total menos el ítem. Lo que deseamos comprobar es en que medida el puntuar alto en un ítem supone el hecho de obtener un total alto en el resto de la escala. 20
Estos coeficientes deben ser al menos estadísticamente significativos o distintos de cero. Los ítems con una mayor correlación con el total son los que tienen mas en común y por tanto podemos pensar que miden lo mismo que los demás. Los ítems con correlaciones no significativas o muy bajas los eliminaremos de nuestra escala. Cuando se calcula la correlación con el total, hay una formula que convierte esta correlación ítem−total en la correlación ítem−total menos ítem, que es la que nos interesa. Hay programas de ordenador que dan rutinariamente para cada ítem la correlación ítem−total, pero hay que tener presentes otras consideraciones: • Es cuestionable seguir mecánicamente procedimientos automáticos; el constructor del instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las características del instrumento. • Esos programas nos dan la fiabilidad si suprimimos ítems de uno en uno, y normalmente no interesa ir eliminando ítems así, sino en bloques escogidos con algún criterio. • Es normal que varios subconjuntos de ítems tengan una fiabilidad idéntica o similar, por lo que habrá que acudir a otros criterios en la selección definitiva de los ítems. 2. Contraste de medias en cada ítem de los dos grupos con puntuaciones mayores y menores en el total de la escala. El procedimiento anterior es muy laborioso si no se hace con ordenador; un procedimiento mas sencillo, y que aporta una información semejante, es comparar en cada ítem el 25% con una puntuación total mas alta con el 25% con puntuación total mas baja. Para esto: • Ordenamos a los sujetos de mas a menos, según el total obtenido en toda la escala, y seleccionamos dos subgrupos: grupo superior ! el 25% con total mas alto, y grupo inferior ! el 25% con puntuación total mas bajo. El 50% central no entra en este análisis. • Calculamos la media y la desviación típica en cada ítem de cada uno de los dos grupos, superior e inferior. • Contrastamos las medias de estos dos grupos mediante la T de student. Lo que esperamos es que el grupo superior tenga una media significativamente mas alta en cada ítem que el grupo inferior. Podremos concluir que los ítems que simultáneamente diferencian a los mismos sujetos están midiendo lo mismo. Prescindiremos de los ítems que no discriminan y nos quedaremos con los mas discriminantes; Siempre hay ítems mejores que otros en términos relativos. En la elección definitiva de los ítems pueden intervenir además otros criterios. Ej. de este procedimiento: En este ejemplo: • El ítem nº 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e inferior, es muy superior a lo puramente aleatorio; este ítem habría que retenerlo. • El ítem nº 2 discrimina poco, la diferencia no es significativa y habrá que eliminarlo de la escala definitiva. • El ítem nº 3 tiene discriminación negativa, los del grupo inferior superan a los del grupo superior; claramente este ítem no es sumable con los demás, no mide lo mismo y hay que rechazarlo. En este caso también puede suceder que este mal la clave de corrección. Con cualquiera de los dos procedimientos obtenemos un dato sobre la calidad del ítem; ambos tipos de información nos dicen si podemos considerar que el ítem discrimina adecuadamente y consecuentemente si 21
podemos considerar que mide lo mismo que los demás. ¿Cuál de los dos análisis es preferible? Los dos aportan información semejante; prácticamente con los dos se llega a la misma selección de items. • Comprobación de la fiabilidad y selección de los ítems definitivos Después del análisis de ítems calculamos la fiabilidad (consistencia interna). La formula mas apropiada es el coefiente de Cronbach. k ! numero de ítems 2i ! suma de las varianzas de todos los ítems 2t ! varianza de las puntuaciones totales Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos de ítems para quedarnos finalmente con la selección de ítems que mas nos convenza como versión definitiva de nuestro instrumento. El proceso es el siguiente: • En primer lugar calculamos la fiabilidad de la escala inicial con todos los ítems. • en segundo lugar: − eliminamos los ítems que con mas claridad no son discriminativos. − recontamos a los sujetos su nueva puntuación total. − volvemos a calcular la fiabilidad de la nueva versión de la escala mas reducida • Vamos repitiendo el proceso del paso anterior, calculando la fiabilidad cada vez con menos ítems, hasta que la fiabilidad empieza a bajar. • Nos quedamos en principio con la versión de la escala que tiene una fiabilidad optima. *Los ítems los vamos suprimiendo de uno en uno, o en pequeños bloques. Para calcular estos coeficientes de fiabilidad necesitamos estos datos: • En numero de ítems, que ira variando cada vez según vamos eliminando algunos. • La varianza de cada ítem en toda la muestra, que debe estar calculada previamente; es suman las varianzas de los ítems que componen cada versión de la escala pues la suma de las varianzas de los ítems entra en la formula del coeficiente de fiabilidad. • La varianza de los totales, a cada sujeto hay que recontarle su nueva puntuación según se van eliminando ítems. Se estos nuevos totales se calcula la varianza. Una manera de ir controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones de la escala según se va calculando la fiabilidad con unos ítems y otros. En la tabla vamos colocando los datos que intervienen en la formula (la media de los totales no es necesaria para calcular la fiabilidad, pero conviene ponerla como dato descriptivo de interés) El rigor metodológico no tiene que ser siempre el mismo, con tal de garantizar siempre un rigor suficiente. 22
Si pretendemos construir un instrumento de una calidad superior, el proceso no tiene que ser automático. También tienen su lugar nuestras propias ideas sobre lo que queremos medir. En principio deben eliminarse aquellos ítems que hacen que la fiabilidad sea menor, pero a veces eliminando un ítem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente con otros criterios. Otras veces entre los ítems que contribuyen a una mejor fiabilidad hay alguno que, una vez eliminados otros previamente, puede tener poco sentido porque desequilibra el significado... y puede ser mejor eliminarlo también. El que la fiabilidad varíe en el tercer decimal importa poco. También puede suceder que con menos ítems obtengamos una fiabilidad igual o semejante que con un numero mayor de ítems. Como estamos tratando el análisis de ítems y de la fiabilidad como criterio de calidad, no debemos olvidar que en general a mayor numero de ítems tendremos una mayor fiabilidad, y que con mas respuestas en los ítems también aumenta la fiabilidad. También se puede hacer el procedimiento inverso, y a veces es preferible. Se hace siguiendo estos pasos: • Calculamos la fiabilidad con el subconjunto de ítems que más discriminan. • Añadimos unos pocos ítems, los más discriminantes de los que nos quedan y volvemos a calcular la fiabilidad. • Damos la tarea por terminada cuando la fiabilidad empieza a bajar. Con este procedimiento nos quedara una escala más breve. Una alternativa mas sencilla al calculo del coeficiente es utilizar alguna de las formulas basadas en la partición del test o la escala en dos mitades. Pero en principio, es preferible utilizar las formulas del coeficiente . • − OTRAS CONSIDERACIONES EN TORNO A LA ELECCIÓN DE LOS ITEMS DEFINITIVOS Las soluciones automáticas que nos puede dar un programa de ordenador no son necesariamente las mejores. El valor de t tiene que ser significativo y alto, pero además hay que tener en cuenta otros criterios en la elección de los ítems. • Equilibrio entre ítems positivos y negativos Podemos incorporar un numero mas o menos igual de ítems positivos y negativos. Porque con ítems en las dos direcciones se controlan mejor las respuestas aquiescentes, y además el constructo suele quedar mejor expresado. Si tenemos un numero de ítems aproximadamente idéntico en ambas direcciones, es útil calcular a cada sujeto dos puntuaciones parciales sumando por separado ambos tipos de ítems, y calcular después la correlación entre estas dos subescalas o totales parciales; si esta correlación es del orden de .50 tenemos una garantía razonable de que ambos tipos de ítems miden lo mismo y que no esta operando la aquiescencia. • Cuidar mas la representatividad del contenido de las formulaciones de los ítems El la selección definitiva de los ítems podemos buscar una homogeneidad conceptual mas nítida. Quizás veamos, por ejemplo, que al eliminar dos ítems que discriminan poco, nos sobra un tercer ítem que si 23
discrimina y que incluye la misma idea que los dos eliminados, pero el conjunto de la escala puede quedar muy desequilibrado en cuanto al significado global. Todo esto puede depender de apreciaciones personales; siempre hay que tener claro que es importante la interpretabilidad de los datos en función de un rasgo o actitud bien definida. • Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general También nos puede interesar que estén representadas con idéntico numero de ítems ideas que reflejan matices distintos dentro de un rasgo general. En ocasiones un instrumento además de medir un rasgo general, se puede subdividir en subescalas para medir por separado aspectos distintos. En este caso tanto las subescalas como la escala formada por todos los ítems, deben tener una fiabilidad aceptable. Este tipo de escalas suelen denominarse escalas factoriales. • Incorporación de nuevos ítems Cuando con pocos ítems, que en principio nos convencen porque expresan bien lo que deseamos medir, no alcanzamos una fiabilidad adecuada, podemos acudir a las formulas que nos dicen cuantos ítems del mismo estilo deberíamos añadir para alcanzar una fiabilidad determinada. También puede suceder que algunos de los ítems eliminados en el análisis, simplemente estén mal formulados y haya que hacer una redacción nueva. • Preparación de dos versiones, corta y larga, de la misma escala Con frecuencia podemos observar que un numero reducido de ítems nos da una fiabilidad aceptable. Puede ser interesante hacer dos versiones, una larga o normal y la otra breve, quizás con una fiabilidad menor, pero apta para muchos de los usos de estos instrumentos. • Explicación o redefinición del rasgo medido por nuestro instrumento A veces, y a al vista de los ítems de la escala definitiva, habrá que redefinir lo que pretendemos medir o al menos explicarlo adecuadamente aunque se mantenga el nombre del instrumento. Los términos para designar los rasgos suelen ser muy genéricos, y de hecho instrumentos con el mismo nombre pueden no coincidir en lo que miden, que debe ser definido con unos limites mas ajustados. • − COMPROBACIÓN DE LA VALIDEZ Y OTROS ANÁLISIS POSTERIORES Una vez que tenemos ya la versión definitiva de la escala, se hacen los demás análisis según los datos de que dispongamos. • Se pueden calcular datos descriptivos de las diversas submuestras si las hay. • Podemos construir baremos o normas de interpretación. • Se pueden comprobar diferencias entre grupos, correlaciones con otras variables... según los datos que hayamos obtenido simultáneamente; o podemos pasar la escala a muestras nuevas obteniendo a la vez otros datos que nos permitan hacer mas análisis. • Podemos comprobar de manera mas especifica y planificada la validez del nuevo instrumento con los datos obtenidos simultáneamente. La confirmación de la validez mas que un calculo es un proceso. Este es un resumen de lo que entendemos por validez y los modos de comprobarla:
24
Con los estudios de validación pretendemos dos finalidades: • Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir. • comprobar la utilidad practica del instrumento • confirmación del significado pretendido (validez de constructo) Los análisis pueden tener dos enfoques básicos, como son: 1º los estudios correlacionales y 2º las comparaciones entre grupos. Análisis correlacionales Podemos distinguir tres estrategias basadas en estudios correlacionales. 1º. relación con otros modos de medir el mismo rango Comprobamos la relación entre nuestro instrumento y otros modos de medir el mismo rasgo. Otros modos de medir lo mismo pueden ser: ♦ Una pregunta amplia y sigue una descripción del modelo que supuestamente tiene el rasgo en grado alto. ♦ Otro mini test de pocos ítems que mas o menos mida lo mismo, por Ej. 1. desde otra perspectiva 2. con un instrumento que mide el mismo rasgo pero construido con una técnica distinta ♦ Otra escala o test de otro autor y que supuestamente compruebe lo mismo. ♦ Si es posible, se puede comprobar la relación entre autoevaluacion y heteroevaluacion. Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y también pueden ser simples preguntas. 2º. Comprobación de relaciones esperadas (positivas o negativas) con otros rasgos podemos comprobar también la relación entre lo que mide nuestro instrumento y otros rasgos o características distintas con las que esperamos que haya relación: ♦ Una lista de adjetivos o rasgos autodescriptivos que podrían equivaler a una serie de test de personalidad; También se pueden sumar adjetivos que reflejen mas o menos el mismo rasgo. ♦ Test de personalidad ♦ Preguntas sueltas sobre diversos temas, otras actitudes, preferencias... que como hipótesis puedan tener relación con la actitud medida. 3º. Comprobar que no existe relación donde no esperamos que la haya Esta no relación nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen al mismo ámbito conceptual y es fácil confundirlos. La no relación no hay que entenderla de manera literal; Puede tratarse de relaciones, incluso estadísticamente significativas, pero menores que con otros rasgos, y de acuerdo con un razonamiento plausible.
25
Comparaciones entre grupos Consiste en comparar grupos supuestamente distintos en aquello que estamos midiendo. • Todas las comparaciones entre grupos equivalen a análisis correlacionales: nos da lo mismo por ejemplo, preguntarnos si los niños superan a las niñas en la actitud A, que preguntarnos si el sexo esta relacionado o tiene que ver con la actitud A. No solo hay una obvia relación conceptual entre las dos preguntas, sino que mediante las formulas oportunas podemos transformar un valor de la t se Student en un coeficiente de correlacion. • Aun así nuestras preguntas espontáneas son unas veces en términos de relación, y otras en términos de diferencias; Ambos enfoques nos ayudan a formular hipótesis que podemos intentar confirmar, y además los procedimientos de análisis son en principio distintos aunque en ultima instancia aporten la misma información. • Al preparar nuestro instrumento de recogida de datos, debemos pensar que preguntas podemos hacer que identifiquen a los sujetos según grupos de pertenencia o según características personales de interés que permitan subdividir la muestra en subgrupos. • El análisis estadístico será un contraste de medias, o análisis de varianza si las muestras son mas de dos. • Confirmación de la utilidad del instrumento (validez predictiva) En este caso verificamos, por ejemplo si existen correlaciones apreciables con determinados criterios, se trata de validez predictiva en sentido amplio. Esta comprobación de la utilidad también aporta datos a la comprobación del significado. Se trata de calcular coeficientes de correlación entre el instrumento y determinados criterios. Estos son los coeficientes que suelen denominarse coeficientes de validez. PSICOMETRIA: I.− GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES: ¿POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?: Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestión, o ver donde se sitúa un sujeto en un continuo de menos a mas. A veces el medir actitudes con una sola pregunta es muy útil como medida complementaria de instrumentos mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud que van a ser sumados después como indicador de esta actitud o variable. Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo: • Con una serie de ítems describimos y medimos mejor constructos relativamente complejos. Una única pregunta simplifica frecuentemente en exceso el concepto que vamos a medir. • En conjunto una medida formada por varios ítems es mas valida, no solamente porque describen mejor un constructo complejo, sino porque una única pregunta puede ser de hecho poco afortunada, o ser mal entendida por muchos sujetos. Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas preciso y fundado sobre como cómo está una persona en un rasgo concreto.
26
Este tipo de razones tiene mas peso cuando se vana tomar decisiones sobre los sujetos o interesa un buen diagnostico individual. • Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada ítem en particular, merecen mas confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de ítems podemos calcular el coeficiente de fiabilidad. • Una razón de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos van a quedar mas nítidas, va a ser mas fácil clasificarlos y, en definitiva, va a aumentar la varianza. Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables. De los diversos tipos de escalas nos limitaremos aquí a tratar las denominadas escalas tipo Likert en las que la suma de una serie de respuestas a ítems supuestamente homogéneos sitúa al sujeto en la variable medida. 1.− PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES: El proceso se puede describir de varias maneras, pero básicamente se puede concretar en los pasos siguientes: 1.− DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR: El primer paso es siempre clarificar el rasgo que se desea medir; una definición o explicación previa da coherencia al resto del proceso. Puede ayudar el hacer previamente una descripción de la persona que supuestamente tenga de manera clara la actitud que se desea medir. No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en diversos grados de abstracción, y pueden ser muy genéricos o muy específicos. Puede ayudar también revisar otros instrumentos ya hechos. 2.− REDACCION DE LOS ITEMS: Pueden redactarse de diversas maneras pero, en general, y tratándose de escalas de actitudes, suelen formularse en forma de opiniones con las que se puede estar o no estar de acuerdo. • Los ítems deben tener las siguientes características: • Deben ser relevantes: claramente relacionados con la actitud que se desea medir. • Deben ser opiniones con las que se pueda estar o no estar de acuerdo. • Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razón: • Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusión en la respuesta. • Deben contener una única idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o con otra. Una misma idea se puede formular de mas de una manera para comprobar después que formulación es mas eficaz. • Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos estarán de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garantía de que los ítems miden lo mismo si simultáneamente diferencian a los mismos sujetos. 27
• Cabe formular ítems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con ítems muy similares se consiguen fácilmente coeficientes de fiabilidad altos, el constructo queda expresado de una manera muy simple. • Es preferible redactar los ítems en las dos direcciones positiva y negativa, es decir, que unas veces el estar de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redacción bipolar tiene varias ventajas: • Obliga a una definición previa mas matizada del rasgo o constructo. • Requiere una atención mayor por parte del que responde. • Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemáticas. • Si hay un numero aproximado de ítems positivos y negativos, y sumamos a cada sujeto sus puntuaciones a los dos tipos de ítems, podemos calcular la correlación entre los dos totales parciales como si se tratara de dos subescalas. Esta correlación debe alcanzar un valor de 0.50 o mas, y mostrará en este caso una coherencia global en las respuestas. • Comprobar la coherencia es prácticamente lo mismo que comprobar que no se da la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmación, incluso con afirmaciones que se contradicen. Cuando se de esta aquiescencia suele deberse a la ambigüedad en la redacción o falta de claridad de los ítems. La irrelevancia o ambigüedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los ítems no discriminan. La no discriminación puede indicar también que un ítem no mide lo mismo que los demás o que los sujetos lo entienden de otra manera. Si un ítem discrimina en sentido contrario puede haber un error en la clave de corrección. Sobre el numero inicial de ítems que deben redactarse: no hay un numero optimo, pero a mayor numero inicial de ítems, mayor probabilidad de encontrar en el análisis un conjunto de ítems definitivos con una fiabilidad suficiente. A mayor numero de ítems buenos también será mayor la fiabilidad. 3.− REDACCION Y NUMERO DE RESPUESTAS: • Redaccion de las respuestas: Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido del item, pero puede haber otras mas apropiadas como grado de interes, de imprtancia,...,etc. Cuadro 1 Caben otros fomatos en las respuestas como utilizar numeros especificando con palabras el significado de los extremos (muy de acuerdo o muy en desacuerdo). O con letras. En genreral parece preferible el empleo de letras o palabras, al menos si se juzga que los numeros pueden condicionar la respuesta. Las repuestas en terminos de fracuencia estan muy avaladas por la investigacion cientifica. Cuadro 2 • Numero de respuestas: El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de respuestas en los items, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de 28
respuestas no supere la capacidad de discriminacion de los que responden: el numero maximo se suele situar entre seis y siete respuestas y el minimo en tres. • Numero par o impar de rspuestas: Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor. El incluir un numero par de categorias tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos categorias, de acuerdo y en desacuerdo, y se elimina ademas la posibilidad de que los sujetos se evadan escogiendo la respuesta central. 4.− PREPARAR LA CLAVE DE CORRECCION: Las respuestas se codifican siempre con numeros integros sucesivos. En principio es preferible evitar el 0 y comnezar a partir de 1. La clave en numeros debe hacerse de acuerdo con el snetido del item, de manera que la respuesta mas favorable a la actitud tenga el numero mayor. Cuadro 3 5.− PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES: Ademas de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o instrumentos que puedan estar ya hechos, y quie los sujetos responderan al mismo tiempo, para recoger datos adicionales. Estos nuevos datos o preguntas tienen que ver con la verificacion de la validez del instrumento. • El obtener datos adicionales de interes es importante por varias razones: • Buscar mas datos hipoteticamente relacionados con lo que queremos medir contribuye a que nos hagamos una idea mas clara del rasgo o actitud que nos interesa medir. • Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un considerable ahorro de tiempo y esfuerzo. • Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al proceso de construccion del instrumento, en el sentido de que nos pueden sugerir ideas validas como criterio en la misma selección de los items, en la busqueda de muestras determinadas,...,etc. • El pensar en otros datos tiene que ver con la comprobacion de la validez de nuestro instrumento y de los datos que con él recogamos. Comprobar la validez de un instrumento tiene que ver con la comprobacion o confirmacion del significado de lo que medimos, y tambien de su utilidad. Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino tambien con que otros rasgos puede estar relacionado ese rasgo, a que grupos pùede diferenciar,...,etc. Estos datos adicionales son basicamente de dos tipos: • Datos cesales o sociologicos: Como edad, sexo, ocupacion o curso, estado civil, etc. Estos datos serviran para describir la muestra y para hacer analisis adicionales. • Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o escalas que pueden estar relacionados con la variable que estamos midiendo.
29
6.− OBTENER DATOS DE UNA MUESTRA: Una vez preparada la version inicial del instrumento, se recogen las respuestas de una muestra para poder hacer los analisis correspondientes, sobre todo el analisis de items y el calculo de la fiabilidad; estos analisis nos van a permitir dar forma al instrumento definitivo. • El tipo de muestra elegido debe ser semejante al tipo de poblacion con el que se va a utilizar despues. A mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta. • Sobre el numero de sujetos necesario; para que los analisis tengan suficiente consistencia y sean extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por item inicial. Si se piensa hacer despues una analisis factorial debe haber unos 10 sujetos por item; en cualquier caso no deben ser menos de 200. 7.− ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD: En primer lugar y una vez obtenidos los datos calculamos: • La media y la desviacion tipica de los totales: cada sujeto tiene un total que es la suma de todas sus respuestas a los items. • La media y la desviacion de cada item. A continuacion llevaremos a cabo el analisis de items y calcularemos la fiabilidad. EJERCICIO DE FIABILIDAD (tipo examen)
Media Desviación Hc
Ítem 1 2,42 0,99 − 0,20
Ítem 2 2,38 0,84 0,49
Ítem 3 2,74 1,09 0,32
Ítem 4 2,18 1,18 0,28
Ítem 2
Ítem 3
Ítem 4
0,71 0,52 0,48
1,18 0,25
1,40
Covarianzas entre ítems.
Ítem 1 Ítem 2 Ítem 3 Ítem 4
Ítem 1 0,97 −0,22 −0,14 −0,13
• ¿Se trata de una prueba de rendimiento óptimo? No es una prueba de rendimiento óptimo porque las medias exceden a la unidad y en estas pruebas el rango es entre 0 y 1. Y la desviación típica entre 0 y 0,5. • ¿En que ítem los sujetos contestan de manera mas parecida? El de la desviación típica más pequeña: ítem 2. • Interpreta la media del ítem 3. Si fuese una prueba de rendimiento óptimo tendríamos que decir que es el índice de dificultad. 30
Pero como es una prueba de rendimiento típico solo decimos que es la media mayor. • ¿Hay algún ítem mal cuantificado? Para esto miramos el Hc, que es el que relaciona el ítem con todos los demás. El −0,20 del ítem 1 quiere decir que cuando todos puntúan alto, este puntúa bajo, con lo cual esta mal cuantificado. • ¿Cuál es el ítem que menos relaciona? El ítem 1 (no por ser negativo sino por el numero) por ser el mas bajo, y luego también lo comprobamos en las covarianzas. • Eliminar el menos discriminativo y hallar la media del nuevo test. Quitamos el ítem 2. Para tener la media total, voy sacando la de la media del ítem 1, del ítem 3 y la del 4, y la suma de ambas es la total. La varianza seria: S2 = • Eliminar el ítem que menos contribuye a la consistencia interna y luego calcular el índice de consistencia interna. Eliminamos el ítem 1, por ser el Hc mas bajo. Y como nos piden consistencia hallaríamos el de Cronbach.
=
k es el número de ítems.
se suman las varianzas del ítem 2, 3, 4 (los que NO quitamos).
0,71 = Covarianza del 2−3 = 0,52 ++
31
1,18 = Covarianza del 2−4 = 0,48 ++ 1,40 = Covarianza del 3−4 = 0,25 EJERCICIO 3 Rxx´= es la fiabilidad por el procedimiento de las dos mitades para los 6 ítems. Una correlación de 0,51 es moderadamente significativa, la coherencia entre ambas partes es moderada. El 51% de las diferencias encontradas quedan explicadas por el verdadero nivel de rasgo. EJERCICIO 4
se halla sumando el ítem 2, 3, 4 (X = X2 + X3 + X4 = 4, 7, 3, 5, 6, 11, 8, 4) de ahí se halla la varianza, que en este caso es 6. Interpretación: el 78% de las diferencias encontradas se explican por el verdadero nivel de rasgo. O bien, el 78% de las diferencias encontradas se explican por lo que los sujetos tienen de común y además distinguen las diferencias. EJERCICIO 7 Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiríamos en la formula y nos daría n = 3, 86 formas paralelas. rnn es la fiabilidad deseada. r11 es la fiabilidad obtenida con el número original de ítems. Ahora en este caso si se podría utilizar la regla de tres. 40 ítems − 1 forma paralela X ítems − n − 1 = 2,86 formas paralelas Y el resultado seria 115 ítems que vamos a añadir...
32
¡OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que restarle la forma paralela que ya teníamos en el test inicial. Si no la restamos nos saldrían 154 ítems que son el total, no los que hemos añadido (115). EJERCICIO 9 N = 4 quiere decir que he añadido 3 formas paralelas a la inicial. Cuando duplico el número de ítems incremento un 0,17 de fiabilidad. La siguiente vez (de n =2 a n=3) incremento un 0,10. La próxima vez (de n=3 a n=4) incremento un 0,12. Esto nos indica que es incorrecto, porque la fiabilidad aumenta pero por el efecto techo no puede ser mayor que la fiabilidad anterior. El incremento debería ser 0,6, con una fiabilidad de 0,73. A − EF − CA • V.D: criminalidad operativizada en numero actos delictivos. V.I: Tipos de ciudad, operativizada en 3 niveles: Centros Industriales, C. Comerciales, C. Políticos. • Ho: no existen diferencias estadísticamente significativas en los promedios de criminalidad en función del tipo de ciudad.
Cálculos previos.
A1 A2 A3
Media 6,625 5,5 3,5
Desviación 1,218 1,5 1,5
Varianza 1,484 2,25 2,25
meter todas las medias y hallar la desviación.
meter todos los datos y hallar la desviación.
Anova A − EF − CA F 33
Origen de la Variación
Suma de cuadrados
Grados de libertad
Cuadrados medios
CM entre CM dentro
(numerador de la (denominador de varianza) la varianza) ENTRE DENTRO TOTAL.
40,08 47,872 87,936
2 21 23
(Varianza) SC/GL 20,04 2,279
8,793
0,05= 3,47 Si nuestra F > F tablas R Ho p < F2, 21 0,01 = 5,78 • DECISION Con una F2, 21 = 8,793; p < 0,01 Rechazo Hipótesis Nula. • CONCLUSION. Existen diferencias estadísticamente significativas en los promedios de criminalidad en función del tipo de ciudad. 2. INDICE DE ASOCIACION. SCentre − (K −1) · SCdentro = 0,39 SCtotal + SCdentro El 39 % de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad. Tiene una relevancia grande. 0,001 Baja 0,06 Media 0,14 Grande 3. CONTRASTE DE TUKEY. 0,05 = 3,58 DHS = q 0,01 = 4,64 DHS0,05 =
DHS0,01 = 34
M1 − M2 1,125 3,125 2
A1 − A2 A1 − A3 A2 − A3
P P>0,05 P<0,01 P<0,05
NO SI SI
Rechazo si (M1−M2) > DHS Existen diferencias estadísticamente significativas entre todos los promedios de los diferentes niveles de la variable dependiente, menos en el del grupo A1 − A2, dándose las diferencias mas pronunciadas en función de pertenecer al grupo A1 − A3. 4. CONCLUSION. Con una F 2, 21 =8,793; P< 0,01 vemos que existen diferencias estadísticamente significativas en los promedios de criminalidad en función del tipo de centro. Mas en concreto esas diferencias se localizan entre los centros industrial y político (M1− M3 = 3,125 P< 0,01) Centros industriales (M = 6,625) y centros industriales (M = 5,5) no difieren, a pesar de tener un índice de criminalidad mas altamente significativo que el político. Además un 39% de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad, teniendo una relevancia grande. ANOVA AB − EF − CA • V.D: conducta motora infantil, operativizada en muero de bolas metidas en una caja en 4 minutos. V.I: privacion social; operativizada en 4 niveles: 10, 20, 40 y 60 minutos. Magnitud del reforzador; operativizada en 2 niveles: con o sin esfuerzo. Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora infantil en funcion de la magnitud del reforzador.
Ho Factor B: no existen diferencias estadísticamente significativas en los promedios en la conducta motora infantil en funcion del tiempo de privación social.
Ho Interaccion: no existen diferencias estadísticamente significativas en los promedios en la conducta motora infantil en funcion de las distintas combinaciones entre privación social y magnitud del refuerzo. Calculos Previos.
10
Con media 3,25
Refuerzo desviación 1,639
varianza 2,687
Sin media 1,5
Refuerzo desviación 0,5
varianza 0,25 35
min 20 min 40 min 60 min
4,5
1,118
1,25
3
0,707
0,5
7
1
1
5,5
0,5
0,25
8
0,707
0,5
9,75
0,433
0,1875
Mb1=2,375 Sb1 = 0,569 Mb2= 3,75 Sb2 = 0,2055 Mb3 = 6,25 Sb3 = 0,25 Mb4= 8,875 Sb4 = 0,137 Ma1= 5,687 S= 2,228 Ma2= 4,93 S = 3,1715 Ej. La Mb1 se halla metiendo las medias de la 1ª fila, se suman y se halla su media La Ma2 se halla metiendo las medias de la 1ª columna y hallando su media. La Sb1 se halla metiendo las desviaciones de la 1ª fila y hallando su desviación. La Sa1 se halla metiendo las puntuaciones individuales (enunciado del ejercicio) de la 1ª columna (con refuerzo) y hallando la desviación. M factor A: 5, 3085 se meten las 2 medias de A y se halla la media. S factor A: 0, 3785 se meten las 2 medias de A y se halla la desviacion. S2 factor A: 0, 1432 se meten las 2 medias de A, se halla la desviación y se eleva. M factor B: 5,3125 Se meten las 4 medias y se halla la media. S factor B: 2,481 Se meten las 4 medias de B y se halla la desviación. S2factor B: 6,16 Se meten las 4 medias de B, se halla la desviacion y se eleva. Mtotal: 5,3125 meter todas las puntuaciones individuales y hallar la media. Stotal: 2,7662 meter todas las puntuaciones y hallar la desviacion. S2total: 7,6523 elevar al cuadrado la desviacion de los totales. 36
S2AxB: 6,824 se meten las 8 medias de cada celda (3,25, 4, 5, 7, 8, 1,5, 3, 5,5, 9,75) y se halla la varianza. Meter la desviación de las celdas y luego hallar el sumatorio al cuadrado. n = numero de puntuaciones en cada celda. A: numero de niveles del factor A. B: numero de niveles del factor B. Anova AB − EF − CA Suma de cuadrados Origen de la Variación Factor A Factor B Interacción Error TOTAL
Grados de libertad
(numerador de la (denominador de varianza) la varianza) 4,5824 197,12 16,665 25,2128 244,87
3 1 3 24 31
Cuadrados medios
F CM entre
(Varianza) SC/GL 1,527 197,12 5,555 0,8694
CM dentro 4,087 59,52 4,99
P (probabilidad) >0,05 A <0,01 R <0,01 R
0,05 = 4,86 0,05 = 3,01 F1, 24 F3, 24 0,01 = 7,82 0,01 = 4,72 Existen diferencias estadísticamente significativas en la conducta motora infantil en funcion de la privación social. F1, 24 = 59, 52 p < 0,01 Sin embargo no existen diferencias estadísticamente significativas en la conducta motora infantil en funcion del tiempo de privación social. F3, 24 = 4,087 p > 0,05 • INDICE DE ASOCIACION. Se halla de los factores que hemos rechazado la Hipótesis Nula. SCB − (B −1) · CMerror = 0,7986 SCtotal + CMerror El 79,86% de la variabilidad encontrada en la conducta motora infantil esta asociada a la privacion social. SCAB − (A −1) (B−1)· CMerror = 0,057 SCtotal + CMerror 37
El 5,7% de la variabilidad encontrada viene explicada por las diferentes combinaciones de reforzador y privación social. 0,001 es bajo. 0,06 media 0,14 alta Y el coeficiente eta es < 0,05 pequeña y < que 0,10 grande • CONTRASTE DE TUKEY. Hallamos el de factor B porque hemos rechazado Hipótesis Nula y tenemos varios niveles. En el factor A no hace falta porque solo tenemos 2 niveles. 0,05 = 3,90 DHS = q 4, 24 0,01 = 4,41 El 4 de la q se refiere a que hay 4 niveles en el factor B. DHS0,05 =
DHS0,01 =
1−2 1−3 1−4 2−3 2−4 3−4
M1 − M2 1,375 3,875 6,5 2,5 5,125 2,625
P P>0,05 P<0,01 P<0,01 P<0,05 P<0,01 p<0,01
NO SI SI Si Si Si
Rechazo si (M1−M2) > DHS Se encuentran diferencias estadisticamente significativas en todos menos en el de 10 y 20 minutos. • GRAFICO DE LAS MEDIAS. Se meten las medias de las celdillas. En los primeros momentos (10 − 20 min) la conducta motora aumenta, mas si tiene refuerzo, pero llegado a 40 − 60 minutos los que tienen refuerzo disminuyen y los otros aumentan. Si son líneas paralelas no hay interacción. 38
Si no son paralelas hay interacción. Cuando las líneas se cruzan la interacción es NO ordinal− Y cuando las líneas no paralelas no las veo cruzarse la interacción es ordinal. • INTERPRETACION Y CONCLUSION. Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora infantil en funcion de la magnitud del reforzador. Ho Factor B: no existen diferencias estadísticamente significativas en los promedios en la conducta motora infantil en funcion del tiempo de privación social. Ho Interaccion: no existen diferencias estadísticamente significativas en los promedios en la conducta motora infantil en funcion de las distintas combinaciones entre privación social y magnitud del refuerzo. Decisiones. F1, 24 = 59, 52 p < 0,01 Como se observa en los datos hemos rechazado la hipótesis nula relacionada con la privacion social, lo que significa que existen diferencias estadísticamente significativas en la conducta motora infantil en funcion del tiempo de privación social. Tras hallar la diferencia honestamente significativa podemos afirmar que esas diferencias estadísticamente significativas se dan entre todos los grupos, excepto en el de 10 − 20 minutos. F3, 24 = 4,087 p > 0,05 Sin embargo hemos aceptado la hipótesis nula relacionada con la magnitud del refuerzo, lo que indica que no existen diferencias estadísticamente significativas en la conducta motora infantil en funcion del tiempo de privación social. Ademas al estar operativizada en dos niveles (con reforzador, sin reforzador) no ha sido necesario realizar contrastes posteriores. F3, 24 = 4,087 p > 0,05 De igual manera hemos rechazado la hipótesis nula de la interaccion, lo que quiere decir que existen diferencias estadísticamente significativas en la conducta motora en funcion de las distintas combinaciones entre magnitud del esfuerzo y privación social. Mas concretamente podemos afirmar que el 79% de la variabilidad encontrada en la variable dependiente, que en este caso es la conducta motora, viene explicada por el tiempo de privación social en que se mantiene al niño (0,7986), siendo un porcentaje alto, porque excede al 14%. Y un 5,7% de dicha variabilidad por la interaccion entre la privación social y la magnitud del refuerzo. ANOVA A− EF− MR Ho Filas: no existen diferencias estadísticamente significativas en los promedios de los alumnos. Ho Columnas: no existen diferencias estadísticamente significativas en los promedios en la manera de evaluar de los profesores. Cálculos previos: 39
Columnas.
A B C D E F
media 5,71 4,714 5,857 5,857 5,142 5,714
desviación 2,11 2,05 1,958 1,641 2,294 1,979
varianza 4,49 4,20 3,836 2,693 5,265 3,918
M columnas: 5,499 S m columnas: 0,426 se meten todas las medias y se halla la desviación. S2 M columnas: 0,1817 hallar la desviación tipica de todas las medias y luego al cuadrado. Filas. El total de las filas es la suma de las puntuaciones de cada sujeto.
1 2 3 4 5 6 7
Media 2,833 5,5 7 2,83 6,83 5,166 7,66
Desviacion 0,687 0,957 0,816 1,343 1,572 1,213 0,94
Varianza 0,472 0,916 0,666 1,805 2,472 1,472 0,888
M filas: 5,402 S m filas: 1,811 se meten todas las medias y se halla la desviación. S2 M filas: 3,281 se eleva al cuadrado la desviación. M total: 5,404 S total: 2,127 meter todos los datos y hallar la desviación. S2total:4,526 meter todos los datos y hallar la varianza. Anova A − EF − MR meto las medias de las columns al cuadrado y hallo el sumatorio. meto las varianzas y hallo el sumatorio meto las medias de las columnas, hallo la media y lo elevo al cuadradp.
40
aplico la formula meto los totales de las filas y hallo la varianza meto las medias de las columnas y hallo la varianza. SCT = Suma de cuadrados Origen de la Variación
Grados de libertad
(numerador de la (denominador de varianza) la varianza)
Cuadrados medios
F CM entre
(Varianza) SC/GL
CM dentro
P (probabilidad)
Filas (alumnos). Columnas (Profesores) Interacción Variabilidad TOTAL.
137,802
6
22,967
15,428
< 0,01 R
7,6314
5
1,5263
0,88
> 0,05 A
44,6586
30
1,4886
190,092
41
0,05 = 2,53 0,05 = 2,42 F5, 30 F 6, 30 0,01 = 3,70 0,01 = 3,47 A la vista de los datos concluimos que no existen diferencias estadísticamente significativas entre los profesores a la hora de clasificar a los candidatos. Hemos aceptado la hipótesis nula de las columnas. F5, 30= 1,025 p > 0,05 Son los sujetos los que son diferentes entre si. Es decir existen diferencias estadísticamente significativas entre los candidatos. Hemos rechazado la Ho de las filas; incluso con los grados de libertad mas conservadores (1, n−1; 4,08, 7,31) F 6, 30 = 15,428 p < 0,01 2. Calcula el coeficiente de fiabilidad que tenga mas sentido calcular de acuerdo con los resultados obtenidos. Interpretación. Cuando se rechaza la Ho de las Columnas es conveniente hallar el coeficiente de fiabilidad de las filas. Y cuando se rechaza la Ho de las filas hay que hallar el coeficiente de fiabilidad de las columnas para ver en que grado las columnas son consistentes.
41
Como hemos podido comprobar mediante el análisis de varianza no existen diferencias estadísticamente significativas entre los profesores a la hora de clasificar a los candidatos. A través del coeficiente fiabilidad y una vez cuantificado su grado de unanimidad, podemos afirmar que tienen un grado de consistencia de en torno al 14% Fiabilidad en los test y escalas. 54 X=V+E
r11= r11= =
Índice de precisión =
XV =
Rxx´=
42
AS − AI Dc1= N AS + AI Df= N +N AS + AI Df= N +N Dc2=
Indice dificultad para todo el test =
Indice discriminacion para todo el test =
K 2i = 1− k −1 2t
43