Tradicionalmente, la fiabilidad de un test puede entenderse de tres maneras diferentes:

42 TEMA III: FIABILIDAD DEL TEST INTRODUCCIÓN Se entiende por fiabilidad el grado de estabilidad, precisión o consistencia que manifiesta el test como

Author: María Luz Crespo Lara

3 downloads 122 Views 188KB Size

Report

DOWNLOAD PDF

Recommend Stories

Fiabilidad de test

Diferentes Maneras de Comprar Cosas

Fiabilidad y validez de constructo del test

1. QUÉ PUEDE ENTENDERSE POR NEOCONSTITUCIONALISMO?

NEOCONSTITUCIONALISMO Y PONDERACIÓN JUDICIAL Luis PRIETO SANCHÍS Catedrático de Filosofía del Derecho Universidad de Castilla-La Mancha SUMARIO: 1. ¿

El mundo puede explicarse de dos maneras:

fiabilidad). Un cambio de paradigma?

MÚLTIPLES MANERAS DE ENSEÑAR, PARA DIFERENTES FORMAS DE APRENDER

Universidad de Valladolid Facultad de Educación de Segovia Trabajo Fin de Grado MÚLTIPLES MANERAS DE ENSEÑAR, PARA DIFERENTES FORMAS DE APRENDER UNA

20% 19% 14% 15% 11% 10% 9% Se puede preparar de diferentes maneras. Es de buena calidad

a las diferentes maneras de pensar la cultura de la gente de la sierra: los Makurawe

Conde Guerrero Gerardo Etnólogo Gerardo Conde Guerrero [email protected] 2005 Licenciado en Etnología con la tesis “Del olvido a la persistencia

Protesta, liga y partido: tres maneras de ser intelectual

Protesta, liga y partido: tres maneras de ser intelectual∗ Santos Juliá En ocasiones, parece como si el hecho de que la voz "intelectual" sólo se hay

Story Transcript

42 TEMA III: FIABILIDAD DEL TEST INTRODUCCIÓN Se entiende por fiabilidad el grado de estabilidad, precisión o consistencia que manifiesta el test como instrumento de medición de un rasgo determinado. Si un herrero mide varias veces con una cinta métrica la longitud de una barra de hierro, siempre obtendrá la misma medición, debido a que tanto la cinta métrica como la barra permanecen invariantes. Ahora bien, cuando empleamos un test para medir un rasgo psicosocial determinado, puede ocurrir que ni uno ni otro permanezcan invariantes de una situación a otra; análogamente, sería como disponer de una cinta métrica elástica y de una barra de hierro sometida a diferentes temperaturas (y, por lo tanto, más o menos dilatada). Es labor de la psicometría establecer en cada caso el grado de estabilidad del instrumento de medición. Hasta el momento, el modelo clásico de puntuación verdadera y el planteamiento de la fiabilidad como correlación entre formas paralelas, se han establecido en términos paramétricos; es decir, suponiendo conocidos los datos de la población de referencia. Lo real es que en la práctica vamos a disponer de datos obtenidos en una muestra o grupo normativo concreto. Esto significa que, de modo directo, únicamente vamos a disponer de las puntuaciones empíricas de dicha muestra, a partir de las cuales podemos obtener los estadísticos que sean oportunos. Tradicionalmente, la fiabilidad de un test puede entenderse de tres maneras diferentes: a) Aludiendo a la estabilidad temporal de las medidas que proporciona. b) Haciendo referencia al grado en que diferentes partes del test miden un rasgo de manera consistente. c) Enfatizando el grado de equivalencia entre dos formas paralelas.

1.- FIABILIDAD COMO ESTABILIDAD TEMPORAL Si disponemos de las puntuaciones de N personas en un test y, después de transcurrido un tiempo, volvemos a medir a las mismas personas en el mismo test, cabe suponer que siendo el test altamente fiable, deberíamos obtener una correlación de Pearson elevada entre ambos mediciones. Dicha correlación entre la evaluación test y la evaluación retest (rxx) se denomina coeficiente de fiabilidad test-retest, e indicará tanta mayor estabilidad temporal de la prueba cuanto más cercano a uno sea. Este modo de operar se desprende directamente del modelo lineal clásico, según el cuál se define la fiabilidad como la correlación entre las puntuaciones empíricas en dos formas paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad es uno aplicado dos veces.

43 Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un cuestionario de hábitos de estudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a las mismas personas bajo las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones fueron las siguientes: Persona 1 2 3 4 5 6 7 8 9 10

Test

Restest

16 14 12 11 10 8 8 6 4 1

10 14 8 12 10 8 7 5 4 2

Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dos últimas columnas: rxx = 0.87 En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo (hábitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridos entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantías respecto a la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy parecidas (o similares) en las dos aplicaciones. Más concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos interpretar que el 87 % de la varianza empírica se debe a la variabilidad de las personas a nivel de puntuaciones verdaderas. Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo estable (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada por el instrumento de medición. Es aconsejable dejar periodos largos entre la evaluación test y la retest cuando los ítems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos podrían emitir pautas de respuesta similares en las dos aplicaciones del test únicamente por efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se incrementaría debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones, mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido a factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la correlación entre las puntuaciones del test y del retest.

44

2.- FIABILIDAD COMO CONSISTENCIA INTERNA La precisión o fiabilidad de un test se puede entender también como el grado en que diferentes subconjuntos de items miden un rasgo o comportamiento homogéneo; es decir, el grado en que covarían, correlacionan o son consistentes entre sí diferentes partes del cuestionario. Lo más usual es obtener la consistencia entre dos mitades del test (método de dos mitades) o entre tantas partes como elementos tenga la prueba (consistencia interna).

2.1.- MÉTODO DE DOS MITADES Este procedimiento consiste en dividir el test en dos mitades equivalentes (normalmente una con los elementos pares y otra con los impares). Para cada sujeto se obtiene la puntuación directa en ambas mitades. Disponemos entonces de dos variables (P e I), cuya correlación de Pearson (rPI) indica su grado de relación. Si la mitad par e impar fueran entre sí formas paralelas (ya sabemos cómo comprobarlo estadísticamente), la correlación entre ambas sería una medida de la fiabilidad de cada una de ellas. Ahora bien, cuando hemos deducido la fórmula general de Spearman-Brown hemos visto que los tests más largos (con más items) suelen ser más fiables, por lo que rPI estará subestimando el coeficiente de fiabilidad del test total en la medida que P e I son variables extraídas de la mitad de ítems que tiene el test. Para superar este problema, y así obtener el coeficiente de fiabilidad del test completo, debemos aplicar la fórmula de Spearman-Brown, considerando ahora que estamos trabajando con datos muestrales, y haciendo n = 2 ya que el test completo tiene el doble de items que cualquiera de sus mitades:

rxx =

2rPI 1 + rPI

A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad, entendido como la expresión de la consistencia entre dos mitades, es mayor que la correlación de Pearson entre ambas mitades. Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10 personas que responden a un cuestionario de 6 ítems valorados de forma dicotómica:

45

Ítems Sujeto 1 2 3 4 5 6 7 8 9 10

1 2

3

4

5

6

P

I

Total

1 0 0 0 0 1 1 0 0 0

1 1 1 1 0 1 1 1 0 0

0 1 0 1 1 1 1 1 0 0

1 0 0 0 0 1 1 0 0 0

0 1 0 0 0 1 1 1 0 0

0 3 0 2 1 3 3 3 1 0

3 1 1 1 0 3 3 1 0 0

3 4 1 3 1 6 6 4 1 0

1.6 1.28

1.3 1.19

2.9 2.02

0 1 0 1 0 1 1 1 1 0

Media Desviación típica

En este caso se obtiene que rPI = 0.34, y por tanto:

rxx =

2(0.34) = 0.51 1 + 0.34

De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos mitades del test no son muy consistentes entre sí. Unicamente un 51 % de la varianza de las puntuaciones empíricas se debe a la varianza de las puntuaciones verdaderas. No podríamos afirmar con suficiente certeza que ambas mitades miden con precisión el rasgo de interés. La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma que se comienza a responder los ítems más fáciles hasta llegar a los situados al final del test, que son los más difíciles. Si realizásemos la partición en dos mitades atendiendo a su disposición en la prueba (la primera mitad formada por los primeros n/2 ítems, la segunda por los n/2 ítems últimos) difícilmente podría cumplirse que ambas tuvieran la misma media.

46 2.2.- COEFICIENTE α DE CRONBACH

En el tema precedente vimos que si los k ítems de un test fueran paralelos, el coeficiente de fiabilidad del test podría obtenerse aplicando la fórmula general de Spearman-Brown: kρ jl

ρ xx =

1 + (k − 1) ρ jl

siendo k el nº de ítems del test y ρjl la correlación de Pearson entre cualquier par de ítems. Expresada la fórmula anterior para datos muestrales, quedaría como:

rxx =

kr jl 1 + (k − 1)r jl

Una fórmula equivalente a la anterior; es decir, que proporciona exactamente el mismo resultado, es la denominada coeficiente α de Cronbach:

α=

donde

2 k  ∑ S j  1− k − 1  S x2 

k es el nº de ítems

∑S

2 j

es la suma de las varianzas de los ítems y Sx2 es la varianza del test

Dado que las puntuaciones en el test son la suma de las puntuaciones en los ítems, la varianza del test puede expresarse como: k

S x2 = ∑ S 2j + 2∑ cov( j , l ) j =1

j