PRUEBAS DE APRESTAMIENTO ESCOLAR PARA EL PRIMER GRADO: UNA EVALUACIÓN PSICOMÉTRICA COMPARATIVA

PRUEBAS DE APRESTAMIENTO ESCOLAR PARA EL PRIMER GRADO: UNA EVALUACIÓN PSICOMÉTRICA COMPARATIVA CÉSAR MERINO,* LUIS HONORES, WALTER GARCÍA, JOSÉ LIVIA

7 downloads 27 Views 227KB Size

Recommend Stories


OPERATIVO PARA PRUEBAS DE GRADO
OPERATIVO PARA PRUEBAS DE GRADO Operativo Pruebas de Grado OPERATIVO GENERAL DE PRUEBAS DE GRADO. Instrucciones generales que deben conocer los est

ACTIVIDADES DE LECTURA Y ESCRITURA EN EL TEXTO ESCOLAR EL CARDENALITO PARA PRIMER GRADO
ACTIVIDADES DE LECTURA Y ESCRITURA EN EL TEXTO ESCOLAR EL CARDENALITO PARA PRIMER GRADO Berta Barrios * [email protected] (UNA) Recibido: 16/01/201

Primer problema: El Fracaso Escolar
Primer problema: El Fracaso Escolar Uno de los argumentos más insistentemente repetidos por la ministra de Educación es la necesidad de emprender la

INECUACIONES DE PRIMER GRADO CON UNA INCÓGNITA. 1) Resuelve las siguientes inecuaciones de primer grado con una incógnita:
4º ESO Inecuaciones y sistemas de inecuaciones INECUACIONES DE PRIMER GRADO CON UNA INCÓGNITA. 1) Resuelve las siguientes inecuaciones de primer gra

Story Transcript

PRUEBAS DE APRESTAMIENTO ESCOLAR PARA EL PRIMER GRADO: UNA EVALUACIÓN PSICOMÉTRICA COMPARATIVA CÉSAR MERINO,* LUIS HONORES, WALTER GARCÍA, JOSÉ LIVIA UNIVERSIDAD NACIONAL FEDERICO VILLARREAL Recibido: 4 de junio de 2008

Revisado: 4 de Julio de 2008

Aceptado: 6 de Julio de 2008

RESUMEN El propósito de este estudio fue evaluar y comparar las características psicométricas de cinco pruebas de habilidades pre-académicas: Test ABC, Test 5 y 6, Batería de Despistaje para el Primer Grado (BDPG), Batería Evaluadora de las Habilidades Necesarias para el Aprendizaje de la Lectura y Escritura (BEHNALE), y Prueba de Funciones Básicas (PFB). Para ello se hizo un análisis de los ítems, la dimensionalidad, y consistencia interna de dichas pruebas tradicionales de aprestamiento. Se encontraron pobres niveles de consistencia interna y débil unidimensionalidad, excepto en la BDPG y BEHNALE. Estos resultados sugieren la importancia de introducir la re-evaluación psicométrica en las mediciones obtenidas de instrumentos antiguos. Se discuten las implicancias para la evaluación psicológica aplicada a la educación y la investigación aplicada Palabras clave: Aprestamiento escolar, dimensionalidad, consistencia interna. ABSTRACT The purpose of this study was to evaluate and compare the characteristics of five psychometric tests pre-academic skills: ABC Test, Test 5 and 6, Battery Screening for First Grade (BDPG), Battery Assessment of the Skills Necessary for Learning Reading and Writing (BEHNALE), and Test Basic Functions (PFB). This was an analysis of the ítems, the dimensionality, and internal consistency of these tests traditional dressings. We found poor levels of internal consistency and weak unidimensionality, except in the BDPG and BEHNALE. These results suggest the importance of introducing the re-evaluation in psychometric measurements obtained from old instruments. We discuss the implications for psychological evaluation applied to education and applied research. Key words: Schoolar preparation, dimensionality, internal consistency.

*Psicólogo, docente universitario en Universidad Nacional Federico Villarreal (UNFV), Universidad San Martin de Porres (USMP) y Universidad Privada San Juan Bautista (UPSJB). Investigador en el área de evaluación y medición psicológica, y métodos cuantitativos Correo electrónico: [email protected].

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 14 -

ISSN 1995-9966

Las pruebas utilizadas en la edad preescolar, entre 3 y 5 años de edad, han estado bajo la lupa de la crítica respecto a sus características técnicas, ya que estas les ponen los límites en la interpretación de sus resultados y, finalmente, a su utilidad en el terreno profesional y de investigación (Feldt & Brennan, 1989). Bajo los criterios cuantitativos y cualitativos desarrollados para evaluar sus características técnicas en preescolares (Alfonso & Flanagan, 1999; Emmons & Alfonso, 2005; Alfonso & Flanagan, 2006), la evaluación de los componentes psicométricos de instrumentos cognitivos en preescolares ha arrojado resultados variables sobre su aceptabilidad como herramientas psicométricamente efectivas. Otras revisiones independientes tienden a llegar a las mismas conclusiones; por ejemplo, la revisión de Emmos y Alfonso (2005) sobre baterías de despistaje para preescolares, y la de Bracken (1987) sobre instrumentos de diagnosis individual en preescolares, concluyeron que muchas de las pruebas revisadas poseen un rango variable de niveles psicométricos que van desde moderado hacia alto respecto a la consistencia interna y estabilidad test-retest.; y aunque las evidencias de validez provinieron aceptablemente de múltiples fuentes, la magnitud de los coeficientes de validez fueron inestables, ya que el tamaño de la muestras evaluadas en los manuales de las pruebas revisadas fueron pequeñas en muchos de los estudios revisados (Emmos & Alfonso, 2005). Hay otros aspectos que atemperan el entusiasmo por el uso acrítico de medidas en el nivel preescolar, como las normas antiguas, la disimilaridad de los contenidos de las diferentes pruebas (aun cuando sean nominalmente las mismas), la practicidad de su estructura, entre otros (Hasbrouck, 1990). En general, parece que el interés por evaluar la efectividad y las características psicométricas de los instrumentos para niños no tuvo un comparable entusiasmo con su proliferación (Salvesen & Undheim, 1994).

su administración, costo y eficiencia (Hasbrouck, 1990; Meisels, Marsden, Wiske & Henderson, 1997) y pueden estar focalizados a diferentes áreas de funcionamiento cognitivo, tales como las habilidades pre-académicas. Pero a diferencia de las pruebas de desarrollo, están bien vinculadas con los programas que enfatizan las habilidades básicas (Hasbrouck, 1990), las pruebas de despistaje del aprestamiento o madurez escolar apuntan a programas de enseñanza pre-académica (Hasbrouck, 1990), y se concentran en la identificación de niños en riesgo de presentar problemas futuros en el aprendizaje de la lectura, situación que siempre tuvo los problemas de costo y tiempo para administrarlos (Salvesen & Undheim, 1994).

Las pruebas de despistaje se diferencian de las de desarrollo en varios aspectos cualitativos y cuantitativos, como los costos, calificación, administración y el tipo de decisiones que sus resultados facilitan (Hasbrouck, 1990; Woodburn & Boschini, 1995; Meisels et al., 1997). También difieren en la amplitud de los constructos evaluados. Por ejemplo, el Test de Desarrollo Psicomotor, TEPSI (Haeussler & Marchant, 2003) es ampliamente popular en Sudamérica y está relacionado con el desarrollo del lenguaje y motricidad; y el reciente Inventario de Despistaje Preescolar de Minneapolis – Revisado, MPSI – R (Minneapolis Public Schools, 2005) que seleccionó tareas genéricas sobre el desarrollo general. Otras medidas abordan habilidades específicas pero vinculadas genéricamente con el éxito en el aprendizaje escolar, como el Test de la Escuela Meeting Street (Woodburn & Boschini, 1995), o el Bracken School Readiness Assessment (Bracken, 2002). Este último es un instrumento más específico y relativamente homogéneo al evaluar conocimientos de conceptos básicos referidos como parte esencial del aprestamiento, tal y como se Dentro de los usos destinados de las pruebas en la planteó hace varias décadas respecto a su potencial edad preescolar, el despistaje o tamizaje es predictivo del éxito escolar (Steinbauer & Heller, aparentemente una de las funciones más frecuentes. El 1978). despistaje,es un proceso de evaluación con ventajas en Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 15 -

ISSN 1995-9966

Otras evaluaciones destinadas al despistaje son fuertemente dependientes del desarrollo biológico, como las pruebas de integración visomotora, en que las más conocidos son la Prueba de Integración Visomotora (Beery, 2000), y los sistemas de calificación adaptados de la Prueba Gestáltica de Bender para niños (Koppitz, 1984; Brannigan & Brunner, 2002), y esta última particularmente para niños ingresantes al primer grado (Parsons & Weinberg, 1993; Sugar, 1995). El lector bien informado con experiencia en la evaluación de niños ingresantes al primer grado de primaria podría verificar que, a esta variedad de diferencias estructurales entre las pruebas, se añaden otras condiciones, por ejemplo la heterogénea tipología de tareas seleccionadas para definir un instrumento de despistaje del aprestamiento basados en su poder predictivo sobre el rendimiento lector, matemático o de escritura. La experiencia profesional y la revisión de las pruebas existentes concurren en señalar que el énfasis evaluativo se dirige hacia la predicción del éxito en lectura más que otras áreas de aprendizaje escolar. Y aunque los instrumentos usados como despistaje de habilidades varían respecto a la amplitud del constructo evaluado, el número de componentes (subpruebas) relacionados entre sí, la heterogeneidad de las tareas elegidas y el modo de administración, una fuente esencial de la diferenciación entre ellas es la conceptualización que se tiene del constructo evaluado; por ejemplo, medidas como la Prueba de Funciones Básicas (Berdicewski & Milicic, 1978), Test ABC (Filho, 1947; 1960), Prueba de Madurez Escolar de Irasek (Cabrera, Aguilar & Betancourt, 1986), Batería de Inizan (Inizan, 1989) y los Test de Madurez Escolar del Instituto Gesell (Ilg, Ames, Haines & Gillespie, 1981) apuntan al ahora antiguo constructo de madurez o aprestamiento, mientras que medidas como el BENHALE (Mora, 1999) o el Screening for Reading Success (Flynn, 2006) se orientan su conceptualización hacia las habilidades y el BADICBALE hacia el concepto de aptitudes (Molina, 1992). Uno puede imaginarse una numerosa cantidad de Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

habilidades relacionadas con las habilidades preacadémicas del niño, pero lo cierto es que tales áreas de habilidades y conocimientos que se creen predictores del éxito escolar, en un amplio rango de generalidad, incluyen el dominio de conceptos, procesamiento de información auditiva, visomotor y conciencia corporal; razonamiento y comprensión verbal, habilidades sociales y actividad motora y fina (Condemarín, 1989; Hasbrouck, 1990; Educational Testing Service, 1991); pero en un rango estrecho de habilidades, los predictores más conocidos para el aprendizaje de la lectura son la conciencia fonológica y el conocimiento de letras, memoria verbal, nombramiento rápido de objetos y conocimientos sintácticos-semánticos (Condemarín, 1989; Muter, 2000). Una revisión de 81 pruebas publicadas desde 1945 hasta 1990 diseñadas para las competencias del niño en aquellas áreas necesarias para aprender a leer y para decidir sobre la elegibilidad para el ingreso al nivel Kinder o primer grado, reveló que las áreas más citadas en la evaluación pre-académica fueron la percepción visual, discriminación auditiva, identificación de letras, reconocimiento de palabras y vocabulario, las cuales estarían asociadas a facilitar y expandir el dominio las habilidades sintácticas y semánticas para el aprendizaje de la lectura inicial (Educational Testing Service, 1991). Pero si hay que identificar a una de las habilidades más estrechamente vinculadas con el rendimiento lector, según las investigaciones actuales, y que es uno de los predictores más poderosos validado en varios meta-análisis internacionales es el desarrollo fonológico (Bravo, 2002), que es el eje del umbral lector (Bravo, 2002, 2004; Velarde, 2004). Varias de las pruebas en español evalúan las áreas señaladas, pero con contenido, número y formato de las tareas solo moderadamente similares, y una situación así hace difícil la comparación sustancial entre las pruebas (Hasbrouck, 1990). Estas diferencias pueden estar exacerbadas por la dispersión de los puntajes, ya que los ítems de una subescala pueden ser calificados ordinalmente (ABC

- 16 -

ISSN 1995-9966

de Filho, 1947; 1960), mientras que otras tiene un formato dicotómico (Merino, 2008b), o una combinación de estas como ocurre con las pruebas derivadas del modelo ABC de Filho (1947, 1960) en la Batería Evaluativa de las Habilidades Necesarias para el Aprendizaje de la Lectura y Escritura, BENHALE (Mora, 1999) o la Batería de Inizan (Inizan, 1989). A través de los años, ha sido aparente que la presentación y formato de las pruebas de aprestamiento ha ido diferenciándose; y una de las pruebas más populares en esta área provino de Brasil, con la publicación del Test ABC (Filho, 1947; 1960), y que es una de las primeras pruebas latinoamericanas publicadas sobre la madurez escolar (Ardila, 2004; Alarcón, 2004). Este es sin duda una de las más resistentes a través de los tiempo, aún cuando parece que las normas preparadas en esa época se continúan utilizando y hay evidencias actuales de su cuestionable valor predictivo (Inizan, 1989; Salazar, Amon & Ortiz, 1996; Mora, 1999; Ardila, 2004). Otra prueba que parece ser resistente al desuso, por ejemplo en el contexto peruano, es la Prueba de Aprestamiento de Jordany Massey (Jordan & Massey, 1967), así como las Pruebas 5 y 6 de origen uruguayo (Gastelumendi, Isasmendi, Slovak & Semelong, 1977). Una revisión informal del lector sobre el uso de estas pruebas, puede llevarlo a concluir que aún continúan en uso en tesis de pregrado, así como en los sílabos de estudios universitarios en Psicología y Educación en Latinoamérica (Suárez, 1999). Finalmente, otra generación de pruebas de aprestamiento proviene de la adaptación del Metropolitan Readiness Test (Hildreth, Griffiths & McGauvran, 1969) en Chile (Abarca, Domberg, Montes & Peredo, 1965), y posteriormente, la Prueba de Funciones Básicas (Berdicewski & Milicic, 1974, 2004). Más recientemente, se han presentado las pruebas experimentales del equipo de Bravo (1997) y una adaptación normativa en niños peruanos entre 5 y 6 años de edad (Melendez & Morocho, 2007). Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

Exceptuando los resultados de pobre validez predictiva del test ABC (Salazar, Amon & Ortiz, 1996), sobre las pruebas mencionadas, hasta la fecha no hay una revisión cuantitativa ni cualitativa que comparativamente realce las ventajas y limitaciones psicométricas que formalmente pueden impactar en las prácticas de evaluación de los psicólogos escolares. Dado que las propiedades psicométricas de algunas de ellas tienen una larga antigüedad o no han sido comparativamente evaluadas, se hace necesario no solo re-evaluar estas propiedades, sino también crear instrumentos más sensibles, culturalmente relevantes, y que típicamente cubran las recomendaciones de las mejores prácticas sobre su elegibilidad y características cualitativas y psicométricas en pruebas de despistaje de habilidades pre-académicas (Hasbrouck, 1990; Bracken, 1987) y de las pruebas cognitivas en general (Bracken, 1987; Alfonso & Flanagan, 1999; Emmons & Alfonso, 2005). La validez es una de las áreas psicométricas más multifacéticas para la evaluación de las cualidades de una prueba, y dentro de ella, la evaluación de la dimensionalidad. Las recientes guías de uso de pruebas psicológicas (AERA, APA y NCME, 1999; International Test Commission, 2001) indican que las evidencias de validez en este aspecto deben ser evaluadas durante su construcción y re-evaluadas después de un determinado tiempo. Si un plan preventivo del bajo rendimiento escolar incluye una evaluación de despistaje que responda a las exigencias de sensibilidad, especificidad, y un balance ventajoso entre sus costos y los beneficios de su uso, entonces la creación de un instrumento es necesaria en la situación actual del psicólogo y profesiones directamente vinculadas con el rendimiento escolar del niño. Actualmente, hay una extensa y diseminada preocupación por la buena práctica profesional en el uso de herramientas de evaluación psicológica, y se estimula el buen uso y la aplicación de criterios técnicos psicométricos para el desarrollo y conceptualización de instrumentos de

- 17 -

ISSN 1995-9966

evaluación, así como de sus mejores prácticas profesionales (AERA, APA & NCME, 1999; International Test Comission, 2001). Bajo este contexto, las investigaciones psicométricas son los métodos de elección para decidir sobre las pruebas más adecuadas. Excepto, en ciertas ocasiones; ya que como mencionamos, no se han publicado comparaciones psicométricas sobre pruebas tradicionales de aprestamiento (por ejemplo, ABC, 5 y 6, PFB) en el contexto latinoamericano y menos aún comparándolas con nuevas propuestas (por ejemplo, BENHALE). Por lo tanto, el presente estudio se orienta a cubrir esta ausencia de evidencias empíricas de las características de validez y confiabilidad de estas medidas de la preparación preacadémica. Nuestro estudio evaluará y comparará las características psicométricas de varias pruebas tradicionales de aprestamiento o habilidades preacadémicas, estas características incluyen el examen de la dimensionalidad, distribución, ítems y consistencia interna. Método

están en instrucción escolarizada cuatro horas y media durante cinco días a la semana en estos centros, y las actividades de enseñanza son consistentes con la currícula escolar oficial; sin embargo, cada grupo preescolar puede diferenciarse por características de la didáctica y filosofía de enseñanza de cada profesora, además de la suficiencia de los materiales didácticos y de los textos de instrucción elegido. En la Tabla 1 se pueden apreciar las principales características de la muestra. Tabla 1 Distribución de las características de los participantes Género Varón Mujer

Gestión Privado Estatal

N (%)

N (%)

N (%)

N

(%)

Edad Media (de)

ABC

30 (60.0)

20 (40.0)

50 (100)

0 (0.0)

66.4 (3.9)

5y6

37 (50.0)

37 (50.0)

64 (86.4)

10 (13.6)

69.2 (3.9)

PFB

32 (53.3)

28 (46.7)

50 (83.3)

10 (16.7)

66.6 (4.3)

BDPG

34 (46.6)

39 (53.4)

9 (12.3)

64 (87.7)

60.0 (3.5)

BENHALE

27 (56.2)

21 (43.8)

48 (100)

0 (0.0)

67.9 (4.1)

Participantes La muestra estuvo conformada por 305 niños y niñas, seleccionados por conveniencia, cuya edad promedio fue de 5 años 5 meses y fue similar en todas las instituciones educativas en las cuales se hizo la evaluación. Los participantes pertenecieron a nueve instituciones educativas orientadas al nivel preescolar, 3 de ellas son de gestión privada y se encuentran ubicadas en los distritos de: Ate Vitarte, Villa el Salvador y Pachacamac. Las otras 9 instituciones restantes son de gestión de pública y se ubican en los distritos de: Cercado de Lima, Ate Vitarte, Barranco, Breña, San Martin de Porres, Pachacamac, Comas, San Juan de Lurigancho y la Provincia constitucional de Callao. Las características funcionales de estas instituciones son similares: es decir, que en cada centro los niños reciben instrucción en aulas de 25 a 30 alumnos aproximadamente; y una profesora y auxiliar, ambas mujeres, se encargan de la instrucción en todas las instituciones muestreadas. Los niños Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

Instrumentos Batería de Despistaje para Primer Grado (Merino, 2008a). Este instrumento explora habilidades pre-académicas para niños que están ingresando al primergrado de primaria; las habilidades evaluadas están en un estrecho rango de contenido sobre Conocimiento de letras y palabras (18 ítems), Habilidades fonológicas (17 ítems), Percepción visual (21 ítems), Habilidades cuantitativas (23 ítems) y Habilidades de vocabulario y conceptualización (20 ítems); para cada una de estas áreas se obtiene un puntaje, además de un puntaje total basado en la suma de las subescalas. Es una adaptación del PASS (Witheman, 1987), una prueba de 30 ítems creada para evaluar habilidades académicas en primer grado de primaria, y luego adaptada ligeramente para usarse con niños de 5 años (Hirsh-Pasek, Hayson y Lescorla, 1990); - 18 -

ISSN 1995-9966

el estudio original concluyó que el puntaje total es el resultado más confiable para la interpretación del rendimiento del niño (Witheman, 1987), y no su hipotetizada estructura de dominios. El instrumento se diseñó para ser aplicado en grupos pequeños. Los ítems son de tipo opción múltiple y se califican con uno o cero. Un estudio en Latinoamérica con una versión temprana demostró que predice el 35% de la varianza de las notas en primer grado luego del primer trimestre de instrucción (Merino, 2008b). Estudios con la actual versión han aportado resultados satisfactorios sobre la validez de constructo con diferentes estrategias (análisis factorial, comparación de grupos extremos, correlaciones convergentes y divergentes), de criterio (concurrente y predictivo) y de contenido, así como la confiabilidad, estabilidad y consistencia interna (Merino, 2008b). Test ABC (Filho, 1947; 1960). Ha sido desarrollado por L. Filho en los años de 1925 en Brasil, y publicada por primera vez en español en 1947; tiene como fin el diagnóstico de un conjunto de capacidades para el aprendizaje de la lectura y escritura para los niños que acuden a la escuela primaria. Siendo usado como un instrumento propedéutico o reactivo preliminar. Este test evalúa las siguientes 10 áreas: coordinación visual motora, resistencia a la inversión en la copia de figuras, memorización visual, coordinación auditivo motora, capacidad de pronunciación, resistencia a la ecolalia, memorización auditiva, índice de fatigabilidad, índice de atención dirigida, vocabulario y comprensión general. Estas áreas se distribuyen en ocho subtest: Reproducción de figuras (3 ítems), Evocación de figuras (7 ítems), Reproducción de movimientos (3 ítems), Evocación de palabras (7 ítems), Evocación de un relato (6 ítems), Reproducción de palabras (10 ítems), Corte de un diseño (2 ítems), Punteado (1 ítem). La duración de aplicación de la prueba es alrededor de 10 minutos, y es aplicado de manera individual y colectiva. La puntuación general es obtenida por la suma de los puntos alcanzados en la prueba por parte de los evaluados (máximo: 24 puntos). Respecto a su respaldo psicométrico, Filho Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

(1960) halló una aceptable confiabilidad basada en aplicaciones sucesivas con intervalo de una semana. Para la validez predictiva, se correlacionó con el aprendizaje obtenido al final del año escolar (r = 0.75), junto con una prueba de lectura silenciosa, velocidad de lectura oral, velocidad y perfección de la escritura y prueba de dictado (r = 0.92, Filho, 1960). Usando un análisis factorial con el método Centroide de Thurstone, Filho halló una estructura oblicua tridimensional, que denominó X (test 3, 1 y 7), Y (test 8, 6, 7 y 2) y Z (test 5, 2 y 4). Batería Evaluadora de las Habilidades Necesarias para el Aprendizaje de la Lectura y Escritura (Mora, 1993). Esta prueba permite estimar el nivel alcanzado en las habilidades para el aprendizaje de la lectura y de la escritura. Se compone de las subpruebas: Coordinación visomotora (2 ítems), Memoria motora (3 ítems), Percepción y discriminación visual (10 ítems), Vocabulario (30 ítems), Articulación (10 ítems), Percepción y discriminación auditiva (4 ítems), Estructuración espacio-temporal (4 ítems), Memoria visual inmediata (10 ítems), Memoria auditiva y lógica inmediata (7 ítems). De administración individual, es aplicable para niños y niñas de cinco y seis años. Los materiales necesarios para la aplicación son: una hoja de respuesta, un lápiz, lámina de memoria visual inmediata, una pelota, y hojas de papel blanco. En lo referente a las características psicométricas, a través del estudio normativo se demostró la independencia de los subtest con intercorrelaciones muy pequeñas (r=0.03) o bajas (r=0.37). La consistencia interna fue estimada a través del coeficiente alfa de Cronbach que tuvo valores de moderados (α = 0.60 en Percepción y discriminación visual) hasta altos (α = 0.88 en Estructuración espacio-temporal). Por otro lado, la validez de contenido, fue específicamente de validez factorial, hallándose una solución tridimensional que explicó el 37.42% de la varianza total: un factor de predominio perceptivo, uno de predominio motriz y otro de predominio lingüístico. La validez predictiva,se hizo a través de dos estudios

- 19 -

ISSN 1995-9966

reportados en el manual, que tuvieron como criterio el éxito o el fracaso en el aprendizaje de la lectura y escritura, y definido por los profesores de los niños, el primero alcanzó un 67.5% de las predicciones concordantes, mientras que en el segundo estudio se alcanzó un 75.2% de concordancias en las predicciones. El Test 5-6, forma B (Gastelumendi, Isasmendi, Slovak, & Semeleng, 1977). Esta viene a ser una prueba que hace una exploración a las áreas principales al iniciar el aprendizaje de las materias básicas de la escuela, para identificar el grado de maduración del niño antes de empezar el aprendizaje escolar. Las áreas pre-académicas son las relacionadas con la escritura, la lectura y el cálculo. Fue presentado por Gastelumendi en el XII Congreso Interamericano de Psicología realizado en Uruguay en marzo de 1969. Este test se compone de dos formas paralelas: A y B. La Forma A se elaboró exclusivamente para Ministerio de Educación de Uruguay; mientras que la Forma B es la versión editada para los profesionales y la que estuvo a la venta. La batería esta conformada por 4 subpruebas: Comprensión (7 ítems), Percepción (24 ítems), Pre-cálculo, y Motricidad (5 ítems cada uno). Cada ítem se puntúa con uno o cero, y es una prueba recomendada para la administración grupal. El test muestra una correlación con una prueba de rendimiento de lectura – escritura aplicada en el tercer trimestre, dando un coeficiente de 0,72 (Gastelumendi et al., 1977). Además, da una comparación porcentual con el Test del Árbol y con la aplicación de test de Goodenough dando resultados aceptables. Mientras la validez de este test se encuentra expresada por los ajustados resultados estadísticos que pone en su manuscrito. Una de las autoras (Isasmendi, 2008: comunicación personal) manifiesta que este test debe ser revisado con los actuales procesos estadísticos.

años y 6 meses aproximadamente. Se articula a partir de 3 subtest con ítems dicotómicos cada uno: Coordinación visomotora (16 ítems), Discriminación auditiva (28 ítems) y Lenguaje (14 ítems). La administración es colectiva. Los materiales necesarios consisten en: el cuadernillo de evaluación, lápiz, pizarra, tizas y mota para los ejemplos, hoja de registro y cronómetro. En cuanto a sus propiedades psicométricas, el manual reporta una consistencia interna global de 0.82. La validez concurrente con el Test ABC de Filho alcanzó una correlación de 0.62; la validez predictiva se analizó en dos estudios de 332 participantes en un plazo de 6 meses, y en 135 niños y niña después de un año. En ambos se tuvo como criterio el juicio de las profesoras, quienes clasificaron a los niños en lectura y escritura en tres categorías (rendimiento, regular y deficiente). Las autoras no cuantificaron estos resultados y solo se presentó en el manual las tablas de expectativas para el rendimiento en el primer y segundo año escolar. La información normativa se basó originalmente en 948 chilenos, aunque hay normas peruanas en dos documentos no publicados (Rubio, 1992; Espinoza, Piedra y Sotomarino, 1995). Procedimiento

Se hizo la evaluación de niños con las pruebas de habilidades como parte de las actividades del curso de medición psicológica del autor principal. Se tuvieron grupos de 5 a 7 estudiantes de pregrado para la aplicación de las pruebas seleccionadas, y para ello se planificaron dos sesiones de presentación y práctica de las pruebas además de actividades de auto-práctica indicadas. Cada grupo seleccionó y coordinó con un colegio de educación inicial para la administración individualizada de las pruebas. El espacio de evaluación fue una oficina o Prueba de Funciones Básicas (Berdicewski & aula vacía, y en esta última situación, se evaluaron Milicic, 1988). Fue creada en 1974 para predecir el separadamente entre dos o tres niños rendimiento en el aprendizaje de la lectura y escritura, simultáneamente, cada uno con un evaluador; en niños y niñas ingresantes al primer grado durante este proceso evaluativo, se siguieron los cuyas edades fluctuarían entre los 5 años 6 meses y 7 procedimientos estandarizados de relación empática Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 20 -

ISSN 1995-9966

con el niño, de aplicación de pruebas y el seguimiento de las instrucciones. Efectuaremos un análisis de ítems usando los procedimientos tradicionales de la dificultad y discriminación de los ítems. Anastasi y Urbina (1997) y Garret (1971) señalan que índices de discriminación aún de 0.20 son cuantitativamente aceptables en algunas circunstancias, pero las recomendaciones más populares indican que 0.30 es un nivel mínimamente aceptable (Thorndike, 1980; Nunnally y Bernstein, 1995). Para propósitos descriptivos usaremos ambos criterios en una separación relevante para tomar decisiones sobre la validez de los ítems. La dificultad del ítem se determinó por el porcentaje de examinados quienes responden correctamente al ítem. Para la evaluación de los niveles apropiados de dificultad se usó el criterio de Anastasi y Urbina (1997), en que se considera óptima una dificultad promedio de 0.50, e ideal una distribución de ítems entre 0.15 y 0.85, pero ya que las pruebas de despistaje se indican para detectar a niños con futuros problemas, entonces los ítems deberían tener un nivel de dificultad cercano a la tasa de de selección deseada (Anastasi y Urbina, 1997) ya que una prueba de despistaje generalmente tiene el propósito de ayudar a identificar el 10% más bajo de la población (Mathews, 1986), los ítems deberían ser respondidos correctamente por el 90% de la muestra. Los ítems con más frecuencia que el 90% añaden poco valor discriminativo, tanto como los ítems incorrectamente respondidos por menos del 40% de la población (A. Kline, comunicación personal, Marzo 1980, citado en Simmons, 1988). Fuera del rango de dificultad entre 0.40 y 0.90, los ítems podrían ser cuestionables para propósitos de despistaje (Simmons, 1988). Para el cálculo de la consistencia interna se usará el coeficiente alfa (Cronbach, 1951); su cálculo para las subpruebas usarán todos sus ítems, pero para el puntaje de la prueba total, se evitará inflar espúreamente la confiabilidad debido al número de ítems (Nunnally & Bernstein, 1995), y mantendrá la relativa independencia experimental de las unidades Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

de análisis (Stanley, 1971); por lo tanto, usaremos los puntajes de las subáreas para la estimación de la consistencia interna, y mediante el coeficiente alfa estratificado (Cronbach, Schonemann y McKie, 1965; Nunnally & Bernstein, 1995); este coeficiente incluye en su cálculo la variabilidad de las subpruebas, de tal modo que ajusta el cálculo con la varianza propia de cada subprueba independientemente. Usaremos la matriz de correlaciones inter-ítem e inter-subpruebas para la estimación de la homogeneidad de los ítems mediante la correlación inter-ítem promedio (Cronbach, 1951), la varianza explicada retenida por el primer factor no rotado y la tasa del autovalor sobre el segundo. Estos dos últimos métodos son recomendados para estimar la unidimensionalidad (Hattie, 1985). También calcularemos la comunalidad de los subtest mediante el método de ejes principales, que toma en cuenta la varianza común y no toda la varianza (única y común) como lo hace el análisis de componentes principales (Nunnally y Bernstein, 1995); este método de extracción de ya factores se recomienda que es tolerante a la no normalidad multivariada, y extiende su cobertura para factores débiles (Briggs y MacCallum, 2003). Como técnica, se lo sugiere en la evaluación de la estructura interna en instrumentos psicológicos (Ford, MacCallum y Tait, 1986; Floyd y Widaman, 1995). Resultados Análisis de ítems Dificultad de los ítems. La distribución de la dificultad de los ítems ha sido más favorable para las prueba BDPG, pues el 70% o más de los ítems en cada subescala estuvieron un rango medio de dificultad; en otras palabras, cada subescala distribuye sus ítems consistentemente en el rango medio que se considera óptimo. En segundo lugar, los ítems de la prueba 5 y 6 estuvieron casi completamente en el rango medio, exceptuando la subescala Comprensión, cuya mitad de ítems fue

- 21 -

ISSN 1995-9966

muy fácil. El ABC y ni el BENHALE pudieron se evaluados en estos aspectos ya que sus ítems son politómicos. Los ítems del PFB estuvieron centrados en el rango medio óptimo, pero repartidos también entre los ítems fáciles y difíciles; en esta misma prueba, mientras que Coordinación fue completamente adecuado en su rango de dificultad, la escala Lenguaje tuvo casi la cuarta parte de sus ítems en el nivel fácil. Debe observarse que la cantidad nominal de ítems en el PFB y BDPG, y la subescala Percepción del 5 y 6, supera alrededor de los 10 en el nivel óptimo debido que contienen una mayor cantidad de ítems.

cada una de ellas. El BENHALE acumulativamente demostró que sus ítems se orientan a discriminar mejor ya que tienden a estar en el nivel > 0.29. La PFB posee casi la mitad de sus ítems en el nivel de moderada a baja discriminación. El ABC y el 5 y 6 mostraron las peores propiedades discriminativas, pues sus ítems modalmente se acumularon en el nivel bajo, y la cantidad de ítems distribuidos en los niveles medios y alto es apenas 1 en algunas subescalas, debido a la poca cantidad de ítems. La BDPG distribuyó sus ítems entre todos los niveles pero tendiendo al buen nivel de discriminación; excepto en la subprueba de Conceptos/Vocabulario, el resto de sus subescalas más del 50% de sus ítems se colocan en los niveles medio y/o alto. Los resultados del análisis de ítems se plasman en la tabla 2.

Discriminación de los ítems. Los ítems de las pruebas han tenido un patrón general diferente en

Tabla 2 Distribución de dificultad y discriminación de ítems en cada subescala de las pruebas Pruebas

< 0.40

Rangos de Dificultad 0.40 – 0.90 > 0.90

Rangos de Discriminación < 0.20 0.20-0.29 > 0.29

N (%)

N (%)

N (%)

N (%)

N (%)

N (%)

PFB Coordinación Visomotora Discriminación Auditiva Lenguaje

0 (0) 4 ( 14.2) 1 ( 7.1)

16 (100) 19 ( 67.8) 9 (64.2)

0 (0) 5 ( 17.8) 4 (28.5 )

2 (12.5) 14 (50) 8 (57.1)

5 (31.2) 3 (10.7) 1 (7.1)

9 (56.2) 11 (39.2) 5 (35.7)

5y6 Comprensión Total percepción Cálculo Coordinación

0 (0) 4 (18.1) 0 (0) 0 (0)

4 (57.1) 18 (81.8) 5 (100) 5 (100)

3 (42.8) 0 (0) 0 (0) 0 (0)

5 (71.4) 8 (36.3) 5 (100) 2 (40)

1 (14.2) 8 (36.3) 0 (0) 1 (20)

1 (14.2) 6 (27.2) 0 (0) 2 (40)

0 (0) 1 (33.3) 1 (10) 7 (23.3) 3 (30) 1 (25) 0 (0) 2 (20) 1 (14.28)

0 (0) 1 (33.3) 1 (10) 6 (20) 2 (20) 0 (0) 0 (0) 2 (20) 3 (42.86)

2 (100) 1 (33.3) 8 (80) 17 (56.67) 5 (50) 3 (75) 4 (100) 6 (60) 3 (42.86)

3 (15) 6 (33.3) 3 (17.6) 5 (23.8) 4 (17.3)

4 (20) 8 (44.4) 9 (52.9) 8 (38.1) 15 (65.2)

BENHALE Coordinación visomotora Memoria motora Percepción y discriminación visual Vocabulario Articulación Percepción y discriminación auditiva Estructuración espacio temporal Memoria visual inmediata Memoria auditiva lógica inmediata BDPG Conceptos – Vocabulario Letras y palabras Fonológica Percepción visual Habilidades cuantitativas

-------------------

0 (0) 0 (0) 0 (0) 0 (0) 0 (0)

ABC

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

---

-------------------

14 (70 ) 18 (100) 17 (100) 20 (95.2) 20 (86.9) ---

- 22 -

-------------------

6 (30) 0 (0) 0 (0) 1 (4.7) 3 (13.0)

13 (65) 4 (22.2) 5 (29.4) 8 (38.1) 4 (17.3)

---

4 (50)

2 (25)

ISSN 1995-9966

2 (25)

Confiabilidad La confiabilidad alfa del puntaje total de las pruebas ha tenido una amplia variación, y generalmente orientada hacia los niveles bajos (Tabla 3); excepto el puntaje total de la BDPG (α > 0.80), las demás pruebas proporcionan puntajes debajo de los estándares recomendados para medidas de despistaje (Anastasi y Urbina, 1997); estas confiabilidades estuvieron por debajo de 0.57, lo que indica que cerca del 50% de la variabilidad del puntaje total de estas pruebas provienen del error de medición. Los componentes de las pruebas también muestran bajas confiabilidades, especialmente para la prueba 5 y 6, en que incluso una subprueba alcanza un α= 0.19. Las

partes componentes de laescala poseen confiabilidades alfa iguales a 0.56 para Percepción 1 (6 ítems), 0.51 para Muñeca (11 ítems) y 0.54 para Percepción 3 (5 ítems); la homogeneidad de sus ítems es 0.18, 0.08 y 0.20, respectivamente. Por otro lado, más de la mitad de las subpruebas del BENHALE tienen confiabilidades α debajo de 0.70. En el PFB, solo coordinación fue relativamente más confiable (α > 0.70). Y la BDPG ha estado consistentemente sobre 0.70, excepto una de sus subpruebas: la subprueba Conceptualización/Vocabulario es predeciblemente muy baja ya que el cálculo se hizo con solo dos componentes, Conceptualización y Vocabulario.

Tabla 3 Consistencia interna y homogeneidad de las pruebas

ABC (N = 50) ABC1 ABC2 ABC3 ABC4 ABC5 ABC6 ABC7 ABC8 5 y 6 (N = 74) Comprensión (COM) Percepción (P) Cálculo (CA) Coordinación (CO) Total PFB (N = 60) Coordinación (C) Discriminación Auditiva (DA) Lenguaje (L) Total BDPG (N = 73) Letras y palabras (LP) Fonológica (F) Percepción visual (PV) Habilidades Cuantitativas (HC) Conceptos/Vocabulario (CV) Total BENHALE (N = 48) Coordinación Visomotora (CVM) Memoria motora (MM) Percepción y discriminación visual (PDV) Vocabulario (V) Articulación (A) Percepción y discriminación auditiva (PDA) Estructuración espacio temporal (EET) Memoria visual inmediata (MVI) Memoria auditiva lógica inmediata (MALI) Total

Consistencia interna Alfa Rii 0.33 0.08

M

DE

N ítems

10.0 1.36 1.50 .60 1.54 1.04 1.46 1.24 1.26

2.71 1.10 .61 .67 .61 .83 .68 1.12 .60

8

5.36 12.79 3.12 3.28 24.57

1.16 3.54 1.14 1.45 4.92

7 22 5 5 4

0.30 0.66 0.19 0.59 0.37

0.04 0.08 0.04 0.23 0.16

9.93 18.58 10.63 39.15

3.32 3.41 2.04 6.45

16 28 14 3

0.71 0.60 0.56 0.53

0.13 0.06 0.08 0.31

12.93 11.58 14.09 17.83 16.12 75.57

3.55 3.23 3.55 4.25 2.43 13.25

18 17 21 23 20 5

0.77 0.72 0.70 0.83 0.52 0.82

0.16 0.13 0.10 0.17 0.50 0.48

6.60 2.67 82.56 21.42 6.10 16.17 27.98 7.77 8.83 180.10

2.11 2.5 9.66 8.13 2.18 6.36 11.93 2.02 2.58 27.08

2 3 10 30 10 4 4 10 7 9

0.68 0.47 0.71 0.77 0.62 0.67 0.62 0.77 0.50 0.56

0.52 0.25 0.25 0.10 0.14 0.36 0.29 0.22 0.13 0.16

Nota. M = media, DE = desviación estándar, Rii = correlación inter-ítem Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 23 -

ISSN 1995-9966

Validez de constructo Homogeneidad. La homogeneidad de los ítems en las pruebas PFB, ABC y 5 y 6 indican que contienen correlaciones cero entre ellas (Tabla 3). Para la BENHALE, los ítems en cada subprueba tienden a ser moderadamente homogéneas y sugieren que están más cerca de evaluar constructos de reducido espectro, excepto en tres de sus subáreas: Vocabulario, Articulación y Memoria lógica. La BDPG, en cambio, muestra correlaciones inter-ítem entre 0.10 y 0.20 (excepto Conceptualización/ Vocabulario), y suponen estar midiendo constructos internamente heterogéneos. De acuerdo a las sugerencias propuestas por Briggs y Cheek (1986) y Clark y Watson (1995), valores alrededor de 0.15 o menos indican heterogeneidad en los ítems y posiblemente multidimensionalidad. Dimensionalidad. El punto de partida de esta sección está en la matriz de correlaciones de los componentes de cada prueba (tabla 4), donde se puede observar que la BDPG seguida de la BEHNALE poseen intercorrelaciones mayores a 0.40, lo cual no evidenciaría la independencia de los subtest de cada prueba. Respecto al porcentaje de varianza explicado por el primer factor no rotado, para la prueba BDPG, se extrajo un único autovalor mayor a 1 (λ = 2.97) que

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

explicó el 59.4% de la varianza; y la tasa del 1er eigen con el 2do es 2.10. En la PFB, también se extrajo un solo autovalor mayor a 1 (λ = 1.62; el 25.2% de la varianza), y la tasa 1er/2do autovalor fue 0.82. Los resultados del análisis de correlaciones para el ABC y el 5 y 6 fueron inferiores a las anteriores pruebas. El primer autovalor mayor a 1 en la prueba 5 y 6 capturó el 38% de la varianza común (λ = 1.54), pero su matriz de correlaciones produjo un segundo autovalor mayor a 1 (λ = 1.02); la tasa entre ambos fue 0.51. El ABC produjo 3 autovalores mayores a 1 (2.18, 1.69 y 1.13); el primero explicó únicamente el 27% de la varianza común, y la tasa de los primeros dos eigen fue 0.48. Finalmente, el BENHALE explicó el 28.5% de varianza común con el primer autovalor (λ = 2.56), pero emergieron dos autovalores adicionales mayores a 1, 1.68 (18.7%) y 1.34 (14.9%); la tasa de los primeros dos autovalores fue 1.52. En resumen, las pruebas ABC y 5 y 6 parecen pobremente representados por un solo factor común, mientras que el BENHALE y el PFB lo hacen incompletamente debido al número de autovalores mayores a 1 y a la tasa de los primeros dos autovalores. La BDPG es la excepción, ya que cumple con estos dos criterios (ver tabla 5).

- 24 -

ISSN 1995-9966

Tabla 4

Tabla 5

Matriz de correlaciones entre los componentes de cada prueba

Valores de Comunalidad, Varianza específica, de error y única.

Subpruebas

Correlaciones

BDPG LP F PV HC CV

LP

PFB C DA L

1 60** 56** 65** 20

F

PV

HC

CV

Subpruebas

h2

Ves.

Ver.

Vun.

0.20 0.37 0.33 0.17

0.10 0.29 0.0 0.42

0.70 0.34 0.67 0.41

0.80 0.63 0.67 0.83

0.29 0.16 0.57

0.42 0.44 0.0

0.29 0.40 0.43

0.71 0.84 0.43

0.34 0.83 0.26 0.15 0.66 0.32 0.63 0.31

-----------------

-----------------

0.66 0.17 0.74 0.85 0.34 0.68 0.37 0.69

0.58 0.69 0.41 0.64 0.21

0.19 0.03 0.29 0.19 0.31

0.23 0.28 0.30 0.17 0.48

0.42 0.31 0.59 0.36 0.79

0.31 0.37 0.31 0.80 0.23 0.77 0.49 0.28 0.48

0.37 0.10 0.40 0.00 0.39 0.00 0.13 0.49 0.02

0.32 0.53 0.29 0.20 0.38 0.23 0.38 0.23 0.50

0.69 0.63 0.69 0.20 0.77 0.23 0.51 0.72 0.52

5 y6

1 51** 63** 50**

1 47** 26*

C 1 21 40**

DA

L

1 30*

1

ABC ABC1 ABC2 ABC3 ABC4 ABC5 ABC6 ABC7 ABC8

ABC1

ABC2

ABC3

ABC4

ABC5

ABC6

ABC7

ABC8

1 -09 19 -08 -43** -17 17 -05

1 29* 29* 31* 46** 26 19

1 04 -08 05 32** -04

1 27 22 01 11

1 36** -03 06

1 01 10

1 -30*

1

5 y6 COM P CA CO

COM

P

CA

CO

1 21 14 -01

1 33** 13

1 19

1

BENHALE CVM MM PDV V A PDA EET MVI MALI

CVM

MM

PDV

V

A

PDA

EET

MVI

MALI

1 08 25 -13 07 -08 22 -17 11

1 -06 26 23 51** 38** 19 10

1 26 -12 -13 05 08 37**

1 12 21 32* 37** 41**

1 41** 27 00 17

1 43** 29* -05

1 20 32*

1 -07

1

1 40*

1

COM P CA CO PFB C DA L ABC ABC1 ABC2 ABC3 ABC4 ABC5 ABC6 ABC7 ABC8 BDPG LP F PV HC CV BENHALE CVM MM PDV V A PDA EET MVI MALI

Nota. h2 = comunalidad, Ves.= varianza específica, Ver. = varianza del error, Vun.= varianza única. Nota. Decimales omitidos, *p < 0.05, **p < 0.01

Discusión Es posible pensar que más de un factor es necesario para explicar las relaciones entre las subpruebas examinadas en el presente estudio, pero son las cuestionables características psicométricas internas de las pruebas llevan a conclusiones inválidas sobre el funcionamiento cognitivo del estudiante. Si tomamos en cuenta solamente, por ejemplo, la consistencia interna, nuestros resultados contradicen la posible utilidad de estos instrumentos. La confiabilidad baja de algunas de las pruebas utilizadas sugiere que sus puntajes no pueden ser replicables, y el desempeño del niño puede ser explicado por otras condiciones que psicométricamente se consideran error; estos errores pueden ser de varias fuentes intrínsecas y extrínsecas al examinado. Aunque nuestros reRevista Peruana de Psicometría 1 (1), julio-diciembre 2008

sultados de la confiabilidad indican una gran influencia del error de medición, el estadístico elegido (coeficiente alfa), sin embargo no explica ni pondera las fuentes de error que están afectando los puntajes obtenidos; pero ello no cambia el hecho que las pruebas antiguas no evalúan confiablemente las tareas propuestas, y la integración de tareas en un puntaje compuesto parece de dudosa utilidad para describir y predecir la disposición de aprendizaje para la lectura y escritura. Ítems que afectan la consistencia interna, y relacionados con su ritc afectarán la confiabilidad, considerando que estos ítems pueden requerir habilidades adicionales a los que se supone que la escala o área está diseñada a medir unidimensionalmente (Simmons, 1988). En nuestros resultados, las pruebas más recientes han

- 25 -

ISSN 1995-9966

tendido a mostrar distribuciones de discriminación más aceptables que las pruebas antiguas, y el poder discriminativo de la prueba total, en consecuencia, hace que los instrumentos de reciente creación sean una opción de uso más razonable desde el punto de vista técnico. ¿Pero actualmente se usan estas pruebas? Se ha detectado aún el uso de las pruebas antiguas como el ABC en Venezuela (Suarez, 1999) y Perú (Guerrero y Monsalve, 1991). La Prueba de Jordan y Massey también es resistente a su desuso (Calderón, 1999). Es posible que el uso de instrumentos breves de despistaje frente a otros para el mismo fin, pero más extensos, sea una de las motivaciones para su uso continuado y recomendado (Morris y Chew, 1989; Chef y Lang, 1990); pero hay más motivos para la descontinuación de su uso, como son la débil unidimensionalidad, pobre consistencia interna y las normas que contienen. Ya que son medidas estandarizadas y su interpretación es normativa, las normas antiguas pueden llegar a sobre-estimar las habilidades del niño; y estos puntajes espúreamente inflados pueden llevan a generar falsos negativos y otros errores de decisión instruccional. Otros aspectos no hay sido evaluados en el presente estudio, así que su inclusión en estudios posteriores dará una evidencia más de la adecuabilidad psicométricas de los puntajes de estas pruebas. Además de los aspectos psicométricos críticos como la estandarización, validez y confiabilidad (Bradley-Johnson y Durmusoglu, 2005), otros aspectos más modernos tales como el efecto de piso y la gradiente del ítem (Bracken, 1987, 2000) deben ser evaluados como otras características igualmente importantes para las pruebas de despistaje. Nuestro estudio puede tener efectos sobre la práctica y como valor técnico. Uno de ellos es alertar al lector sobre la relevancia de estos aspectos psicométricos. Por el lado técnico, varias de las pruebas examinadas no parecen evaluar constructos unitarios debido a los inferiores valores de consistencia y validez interna. Las pruebas 5 y 6, y ABC no pueden recomendarse más para la práctica Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

profesional ni para la investigación, así que la persistencia de uso debería cuestionar la competencia del examinador para poder discriminar y evaluar las herramientas técnicamente más adecuadas. Aunque internamente superior a las pruebas anteriores, el manual de PFB no reporta las decisiones sobre la elección de sus ítems, así que es de dudosa construcción interna, y aunque su variedad de tareas da un soporte de validez a su contenido (Berdicewski y Milicic, 1974; 1978), su puntaje total no parece ser un predictor confiable en la evaluación aplicada, y por lo tanto, la expresión del aprestamiento del niño no es capturado íntegramente por este puntaje. Por otro lado, la BENHALE parece una de las pruebas recomendables desde el examen interno efectuado, pero el examinador debe balancear la aparente unidimensionalidad de su puntaje total frente a su valor predictivo; no hay a la vista estudios empíricos que respalden y repliquen su validez para el despistaje de habilidades en los niños ingresantes al primer grado. Lo reportado por el manual (Mora, 1999) puede ser una de las pocas fuentes, sino la única, informativas sobre su validez predictiva; sin embargo, la información de validez sólo se limita a las relaciones internas de sus subescalas y a la concurrencia con la percepción de las profesoras sobre el rendimiento académico de los niños de la muestra de estandarización. Finalmente, la BDPG ha mostrado que su puntaje total es comparativamente más confiable, así como una estructura de componentes que puede ser reducido parsimoniosamente en un puntaje unidimensional de valor descriptivo; nuestro estudio da soporte comparativo a este instrumento frente a los otros, y parece ser la herramienta recomendable desde el análisis interno. El lector debe observar que las correlaciones entre las subescalas del BDPG sugieren alguna redundancia debido a la magnitud de sus correlaciones inter-subpruebas, y la interpretación del rendimiento del niño usando estas subescalas se hace compleja. Otros estudios de validez concurrente, de constructo y de criterio están

- 26 -

ISSN 1995-9966

en progreso para dar soporte a su utilidad (Merino, 2008a). La dimensionalidad se sugiere como un paso necesario y previo para examinar las propiedades de información de una prueba, la poca similitud de las tareas usadas en las pruebas puede ser una barrera para no alcanzar una adecuada comunalidad entre ellas, pero aún con las diferentes tareas que componen las pruebas de despistaje estudiadas, en algunas investigaciones se han puesto en evidencia que se puede lograr la comunalidad entre sus elementos que están asociados para predecir el rendimiento escolar (Morris y Chew, 1989; Chef y Lang, 1990). Indirectamente, no solo los aspectos de validez, normas y confiabilidad de las pruebas más antiguas han sido puestas en cuestionamiento en nuestros resultados, las habilidades que se consideran predictivas para el aprendizaje de la lectura, escritura o matemáticas. Estudios longitudinales (Juel, Griffith y Gough, 1986) han confirmado que una de las habilidades más robustamente predictivas del inicio del aprendizaje lector son las habilidades fonológicas. Sin esta habilidad explorada, la detección de niños en riesgo de problemas en el aprendizaje lector no será precisamente válida, y más bien los constructos examinados pueden ser más bien de otra finalidad predictiva. Nuestros resultados pueden ser condicionados por varios aspectos, como las variaciones en la aplicación de los instrumentos. Dado que fueron 5 grupos de evaluación, cada uno compuesto por un promedio de 8 estudiantes, la interacción entre el examinador y los niños puede haber introducido varianza de error en los puntajes obtenidos, que es usualmente como fuente de error (Nunnally y Bernstein, 1995). A ello se añade que las estimaciones de confiabilidad no diferencian entre diferentes fuentes de error provenientes del examinado, las condiciones del examen y el examinador/material de examen (Stanley, 1971), ni de las variaciones día a día que fluctúan aleatoriamente (Feldt y Brennan, 1989); por lo tanto, nuestros resultados tienen más un valor heurístico que debe Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

alertar al investigador y al psicólogo aplicado sobre las propiedades de los instrumentos en la presencia de posible variabilidad de origen aleatorio en la administración de las pruebas. Existen otras condiciones propias de los niños examinados y de las condiciones de examen que también pueden haber añadido razonablemente varianza de error, pero la aplicación de las pruebas en nuestro estudio reflejó grandemente las condiciones frecuentes en que ocurre la evaluación de niños durante el periodo escolar, especialmente en instituciones educativas públicas. En instituciones públicas peruanas, la participación estable del psicólogo es menos frecuente, y no se está considerado como una parte estructural de organización del personal educativo (Merino, Díaz, Zapata & Benites, 2006). Cuando su presencia es estable, sin embargo, los recursos estructurales pueden llegar incluso a la improvisación. El tamaño muestral en cada instrumento administrado no es un fuerte respaldo para generalizar confiablemente nuestros resultados, y por lo tanto las estimaciones cuantitativas efectuadas contienen un amplio error estándar (Chen y Popovich, 2002). Esta inestabilidad en las estimaciones basadas en el modelo general lineal sugiere que nuestros resultados deberían ser replicados para asegurar que nuestras conclusiones no sean específicas a los grupos de niños evaluados en nuestro estudio. Esta limitación también se aplica a las estimaciones derivadas del análisis factorial. Pero lo que balancea a favor de nuestro estudio es que los pobres resultados psicométricos en algunos de los instrumentos parecen ser un evento contrario a lo que ocurriría en instrumentos con sólidas propiedades psicométricas, y cuyas relaciones internas no varíen tan severamente como las que hemos hallado en los instrumentos antiguos. Por lo tanto, lo que hallamos puede ser razonablemente replicables, más aún si se ha detectado que las estimaciones de cargas factoriales son aceptablemente estables en tamaños muestrales de 50, bajo modelos de uno o dos factores (Schultz y

- 27 -

ISSN 1995-9966

Tein, 2000). En este punto, la varianza explicada por un factor latente fue elevada para uno solo de los instrumentos (BDPG), que es el de más reciente construcción. No pretendemos que nuestros análisis sean concluyentes sobre la validez de constructo, ya que el análisis de las relaciones internas con correlaciones y coeficientes ad hoc, no son sustitutos de la validez externa (Smith, 1974), y especialmente de la validez predictiva, considerando que este último es uno de los más importantes en la evaluación de la lectura temprana (Foorman, Fletcher y Francis, 2004). Por lo tanto, una exploración que replique nuestros resultados en una diferente muestra puede extender las conclusiones a un nivel de generalidad mayor; sin embargo, un desafío para los investigadores y profesionales es llevar en su práctica los conocimientos que pueden extraer de nuestros resultados para tomar decisiones sobre el uso y abuso de las pruebas que fueron evaluadas psicométricamente aquí, e incluso de otras que se igualan en antigüedad y trasfondo teórico.

do. Por ejemplo, en una de las subpruebas del BENHALE (Memoria Motora), el 33% de sus ítems tiene un nivel discriminativo medio, pero nominalmente significa que un solo ítem está en esta clasificación; en contraste, 6 ítems de la subescala Letras y Palabras de la BDPG se hallan en el mismo nivel. Esta situación tiene impacto en la interpretación, ya que si los componentes de un puntaje total se diseñaron para poseer varianza específica interpretable, entonces el muestreo de contenido debe ser lo suficientemente amplio y confiable (Nunnally y Bernstein, 1995). Finalmente, y dado la evidencias de la estructura interna de las instrumentos examinados, sugerimos su descontinuación, y la elección de medidas psicométricamente más robustas y actúales. Referencias

Abarca, S., Domberg, S., Montes, G., & Peredo, M. (1965) Adaptación y análisis estadístico del Metropolitan Readiness Test (forma s). Memoria de prueba para optar al Título de El nivel de dificultad de las pruebas con ítem Psicólogo. Pontificia Universidad Católica de puntuados dicotómicamente fue general aceptable Chile, Escuela de Psicología. para dos pruebas, pero no la PFB. Ya que la dificultad de los ítems pone un límite al poder discriminativo, se Alarcón, R. (2004) Medio siglo de psicología latinoamericana: Una visión de conjunto. observó que este requisito solo es cumplido por la Revista Interamericana de Psicología, 38 (2), BDPG completamente, parcialmente por el 5 y 6. 307-316. Combinando con el poder discriminativo, los ítems de dificultad media permiten orientar la distribución Alfonso, V. C., & Flanagan, D. P. (1999). Assessment of cognitive functioning in empírica de los puntajes totales hacia la distribución preescholers. En E. V. Nutall, I. Romero, & J. normal teórica, y metodológicamente, las propiedades Kalesnik (Eds.), Assessing and screening estadísticas de instrumentos ajustados a la distribución preschoolers (2a. ed., pp. 186-217). New normal pueden ser estadísticamente generalizables. York: Allyn & Bacon. Las propiedades discriminativas tendieron a ser mejores en las pruebas más actuales, pero en general Alfonso, V. C., & Flanagan, D. P. (2006). Best practices in the use of the Standford-Binet todas las pruebas demostraron ítems discriminativos. Intelligence Scales, Fifth Edition (SB5) with Aunque los porcentajes usados para evaluar la preschoolers. En B. A. Bracken & R. Nagle discriminación y dificultad de los ítems hacen (Eds.), Psychoeducational Assessment of comparables estas conclusiones, debemos anotar que preschool children (4a. ed. pp. 267-295). la cantidad nominal de ítems es mayor para algunas Mahwah, NJ: Erlbaum. pruebas, así que el impacto de la distribución de ítems con pobres cualidades es mayor en las pruebas y Anastasi, A. & Urbina, S. (1997). Psychological testing (7a ed.). New York: McMillian. subpruebas que tienen un pobre muestreo de conteniRevista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 28 -

ISSN 1995-9966

Ardila, R. (2004). Psicología Latinoamericana: El Brandon, VT: Clinical Psychology Publishing. primer medio siglo. Revista Interamericana de Brannigan, G. G., & Brunner, N. A. (2002). Guide to Psicología, 38 (2), 317-322. the Qualitative Scoring System for the Beery, K. E. (2000). Prueba Beery-Buktenica del modified version of the Bender-Gestalt Test Desarrollo de la Integración Visomotora, VMI (2a. ed.). IL: Charles C. Thomas. (4a. ed.). México, D.F: El Manual Moderno. Bravo, L. (1997). Prueba experimental pre-lectora Berdicewski, O., & Milicic, N. (1974). Jardín infantil (PPL). Boletín de Investigación Educacional, y su influencia en el rendimiento de 12, 79-90. coordinación visomotora, discriminación auditiva y lenguaje, medidos con una prueba de Bravo, L. (2002). La conciencia fonológica como una zona de desarrollo próximo para el funciones básicas. Revista Chilena de Pediatría, aprendizaje inicial de la lectura. Estudios 45 (6), 505-508. Pedagógicos, 28, 167-177. Berdicewski, O. & Milicic, N. (1978) Prueba de Bravo, L. (2004). La conciencia fonológica como Funciones Básicas. Santiago: Galdoc. una posible “zona de desarrollo próximo” para Berdicewski, O., & Milicic, N. (2004). Prueba de el aprendizaje de la lectura inicial. Revista Funciones Básicas (35a. ed.). Santiago: Latinoamericana de Psicología, 36 (1), 21-32. Editorial Universitaria. Bravo, L., Villalón, M., & Orellana, E. (2006) Bracken, B. A. (1987). Limitations of preschool Predictibidad en el rendimiento de la lectura: instruments and standards for minimal levels of Una investigación de seguimento entre primer technical adequacy. Journal of Psychoeducatioy tercer año. Revista Latinoamericana de nal Assessment, 5, 313-326. Psicolología, 38 (1), 9-20. Bracken, B. A. (2000) Maximizing construct relevant assessment: The optimal preschool testing situation. En B. A. Bracken(Ed.), The psychoeducational assessment of preschool children (3a. ed.; pp. 33-44). Needham-Heights, MA: Allyn & Bacon.

Briggs, S. R., & Cheek, J. M. (1986). The role of factor analysis in the develoment and evaluation of personality scales. Journal of Personality, 54, 106-148.

Briggs, N. E., & MacCallum, R. C. (2003). Recovery of weak common factors by Bracken, B. A. (2002) Bracken School Readiness maximum likelihood and ordinary least Assessment (BSRA). Texas: The Psychological squares estimation. Multivariate Behavioral Corporation. Research, 38, 25-56. Bradley-Johnson, S. & Durmusoglu, G. (2005) Calderón, J. (1991) Relación entre el examen de Evaluation of floor and ítem gradients for ingreso a Primer Grado y el rendimiento reading and math for young children. Journal of escolar en un grupo de niños de Primer Grado Psychoeducational Assessment, 23, 262-278. de Educación Básica Regular de un colegio particular de Lima Metropolitana. Tesis de Brannigan, G. G., & Brunner, N. A. (1989). The Licenciatura, Universidad Femenina del Modified Version of the Bender-Gestalt Test for Sagrado Corazón, Lima, Perú. Preschool and Primary School Children. Brandon, VT: Clinical Psychology Publishing. Chan, P. W. (2002). Relationship of the visual motor development and academic performance in Brannigan, G. G., & Brunner, N. A. (1996). The young children in Hong Kong assessed in the Modified Version of the Bender-Gestalt Test for Bender-Gestalt Test. Perceptual and Motor Preschool and Primary School Children – Revised. Skills, 90, 209-214. Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 29 -

ISSN 1995-9966

Chew, A. L. & Lang, S. W. (1990) Predicting Filho, L. (1960). Test ABC (6ª. ed.). Buenos Aires: Academic Achievement in Kindergarten and Kapelusz. First Grade from Prekindergarten Scores on the Lollipop Test and Dial. Educational and Foorman, B.R., Fletcher, J.M., & Francis, D.J. (2004). Early reading assessment. En W. Evers Psychological Measurement, 50 (2), 431-437. (Ed.), Testing student learning, evaluating Chen, P. Y., & Popovich, P.M. (2002). Correlation: teacher effectiveness, (pp. 81-125). Stanford, Parametric and Nonparametric Measures. CA: The Hoover Institution. Thousand Oaks, CA: Sage Publications. Floyd, F. J., & Widaman, K. F. (1995). Factor analysis in the development and refinement of Clark, L. A., & Watson, D. (1995). Constructing validity: Basic issues in scale development. clinical assessment instruments. Psychological Assessment, 7 (3), 286-299. Psychological Assessment, 7 (3), 309-319. Condemarín, M. (1989). Lectura temprana: Jardín y primer grado. Santiago: Andrés Bello.

Flynn, J. (2006) Screening for Reading Success: Administration and interpretation guide. Minnesota: Cognitive Technologies.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of test. Psychometrika, 16, 297-334.

Ford, J. K., MacCallum, R. C., & Tait, M. (1986). The application of exploratory factor analysis in applied psychology: a critical review and Cronbach, L.J., Schonemann, P., & McKie, D. analysis. Personnel Psychology, 39 (2), 291(1965). Alpha coefficients for stratified-parallel 314. tests. Educational and Psychological Garret, H. B. (1971) Estadística en psicología y Measurement, 25, 291-312. educación. Buenos Aires: Paidós. Educational Testing Service. (1989). Reading readiness. Annoted bilbliography of test. Ilg, F. L., Ames, L. B., Haines, J., & Gillespie, C. (1981) Tests de Madurez Escolar Instituto Princeton, NJ: Educational Testing Service. Gesell. Buenos Aires: Paidos. Emmons, M. R., & Alfonso, V. C. (2005). A critical review of the technical characteristics of current Gastelumendi, E., Isasmendi, A., Slovak, G., & Semeleng, Z. (1977). Test 5-6, Forma B. preschool screening batteries. Journal of Montevideo: Kapeluz. Psychoeducational Assessment, 23 (2), 111-127. Espinoza, J., Piedra, M & Sotomarino, J. (1995) Guerrero, B. & Monsalve, S. (1991). Correlación entre la Prueba de Funciones Básicas y el Test Estandarización de la Prueba de Funciones ABC de Filho en un grupo de niños de Básicas para la lectura y escritura en Lima Educación Inicial. Tesis de licenciatura, Metropolitana. Tesis de licenciatura, Universidad Femenina del Sagrado Corazón, Universidad Femenina del Sagrado Corazón, Lima, Perú. Lima, Perú. Feldt, L. S. & Brennan, R. L. (1989). Reliability. En: Haeussler, I. M. y Marchant, T. (2003) Test de Desarrollo Psicomotor 2-5 Años (10ª. ed.). R. L. Linn (Ed.), Educational Measurement (3a. Santiago: Pontificia Universidad Católica de ed.) (pp. 105-146). New York: American Chile. Council on Education and MacMillan. Filho, L. (1947). Test ABC de verificación de la Hasbrouck, J. (1990). Preschool assessment. En G. Tindal & D. Marston (Eds.), Classroom-based madurez necesaria para el aprendizaje de la Assessment: Testing for teachers (pp. 273lectura y escritura. Buenos Aires: Kapelusz. 291). Columbus, OH: Merrill. Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 30 -

ISSN 1995-9966

Hattie, J.A. (1985). Methodology review: Assessing unidimensionality of tests and ítems. Applied Psychological Measurement, 9, 139-164.

Prueba de Predicción Lectora (PPL): Aspectos teóricos y elaboración de un baremo: Estudio hecho en Lima, Perú. Investigación Educativa, 11 (19), 79-88.

Hildreth, G. W., Griffiths, M., & McGauvran, M. E. (1969). The Metropolitan Readiness Tests. NewYork: Harcourt Brace Jovanovich.

Merino, C. (2006, Octubre). Confiabilidad interjueces del sistema de calificación cualitativa del Test Gestáltico de Bender para niños. Hirsh-Pasek, K., Hyson, M. C., & Rescorla, L. (1990) Ponencia presentada en el II Congreso Academic environments in preschool: Do they Iberoamericano de Psicología, Universidad pressure or challenge young children. Early Garcilazo de la Vega, Lima, Perú. Education and Development, 1 (6), 401-423. Merino, C., Díaz, M., Zapata, L., & Benites, L. Inizan, A. (1989). Cuando enseñar a leer: evaluación (2006) School psychology in Peru. En S. R. de la aptitud para aprender a leer. Madrid: Jimerson, T. O. Oakland & P. T. Farell (Eds.) Visor. The Handbook International of School Psychology, (pp. 299 - 307). Oakland: Sage International Test Commission (2001). International Publications. guidelines for test use. International Journal of Testing, 1, 93-114. Merino, C. (2008a). Estudio predictivo de una prueba breve de despistaje del rendimiento Jordan, F. L., & Massey, J. (1967). School readiness escolar en primer grado de primaria. Datos no survey for preschool and kindergarten children publicados. Lima: Autor. ages 4 to 6. Mountain View, CA: Consulting Psychological Press. Merino, C. (2008b). Características psicométricas de una batería de habilidades de aprendizaje Juel, C., Griffith, P. L., & Gough, P. B. (1986) para el despistaje del bajo rendimiento Acquisition of literacy: A longitudinal study of académico en lectura y matemáticas, en niños children in first and second grade. Journal of de primer grado de primaria. Datos no Educational Psychology, 78 (4) 243-255. publicados. Lima: Autor. Koppitz, E. M. (1984). El Test Guestáltico Visomotor para niños. 10º ed. Bs. As.: Guadalupe.

Minneapolis Public Schools (2005) Minneapolis Pre-school Screening Instrument – Revised (MPSI - R). Minneapolis: State and Federal Marchena, C., Santos, M. (1986) Aprestamiento, Projects Office, Minneapolis Public Schools. madurez y lecto-escritura en niños de un centro educativo urbano-marginal: estudio piloto. Molina, S. (1992). BADICBALE: Batería diagnóstiAnales de Salud Mental, 2 (1/2), 109-21. ca de la competencia básica para el aprendizaje de la lectura. Madrid: CEPE. Mathews, J. (1986). The professions of speechlanguage pathology and audiology. In G. Mora, J. A. (1999). Batería Evaluadora de las Shames, & E. Wiig (Eds.), Human Habilidades Necesarias para el Aprendizaje communication disorders (2a. ed., pp. 3-26). de la Lectura y Escritura (BEHNALE). Columbus, OH: Charles E. Merrill Publishing. Madrid: TEA. Meisels, S. J., Marsden, D. B., Wiske, M. S., & Morris, J. D: & Chew, A. L. (1989) Predicting later Henderson, L. W. (1997). Early Screening academic achievement from kindergarten Inventory - Revised: Examiner's manual. Ann scores on the Metropolitan Readiness Tests Arbor, Michigan: Rebus, Inc. and the Lollipop Test. Educational and Psychological Measurement, 49 (2), 461-465. Melendez, C. & Morocho, G. (2007) Aplicación de la Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 31 -

ISSN 1995-9966

Education. Muter, V. (2000). Screening for early reading failure. En N. Badian (Ed.), Prediction and prevention Steinbauer, E. & Heller, M. S. (1978) The Boehm of reading failure (pp. 1-30). Parkton, MD: Test of Basic Concepts as a predictor of York Press. academic achievement in grades 2 and 3. Psychology in the Schools, 15 (3), 357 - 360. Nunnally, J. C. & Bernstein, I. J. (1995). Teoría psicométrica. México, D. F.: McGraw-Hill. Suarez, M. (1999) Madurez escolar para la lectoescritura mediante el Test ABC y factores Parsons, L., & Weinberg, S. L. (1993). The Sugar relacionados en niños preescolares de dos Scoring System for the Bender-Gestalt. instituciones privadas y dos públicas. Tesis de Perceptual and Motor Skills, 77, 883-893. especialista en higiene mental del desarrollo infantil y juvenil, Universidad Centroccidental Rubio, J. (1992) Estandarización de la Prueba de Lisandro Alvarado, Barquisimeto, Venezuela. Funciones Básicas. Instituto de Investigaciones Psicológicas. Universidad Nacional Mayor de Thorndike, R. L. (1989). Psicometría aplicada. San Marcos, Lima, Perú. México, D. F.: Limusa. Salazar, E., Amon, E., Ortiz, J. (1996) Pruebas que se Velarde, E. (2004). La conciencia fonológica como usan para predecir adquisición de lectura en la zona de desarrollo próximo: Tesis ciudad de Guatemala: Validez predictiva y revolucionaria de Luis Bravo Valdivieso. reanálisis del ABC. Revista Latinoamericana de Educación, 1 (2), 83-94. Psicología, 28 (2), 273-292. Whiteman, T. A. (1987) The PASS first grade Salvessen. K. A., & Undheim, J. O. (1994). Screening screening test: Statistical analysis and for learning disabilities. Journal of Learning predictive validity. Manuscrito no publicado, Disabilities, 27 (1), 60-66. Bryn Mawr College, EE.UU. Schultz, A. S. & Tein, J.-Y. (Agosto, 2000) Woodburn, S. S. & Boschini, C. (1995) Los Examining psychological constructs: Coefficient problemas de aprendizaje en niños. Heredia y alpha versus factor analysis. One hundred and San José, Costa Rica: EU-EUNA. eighth meeting of the American Psychological Association, Washington, D. C. Simmos, J. O. (1988) Fluharty Preschool Speech and Language Test: Analysis of construct validity. Journal of Speech and Hearing Disorders, 53, 168-174. Smith, K. W. (1974) Forming composite scales and estimating their validity through factor analysis. Social Forces, 53 (2), 168-180. Solan, H. A., Mozlin, R., & Rumpf, D. A. (1985). Selected perceptual norms and their relationship to reading in kindergarten and primary grades. Journal of the American Optometric Association, 56 (6), 458-466. Stanley, J.C. (1971). Reliability. En R.L. Thorndike (Ed.), Educational measurement (2a. ed.). Washington, DC: American Council on Revista Peruana de Psicometría 1 (1), julio-diciembre 2008

- 32 -

ISSN 1995-9966

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.