Las pruebas ENLACE para educación básica

ANEXO

Las pruebas ENLACE para educación básica Una evaluación para el Instituto Nacional para la Evaluación de la Educación

Las pruebas ENLACE para educación básica Una evaluación para el Instituto Nacional para la Evaluación de la Educación

Felipe Martínez Rizo Coordinador

Luis Ángel Contreras Niño • Eugenio González Jesús M. Jornet Meliá • Ma. Regina Martínez Casas J. Felipe Martínez Fernández • Francisco E. Reyes Jiménez Lucrecia Santibáñez • Guillermo Solano Flores Marianne Sandy Taut • Agustín Tristán López Universidad Autónoma de Aguascalientes

ANEXO Cuaderno de investigación

40

Las pruebas ENLACE para educación básica Una evaluación para el Instituto Nacional para la Evaluación de la Educación Primera edición, 2015 ISBN : En trámite

Coordinador Felipe Martínez Rizo Luis Ángel Contreras Niño, Eugenio González, Jesús M. Jornet Meliá, Ma. Regina Martínez Casas, J. Felipe Martínez Fernández, Francisco E. Reyes Jiménez, Lucrecia Santibáñez, Guillermo Solano Flores, Marianne Sandy Taut, Agustín Tristán López

D.R. © Instituto Nacional para la Evaluación de la Educación

Barranca del Muerto 341, Col. San José Insurgentes, Del. Benito Juárez; C.P. 03900 México, D.F. Editora María Norma Orduña Chávez Corrección de estilo Hugo Soto de la Vega Formación Martha Alfaro Aguilar Impreso y hecho en México. Distribución gratuita. Prohibida su venta. Consulte el catálogo de publicaciones en línea: www.inee.edu.mx La elaboración de esta publicación estuvo a cargo de la Dirección General de Difusión y Fomento de la Cultura de la Evaluación. El contenido, la presentación, así como la disposición en conjunto y de cada página de esta obra son propiedad del INEE . Se autoriza su reproducción parcial o total por cualquier sistema mecánico o electrónico para fines no comerciales y citando la fuente de la siguiente manera: Martínez Rizo, F. (Coord.) (2015). Las pruebas ENLACE para educación básica. Una evaluación para el Instituto Nacional para la Evaluación de la Educación. México: INEE .

Índice

Presentación ................................................................................................................... 7 Introducción ................................................................................................................. 11 Alineación a los referentes .......................................................................................... 22 Aspectos psicométricos ............................................................................................... 57 Atención a la diversidad cultural ................................................................................ 79 Aplicaciones ................................................................................................................. 95 Usos y consecuencias ................................................................................................. 118 Conclusiones y recomendaciones ............................................................................. 164 Referencias bibliográficas.......................................................................................... 168 Anexos Criterios y subcriterios de evaluación ............................................................................................... 173 Microanálisis de reactivos de Español .............................................................................................. 181 Microanálisis de reactivos de Matemáticas....................................................................................... 191

5

DIRECTORIO JUNTA DE GOBIERNO Sylvia Irene Schmelkes del Valle CONSEJERA PRESIDENTA

Eduardo Backhoff Escudero CONSEJERO

Gilberto Ramón Guevara Niebla CONSEJERO

Margarita María Zorrilla Fierro CONSEJERA

Teresa Bracho González CONSEJERA

Presentación

En diciembre de 2009 la Universidad Autónoma de Aguascalientes (UAA ) y el Instituto Nacional para la Evaluación de la Educación (INEE) firmaron un convenio que establece las bases para que ambas instituciones se apoyen para el cumplimiento de sus objetivos, buscando el mejoramiento de la calidad de la educación en México, incluyendo actividades de investigación, evaluación y difusión de resultados. En ese marco, el INEE encomendó a la UA A la realización del Estudio de validación de las pruebas ENLACE y EXCALE de educación básica, para lo cual el 1 de octubre de 2013 se firmó un Anexo de Ejecución del convenio mencionado. Dicho Anexo de Ejecución, con base en el cual se lleva a cabo el trabajo al que se refiere este informe, precisa que el estudio de validación de las pruebas ENLACE y E XCALE de educación básica analizará varios aspectos de la calidad de dichas pruebas, con base en la documentación que sobre su diseño, aplicación, resultados y la utilización y consecuencias de los mismos aporten la SEP y el INEE y, en la medida en que sea necesario, en información adicional proporcionada por personas de la SEP, el INEE y los sistemas educativos de las entidades federativas del país, en relación con aspectos de los que no haya elementos suficientes en la información documental que se recabe. El estudio incluirá recomendaciones que tengan en cuenta las mejores prácticas internacionales... de manera que el desarrollo del sistema nacional de evaluación de México, en lo relativo a educación básica, incluya evaluaciones de aprendizajes en gran escala que, por la calidad de su diseño y aplicación, así como por el uso que se haga de sus resultados, contribuyan en la mayor medida posible al propósito de mejorar la calidad de la educación mexicana. Se precisa que el Estudio deberá comprender al menos cinco aspectos: 1. La alineación al currículo de la educación básica de México, revisando el grado en que las pruebas atienden adecuadamente y según la naturaleza de una evaluación en gran escala, los campos formativos, las asignaturas y los niveles de demanda cognitiva considerados en los planes y programas de estudio de la educación básica nacional. 2. Los aspectos técnicos de las pruebas, como la calidad de los reactivos que las integran, la de las versiones de las pruebas, las escalas y modelos psicométricos utilizados, las técnicas de equiparación, entre otros. 3. La forma en que las pruebas atienden las diferencias culturales y lingüísticas que hay entre los estudiantes de un sistema educativo de grandes dimensiones, en un país que se define como multicultural, y las implicaciones de lo anterior. 4. La forma en que se llevan a cabo las aplicaciones de las pruebas, tanto censales como muestrales, y las implicaciones que tienen para la calidad de los resultados. 5. La forma en que se difunden los resultados de las pruebas, los análisis de factores asociados y el uso que se hace de dichos resultados, así como las consecuencias que ha traído consigo su utilización en el sistema educativo. 7

El trabajo comprendería cuatro etapas, que terminarían en noviembre de 2013, y en marzo, julio y septiembre de 2014, respectivamente.

Las pruebas ENLACE para educación básica

El Anexo de Ejecución señalaba también que la UAA debería proponer al INEE a diez especialistas, mexicanos y extranjeros, formando cinco parejas, cada una a cargo del análisis de uno de los aspectos del estudio, y precisaba el perfil que deberían tener los propuestos. La Universidad propuso al Instituto a los autores de este trabajo y el INEE comunicó a la UAA su aprobación de las personas propuestas. En el informe entregado en noviembre de 2013 se puede ver el programa detallado de trabajo y, en anexo, las hojas de vida de los participantes. Los cinco apartados principales de este documento presentan el análisis hecho por los especialistas en relación con los criterios anteriores. El análisis se hizo entre diciembre de 2013 y marzo de 2014, e implicó las siguientes actividades: • En diciembre de 2013 y enero de 2014 cada par de especialistas trabajó revisando la documentación sobre ENLACE proporcionada por la Dirección General de Evaluación de Políticas Educativas de la SEP, cuyo detalle se presentó en el primer informe entregado el 30 de noviembre de 2013. • En paralelo, personal de la UAA transcribió las entrevistas que se hicieron en la etapa anterior a funcionarios de las secretarías de educación de diez estados de la república y el Distrito Federal, así como a los de las instancias de la SEP y el INEE a cargo de las pruebas ENLACE y E XCALE . • De diciembre 2013 a marzo 2014 el personal de la UAA envió también cuestionarios a los responsables de educación básica, y los de planeación y evaluación, de todas las entidades federativas y sistematizó sus respuestas. Se revisaron cinco diarios de circulación nacional y se rescataron notas sobre la difusión de resultados de ENLACE . • El 7 de febrero los cinco subgrupos de especialistas enviaron al coordinador una primera versión del análisis de ENLACE basado en de los criterios que les correspondieron. • El coordinador conjuntó los avances recibidos en un documento integrado, que se envió en archivo magnético al grupo el 12 de febrero. • La primera versión del documento integrado se discutió en una reunión presencial de todos los miembros del grupo los días 14 y 15 de febrero. En esta ocasión todos los especialistas pudieron dar su opinión sobre cualquier aspecto considerado en la validación de las pruebas ENLACE de educación básica. Asistieron a la reunión la Lic. Ana María Aceves y el Lic. Carlos Goñi, de la DGEP de la SEP, con el propósito de aclarar las dudas que les plantearan los miembros del grupo. Se acordó que los especialistas mandarían al coordinador listas con solicitudes de información adicional que se harían llegar a la DGEP. • El 24 de febrero el coordinador envió al INEE la lista de solicitudes de información, que al día siguiente se hizo llegar a la DGEP. • El 28 de febrero la DGEP hizo llegar al INEE los elementos de los que disponía de la información que se le solicitó. • Del 17 de febrero al 15 de marzo los especialistas prepararon una segunda versión del análisis de ENLACE respecto a los criterios que corresponden a cada subgrupo, y el coordinador preparó la presentación y la introducción de este informe. • El 16 de marzo los cinco subgrupos hicieron llegar al coordinador sus respectivos productos. • Del 17 al 19 de marzo, con los elementos recibidos y los preparados por él mismo, el coordinador elaboró una versión integrada del segundo informe, que envió a los especialistas en archivo magnético el mismo 19 de marzo.

8

• El 22 de marzo tuvo lugar una reunión virtual en la que todos los especialistas hicieron observaciones a la versión integrada recibida. • El coordinador incorporó las observaciones hechas en la reunión virtual y las que hicieron llegar los miembros del grupo y con ello integró esta versión del segundo informe, que se envió al INEE el 31 de marzo de 2014. Debe subrayarse que el informe entregado en marzo de 2014 no tenía el carácter de versión final del análisis de las pruebas ENLACE encomendado al grupo de autores que lo suscribimos, por dos tipos de razones: • La brevedad de los tiempos disponibles para el trabajo, acotados por los momentos en que se recibió la información documental de que se dispuso y la información adicional recabada por el personal de la UAA . • Y porque la formulación de las consideraciones que haríamos al INEE en cuanto al futuro que creemos deseable para la evaluación de aprendizajes deberían tener en cuenta el análisis de las pruebas ENLACE , pero también el de las de E XCALE, que serían objeto de la atención del grupo en la etapa siguiente del proyecto, de abril a junio de 2014. En consecuencia, al final del proyecto los informes previos se podrían modificar para incluir elementos que complementarían los de los informes entregados al fin de cada etapa, enriqueciendo o matizando algunos puntos en particular. Por otra parte, los cambios que el INEE y la UAA acordaron hacer al convenio, para incluir entre las pruebas a analizar las de ENLACE para educación media superior, hicieron que las etapas se extendieran a cinco, y la entrega de los productos finales se fijara para el 19 de diciembre de 2014. Por todo lo anterior, esta nueva versión del informe sobre ENLACE que se entrega en diciembre de 2014, junto con el informe final, retoma el informe de marzo con ligeras modificaciones, como se preveía. Las más importantes se refieren a los apartados I y II, como resultado del ajuste que se hizo de los criterios y subcriterios correspondientes, por lo que en esta versión algunos puntos de dichos apartados se han reubicado. Reiteramos que nuestros análisis y valoraciones se refieren siempre a nuestro objeto de estudio –en este informe las pruebas ENLACE — y de ninguna manera a las numerosas personas involucradas en su desarrollo, su aplicación y el procesamiento de resultados. Además, el trabajo que se nos encomendó tiene un propósito claro de carácter técnico, y no uno de rendición de cuentas, para el que sería indispensable otro enfoque, ya que las deficiencias que se hayan podido identificar pudieron deberse en buena medida a las dimensiones de los operativos, así como a los tiempos y otros condicionantes externos, pese a las intenciones y los esfuerzos de las personas responsables. Por último señalamos que este informe y los demás del proyecto son producto del trabajo colectivo del grupo, si bien cada par de especialistas tuvo una participación principal en el apartado que le correspondía. Los momentos de discusión colectiva permitieron enriquecer las aportaciones de cada persona con la visión del resto, lo que llevó a un grado de consenso considerable, aunque no absoluto.

Felipe Martínez Rizo Aguascalientes, diciembre de 2014

Presentación

9

Introducción

Un paso inicial obligado para emprender el trabajo que se encomendó al grupo de autores de este informe, fue precisar la noción de validación, que remite de inmediato a las de confiabilidad y validez. Éstas son las cualidades básicas de toda buena medición, pero se trata de dos nociones muy complejas, que han evolucionado a lo largo de un siglo y que aún hoy diferentes especialistas entienden de distinta manera, por lo que consideramos necesario explicitar nuestra propia comprensión y la forma en que las aplicaremos en nuestro trabajo.

L A VALIDEZ Aunque hay autores que cuestionan la utilidad de la noción, debido a la diversidad de formas de entenderla, la opinión que compartimos está de acuerdo en que la cualidad fundamental de una medición es, precisamente, la validez que, como se verá en seguida, supone la confiabilidad, sin reducirse a ella. Hasta los años cincuenta del siglo XX el concepto de validez se enfocaba a la predicción de un criterio particular, como muestra la definición de Guilford: en un sentido general, una prueba es válida para cualquier cosa con la que se correlaciona (Messik, 1989: 18). En 1966 la American Psychological Association (APA ) y la American Educational Research Association (AERA ) publicaron la primera versión de sus Standards for Educational and Psychological Tests, en la que se distinguían tres tipos de validez: de contenido, de criterio (concurrente o predictiva), y de constructo. Un lustro más tarde uno de los grandes autores del campo define la validación como el proceso de examinar la exactitud de una predicción específica o una inferencia hecha a partir de la puntuación de una prueba o de los resultados de un instrumentos de medición, como cuestionarios, observaciones y calificaciones de desempeño (Cronbach, 1971: 433). Este autor señalaba que el término validación de una prueba refleja una comprensión imprecisa del concepto. El investigador no valida una prueba, sino la interpretación de datos derivados de un procedimiento específico. Un instrumento puede usarse de diferentes maneras. Una prueba de lectura, por ejemplo, puede ser usada para seleccionar a los aspirantes de cierta carrera profesional, para planear instrucción remedial en lectura, para medir la efectividad de un programa de enseñanza, entre otras posibilidades. Dado que cada uso se basa en una interpretación diferente, la evidencia que justifica una utilización puede tener poca relevancia para otra. Y al tener cada interpretación su propio grado de validez no se puede llegar a la simple conclusión de que una determinada prueba “es válida” sin más. En las décadas de 1970 y 1980 las definiciones de validez se centraron en los tipos mencionados: de contenido, criterio (predictiva y concurrente) y constructo, con preponderancia creciente 11

Las pruebas ENLACE para educación básica

del último. Luego el foco de la validez se centró en el significado o interpretación de los puntajes obtenidos con un instrumento de medición, pero se mantuvo el énfasis en la validez de constructo, como la esencia de una concepción unitaria de validación, que se resume en la conclusión de Cronbach (1988): toda validación es una sola. A fines de la década de 1980, según Messick, la validez de contenido se valora cuando se analiza qué tan bien un instrumento muestrea el contenido, situaciones o asignaturas sobre las que se deberán sacar conclusiones. Se basa en el juicio profesional acerca de la relevancia del contenido que incluye una prueba para medir un dominio de interés y si las tareas que solicita la prueba representan adecuadamente dicho dominio. La validez de criterio se evalúa al comparar los puntajes de la prueba con una o más variables externas –llamadas criterio, que pueden ser medidas al mismo tiempo o posteriormente– que se considera proveen una medición diferente de las conductas o características en cuestión. La validez de constructo es evaluada al indagar el grado en que un instrumento mide un constructo o variable compleja latente. Se basa en la integración de toda evidencia que apoye la interpretación o significado de las puntuaciones, que no son consideradas equivalentes al constructo que se mide, sino que son posibles indicadores de una variable latente. La validez de constructo subsume la de contenido –relevancia y representación de un dominio– y la de criterio, porque la información que se obtiene mediante ellas contribuye a la interpretación de los puntajes. Por tanto, la validez de constructo incluye la mayoría de las evidencias de validez. Una evidencia particular se refiere a la validez de escala que tiene dos vertientes: Por una parte, la elección de la escala especial para cada proyecto, que permite reportar en ella los resultados globales y parciales, sin utilizar porcentajes o notas 0-10. En la validez de escala, los conceptos de validez de la prueba (contenido, criterio y constructo) se extienden a la propia escala de manera que también se asocie con el constructo, permitiendo representar diferencias de desempeño de las personas y los ítems. Por otra parte, la validez de escala (validez práctica o de utilidad de la escala), que se refiere a las evidencias que se aportan para demostrar que el instrumento cuenta con ítems en toda la gama de dificultades, y preferentemente con una distribución uniforme, lo cual proporciona una garantía de que no hay sesgo a priori (una prueba fácil o una prueba difícil desde el diseño); que se cubre toda la escala de medidas para todos los sustentantes desde el de menor hasta el de mayor competencia; y que el diseño no presenta saltos y apilamientos de reactivos, reduciendo la validez de la medida en algunos de los puntos de la escala. (Bond y Fox, 2001; Dawis, 1987; Johnson, 2004; Linacre, 2006; Tristán y Vidal, 2007; Wright y Stone, 2004) Aunque hay diferentes fuentes y mezclas de evidencias que soportan las inferencias realizadas a partir de las puntuaciones, la validez es un concepto unitario que siempre refiere al grado en que la evidencia empírica y el fundamento teórico apoyan lo adecuado de las interpretaciones y acciones realizadas a partir de las puntuaciones de un instrumento (Messick, 1989: 13). Además la validez es cuestión de grado, no de todo o nada. Con el tiempo la evidencia de validez se puede fortalecer o debilitar por nuevos hallazgos, y las proyecciones de las posibles

12

consecuencias sociales de las evaluaciones se transforman a partir de la evidencia sobre consecuencias reales en la actualidad y las cambiantes condiciones sociales. Entonces, inevitablemente, la validez es una propiedad en evolución, y la validación un proceso continuo. En la versión más reciente de los Standards for Educational and Psychological Testing la validez se define como el grado en que evidencia y teoría respaldan las interpretaciones de los puntajes de una prueba y los usos que se pretende hacer de ellos (AERA-APA- NCME, 1999: 9). Esta definición coincide con la visión de Messick (1989) y la más reciente de Kane (2006), en el sentido de que el proceso de validación debe enfocarse a la interpretación y los usos de las puntuaciones obtenidas mediante un instrumento de medición. Kane, uno de los principales teóricos del tema, señala que “validar una interpretación o uso de los puntajes de una prueba es evaluar la plausibilidad de las afirmaciones que se harán a partir de esos puntajes. Por lo tanto, la validación requiere una clara declaración de los propósitos para los que se emplearán las interpretaciones y usos de los resultados” (2013: 1). Este mismo autor señala que el enfoque de validación basada en evidencias se apoya en ocho ideas, de las cuales la primera es que lo que se valida no es una prueba en sí misma o sus puntajes sino la interpretación de éstos y el uso que se haga de ellos. En este documento conviene destacar otras dos de esas ideas: que las afirmaciones más ambiciosas requieren de mayores evidencias que las soporten que las menos ambiciosas; y que las afirmaciones más ambiciosas –como las inferencias sobre constructos o las causales—suelen ser más útiles que las afirmaciones menos ambiciosas, pero son más difíciles de validar. Las conceptualizaciones actuales de validez incluyen las consecuencias sociales e individuales –deseadas y no previstas– que trae consigo el uso de una prueba (Kane, 2013; Moss, 2008; Sireci, 2013). La validez de consecuencias apareció en los estándares AERA -APA - NCME de 1999, pero ya Messick consideraba irónico que los estudios de validez pusieran poca atención a los usos y consecuencias de los resultados de pruebas, ya que la validez al inicio se concebía en términos funcionales: qué tan bien la prueba hace la tarea para la que fue diseñada. Una dimensión más de la noción es la que denota la expresión validez cultural, definida como el grado en que el diseño, el proceso de desarrollo y el contenido de una prueba toman en consideración la forma en que factores de naturaleza cultural, lingüística y socioeconómica distintos de los constructos de interés influyen en la manera en que se interpreta el contenido de los ítems y la forma en que se responden (cfr. Basterra, Trumbull y Solano-Flores, 2011). Messick apuntaba ya que el proceso que siguen los sujetos al responder una prueba es un aspecto de la validez, distinto tanto de la validez de contenido como de la que tiene que ver con la estructura interna y externa del test o con las consecuencias de su uso. Anticipaba así una dimensión a la que solo en tiempos recientes se presta atención, si bien esta es creciente.

L A CONFIABILIDAD El concepto de confiabilidad fue introducido por el psicólogo británico Charles Spearman, quien lo definió como el coeficiente de correlación entre una mitad y la otra de varias mediciones de la misma cosa (Stanley, 1971: 370).

Introducción

13

Thorndike comenzaba definiendo la confiabilidad a partir de su opuesto, diciendo:

Las pruebas ENLACE para educación básica

Cada vez que medimos algo... esa medición tiene cierta cantidad de error aleatorio, grande o pequeño, pero omnipresente... las discrepancias pueden expresarse en millas o en millonésimas de milímetro, pero aparecerán siempre, si las unidades son suficientemente finas en relación con la precisión de las medidas. El que conjuntos repetidos de medidas nunca se dupliquen exactamente es lo que se quiere decir con la expresión “no confiabilidad”. Al mismo tiempo, medidas repetidas de una serie de objetos o individuos mostrarán, por lo general, cierta consistencia... lo opuesto a la variación a la que nos acabamos de referir, y que designaremos como “confiabilidad” (Thorndike, 1951, p. 560). Thorndike permite distinguir dos cualidades relacionadas pero no idénticas de una medición, su precisión y su consistencia, al señalar que se puede calcular el tamaño de los errores de medición mediante la desviación estándar de la distribución de los resultados–el error estándar de la medición— o estimar la consistencia entre dos conjuntos de puntuaciones, según su correlación, mediante un coeficiente de confiabilidad. A partir de trabajos de Kelley desde la década de 1920, Thorndike explica la relación entre coeficiente de confiabilidad y error de medición, que ayuda a evitar interpretaciones simplistas del primero, ya que coeficientes de confiabilidad altos, de 0.8 y 0.9, corresponden a errores de medición de 0.45 y 0.32. Con un número considerable de casos y diferencias pequeñas de los puntajes de cada uno, lo anterior implica que habrá importantes traslapes entre los intervalos de confianza, haciendo poco claros los ordenamientos de los resultados. Stanley presenta fórmulas para el cálculo de la confiabilidad en situaciones particulares, mostrando las ventajas y desventajas de cada una así como la equivalencia de algunas, incluyendo la más conocida, el coeficiente alfa, introducido en 1951 por Cronbach. (Stanley, 1971) Dos décadas más tarde Feldt y Brennan presentan 12 coeficientes de consistencia interna para casos particulares (subdivisión de una prueba en dos, tres o más partes), y presentan la Teoría de la Generalizabilidad (TG), basada en trabajos de Cronbach y otros desde la década de 1960 (1989: 115). La TG , para ellos: ...puede ser vista como una extensión y liberalización de la teoría clásica, que se logra básicamente gracias a la aplicación del análisis de varianza a los datos de la medición. En la teoría clásica el error de medición se ve como una entidad unitaria, global, aunque se reconoce que se deriva de una combinación de fuentes. En contraste, los modelos y métodos de la teoría de la generalizabilidad se interesan por los errores derivados de esas múltiples fuentes como entidades separadas... (1989: 127-128) Recientemente Haertel señala que los principios clásicos y de la TG siguen siendo válidos, y señala que las teorías o modelos de respuesta al ítem constituyen una forma distinta de abordar la confiabilidad. (2006: 99-103) En otro trabajo reciente, Brennan señala que, al igual que ocurre con la validez, la confiabilidad tampoco es una propiedad que se pueda predicar de una prueba u otro instrumento cualquiera de obtención de información. La consistencia con la que se define la noción se refiere a los datos que se obtienen, los puntajes de los alumnos que sustentan una prueba o las respuestas que se dan a una encuesta. 14

Brennan considera las implicaciones que tiene para la comprensión de la noción de confiabilidad la noción de réplica, en el sentido de un proceso de medición que duplique lo más exactamente que sea posible las condiciones de una aplicación previa. Las palabras en cursiva de la frase anterior parten de la idea de que es imposible conseguir una réplica perfecta, ya que una nueva aplicación implicará inevitablemente cambio en al menos algunos aspectos del proceso. Esta idea es similar a la que forma el centro de la Teoría de la Generalizabilidad, la de que no hay un solo tipo de error en el resultado de cualquier medición sino varios, que se pueden derivar de múltiples fuentes: el instrumento, desde luego, pero también las ocasiones en que se hace una aplicación, incluyendo la original y sus réplicas, los aplicadores o calificadores, entre otras. Por ello Brennan sostiene que la noción de réplica es fundamental para la definición de confiabilidad, que él expresa como sigue: la confiabilidad es una medida del grado de consistencia de los puntajes de los sustentantes en las réplicas del procedimiento de medición (Brennan, 2001: 296). Es el procedimiento completo de medición, y no solo el instrumento, lo que puede afectar la consistencia de los resultados. Brennan concluye: En mi opinión no puede haber respuestas significativas a las preguntas sobre la confiabilidad sin una consideración expresa de la naturaleza de las réplicas (planeadas y efectivas) de un procedimiento de medición. Por lo tanto un marco coherente para conceptualizar, calcular e interpretar la confiabilidad requiere que se responda la pregunta de qué constituye una réplica de un procedimiento de medición. (Brennan, 2001: 313)

RELACIÓN ENTRE VALIDEZ Y CONFIABILIDAD Se acepta generalmente que puede haber confiabilidad sin validez, pero no al contrario: la ausencia de confiabilidad impide que haya validez. Para comprender esta idea conviene remitirse a la definición más sencilla de validez, que dice que ésta consiste en medir realmente lo que se quiere. Puede parecer ilógico que alguien pueda medir algo que no quiere, pero si se reflexiona sobre la complejidad de muchas variables que se estudian en ciencias humanas, así como en su carácter no evidente sino latente (constructo), se podrá estar de acuerdo en que las definiciones operacionales de esas variables, y los indicadores en que se concretan, no siempre reflejan adecuadamente la realidad subyacente, por lo que la información que se podrá obtener con un instrumento desarrollado a partir de tales operacionalizaciones medirá en realidad algo distinto de lo que el investigador pretendía medir. Esa medición podrá ser consistente, o sea que podrá tener confiabilidad, pero carecerá de validez. Ahora bien: la falta de confiabilidad de una medición indica que la proporción de error o de ruido en la información obtenida es demasiado grande. La ausencia de confiabilidad indica que no se está midiendo en realidad ninguna variable, ni la que se pretendía ni otra, ya que los resultados se deben al azar tanto o más que a cualquier factor determinado. Para decirlo de otra forma: la falta de confiabilidad implica también ausencia de validez. Por ello una buena validación no podrá considerarse suficiente si no incluye un sólido análisis de la confiabilidad.

Introducción

15

LA VALIDACIÓN COMO CUIDADO INTEGRAL DE LA CALIDAD DE UNA MEDICIÓN

Las pruebas ENLACE para educación básica

El marco de referencia adoptado por el grupo se basa en las ideas sintetizadas en los párrafos anteriores, así como de un enfoque para la validación que proponían hace casi dos décadas Crooks, Kane y Cohen: La validez es la cualidad más importante de una evaluación educativa (assessment), pero frecuentemente se descuida su valoración. El enfoque paso-por-paso que se sugiere ofrece una guía estructurada a quienes deban validar evaluaciones educativas. El proceso de una evaluación educativa se describe como una cadena de ocho etapas eslabonadas entre sí: administración de la prueba, calificación, agregación de resultados, generalización, extrapolación, juicios de valor, decisiones e impacto. Valorar la validez del conjunto implica considerar con cuidado las amenazas a la validez asociadas a cada eslabón. En una forma que busca ser ilustrativa más que exhaustiva se describen y ejemplifican algunas de esas amenazas para cada eslabón. El modelo de la cadena sugiere que la validez del conjunto se ve limitada por el eslabón más débil, y que los esfuerzos por hacer particularmente fuertes solo algunos eslabones pueden ser estériles e incluso dañinos. Se muestra también que el modelo de la cadena y la lista de amenazas pueden ser útiles al planear una evaluación educativa. (1996) La tabla 1 sintetiza los pasos que implica el uso de una prueba para evaluar del aprendizaje, desde el desarrollo del instrumento hasta la toma de decisiones con base en los resultados. Los pasos incluyen los que mencionan Crooks, Kane y Cohen pero se añaden otros. Con las adecuaciones necesarias, la serie de pasos se puede aplicar a cualquier proceso de obtención de información empírica mediante instrumentos estructurados. Se distinguen cinco etapas cada una de las cuales comprende tres pasos particulares. Tabla 1 Pasos de una evaluación de aprendizajes mediante pruebas Etapas

Pasos particulares Precisión del propósito(s) de la evaluación

Planeación de la evaluación

Definición de la población objetivo y, en su caso, la muestra Decisiones técnicas: tipo de prueba, modelo psicométrico... Definición de los dominios a evaluar

Diseño de los instrumentos

Especificación de esos dominios Diseño de las pruebas: ítems, escalas, niveles de logro... Reproducción de las pruebas

Recolección de la información

Selección y capacitación de aplicadores Aplicación misma Calificación de respuestas

Procesamiento de la información

Agregación de resultados Generalización, extrapolación Juicios de valor

Usos de los resultados

Decisiones Impacto

Fuente: Elaboración propia.

16

La noción del eslabón más débil a la que alude el texto de Crooks, Kane y Cohen es importante: basta con que un paso tenga fallas graves para que el resultado se vea comprometido, aunque todos los demás pasos sean adecuados. Un error grave de impresión, irregularidades fuertes en la aplicación, problemas de logística o fallas en la calibración de un lector óptico pueden distorsionar los resultados de la aplicación de una prueba bien diseñada, que use un modelo psicométrico muy sólido, con un sofisticado muestreo y otras cualidades técnicas. Lo mismo puede decirse si se utiliza una clave de respuestas equivocada, o si se cometen errores importantes al analizar los datos. También se puede llegar a juicios de valor injustos con información correcta y ésta no basta para evitar la toma de decisiones que generen resultados contraproducentes o produzcan daños considerables. Así pues, una validación completa de evaluaciones como ENLACE y E XCALE no se puede reducir a revisar la calidad de los instrumentos: debe incluir la aplicación, el procesamiento de la información y el uso de resultados, lo que para hacerse a fondo implica tiempos amplios y el trabajo de numerosos investigadores.

LOS CRITERIOS UTILIZADOS EN EL TRABAJO En un contexto de tiempo y recursos limitados el trabajo no puede ser exhaustivo, pero sí pretendemos ofrecer un conjunto de juicios suficientemente sustentados en la información documental a que tuvimos acceso y en la que obtuvimos mediante entrevistas con personal a cargo de las pruebas y con funcionarios de algunas entidades federativas y/o cuestionarios aplicados en la mayor parte de estas. Consideramos que las conclusiones a las que pudimos llegar están sustentadas con suficiente solidez en tales evidencias, y permitirán tener una idea bastante completa sobre las pruebas a las que se refiere el proyecto y, en el caso de este informe, en particular sobre las pruebas ENLACE de educación básica. Inicialmente, a partir de una revisión de la literatura especializada, se llegó a una propuesta de 72 criterios particulares que serían la base para llevar a cabo el estudio, sin contar tres criterios adicionales de carácter general. De esos criterios 11 se referían a la alineación de las pruebas al currículo; 16 a aspectos psicométricos de las pruebas; 12 a la atención a la diversidad; 16 tenían que ver con las aplicaciones y sus implicaciones para confiabilidad y validez; y 17 se referían a los usos y consecuencias de las pruebas. A lo largo del trabajo el listado de criterios definido inicialmente se modificó, con 59 criterios y 102 subcriterios. Con el ajuste final se llegó a un conjunto de 58 criterios y 97 subcriterios para las cinco áreas que cubrió el estudio, como sigue: Tabla 2 Áreas, criterios y subcriterios utilizados Áreas Alineación a los referentes

Criterios

Subcriterios

11

25

Aspectos psicométricos

8

33

Atención a la diversidad

12

—

Aplicaciones

16

39

Usos y consecuencias

11

—

TOTALES

58

97

Introducción

17

La lista de los 58 criterios, sin los subcriterios, es la siguiente:

Las pruebas ENLACE para educación básica

ALINEACIÓN A LOS REFERENTES 1. Se cuenta con un documento que revisa la teoría del contenido (curricular u otro) y es el marco teórico que orienta el desarrollo de la prueba. 2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba en términos de objetivos, competencias u otro referente. 3. Se explica el procedimiento usado para determinar la importancia relativa de los contenidos que se decidió evaluar, o se incluye análisis de unidades del dominio y su densidad diferencial. 4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios y el dominio definidos. 5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido. 6. Existe un documento manual o guía de redacción o diseño de reactivos en el que se especifican y justifican los procedimientos para formularlos. 7. Los reactivos son diseñados por un comité seleccionado teniendo en cuenta la especialización académica, laboral y su representatividad respecto a la diversidad del país, y estuvo coordinado por una persona calificada. 8. Existe un manual o guía para el análisis de reactivos que señala los criterios de aceptación, revisión y modificación. 9. Hay un comité de revisión calificado para aplicar lo que define el manual. 10. La revisión de ítems incluye análisis de calidad técnica, congruencia ítem-contenido, posibles fuentes de sesgo y concordancia de juicio de revisores. 11. Se cuida la alineación de la prueba en general.

A SPECTOS PSICOMÉTRICOS 1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran usualmente en la medida en que sean aplicables. 2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar las pruebas, definiendo equivalencia y periodicidad. 3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para el análisis psicométrico. 4. Se ofrece información sobre la confiabilidad de las pruebas. 5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el cuidado de su calidad. 6. Se ofrecen evidencias sobre la calidad de los bancos de ítems. 7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que responden las pruebas. 8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación de resultados de las pruebas.

18

ATENCIÓN A LA DIVERSIDAD 1. El marco conceptual de la prueba toma en cuenta cómo la efectividad en el aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia sociocultural del estudiante y su familiaridad con la lengua y el dialecto en que se administran las pruebas. 2. Como parte del desarrollo de la prueba se establecen las características de la población objetivo, que consideran la diversidad cultural y lingüística del país y los múltiples contextos y escenarios culturales y ambientales. 3. Como parte del desarrollo se usan referentes teóricos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideración la diversidad cultural, lingüística y socioeconómica del estudiantado. 4. Los documentos que establecen tipos y formatos de los ítems proporcionan lineamientos para asegurar que la información gráfica y contextual incluida en los ítems sea familiar para la mayoría del estudiantado y reflejen una amplia variedad de contextos culturales. 5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en contenido incluyen a profesionales con especialidades en el área de la cultura (antropólogos, lingüistas) y maestros de minorías culturales y lingüísticas y de escuelas rurales y de nivel socioeconómico bajo. 6. Las muestras de estudiantes con los que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeconómicas del país. 7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales a alumnos de diversos grupos culturales, lingüísticos y socioeconómicos, para investigar si interpretan igual el contenido de muestras representativas de los ítems. 8. El proceso de revisión con jueces considera fuentes de sesgo cultural, lingüístico y socioeconómico en muestras representativas de los ítems. 9. Se hacen análisis de funcionamiento diferencial de una muestra de ítems para diversos grupos focales: estudiantes de distintos grupos indígenas, de nivel socioeconómico bajo y de zonas rurales. 10. Se hacen análisis con Teoría de la Generalizabilidad para determinar la confiabilidad y validez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo étnico, localidad y nivel socioeconómico. 11. Los tiempos y calendarios de las actividades que buscan tomar en cuenta la diversidad cultural, lingüística y socio-económica son razonables y factibles. 12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en la información obtenida al realizar la validación cognitivo-cultural, la revisión, los análisis de sesgo y los estudios de generalizabilidad.

APLICACIONES 1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral. 2. Cuando proceda, las muestras se diseñan utilizando diseños sólidos; los estratos se definen con base en argumentos teóricos defendibles. 3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planificó. Introducción

19

Las pruebas ENLACE para educación básica

4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes aceptables. 5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales que aseguren la comparabilidad de los datos. 6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolección de datos, en todos los niveles. 7. Se fijan límites realistas de la carga de responder pruebas y cuestionarios de contexto para que no sea excesiva tomando en cuenta los sujetos. 8. Se busca motivar a sujetos para que no respondan preguntas a la ligera. 9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder a la prueba y se entrena al personal de aplicación para ello. 10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude y se entrena al personal de aplicación para seguirlos. 11. Se manejan procedimientos para asegurar la calidad de las aplicaciones. 12. Hay manuales que detallan aspectos a cuidar para crear archivos según normas internacionales: introducción de datos; identificadores de alumnos, maestros o escuelas; variables a incluir, códigos válidos, de datos faltantes o respuestas no aplicables; formato, estructura de archivos, limpieza, etc. 13. Hay personal calificado para manejar los datos y se le entrena en todos los aspectos del trabajo, asegurando que esté familiarizado con procedimientos aceptados para manejar datos y que comprende la importancia de recolectar y capturar la información con el cuidado necesario para que los análisis posteriores se hagan sobre información de la mejor calidad posible. 14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicación. 15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del procesamiento y verificación de los datos son confiables. 16. La coordinación del estudio es notificada de cualquier inconsistencia en los datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser aprobada y documentada.

USOS Y CONSECUENCIAS 1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico. 2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba. 3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes sin discriminación. 4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación y utilización de los resultados. 5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación de los resultados. 6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible. 7. Se ofrece marco normativo para evaluar el desempeño de los examinados. Se describe el perfil y características de la población de referencia. 20

8. Se da información para minimizar posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes al comparar años, dominios, grupos o niveles de agregación. Se usan categorías precisas que no estigmaticen. 9. Se advierte sobre usos para los que no existe suficiente evidencia de validez. Aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más probables. 10. Se documenta la existencia de usos o consecuencias imprevistas, ya sean adecuadas/ positivas, o inadecuadas/negativas. 11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar acciones correctivas. La lista completa de criterios y subcriterios puede verse en el anexo 1. Al final del informe se presentan las referencias que se utilizaron en todos los apartados, así como otros anexos, que incluyen el microanálisis de reactivos de Español (anexo 2) y de reactivos de matemáticas (Anexo 3) hechos para el apartado de validez cultural. No se incluyen otros anexos que se hicieron llegar al INEE con la versión del informe entregada en marzo de 2014, que fueron las transcripciones de las entrevistas que se hicieron a funcionarios de la SEP, el INEE y las entidades federativas, así como de las respuestas a los cuestionarios que se recibieron de las entidades. Las cinco partes principales de este informe que se encuentran en las páginas siguientes presentan los análisis hechos por los pares de especialistas, aplicando los criterios mencionados.

Introducción

21

1

Alineación a los referentes

CONSIDERACIONES PREVIAS El análisis se ha llevado a cabo teniendo en cuenta los siguientes aspectos: • Las pruebas censales presentan un condicionante inicial que influye de manera decisiva en la representatividad del dominio curricular que pretenden evaluar: los imperativos logísticos llevan a que deban ser pruebas de una longitud limitada, por lo que cualquier prueba censal parte de este hándicap. • No obstante lo anterior, el grado de representatividad puede atenderse de formas más o menos rigurosas. En este sentido, nos centramos en el análisis del grado en que los procesos utilizados se han desarrollado con el rigor suficiente como para asegurar un adecuado nivel de calidad. • La prueba ENLACE viene desarrollándose desde 2006 y hasta el 2013. De este modo, y tal como comentaremos posteriormente, se aprecia una evolución importante en sus procesos metodológicos. En cualquier caso, desde nuestro punto de vista, no se trata de realizar una valoración histórica de su diseño, sino de comprobar el nivel de calidad que la prueba ha alcanzado en la actualidad. • Por este motivo, entendemos que las evidencias de mayor valía para valorar la calidad de la prueba son los manuales de 2012 y el recientemente difundido de 2013. Las evidencias anteriores, se utilizan como medio para comprender y/o explicar mejor los factores que se han ido dando en su diseño y que impactan de manera positiva o negativa en su calidad actual. En cualquier caso, este comité ha tenido en cuenta todas ellas.

A NÁLISIS DEL CURRÍCULO CUYO DOMINIO SE EVALÚA 1 Se cuenta con un documento que revisa la teoría del contenido curricular y es el marco teórico que orienta el desarrollo de la prueba.

tt El

documento incluye un análisis de las áreas del currículo que evaluará la prueba, que precise los subdominios y contenidos, así como competencias y niveles de demanda cognitiva que se deberán cubrir.

Un elemento clave para valorar el grado en que ENLACE deviene del contenido curricular y su marco teórico es la inestabilidad del currículum en México. Como referencia contextual, únicamente se señala que durante el periodo de diseño y desarrollo de la prueba el currículo varió en numerosas ocasiones, incluso presentando cambios que se anunciaron un día hábil antes del comienzo del año escolar. 22

Esta falta de estabilidad curricular, sin duda, ha constituido un hándicap importante para los constructores de la prueba. De este modo, durante el periodo 2006-2013, que cubre el lapso en que se desarrollaron las pruebas ENLACE, el currículum nacional de la educación básica experimentó continuas transformaciones. Esta dinámica curricular impuso en cada ocasión retos importantes al grupo de trabajo de la Dirección General de Evaluación de Políticas (DGEP) de la Secretaría de Educación Pública (SEP) que desarrolló las pruebas. Los autores de ENLACE fueron conscientes de dichas transformaciones y dan cuenta de ellas en los manuales técnicos que facilitaron, y que sintetizan (Documento ANALISIS_2012_2013.pptx) en la línea del tiempo que aparece a continuación, en la que también indican los impactos que en cada ocasión tuvieron los cambios curriculares sobre el desarrollo de las pruebas (ver cuadro 1.1). Cuadro 1.1

Fuente: Documento ANALISIS_2012_2013.pptx

Además, cada uno de los manuales técnicos de ENLACE presenta una sección denominada Marco teórico de diseño de las pruebas ENLACE , en la que se presentan aspectos generales sobre las dimensiones explícitas e implícitas que se evalúan en las asignaturas de Español, matemáticas y en la rotativa correspondiente que se evalúa cada cuatro años (ciencias, formación cívica y ética, historia y geografía). De manera adicional, se observa una clara evolución hacia mayores niveles de calidad técnica en el aspecto que aquí comentamos. De este modo, si se examina el Manual de 2013, las evidencias del análisis realizado están claramente estructuradas y expuestas.

Alineación a los referentes

23

Las pruebas ENLACE para educación básica

Por otra parte, según se señala en los manuales técnicos de ENLACE , el proceso de desarrollo de las pruebas siempre estuvo intensamente acompañado por el personal de la Dirección General de Desarrollo Curricular (DGDC) de la SEP, quienes a su vez fueron los responsables de los cambios curriculares señalados y de su difusión en el medio educativo nacional. Esta estrategia de trabajo conjunto (desarrolladores del currículum y diseñadores de prueba), aunque no resulta habitual, en gran medida asegura la continuidad entre el currículum y la prueba. En consecuencia, puede decirse con certeza que siempre se contó con documentación que expusiera la teoría del contenido curricular y que fuera el marco teórico que orientara el desarrollo de la prueba. El segundo elemento clave para valorar el modo en que se ha asegurado por parte de los diseñadores de ENLACE que la prueba representa adecuadamente los subdominios curriculares y los niveles de demanda cognitiva que representan para el alumnado, se encuentra en la metodología seguida a tal efecto. Las referencias metodológicas que se identifican en la literatura y que se postulan como requerimientos metodológicos para este cometido se sitúan en el ámbito de desarrollo de pruebas referidas a un criterio (Madaus & Kellaghan, 1992; Hambleton, 1994; Nitko, 1994; 1995; Li & Sireci, 2005; Cizek, 2007; Sireci, 2009). En este marco de trabajo los procesos a considerar para asegurar la representatividad son, al menos: • Análisis explícito (y debidamente documentado) del currículum como universo de medida. Ello implica el uso de algún procedimiento de análisis y estructuración del dominio curricular, aportando como evidencia los dominios y subdominios implicados y las relaciones entre ellos y sus contenidos. • El resultado del análisis debe proveer un marco de referencia de la prueba que se evidencia en una tabla que refleje su estructura, así como en tablas de especificaciones en las que se deben contemplar diversos elementos del contenido y del nivel de demanda cognitiva que constituye cada unidad curricular para el alumnado. • Dicho análisis debe ser realizado por un comité de especialistas, y debe ser validado posteriormente por un comité diferente del anterior. En la composición de los comités se recomienda la presencia de especialistas diversos, entre ellos los que representan la diversidad socio-educativa y cultural, en este caso de México. • Adicionalmente, se requiere que se explicite el modo en que los comités son capacitados para llevar a cabo estas tareas, así como se deban producir los procesos de juicio y el establecimiento de decisiones (consenso intersubjetivo, síntesis cuantitativa…) Una vez revisadas todas las evidencias aportadas al respecto, podemos realizar los siguientes comentarios y señalar sus evidencias: • Todos los manuales técnicos de ENLACE incluyen una sección denominada Tablas de especificaciones y un anexo denominado Tablas generales de contenidos para todos los grados, que presentan muestras de tablas y las tablas completas en el MT 2013, que incluyen áreas curriculares, subdominios y contenidos específicos de cada materia que se evalúan en el examen. • No obstante, salvo en el caso de las tablas del 2013, no se ha seguido un procedimiento homogéneo por materias, ni por niveles y años. De este modo, la estructura

24

del dominio a evaluar se presenta en formatos diferentes y con niveles de desarrollo desigual, tanto en las materias de una misma asignatura, como entre las materias de asignaturas y años diferentes. Al respecto, obsérvense en los cuadros I.2 a I.6 fragmentos de cinco tablas que aparecen en el manual técnico ENLACE de 2012; la primera del tercer grado de primaria de Español; la segunda del quinto grado de primaria de Español; la tercera del tercer grado de primaria de matemáticas; la cuarta del quinto grado de primaria de matemáticas; y la quinta del tercer grado de primaria de ciencias (asignatura rotativa cuyo dominio se evaluó ese año).

Cuadro 1.2

Fuente: Manual Técnico ENL ACE 2012

Alineación a los referentes

25

Las pruebas ENLACE para educación básica

Cuadro 1.3

Fuente: Manual Técnico ENL ACE 2012

Cuadro 1.4

Fuente: Manual Técnico ENL ACE 2012

26

Cuadro 1.5

Fuente: Manual Técnico ENL ACE 2012

Cuadro 1.6

Fuente: Manual Técnico ENL ACE 2012

• Más allá de diferencias de estilo en las tablas, se evidencian diferentes niveles de estructuración del dominio a evaluar, desde enunciados simples a manera de objetivos de aprendizaje sin contexto curricular explícito (como en el caso de las especificaciones de ciencias naturales), hasta ubicación del contenido a evaluar en el ámbito curricular que corresponde, explicitación de la práctica social del lenguaje en que opera su aprendizaje e identificación del aprendizaje esperado que se logra con su dominio (como en la tabla de quinto grado de primaria de Español). • Sería preferible que todas las estructuras del dominio curricular a evaluar fueran tan explícitas como en el último caso. Aunque no se documentan los motivos por los que no se adoptó un esquema similar en todas las asignaturas (salvo vagas referencias “a la Alineación a los referentes

27

Las pruebas ENLACE para educación básica

diversidad de enfoques que tienen los teóricos en los distintos campos del conocimiento” [Manual Técnico 2012: 26]), se reporta que “Las tablas de contenido para cada grado se encuentran en los documentos de base preparados por la Subsecretaría de Educación Básica” (la DGDC, MT 2012: 178), por lo que la determinación del contenido a evaluar en ENLACE siempre ha estado a cargo de esa dependencia (MT 2009: 75), responsable a su vez del currículo de la educación básica. Una excepción a esta condición son la tablas que aparecen en el Manual Técnico 2013, donde por primera vez se afirma que: • Las tablas de especificaciones son construidas por el personal técnico de la Dirección General de Evaluación de Políticas y revisadas por el personal de la Dirección General de Desarrollo Curricular de la Secretaría de Educación Pública, de acuerdo con los contenidos establecidos en los planes y programas de estudios oficiales vigentes en todo el país” (MT 2013: 21). • En cuanto a los comités de análisis del Dominio Curricular, que deberían actuar de modo independiente y sucesivo, que mencionamos como estrategia fundamental para la validación de este tipo de pruebas, puede observarse que, salvo lo que se comenta en el punto anterior, no se ha procedido de este modo. Se evidencia que la DGDC ha sido juez (quien desarrolla el currículum) y parte (quien decide lo que es importante evaluar en ENLACE ), sin contraparte (dado que la DGEP y sus consejos directivo y técnico asumieron desde el principio que esa era una tarea que le correspondía realizar a la DGDC). Con esta forma de proceder, se olvida un factor sustantivo de validación. • Cabe señalar que ni la DGDC ni la DGEP han documentado las decisiones para determinar lo que es importante evaluar, ni han sentido la necesidad de adoptar un esquema de representación del dominio curricular a evaluar que resulte explícito y equivalente, a la vez que respete el enfoque teórico de las diferentes asignaturas. En síntesis la situación descrita no corresponde con las prácticas de análisis curricular y detección y estructuración del contenido importante a evaluar en una prueba de estas características. Tampoco se han basado en una estrategia de validación del análisis del universo de medida que incluya aportes de validación de grupos interdisciplinarios de especialistas (en currículo, la disciplina cuyo dominio se evalúa, psicometría, operación del currículum en las aulas, en lenguaje, en cultura y en teoría cognoscitiva), que actúen de manera independiente y sucesiva. Por ello, entendemos que el procedimiento seguido no permite asegurar la representatividad del contenido a evaluar.

ALINEACIÓN DE LA PRUEBA CON EL CURRÍCULO 2. Se presentan evidencias de la forma en que se definieron las especificaciones de la prueba en términos de objetivos, competencias u otro referente curricular.

Otro factor imprescindible que permite trabajar en favor de la consecución de la validez de contenido es el análisis del dominio educativo, tanto en su estructura (subdominios que lo integran), como en relación con las especificaciones de contenido que permiten orientar el diseño de reactivos. Esta estrategia es habitual en pruebas referidas al currículo. Debe incluir, por tanto, dos tipos de información: estructural de la prueba, y especificaciones de unidades del dominio.

28

Eso permite obtener una visión precisa del universo de medida, a partir del cual, posteriormente, se podrá orientar el muestreo de contenidos (Jornet y Suárez, 1989a; 1989b). Orienta pues, las dimensiones o subdimensiones implicadas (un diseño curricular no necesariamente es unidimensional, y puede representarse en una prueba), la densidad diferencial del dominio (cantidad y relevancia de elementos observable). En cuanto a si esta forma de actuación metodológica se dio en el diseño de ENLACE, en los cuadros I.2 y I.3 que se presentaron antes también puede apreciarse que en un mismo cuadro se presentan juntos elementos de la estructura del dominio del contenido curricular a evaluar (que corresponden a la tabla de especificaciones de la prueba) y los de la especificación de la tarea evaluativa para evaluar el dominio de cada contenido (especificaciones de ítems). Aunque en la práctica regular en cualquier formato para desarrollar especificaciones de ítems se incluye la estructura básica en la que se ubica el contenido a evaluar, en este caso el diseño de la tabla no permite observar de manera independiente la estructura de la prueba, para poder referirla al dominio curricular. Hasta 2008 el manual técnico de ENLACE distinguía ambos componentes del desarrollo de las pruebas, a los que denominaba Elaboración de tablas de contenidos y Elaboración de tablas de especificaciones (Ver por ejemplo los manuales técnicos 2007 [MT04, págs. 4.2 y 4.14 a la 4.22] y 2008 [MT04, págs. 4.3 y 4.16 a la 4.21]). En los manuales de los años 2009, 2010, 2011 y 2012 ambos componentes se ubicaban en una misma tabla; y para el caso del manual técnico de ENLACE 2013, las tablas de especificaciones de la prueba (que consideran ya el nuevo currículum de 2011) vuelven a aparecer en una sección independiente. Lo anterior puede observarse en los cuadros I.7 y I.8. Aunque las tablas de especificaciones anteriores se definieron en términos de referentes curriculares, en cada prueba aparecen distintos y no siempre se trata de los referentes relevantes que se establecen explícitamente en el Acuerdo 592 de la SEP (DOF, 2011), por el que se articuló en 2011 la educación básica del país con un nuevo currículum en todos los niveles educativos. Por ejemplo, obsérvese el referente fundamental que establece para ENLACE el Acuerdo 592: “La migración de la Evaluación Nacional del Logro Académico en Centros Escolares de Educación Básica (ENLACE) hacia una evaluación cuyo referente sean los Estándares Curriculares y los aprendizajes esperados” (DOF, 2011, artículo octavo transitorio). Así, en un caso se incluyen los aprendizajes esperados y en otro no; en ninguna de las tablas aparece el eje (en Matemáticas) o el ámbito (en Español) curriculares a los que pertenecen los contenidos a evaluar; en un caso se detalla el aspecto a evaluar y en otro no; en un caso se define el nivel de relevancia del contenido a evaluar y en otro no, entre otras diferencias entre las tablas. No obstante, cabe señalar que en el manual técnico de ENLACE 2013 se aprecia un claro esfuerzo por dar a las tablas de especificaciones de la prueba un estilo y formato más homogéneos (véanse por ejemplo los cuadros I.7 y I.8), tanto entre las materias de cada asignatura, como entre las propias asignaturas, así como por incorporar los referentes del nuevo currículum que aparecen en el Acuerdo 592 de la SEP.

Alineación a los referentes

29

Las pruebas ENLACE para educación básica

Cuadro 1.7

Fuente: Manual Técnico ENL ACE 2013

Cuadro 1.8

Fuente: Manual Técnico ENL ACE 2013

30

tt Se

presenta la estructura del dominio curricular completo –de donde se muestrea el contenido de la prueba— así como la estructura del dominio curricular evaluado.

Tal como señalamos en el criterio anterior, un elemento sustantivo para orientar el desarrollo de una prueba es la estructura del dominio educativo a evaluar (el currículum), y el análisis acerca de la estructura de la prueba. Si se dispone de ambos elementos, puede analizarse –mediante comités de juicio– si la estructura de la prueba responde adecuadamente a la estructura del universo de medida. El análisis que puede proveer un comité acerca de este aspecto, constituye pues una evidencia de validez. Como ya se comentó cuando efectuamos la valoración bajo el criterio 1, esta fase del proceso de desarrollo de pruebas de gran escala referidas a un criterio también está documentada en la literatura especializada, en la cual se establece la necesidad de que haya dos grupos independientes de especialistas –en ambos casos con expertos en currículum, en evaluación, en la operación del currículum en la aulas, en la teoría cognoscitiva, en aspectos culturales y en la disciplina cuyo dominio se evalúa–: por una parte, los que analicen el currículum y detecten el contenido importante a evaluar; por la otra, los que juzguen tales decisiones con base en protocolos técnicos definidos previamente por los desarrolladores de la prueba; estos últimos deberán facilitar los trabajos de ambos comités y, a la vez, servirán como hilo conductor de éstos y los de otros comités especializados que participan en la construcción del instrumento. Respecto a los procesos llevados a cabo para el desarrollo de ENLACE , como ya señalamos anteriormente, la DGEP afirma en todos los manuales técnicos de ENLACE que la DGDC (que es la dependencia responsable de desarrollar el currículum nacional), fue la instancia que se encargó de definir el contenido a evaluar en las pruebas, por lo que son los autores de las tablas de contenidos que se han presentado hasta este punto. Sin embargo, con excepción de los manuales técnicos de ENLACE 2007 y 2013 que las presentan todas, estas y otras tablas aparecen en el cuerpo de los manuales o en los anexos correspondientes como extractos o como ejemplos que ilustran el producto que la DGDC elaboró. De este modo nunca se presenta, para ninguna asignatura o materia que se evalúa, el dominio curricular completo, ni bien la estructura del dominio curricular que evalúa cada prueba. Tampoco aparece en ningún manual, anexo o documento referido, la documentación del proceso que siguió la DGDC o bien la DGEP para determinar en cada caso el contenido a evaluar o los criterios en que se basaron para determinarlo. A pesar de ello, se tiene evidencia de un estudio que encargó la DGEP a una instancia externa para analizar el nuevo currículum de 2011, desarrollar la estructura del dominio curricular completo de las asignaturas de matemáticas y Español, e identificar en ellas una propuesta de estructura del dominio curricular a evaluar en cada una de las materias de ambas asignaturas. Aunque la DGEP no incluyó en el manual técnico de ENLACE 2013 los resultados y productos de dicho trabajo, se hace una referencia a él en el documento denominado ANALISIS_2012_2013. pptx, que entregó dicha dependencia. En todo caso, la DGEP no incluyó en el manual técnico de ENLACE 2013 los resultados y productos de dicho trabajo.

Alineación a los referentes

31

Las pruebas ENLACE para educación básica

En síntesis, la falta de documentación sobre el proceso que se siguió para determinar el contenido a evaluar, es una carencia importante que afecta a la posible valoración del grado de validez de contenido de las pruebas.

3. Se explica el procedimiento usado para determinar la importancia relativa de contenidos cuyo dominio se decidió evaluar, o se incluye un análisis de las unidades del dominio curricular y su densidad diferencial.

La composición de cualquier prueba referida a un diseño curricular se debe apoyar en criterios de selección de los contenidos, que reflejen la importancia diferencial de los mismos, como expresión de la relevancia de los aprendizajes logrados. Este aspecto, que comúnmente se identifica en la literatura como densidad diferencial del dominio curricular es difícil de llevar a la práctica. De hecho, aunque se ha formulado como concepto desde hace años (Jornet y Suárez, 1989a), bien es cierto que existen pocas aproximaciones metodológicas que lo resuelvan de manera satisfactoria. Generalmente, se basan en valoraciones que realizan comités de especialistas que indican el peso diferencial que cada área del dominio curricular debería tener en la prueba, y ello sirve para seleccionar la cantidad de reactivos que se utilizan al respecto. Recientemente se han propuesto alternativas de indicadores de síntesis (Viveros, Contreras & Caso, 2013) que permiten acercarse a una valoración de estas características, y orientar de una manera más eficiente la estructuración de la prueba en relación al universo de medida. Así, la determinación de la importancia relativa de los contenidos curriculares es un procedimiento crucial para definir el dominio a evaluar en una prueba. Diversos autores (Sireci, 2009; Cizek, 2007; Pope, citado por Cizek, 2007; Li y Sireci, 2005; Haynes, Richard y Kubany, 1995; Nitko, 1994; Guion, 1977) enfatizan la necesidad de identificar blancos curriculares de primer orden, dada la imposibilidad de evaluar en una sola ocasión (examen) el dominio de todo lo que se debió haber aprendido (currículum), ni siquiera todo lo que es relevante. De ahí la importancia de seleccionar una muestra de contenido que represente el dominio curricular, especialmente lo que es más significativo en él, desde el punto de vista de la formación pretendida. Los autores destacan también la necesidad de que un comité independiente de especialistas, con un perfil similar a los que se mencionaron antes, convalide las decisiones que adoptaron quienes decidieron lo que es importante evaluar; y que para ello examinen los criterios y procedimientos que siguieron para arribar a tales conclusiones. En el caso de las pruebas ENLACE , y al igual que se comentó en los dos puntos anteriores, se desconocen los procedimientos que siguieron o los criterios que utilizaron los especialistas de la DGDC para determinar la importancia relativa de contenidos o para decidir el dominio de contenido a evaluar en cada prueba. El análisis de las tablas de contenido que aparecen más arriba muestra que enfatizaron aspectos diferentes del currículum y que adoptaron criterios también diferentes para determinar lo que era relevante en cada caso. No obstante, existen evidencias en los manuales técnicos de ENLACE 2012 y 2013 ¬–especialmente en la mencionada presentación ANALISIS_2012_2013.pptx que entregó la DGEP –, de que se ponderó la importancia relativa de los contenidos e, incluso, se refiere el uso de un índice de densidad académica (IDA ) asociado a contenidos curriculares. Lo anterior se muestra 32

en la última de las tablas que se presentaron anteriormente y en las tres tablas que se presentan a continuación (ver cuadros 1.9 a 1.11). Cuadro 1.9

Fuente: Manual Técnico ENL ACE 2013

Cuadro 1.10

Fuente: Manual Técnico ENL ACE 2013

Alineación a los referentes

33

Las pruebas ENLACE para educación básica

Cuadro 1.11

Fuente: Presentación ANALISIS_2012_2013.pptx

En cuanto a la necesidad de que un comité independiente de especialistas convalide las decisiones que adoptaron quienes decidieron lo que es importante evaluar, la única referencia al respecto es lo señalado en el Manual Técnico 2013, donde se refiere que las especificaciones de las pruebas fueron construidas por el personal técnico de la DGEP y luego revisadas por el personal de la DGDC (MT 2013: 21). Como ya se señaló, si bien existen evidencias de que esos aspectos se consideraron en ENLACE , no se documenta cómo se llevaron a cabo los procesos mencionados, lo que constituye una debilidad en la validación de contenido que, en todo caso, podría subsanarse si se aportaran evidencias al respecto. tt Se

justifican técnicamente ajustes a la ponderación de ítems y subescalas.

Salvo la mención del índice de densidad académica que se asoció diferencialmente a contenidos cuyo dominio fue evaluado en 2012 y 2013, no se encontró información acerca de la justificación técnica de los ajustes a la ponderación de ítems y subescalas. Las escalas y subescalas quedan como producto del software de calificación pero no se reportan. Por su parte, las ponderaciones son definidas en forma apriorística por los diseñadores de la prueba y por consideraciones que se hacen durante el proceso de validación, pero no hay estudios experimentales para realizar ajustes o demostrar la pertinencia de los valores propuestos por los especialistas. Por ejemplo, se podría realizar análisis factorial o de ecuaciones estructurales para disponer de un análisis factorial confirmatorio u otro tipo de estudio.

34

tt Se

justifica metodológicamente el tamaño de la prueba y sus partes (número de reactivos), cumpliendo la ponderación indicada en las tablas de especificaciones. Si se maneja una justificación administrativa esta se debe definir claramente.

El tamaño de la prueba se justifica metodológicamente con base en dos dimensiones. La primera se refiere a los contenidos a cubrir en la evaluación. El tamaño según esta dimensión se justifica con base en los análisis de contenidos y curriculares que se llevan a cabo a fin de seleccionar los tópicos de la prueba y desarrollar los reactivos que la conformarán. La segunda dimensión del tamaño de la prueba se relaciona con la cantidad de preguntas o reactivos que son aplicados a cada uno de los individuos. Esto es importante dado que, por su carácter censal, la cantidad de preguntas necesarias para cubrir los contenidos de la prueba es mucho mayor de lo que en forma realista puede ser aplicado dentro del esquema del horario escolar, y la cantidad de ítems que pueden ser respondidos por los estudiantes sin elevar los niveles de fatiga y/o bajar el nivel de interés al responder. En el caso de ENLACE no se cuenta con una justificación metodológica para el dimensionamiento de la prueba (número de reactivos) y de sus partes, porque las tablas de especificaciones están definidas en número de ítems y no de ponderaciones, ni se tiene un estimado del error teórico propuesto. Tampoco se presenta un estudio específico sobre fatiga de los estudiantes que se relacione directamente con el tamaño de la prueba.

4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios y el dominio curricular definidos.

tt Para

especificar el dominio a evaluar se presenta un análisis lógico y empírico de la representación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular completo.

El análisis de reactivos se orienta desde dos perspectivas: lógica y empírica. La primera de ellas se apoya en la participación de comités de jueces (especialistas en contenidos, docentes frente a grupo, especialistas en medición/evaluación…), que deben valorar características tales como la representatividad del ítem respecto del contenido a evaluar, su calidad técnica (independencia de errores sistemáticos), su independencia de sesgo, etc. Por tanto afecta de manera directa la validez de contenido de la prueba. Las comprobaciones empíricas pretenden aportar información acerca de si los ítems se comportan de acuerdo con la estructuración dimensional teórica que haya orientado el desarrollo de la prueba. Se solapa, en parte, con el análisis que deviene de los ensayos piloto, aunque en este punto enfatizamos el análisis respecto a la revisión lógica, dado que el segundo aspecto se trata también en el apartado de desarrollo de la prueba. En el apartado 2.3, Diseño, producción, calibración y piloteo de los reactivos del Manual de ENLACE (2013), se indica que: …La producción de los reactivos de la prueba pasa por estas fases: construcción (a cargo de especialistas de contenido), validación (encargada a jueces expertos, independientes de los diseñadores y constructores), piloteo y calibración (aplicación en condiciones controladas de muestras de reactivos a estudiantes del grado siguiente al de la población objeto Alineación a los referentes

35

Las pruebas ENLACE para educación básica

y análisis de la calidad de los reactivos por medio de modelos psicométricos). Finalmente, los reactivos que pasan exitosamente todos estos procesos, se incorporan al banco de reactivos… Para la validación se sigue un modelo de emisión de dictamen por jueces, que son expertos en contenido, quienes se encargan de determinar la calidad individual y colectiva de los reactivos construidos; deben verificar que cada uno responda a las normas de construcción y que, en su conjunto, constituyan una muestra representativa y suficiente del dominio de conocimientos a evaluar (p.23). A este respecto, y centrándonos en la revisión lógica, hay que señalar los siguientes aspectos: • Se hace referencia a que la construcción la realizan expertos en contenido (no se indica nada respecto a la participación de otro tipo de especialistas). • Tampoco se indica el modo en que se seleccionaron los jueces ni sus perfiles, aspecto importante cuando se trata de diseñar una prueba nacional que deba funcionar con equidad en un país tan diverso sociocultural y económicamente. • Tampoco se aporta información acerca de la metodología de jueceo (características a valorar en los ítems, criterios de toma de decisiones…) • No se ha encontrado referencia alguna en los manuales técnicos de ENLACE o en los anexos y documentos presentados, sobre los criterios y procedimientos que empleó la DGDC, o bien la DGEP, para analizar la representación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular completo cuyo dominio fue evaluado en cada edición de la prueba. • Respecto a la representatividad de subescalas o subdominios, las tablas anteriores y otras que se muestran en los manuales técnicos de ENLACE ofrecen fragmentos y ejemplos de subdominios referidos a dominio del currículum vigente, para los que se indica en cada caso un determinado número de ítems destinados a evaluar el dominio de los contenidos correspondientes. Sin embargo, con excepción de los manuales 2007 y 2013, en las demás ediciones de la prueba no se cuenta con evidencia suficiente para emitir un juicio de valor fundado sobre la representatividad de ítems y subescalas respecto a los subdominios y el dominio curricular completo que fueron definidos por la DGDC o la DGEP. Respecto a comprobaciones empíricas que pudieran aportar información acerca de si los ítems se comportan de acuerdo con la estructuración dimensional teórica que haya orientado el desarrollo de la prueba, como se observó en el segundo subcriterio del criterio anterior, la representatividad de ítems y escalas respecto a los subdominios y el dominio curricular completo, que se basó en operaciones de juicios, pudo haberse complementado con estudios empíricos y estadísticos como el análisis factorial confirmatorio o el modelamiento de ecuaciones estructurales, a fin de observar la pertinencia de la estructura de contenidos propuesta por los especialistas.

5. Se cuida la alineación en lo relativo a la complejidad cognitiva del contenido.

tt Se

utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de los ítems, en relación con lo establecido en el currículo. tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad cognitiva real corresponda a la esperada.

36

En cualquier prueba de rendimiento o logro académico, un elemento fundamental en su elaboración es la determinación de un modelo taxonómico o sistema de clasificación, que permita regular el grado de demanda cognitiva que supone para el alumnado cada contenido en la forma en que es evaluado. La relación de lo que se espera a nivel curricular y el modo en que se evalúa es clave para la validación de contenido. En este sentido, en los manuales técnicos de ENLACE se establece que el modelo de especificaciones se organiza en tres dimensiones explícitas y una categoría implícita, y que la segunda dimensión explícita corresponde a niveles de complejidad, definidos por una taxonomía o clasificación de demandas cognitivas. El Manual de ENLACE 2013, por ejemplo, dice: “La segunda dimensión explícita corresponde a los niveles de complejidad, definidos por una taxonomía o por una clasificación de las demandas cognitivas. Esta dimensión es necesaria para definir la dosificación de reactivos con la cual construir el Banco Nacional de Reactivos y la organización de la prueba misma” (p.97). Además, se establece que al definir los enunciados de la tabla de especificaciones, se deben usar redacciones en términos operativos no siendo admisibles descripciones de contenidos aislados (uso genérico del tipo “uso de signos de puntuación”); los enunciados deben detallar el propósito y alcance de la prueba y deben referirse a un componente de habilidad o de competencia, o sea la habilidad subyacente o constructo en términos de nivel taxonómico. De igual modo, los manuales técnicos señalan que para la construcción de los reactivos de ENLACE se exigen normas por parte de la DGEP a los diseñadores, entre las cuales se indica que los reactivos deben corresponder al objetivo y nivel taxonómico asignados en la tabla de especificaciones, que la taxonomía que se debe utilizar es la propuesta por Benjamín Bloom y que infringir esta norma representa un error crítico. De hecho las tablas de especificaciones de varios exámenes incluyen una columna donde se especifica el nivel al que debe dominarse cada contenido, como se ilustra en la siguiente tabla.

Cuadro 1.12

Fuente: Manual Técnico de ENL ACE 2008

Alineación a los referentes

37

Las pruebas ENLACE para educación básica

No obstante, como se puede apreciar en varias de las tablas que se han mostrado hasta ahora y en la gran mayoría de las tablas que se presentan en los manuales técnicos, queda claro que no es necesariamente en las tablas de especificaciones de las pruebas donde se especifican los niveles de demanda cognitiva que deben tener los ítems para evaluar el dominio de los contenidos según lo establece el currículum. En consecuencia, la tarea de definir el nivel cognitivo al que se debe dominar cada contenido parece haber recaído en los elaboradores de los ítems, quienes debieron interpretar el contenido y establecer el nivel de demanda cognitiva que le correspondía. En todo caso, de lo que sí hay evidencia en los manuales técnicos de ENLACE de 2009, 2010 y 2011, es que cada ítem tuvo asignado un nivel taxonómico, el cual quedó registrado en la base de datos del Banco Nacional de Reactivos en la sección denominada “Ficha técnica del reactivo”, como puede apreciarse en la figura que se presenta en el cuadro 1.13.

Cuadro 1.13

Fuente: Banco Nacional de Reactivos de ENL ACE (2010)

38

Finalmente, no existe evidencia o alguna referencia en los manuales técnicos de ENLACE , sus anexos o los documentos referidos, respecto al uso de protocolos verbales con examinados para analizar la complejidad cognitiva de los ítems.

ESPECIFICACIÓN, GENERACIÓN Y ESCRITURA DE ÍTEMS 6. Existe un documento, manual o guía de redacción o diseño de reactivos en el que se especifican y justifican los procedimientos para formularlos.

Otro elemento básico a tener en cuenta en el diseño de pruebas es la redacción de ítems. Ciertamente los reactivos deben representar las unidades del dominio educativo (universo de medida) que se consideran relevantes en la evaluación como muestra del desempeño. Para que ese objetivo se cumpla es importante que se estructure el procedimiento de escritura de ítems, de manera que se atienda con rigor si los reactivos representan el contenido a evaluar y si éstos se adaptan al nivel de desempeño que se espera que pueda darse en la enseñanza como expresión de las oportunidades de aprendizaje que se brindan a los alumnos. Por ello es fundamental que los escritores de reactivos tengan una formación adecuada y referentes claros que les permitan homogeneizar la producción de ítems y ajustarla a los niveles de calidad requeridos. Para conseguir este cometido, el procedimiento más adecuado es que se disponga de un Manual de Escritura de Reactivos, diseñado al efecto (ajustado al propósito y contenido de la prueba a diseñar), y que contenga todos los elementos necesarios para que los diseñadores de reactivos puedan llegar a interiorizar el tipo de producción de ítems que se espera de ellos. Así, deben incluirse suficientes recomendaciones y ejemplos. Al respecto, los criterios que hemos considerado en el comité se describen y comentan a continuación. tt El

manual describe y da ejemplos de todos los tipos de reactivos que tendrá la prueba, indicando cómo clasificarlos y justificarlos y haciendo referencia a la relevancia de las respuestas de los examinados para el dominio pretendido.

En la documentación aportada por la DGEP, se mencionan los siguientes documentos: Normas para la Construcción de Reactivos de Opción Múltiple; Normas de Presentación y Estilo; y, Normas para la Presentación y el Estilo en la Redacción de Reactivos de Opción Múltiple. En el documento de Normas para la Construcción de Reactivos de Opción Múltiple, a través de cinco páginas se aportan normas y recomendaciones para el diseño de este tipo de reactivos. El documento fue elaborado por la DGEP, si bien parece contener recomendaciones genéricas, y no dispone de ejemplos que apoyen la exposición de las normas, por lo que parece que se ha extraído de algún manual genérico. Se cuenta con recomendaciones para el diseño del reactivo, de la base y de las opciones, pero con referencia a otros documentos normativos, algunos de los cuales no están disponibles. En todos Alineación a los referentes

39

Las pruebas ENLACE para educación básica

los manuales técnicos se indica que “Para la construcción de los reactivos… se exigen normas por parte de la DGEP para los diseñadores. El incumplimiento de las normas para la construcción de reactivos genera tres tipos de errores… menores, mayores y críticos” y se hace referencia a estas normas (como se dijo varias de ellas no disponibles): planteamiento de los reactivos, planteamiento de la base, planteamiento de las opciones. Al respecto se citan como referencias: Manual de gestión de la calidad, Norma (ISO 9001:2000) NMX-CC-9001:2000 IMNC Sistema de Gestión de la Calidad, Normas para la Construcción de Reactivos de Opción Múltiple, Normas de Presentación y Estilo, Normas para la Presentación y el Estilo en la redacción de Reactivos de Opción Múltiple, y Elaboración de instrumentos de Medición. La documentación faltante es fundamental para respaldar este punto, porque se pueden encontrar otros portales de Internet con materiales de estudio preparados por la SEP, con enfoque didáctico, pero no fueron proporcionados para este proyecto, siendo información a revisar en cuanto a pertinencia y vigencia. También en el Manual Técnico 2012 se hace una referencia al análisis dimensional de los dominios en función de una taxonomía, que es necesaria para distinguir entre los diferentes niveles de complejidad de los reactivos que, a su vez, se asocia con la demanda cognitiva de la prueba en cada una de las subáreas. La taxonomía se explica a los diseñadores de reactivos y a los revisores, pero la relación con la lista de desempeños parece desvinculada o parcial. Esto es de importancia porque se indica que: “Los reactivos que se construyen deben corresponder al objetivo y nivel taxonómico asignados en la tabla de especificaciones. Infringir esta norma representa un error crítico” (p.90). Así, no hay evidencia suficiente de que se den pautas a los diseñadores de reactivos para justificar y clasificarlos, ni respecto al modo en que se evidencie la relevancia de las respuestas de los examinados. tt El

manual usa tablas o modelos de especificaciones precisas como guía para homogeneizar el diseño de los tipos de ítems: formato o documento donde los diseñadores de reactivos hagan la captura y la modificación.

En el Manual Técnico 2007 se muestra un formato para la captura del reactivo (ver cuadro 1.14) que se denomina Ficha técnica del reactivo. Aunque dicho formato ya no aparece en los manuales posteriores, es el que se siguió utilizando para registrar después el ítem elaborado en el banco de reactivos (ver cuadros 1.13, 1.15 y 1.16), el cual ha cambiado de formato con el tiempo y sirve a su vez como el insumo principal que utilizan después los jueces-revisores al evaluar los reactivos.

40

Cuadro 1.14 ASIGNATURA:

NIVEL:

GRADO:

NÚMERO DE EXAMEN:

TIPO DE TEXTO:

CONTENIDOS CURRICULARES:

QUÉ EVALUAR:

PROPÓSITO:

FECHA:

AUTOR:

REACTIVO: A) B) C) D) JUSTIFICACIÓN: A) B) C) D) NÚM. INVENTARIO: Fuente: Manual Técnico de ENL ACE 2007

Cuadro 1.15

Fuente: Banco Nacional de Reactivos de ENL ACE (2006)

Alineación a los referentes

41

Las pruebas ENLACE para educación básica

Cuadro 1.16

Fuente: Banco Nacional de Reactivos de ENL ACE (2013)

42

tt El

manual fue desarrollado especialmente para la prueba de que se trate y tiene en cuenta sus particularidades; no es aceptable un manual genérico o tomado de otro sistema de evaluación.

En los manuales técnicos de ENLACE hay información básica sobre las clases de reactivos: individual, padres, hijos, pero no se cuenta con documentos citados en ellos y que se supone se entregan a los diseñadores y revisores de ítems, donde posiblemente se encuentra esta información específica. El documento sobre Normas para la Construcción de Reactivos de Opción Múltiple, está suscrito por la DGEP. Los restantes documentos mencionados son generales sobre orientaciones de calidad y desarrollo de pruebas, pero no contienen referencias específicas para el diseño de reactivos. Con todo, su contenido es genérico, reflejando normativas usuales que pueden encontrarse en manuales de medición en general o de diseño de reactivos en particular, por lo que no se advierte una especificación suficiente que relacione el planteamiento de normas y recomendaciones de manera particular para las pruebas ENLACE .

7. Los reactivos son diseñados por un comité seleccionado teniendo en cuenta la especialización académica, laboral y su representatividad respecto a la diversidad del país, y estuvo coordinado por una persona calificada en medición y evaluación

Los expertos en diseño de ítems como Guttman (1969), Bormuth (1970), Hively (1974), Roid y Haladyna (1982), Haladyna y Downing (1988), Tiemann y Markle (1990), Solano-Flores (1993), y Downing y Haladyna (2006) establecen que, para propiciar el desarrollo de tareas evaluativas válidas, en el grupo que elabore los ítems debe haber personas con el perfil profesional, académico, laboral y sociocultural adecuado, incluyendo: • Especialistas en el contenido curricular del área, asignatura y materia cuyo dominio se evalúa: analistas, asesores técnicos y consultores académicos. • Especialistas en operación del currículo en escuelas y aulas, como directivos escolares y profesores en servicio con experiencia y reconocidos. • Especialistas en lingüística, para velar que los usos del lenguaje no incrementen innecesariamente la complejidad de los ítems. • Especialistas en teoría cognitiva del aprendizaje, para cuidar que no se altere la complejidad cognitiva pretendida de los ítems. • Especialistas en la disciplina del dominio curricular que se evalúa, para vigilar que no se afecte el conocimiento disciplinario. • Representantes de grupos sociales que potencialmente pueden verse afectados por los ítems y la prueba, para identificar ofensa, penalización injusta y sesgo socioeconómico y cultural en los ítems. • Expertos en evaluación y medición educativas, que coordinan los trabajos del grupo y supervisan el apego a estándares psicométricos. Además de cuidar su perfil y representatividad debe proporcionarse una capacitación técnica a los elaboradores de ítems, la cual incluye contextualizar su participación dentro del proceso general para desarrollar el examen y revisar a profundidad los materiales elaborados por los Alineación a los referentes

43

Las pruebas ENLACE para educación básica

grupos que realizaron previamente la planeación de las pruebas, como las tablas de especificaciones de cada examen y las correspondientes especificaciones de ítems. También incluye revisar aspectos conceptuales y metódicos necesarios para el desarrollo de los reactivos, como la elaboración de cada ítem de conformidad estricta con su correspondiente especificación, el uso de reglas de escritura y revisión de las preguntas del examen y de reactivos de opción múltiple, los métodos para generar ítems equivalentes, el análisis de conceptos y procedimientos y el uso taxonomías del dominio cognoscitivo, todo ello para armar una tarea evaluativa que resulte válida para explorar el dominio de cada contenido que se juzgó importante evaluar. Por último, la capacitación del grupo de elaboradores de ítems incluye disponer de materiales específicos como manual de capacitación, formatos y otros elementos necesarios para el desarrollo de los ítems. tt El

comité fue formado específicamente para realizar su labor, considerando todos los elementos característicos del tipo de prueba a diseñar.

En todos los manuales técnicos se indica la integración del comité de diseñadores de ítems, pero no se cuenta con una lista detallada que indique su representatividad, ni los antecedentes académicos y laborales de cada especialista, lo cual ayudaría mucho a verificar el nivel de contundencia de las evidencias disponibles. Al respecto, se sabe que los elaboradores de ítems fueron siempre personal externo a la DGEP, pues en todos los manuales (2007, p. 4- 29; 2008, p. 4-29; 2009, p. 99; 2010, p. 97; 2011, p. 83; 2012, p. 85; y 2013, p.105) se afirma que “Los reactivos que integran las pruebas de ENLACE fueron elaborados por personal contratado por la DGEP conforme a las normas establecidas al respecto por esta misma dependencia”. En todos los manuales se afirma, además, que: … la fase de elaboración de reactivos implicó la conformación… de grupos de trabajo… por cada asignatura (Español y Matemáticas y la tercera asignatura rotativa)… cada grupo se dividió en subgrupos para atender los grados escolares contemplados en el proyecto… se nombró un coordinador por cada asignatura y un responsable por cada grado/asignatura. Sin embargo, no se cuenta con evidencia que lo confirme. En cuanto a la metodología que utilizaron para diseñar los ítems, en los manuales se afirma que: “Sin excepción, los grupos de trabajo abordaron la elaboración de reactivos de acuerdo con las siguientes etapas: 1. Análisis de las tablas de especificaciones. 2. Elaboración de reactivos. 3. Discusión de reactivos. 4. Integración de los reactivos al banco. En el MT de 2013 (p: 82) se describen brevemente las fases de desarrollo de la prueba (ver cuadro I.17), pero no se aporta información específica sobre los procesos que venimos comentando. Aunque se describen brevemente tales etapas, poco se sabe sobre cómo fueron capacitados esos grupos, cómo desarrollaron su trabajo o qué materiales técnicos utilizaron para apoyar sus actividades. Al respecto, las únicas evidencias disponibles son el breve manual del trabajo de los especialistas ya mencionado y el producto de su trabajo; es decir los ítems elaborados que se ilustran en los manuales y los que aparecieron en la página web de la DGEP tras haber sido liberados todos los ítems. 44

Cuadro 1.17 Extracto de las fases aquí analizadas

Fuente: Manual Técnico de ENL ACE 2013.

tt La

capacitación de los redactores de ítems incluyó procesos metodológicos y referencias a las taxonomías o sistemas de clasificación cognitiva usados para especificar el dominio a evaluar.

Como ya se señaló, aunque se definió el uso de la taxonomía de Bloom no todas las tablas de especificaciones de las pruebas que aparecen en los manuales técnicos incluyen una columna donde se establezca el nivel taxonómico asociado a cada contenido. También llama la atención el hecho de que se mencione la taxonomía de Bloom como referencia, y no su revisión más actualizada, que simplifica y facilita el diseño de pruebas (Anderson y Krathwohl, 2001). Una de las críticas más frecuentes que se ha hecho a la Taxonomía de Bloom es su complejidad para ser aprovechada particularmente por el profesorado para el diseño de pruebas. Aspecto que mejora sustancialmente la revisión de Anderson y Krathwohl. En consecuencia, la definición del nivel cognitivo al que se debe dominar cada contenido parece haber sido en última instancia responsabilidad de los elaboradores de los ítems, quienes para ello debieron interpretar el contenido y establecer el nivel de demanda cognitiva que le correspondía. Además de las pocas tablas que incluyen la columna con los niveles taxonómicos, en todos los manuales técnicos se observa que cada ítem tuvo asignado un nivel taxonómico, el cual como ya se dijo quedó registrado en la base de datos del Banco Nacional de Reactivos en la sección Ficha técnica del Reactivo, como puede apreciarse en los cuadros 1.13 y 1.18.

Control de la calidad de los ítems por el comité de revisión La validación de ítems mediante juicios de expertos es una etapa fundamental del proceso de desarrollo de instrumentos de evaluación del aprendizaje que ha sido ampliamente documentada por diversos autores (Hambleton, 1993; Nitko, 1994, 1995; Popham, 1990; Jornet y Suárez, 1990; Solano-Flores et al., 2001; 2003), los cuales definen un perfil de especialistas similar al de quienes desarrollan los ítems, mismos que en conjunto representen la disciplina involucrada, el currículum cuyo dominio se evalúa, la operación curricular en aulas y escuela, la lingüística, la teoría cognoscitiva, la psicometría y los grupos socioculturales que puedan ser afectados por el tratamiento que se dio a los ítems de la prueba.

Alineación a los referentes

45

Las pruebas ENLACE para educación básica

Las principales acciones que deben realizar dichos especialistas incluyen analizar cuidadosamente el alineamiento de cada uno de los reactivos elaborados con la correspondiente especificación de ítems que lo produjo, así como la correspondencia de ambos con el currículum y con los demás productos de la planeación del examen. Además deberán detectar en cada ítem los errores de naturaleza conceptual, fallas al cumplir la normatividad de la redacción técnica, sesgos, complejidad cognitiva innecesaria, falta de representatividad curricular y otras fallas que pueden presentar, así como de manera congruente y responsable sugerir modificaciones en los reactivos que permitan mejorarlos. En definitiva, se trata de que un comité independiente del anterior, revise cuidadosamente los reactivos con la finalidad de liberarlos de posibles errores sistemáticos.

Existe un manual o guía para el análisis de reactivos que señala los criterios de aceptación, revisión y modificación.

La capacitación del grupo de jueces que evalúa los ítems requiere disponer de un manual que incluya protocolos y criterios de trabajo para revisar aspectos técnicos de orden conceptual y procedimental sobre validación de ítems, como son los tipos de evidencias de validez relacionadas con el proceso de validación de ítems y los métodos que se pueden emplear para obtener tales evidencias; la estructura del formato de evaluación que emplearán; los lineamientos normativos a que deberán ajustarse y los procedimientos específicos que utilizarán para llevar a cabo la evaluación. Un aspecto adicional a considerar cuando se trabaja con comités de juicio es la identificación de la composición de los mismos, señalando roles y aspectos a considerar por cada comité. Por ejemplo, en el análisis de congruencia ítem-objetivo pueden priorizarse especialistas en currículum que, a su vez, puedan valorar claramente si los niveles de demanda cognitiva que se plantean en los reactivos corresponden a los del currículum previsto. En el caso de docentes frente a grupo, pueden valorar la claridad de la formulación, y si los reactivos representan adecuadamente los niveles de demanda cognitiva que corresponden a las oportunidades de aprendizaje que se proporcionan en las aulas, y así sucesivamente. En todos los casos es necesario que un especialista en medición/evaluación coordine los procesos de los comités y asesore, en caso de duda, a los jueces. Por ello, la estructura de los comités es importante considerarla y plasmarla en relación con las tareas que han realizado cada uno de ellos. De la buena asociación entre estructura y tipología de comité y tarea asignada, deviene buena parte de la consecución de validez de los reactivos. tt Presenta

la estructura con las funciones representadas en el comité evaluador.

No hemos encontrado evidencias documentales en las que se plasme la estrategia de composición de comités, ni su relación con las tareas asignadas. No obstante, y como comentamos en el punto siguiente, sí que se recaban las especialidades de los jueces (aspecto que queda documentado en el sistema informático que se desarrolló para capturar las valoraciones de reactivos). Con todo, entendemos que muy posiblemente la composición de comités dependiera de criterios de oportunidad (dado que se advierte en todo el proceso la necesidad de responder con urgencia a las demandas de diseño de la prueba), como selección de especialistas y profesorado disponible, relacionado con la SEP o alguna institución que colaborara en la tarea. 46

tt El

manual describe procedimientos/criterios para revisar ítems por jueceo.

Entre los documentos aportados por la DGEP se incluyen dos de ellos relacionados específicamente con este aspecto: el Manual del usuario juez y una síntesis de las opiniones de un grupo de jueces que elaboraron un dictamen sobre los ítems de una prueba. El Manual de usuario-Juez es un documento de 14 páginas que ofrece una guía para apoyar al usuario del Sistema Nacional de Reactivos, de manera que pueda darse de alta en el sistema informático y navegar por la aplicación a fin de ingresar, incorporar sus datos personales y laborales para establecer su perfil como juez, e ingresar al área donde puede localizar los ítems asignados que le corresponde dictaminar, así como registrar sus juicios sobre cada uno de ellos. Para efectuar esto último, se le indica que debe seleccionar sus respuestas a las preguntas presentadas, seleccionar un dictamen entre varios posibles (Aceptado, Aceptado con observaciones y Rechazado), agregar una observación y activar la emisión del dictamen. Aunque en realidad no se trata de un manual técnico para la capacitación del grupo de jueces que incluya aspectos conceptuales, procedimientos, criterios y otros de los elementos antes mencionados que son necesarios para la validación de ítems, se observa que hay algunos temas que están relacionados. Por ejemplo, en las cuadros 1.18 y 1.19 aparecen dos secciones de la interfaz que muestran ciertos aspectos que forman parte del proceso de validación de ítems mediante juicios, como el nombre del contenido cuyo dominio evalúa el ítem, el nivel taxonómico, si se trata de un multireactivo y por ello depende de información contextual. Además incluye tres secciones de preguntas: generales sobre el ítem, sobre la base de ítem y sobre las opciones de respuesta (en el cuadro 1.18), así como una ilustración del tipo de preguntas que debe responder el juez y la forma en que debe responderlas (en el cuadro 1.19). Respecto al documento “Síntesis de opiniones jueces-dictamen”, aunque en él no se ofrece mucha información al parecer presenta la forma en que se calculó el grado de acuerdo entre los juicios formulados por tres jueces que elaboraron un dictamen sobre cada uno de los ítems de una prueba. Como puede observarse en el cuadro 20, para cada ítem se promedió la suma de los dictámenes de los jueces y el resultado determinó finalmente el rechazo o la aceptación del ítem. No obstante, en el trabajo con comités de juicio hay que tener en cuenta que se trabaja con un número reducido de observaciones, por lo que la síntesis basada en el promedio no es habitualmente el descriptivo de elección. De usarse, es conveniente que se acompañe del Cociente de Variación, que nos aportaría información acerca del grado de variabilidad de las respuestas de los jueces a cada reactivo. Ello ayuda a decidir acerca de si el acuerdo mostrado por el promedio es representativo o no. En caso de que no sea así, suele optarse por la mediana o, incluso, por la moda. Asimismo, es conveniente que se incluya un análisis de consistencia de jueces, al menos para grupos de reactivos que midan áreas de contenido, por ejemplo, cuando valoran ítems de aritmética, o de geometría. Esa medida de consistencia puede sustentarse en la Correlación Intraclase entre jueces, en el coeficiente de concordancia W de Kendall, en la Kappa de Cohen o en un análisis logístico de facetas. No hemos encontrado evidencia documental acerca de este tipo de acercamiento, por lo que puede entenderse que la síntesis de juicio se ha basado en aproximaciones débiles, y que ha estado poco trabajada para una prueba de alto impacto. Alineación a los referentes

47

Las pruebas ENLACE para educación básica

Cuadro 1.18

Fuente: Sistema informático de la DGEP. Manual del usuario-juez

Cuadro 1.19

Fuente: Sistema informático de la UPEPE . Manual del usuario-juez

48

Respecto al documento “Síntesis de opiniones jueces-dictamen”, aunque en él no se ofrece mucha información al parecer presenta la forma en que se calculó el grado de acuerdo entre los juicios formulados por tres jueces que elaboraron un dictamen sobre cada uno de los ítems de una prueba. Como puede observarse en el cuadro 1.20, para cada ítem se promedió la suma de los dictámenes de los jueces y el resultado determinó finalmente el rechazo o la aceptación del ítem. No obstante, en el trabajo con comités de juicio hay que tener en cuenta que se trabaja con un número reducido de observaciones, por lo que la síntesis basada en el promedio no es habitualmente el descriptivo de elección. De usarse, es conveniente que se acompañe del Cociente de Variación, que nos aportaría información acerca del grado de variabilidad de las respuestas de los jueces a cada reactivo. Ello ayuda a decidir acerca de si el acuerdo mostrado por el promedio es representativo o no. En caso de que no sea así, suele optarse por la mediana o, incluso, por la moda. Asimismo, es conveniente que se incluya un análisis de consistencia de jueces, al menos para grupos de reactivos que midan áreas de contenido, por ejemplo, cuando valoran ítems de aritmética, o de geometría. Esa medida de consistencia puede sustentarse en la Correlación Intraclase entre jueces, en el coeficiente de concordancia W de Kendall, en la Kappa de Cohen o en un análisis logístico de facetas. No hemos encontrado evidencia documental acerca de este tipo de acercamiento, por lo que puede entenderse que la síntesis de juicio se ha basado en aproximaciones débiles, y que ha estado poco trabajada para una prueba de alto impacto. Cuadro 1.20

Fuente: Documento “Síntesis de opiniones jueces-dictamen”, aportado por la DGEP.

9. Hay un comité de revisión calificado para aplicar lo que define el manual.

Otro factor clave para trabajar en pro de la validez de los reactivos y la prueba, es la cualificación de los integrantes de los comités de revisión. Alineación a los referentes

49

Las pruebas ENLACE para educación básica

La cualificación, en este caso, entendemos que se apoya, al menos, en tres grandes factores: a) profesional (dependiendo de la tarea a realizar, deberían ser especialistas en currículum, profesorado frente a grupo –con experiencia y formación evaluativa–, lingüistas…), y b) diversidad geográfica (como garantía para representar la diversidad de situaciones socioculturales, económicas y escolares de México), y c) diversidad en cuanto a modalidad educativa en que realizan su trabajo –en el caso de profesorado frente a grupo– (como garantía para representar adecuadamente los factores característicos que pueden influir o darse en cada modalidad). De este modo, los criterios de selección de revisores deberían contemplar al menos los factores mencionados. tt Se

utilizaron criterios de selección de jueces con un perfil académico y laboral preciso y con representatividad de la diversidad del país.

Se debe suponer que los evaluadores son representativos y experimentados, especialistas en las asignaturas, con experiencia en evaluación, construcción y análisis de reactivos. Al respecto los manuales técnicos señalan: “el jueceo se ha realizado con la participación de profesores de las 32 entidades federativas del país, además de profesores del SNTE y de las Áreas Estatales de Evaluación” (MT 2012: 93; 2013:113). También señalan que en los talleres de jueceo “se ha contado con la participación de personal de la Sociedad Matemática Mexicana, de la Dirección General de Desarrollo Curricular, del SNTE y del INEE” (MT 2012: 94; 2013:113). Se indica además que hasta 2008 el INEE definió el perfil de los jueces, proporcionó el software para la validación y coordinó el proceso de jueceo de reactivos, que la DGEP coordinó los trabajos y junto con el ILCE se sistematizó el proceso (MT 08: págs. 4-40 a 4-44), y que en años 2012 y 2013 el proceso de validación de reactivos fue llevado por la Subsecretaría de Educación Básica, y que la DGEP se ocupó de sistematizar la información resultante (MT 2013:86). En los manuales técnicos se señala la participación numerosa de especialistas de asignatura capacitados para ser diseñadores y validadores, pero no se proporcionan listas de los jueces, ni tampoco hay evidencias del programa de capacitación, como el temario o el número de horas de cada taller. No obstante, en el Manual Técnico 2008 se detalla un procedimiento desarrollado por el INEE que se operó con 55 profesores de 32 entidades para revisar: 1) representatividad del dominio de los contenidos curriculares, 2) formulación de cada reactivo, 3) presencia de sesgos (MT08: págs. 4-40 a 4-44). tt El

comité de revisión está formado por jueces diferentes al del de escritura de ítems.

Aunque no existen pruebas documentales de la tipología de comités y su composición concreta, se entiende que este criterio se tuvo en cuenta, a partir de los documentos observados (MT, documentación de revisores). No obstante, es evidente la debilidad de la falta de estructuración y documentación disponible al respecto. tt Se

detalla el procedimiento que se siguió para capacitar a los evaluadores.

Más allá de los documentos mencionados en puntos anteriores acerca de la existencia de un documento para apoyar la redacción de reactivos de elección múltiple, y del procedimiento desarrollado por el INEE hasta 2008 para revisar la representatividad del dominio de los contenidos curriculares, la formulación de cada reactivo y la presencia de sesgos (MT08: págs. 4-40 a

50

4-44), no se ha encontrado evidencia documental acerca de los procesos que se llevaron a cabo para capacitar a los evaluadores de reactivos. Únicamente se ha observado la plataforma de captura de información que se les facilitaba, en la que existen indicaciones acerca de los elementos de los reactivos a revisar (base, alternativas –distractores–…), pero no se incluyen criterios definidos, ni ejemplos de buenas y deficientes prácticas de elaboración de reactivos.

10. El sistema de revisión lógica de cada ítem incluye:

tt Análisis

de calidad técnica: claridad en la formulación, adecuación al marco de prueba. de la congruencia ítem-contenido o ítem-objetivo (subdominio). tt Análisis de posibles fuentes de sesgo de cada reactivo: género, diversidad cultural y otras. tt Análisis de concordancia de juicio para la selección de reactivos o procedimientos para estimar la confiabilidad de los juicios de los evaluadores. tt Análisis

La revisión lógica de reactivos es un aspecto central para asegurar la validez. Se trata de eliminar posibles errores sistemáticos, previamente a su pilotaje. En cualquier caso, la revisión de reactivos puede realizarse de diversas maneras: analíticas o sintéticas. En las pruebas de alto impacto, que son referencia acerca de niveles de personas, y que se aplican a gran escala (en contextos socioculturales, económicos y escolares muy diversos), el enfoque más adecuado es el analítico, en que se guía la revisión a realizar aportando a los jueces revisores criterios específicos sobre los cuáles centrar su atención al revisar los reactivos. Así, se atienden tanto características de calidad técnica (formulación, base del ítem, existencia de respuesta correcta, calidad de distractores…), como su adecuación a la unidad del dominio curricular que pretender medir, y la posibilidad de detectar elementos socioculturales y lingüísticos que puedan ser fuente de funcionamiento diferencial de ítems (DIF ) y, en su caso, puedan considerarse sesgos (como factores indeseables en las pruebas que afectan a la justicia y equidad de la evaluación). En el caso de ENLACE, revisando la documentación y manuales técnicos, si bien se aprecia una fase de revisión de reactivos, no se especifica una guía de criterios en los cuales sustentar la revisión. Como ya se indicó, en los manuales técnicos se menciona que los elementos a revisar son la representatividad del dominio de los contenidos curriculares, la formulación de cada reactivo y la presencia de sesgos. También se señala que hay criterios de congruencia de los ítems a revisar y la congruencia entre los contenidos y los programas. Además se refieren criterios para aceptar, modificar, dejar sin observaciones o rechazar los ítems y lo mismo para los reactivos de las pruebas matriciales, pero hay el inconveniente de que a partir de 2012 ya no se realizó el taller de jueceo, sino que los reactivos fueron sometidos a un proceso de validación directa por la Subsecretaría de Educación Básica de la SEP (en 2012) o de la DGEP (en 2013).

Alineación a los referentes

51

Las pruebas ENLACE para educación básica

Por ello, al no encontrar evidencia documental suficiente al respecto, entendemos que el enfoque de revisión que se ha utilizado ha sido sintético, es decir, una valoración de cada reactivo en cuanto a sus características de definición (base, alternativas…), pero que no se ha guiado en función de ninguna especificación diferencial de criterios. De hecho, en el formulario de síntesis que se aporta como documento de reporte de la revisión de reactivos, cada juez otorga una única valoración al reactivo (aceptación/revisión/rechazo), si bien en observaciones puede explicitar los motivos de la decisión, y elementos de mejora. Con todo, entendemos que es una debilidad en el diseño de la prueba. Por otra parte, no se cuenta con análisis de sesgo, DIF, habilidad lectora o velocidad de lectura respecto de la prueba y otras implicaciones que son parte sustancial de la identificación de la calidad métrica de la prueba, por una parte, y por otra como demostración de que no se inducen errores sistemáticos en contra de personas o grupos en particular. Los análisis de DIF o DPF (funcionamiento diferencial de ítems o de personas), están pendientes desde el MT 2007, donde fue señalada su necesidad; por ello no se tiene la justificación de que no se necesita hacer una equivalencia o análisis contextual por sexo, modalidad escolar, región o poblaciones específicas, uso de lenguaje o gráficas específicas. En el MT (2012:60) se afirma que la SEP encarga estudios especiales a agencias o instituciones de apoyo, pero no se cuenta con los reportes. Respecto a la estimación de la confiabilidad de los juicios de los evaluadores, ya observamos en el segundo subcriterio del criterio 8, la existencia del documento “Síntesis de opiniones juecesdictamen”, en el cual se presenta cómo se calculó el grado de acuerdo entre los juicios formulados por tres jueces que elaboraron el dictamen sobre cada ítem de la prueba, y en el cuadro I.20 se advierte que para cada ítem se promedió la suma de los dictámenes de los jueces y que el resultado determinó finalmente el rechazo o la aceptación del ítem. Sin embargo, como señalamos, la síntesis de juicio basada en el promedio es una aproximación débil a la confiabilidad de los juicios que no corresponde a una prueba de estas características.

11. Se cuida la alineación de la prueba en general.

El alineamiento de la prueba al currículum, junto con la relevancia y representatividad del conjunto de los ítems que la integran respecto al currículum, son los criterios fundamentales para asegurar la obtención de evidencias de validez relacionadas con el contenido del instrumento. Por ello constituyen los referentes principales para guiar tanto su desarrollo como su evaluación. La idea de alineamiento de la prueba hace referencia tanto a la correspondencia, como al ajuste o armonización entre los productos de su planeación. Así al evaluar el alineamiento de la prueba se busca, en particular, identificar la correspondencia y ajuste de cada ítem con la especificación que lo produjo; de ambos componentes con el contenido cuyo dominio se juzgó importante evaluar; y de los tres componentes con el subdominio en que se ubica el blanco curricular cuyo dominio se evalúa. En general, se busca determinar si el conjunto de ítems desarrollados se corresponden y armonizan con el conjunto de especificaciones de ítems a partir de los cuales se generaron; si ambos componentes permiten dar cuenta 52

del dominio del universo de medida que llamamos prueba; y si a su vez tales componentes y relaciones constituyen un cúmulo de evidencias que permiten hacer inferencias válidas acerca del dominio del universo de contenido que llamamos currículum. tt Tras

analizar los ítems del pilotaje y desechar los que no cumplan los criterios, se verifica que el contenido de las pruebas a aplicar corresponda al dominio curricular en todos los aspectos y niveles de demanda cognitiva planeados.

En los manuales se comenta que, dada la alta volatilidad de la prueba, en el pre-test se incluye una cantidad suficientemente grande de reactivos para piloteo a fin de poder calibrarlos, y con ello asegurar la construcción de las pruebas del año siguiente en condiciones de comparabilidad (MT 2012:24). Por otra parte, se indica que tras la validación que hacen los jueces de la calidad individual y colectiva de los reactivos construidos se verifica que, en su conjunto, constituyan una muestra representativa y suficiente del dominio de conocimientos a evaluar. (MT 2012:25). Además se señala que el equipo que opera las pruebas piloto se encarga de la revisión de la prueba y la construcción del examen, basándose en las especificaciones de los contenidos y en los criterios y las consideraciones estadísticas (MT 2012:60). Por otro lado se especifica que para la construcción de las pruebas definitivas se eligen los reactivos partiendo de las calibraciones de la validación y del piloteo, y que este trabajo es realizado por la DGEP y lo presenta a otras instancias del Consejo Técnico para su análisis y consenso. (MT 2012:65) En cuanto a la mención de algún procedimiento para garantizar que se preservan los niveles de demanda cognitiva de los ítems cuando sustituyen a otros que los tenían especificados pero fueron eliminados tras el pilotaje, no se encontró alguna indicación o referencia. tt Se

cuida la alineación ítems-test-currículum, ítems-test-estándares de interpretación y, de ser posible, ítems-test-enseñanza e ítems-test-evaluación en aula.

Todos los manuales técnicos, algunos documentos incluidos en el CD que entregó la DGEP y la página web de dicha dependencia, ofrecen varios tipos de evidencias que muestran que se cuidaron diferentes tipos de alineamiento. El estatus relativo de ciertas evidencias ya se comentó en puntos anteriores, como el caso de la elaboración de las tablas de especificaciones de las pruebas por parte de los diseñadores del currículum y su revisión en ocasiones por el personal de la DGEP, y en otras (por lo menos en las pruebas aplicadas en 2013) su elaboración por la DGEP y revisión a cargo la DGDC de la SEP (MT 2013: 21). También es el caso de los reactivos que se diseñaron a partir de especificaciones de ítems cuando estas fueron incluidas en dichas tablas y cuyo alineamiento se supone que fue revisado por los jueces que dictaminaron esos reactivos, así como del estudio que comisionó la DGEP a una instancia externa para analizar el currículum y detectar el contenido importante a evaluar que sirvió de base para que la DGEP estructurara las tablas de especificaciones que fueron revisadas posteriormente por especialistas de la DGDC, el cual se mencionó en el criterio 2 del presente documento. Alineación a los referentes

53

En estos y en muchos otros casos de observa preocupación por buscar la correspondencia y armonización de los ítems con la prueba y el currículum.

Las pruebas ENLACE para educación básica

En cuanto al alineamiento de los ítems y pruebas con aspectos de la operación curricular como la instrucción y la evaluación en el aula, no se incluyen evidencias acerca de que se haya estudiado la alineación de la formulación de reactivos con los modos en que se trabaja en el aula, ni en cuanto a la enseñanza, ni en relación al modo en que son habitualmente evaluados los estudiantes. Este aspecto es muy relevante, pues las distancias entre los enfoques metodológicos didácticos usuales y los modos de evaluación en el aula, pueden ser factores que expliquen diferencias en cuanto al desempeño del alumnado. Es, pues, una fuente de invalidez que no está controlada. Lo que sí pudimos observar en la página de la DGEP en Internet es una sección denominada Apoyos para el uso pedagógico de los resultados ENLACE , que contiene un documento para cada grado y materia evaluada, el cual está dirigido a los docentes e incluye cinco apartados donde se ofrecen datos de la medición practicada por ENLACE que se vinculan estrechamente con el trabajo en el aula. En esta sección se incluye un procedimiento que se recomienda para el diseño de estrategias didácticas a partir del análisis de las características técnicas de la prueba, como el grado de dificultad de los reactivos en cada subdominio curricular, los resultados obtenidos en la evaluación por los alumnos según la modalidad educativa y por opción de respuesta elegida en cada ítem (ver cuadro 1.21), así como orientaciones generales y sugerencias didácticas para utilizar la información en el aula. Sin embargo, este aspecto entendemos que está más relacionado con el intento de dar mayor utilidad al uso de los resultados de evaluación por parte del profesorado. Cuadro 1.21

Fuente: Página web de la DGEP : Sección Apoyos para el uso pedagógico de resultados ENL ACE.

54

tt Se

dispone de una metodología para demostrar la validez de contenido (cualitativa y cuantitativa) de la prueba. tt Se muestran evidencias para fundamentar la validez de contenido. La metodología para construir la prueba a partir de los bancos disponibles no parece estandarizada (por ejemplo por muestreo del banco de ítems, aleatorio, estratificado o de otro tipo, asociado a la tabla de validez de contenido), porque se aclara que “la construcción del instrumento es por elección a criterio del diseñador de la prueba, con el mejor reactivo posible”. Posteriormente la prueba pasa a revisión y validación de expertos para admitir que la muestra de ítems es pertinente, relevante y suficiente, según se establece en las especificaciones, pero esto no garantiza la distribución de ítems en la escala. Tomando en consideración los documentos proporcionados en cuanto a los procesos que se siguieron para la elaboración de los reactivos en particular y el diseño y estructuración de la prueba en general, al igual que los estadísticos calculados y presentados para documentar la confiabilidad y dimensionalidad de la prueba, podemos afirmar que se han encontrado pocas evidencias tanto cualitativas como cuantitativas respecto a la validez de contenido de la prueba.

CONCLUSIÓN Después de examinar la documentación que aportó la DGEP sobre las pruebas ENLACE desarrolladas entre 2006 y 2013, el grupo que examinó dichas evidencias mediante la aplicación de los criterios evaluativos considerados en este apartado, arribó a las siguientes conclusiones generales: 1. Las pruebas referidas a un criterio se sustentan en análisis pormenorizados del Dominio Educativo que requieren el concurso de comités de jueces constituidos de acuerdo a criterios que aseguren la validez de la traducción del Universo de Medida en una prueba. En el caso de ENLACE no se utilizaron estas metodologías, ni se documentó explícitamente los procesos que se utilizaron en todos los casos. 2. Este análisis fue llevado a cabo por el mismo grupo de especialistas que desarrolló el currículum en la DGDC, lo que permitió asegurar una continuidad entre el universo de medida y su explicitación en forma de prueba. Esta forma de actuación, aunque no es la más recomendable desde el punto de vista métrico, estimamos que constituye una garantía suficiente para contar, en cada edición de pruebas, con un marco teórico actualizado que ofreció una continuidad entre el currículum y las pruebas. 3. No obstante, la situación anterior no propició un desarrollo apropiado de aspectos técnicos cruciales para la planeación de las ENLACE , como son la representatividad de los dominios y subdominios del contenido a evaluar, las especificaciones de cada prueba y las especificaciones de ítems para normar su diseño; en tales casos no se siguieron procedimientos homogéneos y, al parecer, no se incluyeron estrategias de validación basadas en grupos independientes de especialistas interdisciplinarios, por lo que los correspondientes productos resultaron desiguales e incompletos. Así, entendemos que es posible que la representatividad en las pruebas (en especial las de Español) de los dominios evaluados, sea parcial, no exhaustiva. En todo caso, la falta de documentación no permite hacer una valoración más precisa sobre estos procesos. 4. El procedimiento que se siguió para seleccionar los contenidos a evaluar tampoco está bien documentado. Se desconoce, en general, cómo se determinó la importancia relativa Alineación a los referentes

55

Las pruebas ENLACE para educación básica

de los contenidos que se consideraron importantes para ser evaluados. Del mismo modo, este comité no ha encontrado evidencias acerca de si fue considerada (y de qué forma) la complejidad cognitiva involucrada en su dominio. Aunque hay evidencias de que se tuvieron en cuenta tales aspectos en la construcción de las pruebas, particularmente en los manuales técnicos de 2012 y 2013 y en el Banco Nacional de Reactivos, no las hay acerca de que se procediera de manera sistemática y rigurosa. Por su parte, en el caso del uso de protocolos verbales con examinados para analizar la complejidad cognitiva de los ítems, no se encontró evidencia alguna. 5. En general, las evidencias disponibles muestran que las fases de desarrollo y validación de los ítems de las pruebas son las mejor logradas, entre las que se evalúan en este apartado. Sin embargo, existen muchos aspectos particulares en los cuales se observan limitaciones importantes que no se esperaría encontrar en una prueba de gran escala con las características de ENLACE . Las principales incluyen la escasa información disponible sobre los perfiles de quienes diseñaron los ítems o de quienes los validaron mediante juicios, que permita observar sus antecedentes, representatividad y nivel de pericia; el carácter genérico los manuales, formatos y procedimientos que se utilizaron para la capacitación de ambos grupos o para realizar sus actividades; así como la insuficiente descripción de los procedimientos técnicos que operaron al realizar sus actividades. 6. En cuanto al alineamiento de las pruebas al currículum, se observó un claro interés por buscar la correspondencia y armonización de los ítems con la prueba y el currículum, pero las evidencias disponibles no son suficientes para asegurar que ello se logró. En síntesis, estimamos que las evidencias de validación en el aspecto a que hacemos referencia, son débiles. Máxime si consideramos el gasto que supone realizar una prueba de estas características en un país de las dimensiones poblacionales como es México, y el impacto que tiene a nivel político y poblacional. Los aspectos relativos a la validación de constructo y contenido, son indisociables de los relativos a los de la validez consecuencial, por lo que cobran especial relevancia las debilidades detectadas.

56

2

Aspectos psicométricos

La prueba ENLACE -Básica (en adelante ENLACE - B ) producida desde el año 2007 por la propia Secretaría de Educación Pública se ha documentado en una serie de manuales técnicos hasta el año 2013, donde se encuentra la información disponible del proyecto. A pesar de la frecuencia anual de los manuales técnicos y de la abundante información contenida en ellos, la documentación de la prueba deja pendientes muchos elementos que no se detallan en dichos manuales, ni se tienen disponibles en otros materiales complementarios (investigaciones, proyectos de análisis, informes internos), los cuales son muy escasos y limitados, aunque deberían haberse producido en mayor número, amplitud y formalidad por tratarse de una prueba de alcance nacional. Debido a esta insuficiencia de documentación, se tiene muy poca evidencia del uso que se hace de los resultados de las pruebas. De hecho algunos de estos usos son inconvenientes o no previstos por el proyecto, pero se sabe que son realizados por asociaciones civiles o por los medios de comunicación, a pesar de las advertencias de la propia SEP para desalentar el uso indebido de las bases de datos. Sin lugar a dudas, la falta de documentación formal de respaldo a los aspectos que se indican en los manuales técnicos como faltantes, son la principal debilidad de ENLACE-B, y esto incide de forma notable al analizarse los aspectos técnicos objeto de este capítulo. Varios elementos relacionados con la logística y el manejo administrativo de los materiales, así como la producción de los reportes son cubiertos razonablemente bien por los responsables de la SEP, en algunos casos con énfasis en el cumplimiento de estándares de gestión de la calidad de procesos y servicios internos (en particular ISO 9000), lo cual es encomiable pero no suficiente desde el punto de vista de los criterios de calidad técnica de las pruebas. Algunos tópicos son medulares para garantizar que las pruebas satisfacen estándares mínimos de diseño, se mencionan en diversos materiales pero se documentan de forma insuficiente o inapropiada. Así por ejemplo, no es suficiente afirmar que se hace un proceso de equiparación, describirlo en un esquema y dar unos cuantos resultados, si no se cuenta con el estudio realizado en ese sentido. A veces se citan estudios no disponibles o dejando al lector solo una conjetura de que se realizaron debidamente. Por ello no es admisible la repetición de los mismos resultados que aparecen desde el manual 2007, dado el impacto que tienen estas pruebas en cada estudiante y en las actividades académicas.

57

CRITERIOS TÉCNICOS SOBRE LA CALIDAD DE LAS PRUEBAS

Las pruebas ENLACE para educación básica

1. Evidencias técnicas de validez de las pruebas

tt Se

describe el procedimiento seguido para el análisis de validez de criterio, al menos en una de sus formas (predictiva, concurrente o discriminante) y se reportan los valores obtenidos.

No se cuenta con un documento explicativo correctamente realizado; se menciona la producción de pruebas (denominadas alfa y gama) que servirían para comparaciones con la forma operativa y que, a su vez, deberían respaldarse con un modelo teórico en un reporte técnico, pero no se cuenta con él (solo están disponibles algunas presentaciones en formato Power point, lamentablemente sin el debido rigor metodológico). En los manuales técnicos se menciona que se hizo un análisis factorial y que las dimensiones se obtuvieron a partir de las comunalidades de los reactivos ubicados por debajo del primer punto de corte, pero no se cuenta con datos contundentes de que ese estudio se haya hecho, en cambio se tienen archivos con formato de presentaciones con conclusiones y sugerencias donde no se aprecia una sistematización de los datos. Los manuales técnicos detallan los criterios fundamentales para seleccionar los contenidos programáticos en Español y Matemáticas: 1) relevancia; 2) documentabilidad; 3) plausibilidad; 4) continuidad y; 5) abarcabilidad. Para Ciencias naturales se consideraron además estos factores: 6) esencialidad; 7) continuidad; 8) aplicabilidad; 9) actualidad; 10) interdisciplinariedad. No aparece ninguna mención a que haya este tipo de criterios utilizados para otras materias, con ello se pierde una evidencia que permita fundamentar el diseño de la prueba. En cuanto a la validez de criterio, se recibió información muy incompleta sobre un estudio que relacionó los resultados de ENLACE con los de una prueba de Australia (denominada SEP-ISA ) que toma como criterio un conjunto de reactivos de la prueba PISA , lo cual no deja de ser un buen propósito si no se puede contar con la documentación de manera formal, ya que no vienen datos formalizando el estudio, solo algunas diapositivas en una presentación a la cual le faltan explicaciones y aclaraciones, lo cual hace suponer que se trata de información proporcionada por el autor durante su presentación verbal. Adicionalmente se menciona en forma descriptiva un estudio realizado en combinación con PISA para la cohorte de 2012, con lo que se afirma que: Los resultados preliminares permiten llegar a la conclusión de que la correlación entre la prueba ENLACE y la prueba PISA es del mismo orden que las correlaciones observadas entre las sub-

dimensiones del dominio matemático. Una consecuencia importantísima es que los datos de ENLACE pueden ser utilizados para realizar predicciones acerca del posible comportamiento de una cohorte respecto de la prueba PISA . Esta conclusión debe acompañarse del estudio debidamente documentado y formalizado. Para estudiar la validez tomando como criterio una población de referencia de otro grado escolar se plantea un análisis de ganancia educativa, más con énfasis de realizar la equiparación de las pruebas. Este aspecto solo queda en planteamiento al no contarse con la información completamente desarrollada y documentada.

58

tt Hay

evidencia documental del análisis de la validez de escala de la prueba y su pertinencia en relación con el constructo y el modelo del perfil a evaluar.

En los MT 2007 y 2008 se incluyeron evidencias gráficas relativas a la validez de escala pero no se volvieron a reportar después. Sin embargo se hace una referencia contradictoria al respecto: por un lado se habla de que las dificultades de los ítems se distribuyen de manera uniforme para reforzar la validez (esta práctica tiene el propósito de obtener medidas en todo el dominio del perfil, con un orden de error uniforme), pero por otro lado se establece que la prueba de referencia deseable está formada por ítems de dificultad p=0.5 (equivalente a b=0 para el modelo de la TRI ), con lo cual se refuerza la confiabilidad. Evidentemente, ambos modelos son incompatibles y debería ser explicada la diferencia desde el punto de vista de los diseñadores, así como hacer estudios que demuestren la pertinencia de un modelo sobre el otro. Este criterio con predominancia de la confiabilidad y los beneficios que se suponen por utilizarlo, son errados. Es claro que el diseño de la prueba debe incluir preguntas a lo largo del continuo, sobre todo atendiendo a que se establecen puntos de corte en distintos tramos de la distribución. El utilizar 0.5 como criterio de diseño se pone en competencia contradictoria con la necesidad de incluir preguntas de distintos contenidos y distintas demandas cognitivas. Otra consecuencia que también puede catalogarse como inconveniente, es que con un diseño con ítems de valores cercanos a p=0.5 se obtienen distinciones muy finas pero irrelevantes al centro de la distribución y, al mismo tiempo, distinciones muy gruesas en los extremos de la distribución. Independientemente de que la prueba sea criterial, normativa o de otro tipo, si se tiene el propósito y necesidad de medir el desempeño de los estudiantes en un conjunto de constructos (competencias, habilidades o destrezas cognitivas), siempre debe haber preguntas que se dispersen a lo largo del continuo de la distribución. tt Se

presenta documentación que muestra cómo se realizó el proceso para analizar la validez de constructo de la prueba y se presentan los resultados.

Se dispone de tablas descriptivas de los objetivos o competencias esperadas, definidos por intervalos, lo cual puede interpretarse como reforzamiento de los posibles constructos definidos en ENLACE . Las tablas son incompletas al incluir solamente algunos ejemplos, aunque podría suponerse que la SEP cuenta con la totalidad de descriptores. Se debe apuntar que la presentación de las tablas es heterogénea. Se puede justificar que estas diferencias son atribuibles al tipo de materia y al grado escolar, pero estas diferencias tienen un problema implícito porque conducen a criterios que no permiten justificar que se afirme que ENLACE permite homologar las competencias en la escala vertical. Suponiendo que se haya podido hacer esta homologación, no se encuentra disponible la documentación pertinente. Sobre el diseño de las pruebas en términos de los constructos se cuenta con información parcial e incompleta. En particular se dificulta comprender los archivos de Excel donde aparecen los valores de las dificultades de los reactivos en porcentajes de aciertos y con los parámetros de la TRI , pero falta información acerca del número de personas que contestan en cada caso, así como el modelo muestral que permite la selección de ítems en cada versión y la forma de integrar estos reactivos en la prueba.

Aspectos psicométricos

59

Las pruebas ENLACE para educación básica

En el MT 2007 se observó la necesidad de llevar a cabo el análisis de validez de constructo (pudiendo ser por jueceo, por análisis estadístico o mixto), que es un tipo de análisis que aporta evidencias de la calidad del diseño. No se tiene evidencia contundente de que se haya realizado este tipo de análisis, aunque aparecen citas en los siguientes MT indicando que se hicieron análisis de validez concurrente con varias pruebas. Como ya se citó previamente, se presentó un material que describe un estudio realizado en combinación con PISA para la cohorte de 2012 (proyecto SEP-ISA ), donde establece la similitud de ENLACE con la prueba internacional, lo cual es interesante pero, al mismo tiempo, problemático, dado el diferente marco de referencia de ambas pruebas y de la población a la que se aplican. El estudio no está debidamente formalizado y no se cuenta con un reporte, artículo o anexo completo.

2. Análisis integral de los procesos y métodos para el desarrollo y construcción de las pruebas, definiendo equivalencia y periodicidad.

tt Se

indica el procedimiento seguido para construir las pruebas a partir de las especificaciones y del banco de ítems.

En el MT 2012 se indica que para el diseño se plantean dos instrumentos de características distintas: 1) Prueba operativa, censal, para las dos asignaturas principales y una asignatura rotativa. ENLACE se organiza en subpruebas (una por asignatura), divididas en secciones, aplicadas en dos días consecutivos y en varias sesiones diarias de 45 minutos. 2) Pre-test muestral con diseño matricial, equivalente a la operativa presentada en 6 formas. El número de reactivos depende de la sesión y las asignaturas se presentan en forma contrabalanceada en cada forma. El detalle del diseño a partir del banco no está claramente definido, más adelante se hace un comentario sobre la información disponible acerca del banco de reactivos. tt Se

reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en el tiempo o según sedes o localidades.

La metodología para construir la prueba a partir de los bancos disponibles no parece estandarizada, de tal modo que no está claro, por ejemplo, que se haga un muestreo del banco de ítems, aleatorio, estratificado o de otro tipo, asociado a la tabla de validez de contenido. En cambio se aclara que “la construcción del instrumento es por elección a criterio del diseñador de la prueba, con el mejor reactivo posible”. Como no se cuenta con la evidencia documental acerca del inventario de reactivos, no es posible juzgar la pertinencia de este procedimiento para localizar al “mejor reactivo posible”. En una siguiente etapa, la prueba pasa a revisión y validación de expertos, quienes están encargados de admitir que la muestra de ítems es pertinente, relevante y suficiente, según se establece en las especificaciones. Este procedimiento tampoco garantiza la manera en que se realizó la distribución de ítems en la escala. Sin embargo, en algunos documentos se menciona que se hacen pruebas paralelas, lo que hace suponer que también se seleccionan ítems a fin de que la forma resultante sea paralela a la operativa, pero no se encontró evidencia al respecto. A reserva de lo que se comenta más adelante en la sección relativa a los bancos de reactivos, puede citarse en este momento que el MT 2012 indica los pasos para construir los bancos de 60

ítems: construcción de reactivos, validación (revisión interna), ajustes a reactivos, organización de reuniones de jueces, taller de jueces, validación por jueces (revisión externa), ajustes por jueces a los ítems. Se indican también los pasos para la producción de pruebas: selección de reactivos, ensamblado de la prueba, revisión de pruebas. Todas estas etapas pueden clasificarse como pasos genéricos que deben sistematizarse para disponer de un manual de construcción específico. tt Se

cuenta con la metodología de diseño que se utilizó para obtener versiones equivalentes y reportar los valores de diseño y experimentales que demuestren dicha equivalencia. No es aceptable reportar los resultados de la prueba sin evidencias de equivalencia entre versiones o formas.

La equivalencia de versiones se presenta en forma esquemática, sin evidencias cuantitativas de dicha equivalencia porque el proceso es subjetivo y, por lo que se indica en el procedimiento de “elegir el mejor reactivo posible” la decisión queda a cargo del diseñador. Debido a que los ítems se divulgan al terminar la aplicación, la vigencia de las formas se garantiza solo para el año del estudio, esto justificó desde un principio plantear un modelo de equiparación con personas comunes, para no depender de reactivos comunes entre pruebas de dos años consecutivos. Al optar por un esquema de equiparación de población común se debió de documentar el proceso porque se afirma en el MT 2012 que “actualmente se encuentra en construcción un esquema de equiparación vertical”, pero no se proporcionan evidencias contundentes de esto. También se establece en el MT, sin documentación apropiada, que el diseño de equiparación “cada año se construye una prueba paralela a la del año anterior que, después de ser debidamente validada por jueces y sometida a piloteo, es aplicada en forma matricial a una muestra controlada de la misma población a la que se aplica la forma operativa de ENLACE” (MT 2012: 101). Por lo anterior, la equivalencia desde el punto de vista conceptual no está claramente definida, aunque se dispone de ejemplos de tablas de especificaciones para las asignaturas y grados. Se aprecia que las tablas que fueron diseñadas con criterios heterogéneos, además de tratarse de distintas materias; debido a estas diferencias es difícil homologar la escala vertical de competencias que se propone por parte del proyecto ENLACE. Indican que: “Si bien el INEE aportó, en el inicio de ENLACE, un modelo de especificación a seguir para la presentación de las tablas, en la actualidad presentan estructuras diversas, dados la orientación y el enfoque de las distintas asignaturas que se exploran”. En la sección 1 de este informe se señala la importancia de contar con una descripción detallada de la prueba que contraste los componentes de competencia con los niveles taxonómicos, conocido como “test blueprint” o marco de referencia de la prueba, pero para el diseño de las pruebas solo se cuenta con la lista de temas y el número de ítems (bajo el título de “estructura de la prueba”, pero sin referencia a niveles taxonómicos o dominios cognitivos), por ello no se pueden garantizar las cualidades de diseño de cada versión de la prueba que permitirían disponer de pruebas comparables por diseño. Aparentemente el piloteo de preguntas intenta resolver el problema con aplicaciones en estudiantes de grado diferente y cuyos resultados de calibración del año anterior sirven para la aplicación siguiente. Por lo tanto, la utilidad del piloto se enfoca más a una pre-calibración que a una equivalencia de versiones. Debido a que no se dispone del diseño métrico de la prueba, en términos de distribución de los ítems, se está dejando al proceso matemático de calibración la responsabilidad de garantizar la equivalencia de las versiones.

Aspectos psicométricos

61

Las pruebas ENLACE para educación básica

En las presentaciones de Power Point proporcionadas hay unas gráficas que pretenden explicar el proceso de equivalencia, pero carecen de documentación y explicaciones, por lo que se hace muy dudosa su interpretación y le resta seriedad al proceso de igualación, si es que se realiza. No se dispone de los valores experimentales de las equivalencias, en su lugar se presenta la correlación entre las calibraciones de los reactivos operativos y las calibraciones considerando operativos y pre-test juntos. Esta equiparación no parece haberse actualizado desde 2007 y no se presenta como ejemplo sino como modelo metodológico. Al igual que otras partes, la documentación disponible se encuentra en un formato de presentación (archivos de Power Point), lo cual no permite analizar convenientemente el procedimiento seguido y los resultados. También se presentan esquemas de anclaje entre pruebas, que no incluyen formulaciones o explicaciones sobre la forma de calificación, que se supone está asociada con el software empleado, pero falta información a este respecto. Hay una mención acerca del valor pequeño de los errores (por ser un análisis censal y por la cantidad de personas que intervienen en el estudio). Por otra parte hay un estudio de equiparación que se trata de justificar con un modelo bootstrap, que puede ser apropiado al caso pero del cual falta información que permita identificar las características del modelo. El modelo bootstrap requiere definir el número de muestras, el número de elementos en la muestra, la cantidad de posibles repeticiones consideradas para el proceso; sin embargo, no se da información sobre esto, lo cual no permite valorar su pertinencia. Conviene añadir que, en cuanto a la equiparación por medio de correlaciones entre pruebas, la correlación no implica que se esté midiendo lo mismo ni que se deba tratar una escala como si fuese vertical. Por ejemplo, la correlación en TIMSS entre Matemáticas y Ciencias es > 0.8, pero no se podría argumentar que miden lo mismo, aunque exista cierta comunalidad entre las asignaturas. Igualmente debe anotarse que es de dudosa utilidad emplear alumnos en grados superiores para evaluar las preguntas de la prueba operativa. Las preguntas se deben evaluar con la población focal para la que se aplicarán. Aparte de la escasa pertinencia de las comparaciones con una población superior, no queda claro cómo se hace para evaluar las preguntas del último grado. tt La

periodicidad de las aplicaciones se justifica con criterios teórico-metodológicos o logísticos sustantivos, distinguiéndolos de criterios políticos o de opinión.

ENLACE se propone con una periodicidad anual organizada en dos áreas sustantivas de competencias generales del currículum educativo (matemáticas y Español). Se alternan cuatro materias (Historia, Geografía, Ciencias, Educación Cívica y Ética) a lo largo de cuatro años. La justificación de esta periodicidad y elección de temas aparece enunciada en forma básica general, porque no se tiene evidencia de que haya habido un acuerdo de Consejo, o una instrucción secretarial, por ejemplo. Por las características de ENLACE que depende de la autoridad federal de educación, esto puede parecer suficiente para los fines del MT, pero pudo documentarse mejor para esta evaluación.

Se justifica realizar una aplicación censal anual para cubrir el propósito de retroalimentar a alumnos, padres y maestros. La oportunidad de la prueba como fuente de información para las personas y usuarios involucrados, es una cualidad deseable de una prueba de alcance nacional como ENLACE . Por ello no queda muy clara la forma en que ésta puede intervenir en la retroalimentación, porque si bien es claro que la prueba cubre lo que se ve en el ciclo escolar, 62

es muy probable que no se cuente con tiempo para que el estudiante, el docente y la escuela puedan realizar nuevas experiencias de aprendizaje dentro del curso y se tendría que pensar en la utilización de los resultados para los siguientes cursos. La oportunidad de la prueba queda en entredicho si se deja al interés personal de los estudiantes (o los padres de familia) la consulta de la página web de la SEP para identificar los aciertos y deficiencias de cada quien y tomar medidas correctivas para un curso que ya terminó. En el MT 2012 se indica: ENLACE es, así, un programa fundamental que la Secretaría de Educación Pública (SEP)

desarrolla ante las exigencias actuales de rendición de cuentas… proporciona información a los estudiantes, padres de familia, docentes, directivos de las instituciones educativas y a la sociedad en general, respecto del logro académico de los alumnos del Sistema Educativo Nacional. Obsérvese que si el propósito de ENLACE es reportar el estado del Sistema Educativo Nacional, entonces sería más pertinente una prueba muestral que una prueba censal (por oportunidad, costo, logística, entre otros aspectos); en cambio, si el propósito de la prueba es informar a las personas oportunamente, la aplicación censal con fines diagnósticos sería más apropiada que una prueba de fin de curso en unas competencias genéricas. tt Se

especifica y justifica el marco metodológico que integra en forma coherente los procesos y métodos que guían el desarrollo de la prueba.

Hay información general de planeación de la prueba y detalles de actividades, propósitos y métodos y aparecen los nombres de las personas que integran el Consejo Técnico de ENLACE . En cambio, no se cuenta con la normativa para la elección, permanencia y funciones de los consejeros ni se tienen bitácoras o informes de las reuniones o productos del consejo, lo cual es requerido para una prueba de alcance nacional como es ENLACE . Es posible que exista la información pero no se contó con ella para esta revisión. Debe advertirse que hay varias decisiones de criterio que no están justificadas de ninguna forma en la documentación, por ejemplo: la metodología para establecer las especificaciones, los acuerdos para el enfoque de las dos áreas de competencia (matemática y lenguaje), la definición de las otras áreas de evaluación (por ejemplo Ciencias), la metodología para definir los puntos de corte y la forma de determinar dichos puntos, entre otros que deberían tener documentación apropiada, misma que no es motivo de divulgación al público en general pero que sí debió haber estado disponible para el comité evaluador. tt Se

especifica y justifica el modelo psicométrico usado para guiar desarrollo de la prueba.

En el MT se indica que la prueba debe tener confiabilidad y validez, por lo que los diseñadores de ENLACE justificaron la necesidad de la TRI de tres parámetros, sin plantearse la pertinencia del uso mixto que se tiene con las corridas de ITEMAN (análisis con modelo clásico) o al no utilizar otros modelos como el de Rasch. No es un defecto el uso de un modelo logístico de tres parámetros, ni tampoco es un inconveniente combinarlo con el modelo clásico. Debe entenderse que el problema que se apunta aquí es que no se cuenta con el modelo metodológico que justifique esta forma de abordar la calificación. Aspectos psicométricos

63

Las pruebas ENLACE para educación básica

En el MT se dice que la calidad de las pruebas se garantiza por el soporte técnico de una metodología empleada a nivel internacional enfocada a la confiabilidad y validez de los instrumentos, en especial sobre propiedades estadísticas, consistencia interna de las respuestas de los sujetos y parámetros psicométricos de los reactivos (dificultad y discriminación) y se afirma que se realizan estudios especiales por parte de agencias o instituciones de apoyo. Sin embargo, contrariamente a esa afirmación, no hay evidencias contundentes que se hayan realizado los estudios que justifiquen todos los aspectos esperados, en algunos se tienen estudios pero puede decirse que son escasos, sin referencia clara de haberse publicado y tampoco se tienen como informes de proyecto interno. Hay aspectos de planeación no cumplidos para ser una prueba de alcance nacional, en particular porque se apuntaron varios aspectos en los MT 2007 y 2008, que fueron ignorados en los siguientes MT. En caso de haberse resuelto las sugerencias no se cuenta con evidencia de ello. tt Hay

manuales técnicos que orientan de manera detallada todos los procesos involucrados en el desarrollo de la prueba.

El caso de ENLACE-B es ejemplar en el sentido de que se cuenta con manuales técnicos de cada año. El esfuerzo en su producción debe mejorarse en términos de actualización del contenido y de la fundamentación metodológica del desarrollo de las pruebas, junto con datos que permitan comprobar el respaldo técnico del proyecto, y cambios a través del tiempo. Se cuenta con MT de 2007 a 2013 que, en general, proporcionan elementos suficientes para dar fundamentación y soporte al proyecto. El MT no es definitivo porque: a) Las revisiones de las pruebas y de los propios manuales no atienden las recomendaciones de las versiones 2007 y 2008. Es de observar que las sugerencias contenidas en esas ediciones simplemente se quitaron a partir de 2009 sin atender las indicaciones ni resolver los problemas planteados o los aspectos a mejorar. b) Falta documentación que no se completó en las versiones de 2008 en adelante, lo cual era de importancia principal para el desarrollo de esta evaluación convocada por el INEE. c) No se incluyen numerosos estudios técnicos requeridos para demostrar la pertinencia de varios puntos de importancia para el desarrollo y aplicación del proyecto, en cuanto al diseño de las pruebas, la equiparación de versiones, los análisis de funcionamiento diferencial y de sesgo, entre otros más. d) Se aprecian elementos y datos obtenidos a partir de los resultados de la primera aplicación que se conservaron de la versión 2007 o 2008, y que en versiones posteriores no se actualizaron correctamente. Si se toma como referencia definitiva el manual técnico 2013 que detalla los propósitos, usos, y audiencias previstas de la prueba ENLACE , se aprecia que dichos usos previstos no se sintetizan explícitamente. Por ejemplo, el MT hace mención en repetidas ocasiones de gran número y variedad de objetivos que busca la prueba y los beneficios que ofrece a los diversos actores (alumnos, maestros, directores, autoridades, y sociedad en general). Sin embargo, tanto el manual, como los materiales que lo acompañan, así como otros disponibles en el portal web de la SEP, presentan muy limitada evidencia teórica y empírica con la cual resulta difícil respaldar específicamente los usos propuestos y consecuencias previstas. Los documentos ofrecen argumentos generalmente superficiales y vagos sobre la metodología de diseño y producción de las pruebas; también afirman que las pruebas ofrecen beneficios de su uso, pero típicamente no 64

se sustentan directamente en razonamientos o argumentos lógicos o teóricos, y menos aún en evidencia empírica.

3. Calibración y análisis psicométrico de las pruebas

tt Se

presentan los procedimientos psicométricos utilizados para determinar sesgo, funcionamiento diferencial e impacto adverso de la prueba.

No se cuenta con análisis de sesgo, funcionamiento diferencial, influencia de la habilidad lectora o de la velocidad de lectura respecto de la prueba y otras implicaciones que son parte sustancial de la identificación de la calidad métrica de la prueba, por una parte, y por otra como demostración de que no se inducen errores sistemáticos en contra de personas o grupos en particular. tt Se

describen los análisis efectuados para detectar influencias de factores diversos en la calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la ansiedad, etc.

No se encontró información sobre este criterio, en cambio aparecen resultados de la prueba operativa, en cuanto a la versión global. No aparecen análisis de distractores en los resultados de la prueba, análisis factorial o de otro tipo para respaldar la elección de los constructos o la demostración de la unidimensionalidad. No hay un análisis de subescalas ni versiones. Estos análisis son exigibles por estándares de calidad de pruebas y, sobre todo, porque la homogeneidad o heterogeneidad de los ítems se refleja al agruparse en conglomerados temáticos o de competencias por el constructo propuesto en las tablas de especificaciones. Lo que se puede encontrar es el conjunto de aspectos teóricos de diseño con criterio de experto, lo cual se relaciona con los puntos de validez del capítulo previo o con las decisiones de interpretaciones de la influencia de factores culturales tratado en otro capítulo de este trabajo.

4. Confiabilidad de las pruebas

tt Se

describen los procedimientos usados para calcular la confiabilidad de las subescalas y versiones de la prueba. En particular se reportan los resultados del cálculo de consistencia interna de la prueba y sus subescalas.

Aparecen algunos resultados de confiabilidad con la versión global de la prueba operativa pero no se cuenta con análisis de subescalas ni versiones. Todos los análisis se realizaron con alfa de Cronbach. En el MT se reportan valores de análisis de las pruebas en forma de tablas y también en otros documentos se reportan valores obtenidos de estudios diversos, como por ejemplo el estudio general relacionado con la copia en la prueba, aunque puede decirse que es un estudio genérico y no relacionado exclusivamente con ENLACE . Este análisis de consistencia interna realizado con alfa de Cronbach es un procedimiento que brinda valores aceptados por lo general en pruebas nacionales e internacionales, a pesar de sus Aspectos psicométricos

65

Las pruebas ENLACE para educación básica

limitaciones. En cambio, no hay evidencia del uso de otro tipo de modelos para la confiabilidad pudiendo ser pertinentes otros modelos como el uso de la teoría G, la separación logística, salvo una mención y un par de imágenes de las correlaciones pre-test/pos-test sin evidencia de su manejo sistemático en la construcción de la prueba. Un aspecto importante a destacar es que no se dispone de información sobre el cálculo de la confiabilidad de los puntos de corte (o el error de medida correspondiente), ni tampoco se cuenta con referencias de tipo jueceo en estos puntos ni la interpretación cualitativa de los intervalos que se definen. Todos estos aspectos se refieren específicamente a la confiabilidad criterial para los puntos de corte. Hay varios modelos para determinar estos valores de confiabilidad, por ejemplo, se podría haber considerado el uso de la fórmula de Livingston. Del mismo modo que no se tiene información sobre la escala y la distribución de los reactivos en relación con la validez de la escala, tampoco se tienen elementos para definir el manejo de los casos de personas con resultados extremos (cero aciertos y totalidad de aciertos) con los cuales se incrementa la desviación estándar. Estos se manejan con las técnicas de estimación de máxima verosimilitud (MML ) que maneja el programa utilizado para la calificación (BILOG) y que dan puntajes “razonables” a los alumnos que califiquen con 0% o 100% por medio de un modelo matemático de extrapolación. Dado que hay una prueba única, si sería conveniente presentar de alguna manera la distribución de frecuencia de los puntajes, pero no puede utilizarse la curva característica de la prueba para relacionar los aciertos brutos con la medida, por utilizarse el modelo de tres parámetros de la TRI. Debido a que los puntos de corte se definen por un esquema empírico, los valores de ubicación de tales puntos debieran ser diferentes en cada aplicación a menos que se garantice la equivalencia perfecta entre ellas o la igualación por procedimiento matemático, en cualquier caso es necesario contar con el error de medida (o el intervalo de confianza) en el punto de corte. De hecho el error estándar parece obtenido de la teoría clásica y no de la TRI, porque todo indica que es procedente de las salidas del software ITEMAN. Al no contarse con información metodológica ni valores de referencia en este sentido, tampoco se dispone de información relativa a los valores obtenidos con el software BILOG para el error de medida y que aporten elementos para determinar el error de diseño. No es un problema en sí mismo el uso de estos programas, sino la falta de información en los manuales técnicos que justifiquen los modelos de cálculo, las interpretaciones y los valores de aceptación para que sean comunicados a los usuarios de los resultados. En la documentación proporcionada se indica que “La prueba ENLACE en su conjunto presenta valores extraordinariamente altos de confiabilidad” (4. JOSÉ LUIS GAVIRA Datos técnicos ENLACE.ppt), pero en realidad puede verse que los valores de alfa observada son “aceptables”, es decir, no son “extraordinarios” ni tampoco son malos, porque están muy próximos de los de alfa teórica que puede obtenerse en función del número de ítems, la distribución teórica de dificultades de los ítems y la desviación estándar real proporcionada por el estudio. Se observan en cambio dos puntos que influyen en los resultados: En todos los casos es muy alto el valor promedio de la correlación punto biserial. A diferencia de 0.24 que se puede calcular con los datos de la hoja de Excel proporcionada: ResAnálisisGamaAlfa.xls, en este reporte se proporcionan medias de 0.27 a 0.56. 66

En las pruebas se tienen puntajes que ocupan prácticamente la totalidad de la escala, lo cual es muy interesante para garantizar que se cubre todo el rango de competencias, pero al mismo tiempo induce a que la desviación estándar sea grande y con ello se incrementa el valor de alfa de Cronbach para un conjunto dado de ítems. No se demuestra en las evidencias proporcionadas que se hayan eliminado las personas extremas, especialmente con 0 aciertos, no se indica cuántos son, tampoco se aclara si son valores de 0 por respuesta incorrecta o por omisiones de estudiantes que no se presentaron a la prueba. Los siguientes son ejemplos de algunos datos proporcionados en la presentación: Español 3º

6º

3º secundaria

2006

2007

2008

2006

2007

2008

2006

2007

2008

núm. ítems

52

50

52

64

64

64

64

64

64

media

27.3

24.5

25.4

27.3

24.5

25.4

27.5

27.9

28.4

media%

53

49

49

47

51

54

43

44

44

desv est

9.2

8.1

9.4

9.2

8.1

9.4

8.9

8.3

7.1

rpb media

0.37

0.44

0.48

0.35

0.46

0.50

0.29

0.35

0.32

alfa

0.88

0.84

0.88

0.88

0.89

0.91

0.83

0.81

0.75

alfateórica

0.88

0.85

0.88

0.85

0.80

0.85

0.84

0.81

0.73

Matemáticas 3º

6º

3º secundaria

2006

2007

2008

2006

2007

2008

2006

2007

2008

núm. ítems

50

50

50

61

61

61

74

74

74

media

25.2

24.1

28.2

25.9

25.1

30.8

26.8

23.8

30.2

media%

51

48

56

43

41

51

36

32

41

desv est

9.2

8.1

9.4

9.8

9.8

11.5

9.6

8.2

10.6

rpb media

0.40

0.49

0.56

0.34

0.44

0.51

0.27

0.32

0.39

alfa

0.90

0.88

0.91

0.87

0.87

0.91

0.84

0.79

0.87

alfateórica

0.89

0.88

0.91

0.88

0.88

0.91

0.84

0.77

0.87

tt Se

dispone de resultados de correlación con aplicaciones repetidas.

Salvo unas menciones en el manual técnico no se encontraron evidencias contundentes. Es de notar que estas menciones aparecen en el MT 2009 y se repiten las mismas gráficas y valores hasta el MT 2013, lo cual no aporta una evidencia actualizada y aceptable para la documentación del proyecto. Este criterio es importante aunque la prueba se aplique solo una vez al año y los cuadernillos se distribuyan entre los participantes. En ENLACE-B hay reactivos que se aplican en forma piloto y después pasan a formar parte de la prueba operativa. En este sentido se manejan como pre-test y post-test cuyas calibraciones se usan para calificar las pruebas operativas. Es posible que el cambio de contexto y circunstancias en las que se realizan las dos aplicaciones pueda cambiar las propiedades de las preguntas, por lo que sería prudente verificar la transferibilidad de las calibraciones. Aspectos psicométricos

67

tt Hay

un reporte con valores de separación del modelo logístico empleado.

Las pruebas ENLACE para educación básica

No se dispone de este dato. Todos los análisis de confiabilidad están hechos con alfa de Cronbach, pero los análisis con la TRI no presentan la evidencia de la confiabilidad calculada de otra forma. El software de análisis de la TRI en principio debe emitir un valor de confiabilidad obtenida a partir de los modelos logísticos, pero no queda claro si es que se consideró como no pertinente reportar esta información y solo usar alfa. tt Se

reporta la metodología para el cálculo del error de diseño de la prueba y de sus subescalas, o de sus partes o secciones y se reportan los resultados obtenidos en las aplicaciones.

No se cuenta con una justificación metodológica para el dimensionamiento de la prueba (número de reactivos) y de sus partes, porque las tablas de especificaciones están definidas en número de ítems y no de ponderaciones, ni se tiene un estimado del error teórico propuesto. En consecuencia, no se reportan los resultados por partes o secciones, ni los valores del error de medida de la prueba y de las secciones. Desde el MT 2007 se tienen consideraciones teóricas acerca del error de medida en función del número de ítems, pero se sugería realizar los estudios para obtener los valores experimentales, pero no se cuenta con ellos en la documentación proporcionada. tt Se

presenta la metodología usada para el análisis de funcionamiento diferencial y de sesgos asociados con las personas, con las pruebas y con las subescalas. Se reportan los resultados de los estudios realizados para determinar posibles sesgos.

No se atiende este punto en ninguno de los documentos proporcionados. En las versiones de MT 2007 y 2008 se indica la necesidad de realizar estudios de DIF (funcionamiento diferencial

de los ítems) por género, ambiente o contexto sociocultural, discapacidad, entre otros. No se atendió esta sugerencia y se eliminó el comentario de los otros manuales técnicos. Tampoco se dispone de análisis de DPF (funcionamiento diferencial de personas), pendiente desde el MT 2007. Debido a esto se carece de una justificación respecto a que no se necesite hacer una equivalencia o análisis contextual de las escalas ajustando los rangos de valores por sexo, modalidad escolar, región o poblaciones específicas, uso de lenguaje o gráficas específicas. Esto se complementa con la discusión del grupo encargado del análisis de validez cultural. En el MT (2012:60) se afirma que la SEP encarga estudios especiales a agencias o instituciones de apoyo pero no se cuenta con los reportes. Hay menciones acerca de la presencia de sesgos, pero no refiere la realización de estudios propios de la SEP, en cambio se cita que se encargan estudios especiales de factores asociados al rendimiento a otras instituciones, pero se cuenta con escasa información. El uso de gráficos en los ítems es correcto desde el punto de vista técnico, pero debe justificarse que no afecta la forma de interpretarse o de responder de estudiantes hacia los cuales pudiera producir un funcionamiento diferencial, por ejemplo dibujos de ambiente urbano que estudiantes de ambiente rural no comprendan o viceversa, gráficos que no sean comprensibles por estudiantes débiles visuales (de hecho, no hay mención a la forma de trabajar con estudiantes ciegos). Para lidiar con el problema de sesgo, durante el proceso de jueceo los especialistas deben explorar la calidad de los reactivos, principalmente: 1) la representatividad del dominio de los contenidos curriculares que los estudiantes deben poseer, 2) la formulación correcta de cada 68

reactivo, 3) la ausencia de sesgo aparente por el cual pudieran favorecerse los resultados hacia algún grupo de estudiantes, especialmente por género y por grupo social. La copia es uno de los factores al que se le da mayor interés en los MT. Se tienen efectivamente estudios de factores asociados, o de copia, pero no se encuentra un estudio sobre DIF. Sobre la copia se utilizan dos modelos: K-Index (para personas) y Scrutiny (para grupos), que se combinan con una simulación realizada para dictaminar el valor de probabilidad aceptable para determinar que hubo copia en un salón o sede. Estos estudios se reportan de forma interna a la SEP y no parece tener implicaciones administrativas en la calificación de los estudiantes, del grupo o de la institución, por lo que se indica en el MT2013: “Cabe señalar, en este marco, que no se cuenta con esquemas de penalización o sanciones administrativas a los estudiantes o docentes que contengan copias potenciales”, aunque en el documento “Normas operativas” se establece: 4.20 En la calificación del examen se utiliza un programa para detectar la copia así como el dictado de respuestas. Los alumnos o docentes que incurran en estas acciones generarán que sus resultados no sean considerados para obtener el puntaje o nivel de logro individual, de grupo, escuela, modalidad, municipio, estado y nacional, por lo que es muy importante se erradiquen dichas prácticas. Igualmente se tiene en la Guía para el docente-aplicador: “En la calificación del examen se utiliza un programa para detectar la copia y el dictado de respuestas. Los alumnos que incurran en estos casos no son considerados para obtener resultados de grupo, escuela, modalidad, municipio, entidad y nacional, por lo que es muy importante que no se permita la copia”.

CRITERIOS TÉCNICOS SOBRE LA CALIDAD DE LOS ÍTEMS Y DE LOS BANCOS DE REACTIVOS

5. Análisis psicométrico y de calidad de los ítems

tt Se

cuenta con un documento que describe el modelo de calibración de reactivos y los criterios para su aceptación, revisión y modificación.

En la documentación revisada no se encontró una presentación formal del modelo de calibración de reactivos y solo se citan elementos aislados sobre los criterios para su aceptación, revisión y modificación. Se entiende que los resultados del piloteo de ítems se analizan con los programas especializados ITEMAN y BILOG, lo cual deja la responsabilidad del dictamen a los dos programas citados y no a los criterios de los especialistas encargados del diseño de las pruebas. Es cierto que en dichos programas se puede contar con las frecuencias de respuesta global y por opción de cada ítem, pero esto no implica que esta información se utilice en alguna forma dentro del proceso de calibración. Convendría añadir que si bien el modelo utilizado para calibrar inicialmente las preguntas es muy eficiente, sufre la desventaja de utilizar un criterio imperfecto en el cálculo de los parámetros (ver p. 102 del MT 2012); en la piloto se calibran las formas b1…6 junto a la Forma A, Aspectos psicométricos

69

pero en esta calibración entran todos los ítems, inclusive los que se eliminarán posteriormente por defecto.

Las pruebas ENLACE para educación básica

Lo que se debe hacer es una primera selección de las preguntas aceptables y utilizar solo esas para la calibración y el establecimiento de los parámetros de las preguntas. Se debería hacer un análisis de DRIFT, que estudia los cambios paulatinos en el comportamiento de los parámetros de los ítems, lo que significaría una recalibración de las preguntas para establecer si la escala se desvía de su origen. Los criterios cambiaron entre los MT a partir de 2009 por lo que ha evolucionado el conjunto de elementos propuestos para eliminar reactivos, con énfasis en el uso de la correlación punto biserial que se espera sea superior a 0.3 y que la dificultad de los reactivos esté en el intervalo de 0.1 a 0.9. En el caso del modelo logístico se incluye el desajuste por c2 con significancia mayor (sic) a 5% y se revisan cuando se tienen una significancia de hasta 10%; los que tienen medidas superiores a 10 o inferiores a -3 (lo cual es un intervalo sesgado inexplicablemente), cuando el parámetro 1 sea menor a 0.1 o el parámetro c superior a 0.2 y por tener una correlación puntobiserial negativa (dada por BILOG), pero, adicionalmente se dice que son rechazados los reactivos cuya curva característica no presenta un comportamiento razonable (pendiente negativa o alguna tendencia dudosa) a criterio del revisor. Este último criterio subjetivo debería eliminarse dados los otros citados previamente que son sistemáticos y objetivos. Solo aparece un ejemplo gráfico en los diversos MT, siendo de escasa evidencia respecto del proceso que se realiza en el proyecto para dictaminar los ítems. tt Se

explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificultad, discriminación, ajuste [fit], distractores, dimensiones, etcétera)

Aparecen resultados de la prueba operativa, en versión global, pero sin incluir análisis de distractores, análisis factorial o de otro tipo. Como ya se indicó previamente, no hay un evidencia de análisis de los ítems en las subescalas ni en las versiones. Estos análisis son exigibles por estándares de calidad de pruebas y, sobre todo, porque la homogeneidad o heterogeneidad de los ítems se refleja al agruparse en conglomerados temáticos o de competencias por el constructo propuesto en las tablas de especificaciones. Considérese, por ejemplo, que la prueba está formada por dos grandes áreas que miden competencias de lenguaje y de matemática. Un propósito educativo muy laudable sería que los estudiantes dominaran ambas áreas de la misma manera, pero la realidad es que se trata de constructos disjuntos, de tal modo que no necesariamente se tiene una alta correlación entre ellos. Por esta circunstancia, es evidente que un ítem tiene mejor correlación con el conjunto de reactivos del constructo del cual forma parte y ello puede implicar una baja correlación con la prueba completa. En conclusión, tiene más sentido analizar por separado los ítems de matemática y dictaminar sus propiedades métricas en su constructo que un análisis global. Del mismo modo, en el área de matemática se pueden tener subáreas disjuntas (aritmética, álgebra, geometría y trigonometría) igual que en el área de lenguaje (gramática, ortografía, comprensión de textos literarios y no literarios, historia de la literatura). No se cuenta con evidencia de que se hayan realizado los análisis por los temas en forma separada.

70

Ya se citó que las versiones de pre-test se diseñan con un modelo matricial con el propósito de cubrir temas específicos en muestras controladas de estudiantes, así como equiparar entre pruebas y calibrar ítems que se utilizarán en el siguiente año. Entonces, puede decirse que los parámetros psicométricos pueden variar respecto de los que se tienen en la prueba operativa censal, especialmente si se calibran en forma global y no como parte del tema del cual forman parte.

6. Calidad y gestión de los bancos de reactivos

tt Se

cuenta con una normativa para revisar, corregir y desechar reactivos en función de los resultados de la calibración, tomando en cuenta un conjunto de varios parámetros y evidencias.

No se cuenta con una normativa para el mantenimiento de los bancos de reactivos. En el MT se menciona que hay criterios para ello, pero no se indican los valores de referencia en forma sistemática, deben localizarse dentro del texto. Si se considera la información disponible en el MT se puede considerar como no convincente. En el MT2013 aparecen los criterios para aceptar y rechazar reactivos (citados en el punto previo) que incluyen el ajuste al modelo logístico, curva característica con pendiente negativa o de comportamiento poco claro en su gráfica, dificultades extremas y correlación reactivo-prueba. Para la primera etapa del piloteo inicial se seleccionan los reactivos que tienen los mejores resultados del jueceo, para conformar 6 formas diferentes para cada grado (30 en total). Las formas 1 y 4, 2 y 5, 3 y 6 son equivalentes, es decir contienen reactivos que miden las mismas especificaciones. Para la segunda etapa solo se pilotean los reactivos que han tenido que ajustarse, con base en los resultados del jueceo y de la primera etapa de piloteo, para tener al menos uno con buenos indicadores estadísticos. Para seleccionar los “mejores reactivos” se ha considerado como criterio valores mayores a 0.30 en discriminación y correlación biserial, independientemente del porcentaje de respuestas correctas. Para el piloteo con muestras controladas en las últimas sesiones de la prueba operativa aplicada durante las jornadas nacionales, se han dispuesto 6 formas por grado y asignatura con reactivos que son calibrados con sujetos comunes al resto del instrumento. Las calibraciones se combinan con el proceso de jueceo para establecer los reactivos que se conservan en el Banco entre las versiones de pre-test y operativa. Se preparan tablas con el inventario de los reactivos y sus calibraciones para la inclusión posterior en el diseño de las pruebas definitivas. tt Es

posible revisar los inventarios del banco de reactivos, debidamente clasificados y con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o que haya reactivos sin calibración.

Se satisface este criterio en forma parcial, porque en el MT 2007 y 2008 se incluyó información acerca de los reactivos (se habla de los reactivos de 3 opciones hasta 3º de primaria) y los inventarios que están en resguardo confidencial en la Dirección y se incluye una tabla con el Aspectos psicométricos

71

inventario de ítems. En MT 2008 se tiene una tabla procedente de la base de datos del banco informático. Esta información fue retirada de los siguientes MT.

Las pruebas ENLACE para educación básica

Es de suponer que el sistema de captura debe permitir obtener los inventarios en todo momento. tt Se

cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el banco o en las versiones, forma de almacenamiento en medio informático o físico y forma de actualización para uso posterior.

Debe recordarse que, por razones de transparencia, al terminar la aplicación se distribuye la prueba a todos los alumnos evaluados, lo que conlleva a la “volatilidad” del banco de ítems. Sobre esta práctica se discute la ventaja de mantener confidencial y debidamente resguardado el banco de ítems (para garantizar la seguridad del proceso, evitar la degradación de la calidad métrica de los ítems y reducir el costo de su diseño), en contraposición a distribuirlos abiertamente para aumentar la credibilidad del proceso, demostrar transparencia y reducir el costo de resguardo del banco. No hay un acuerdo general en ninguno de los dos sentidos. Para contrarrestar los usos indebidos, se han elaborado materiales de apoyo que recomiendan los usos apropiados, con fines pedagógicos, y que tratan de evitar usos para los cuales no está hecha la prueba. Esta práctica de distribuir el instrumento ha hecho que no parezca útil contar con una guía de preparación para los sustentantes, pero podría ser interesante rescatar el concepto de producción de las guías que se han hecho con fines didácticos. No se encontró una guía de interpretación general para la prueba, aunque hay materiales de apoyo en el portal de la SEP que pudieran considerarse como suplentes de esta necesidad. La guía de interpretación, disponible en el reporte impreso, ayuda al alumno y a los padres a identificar la respuesta correcta de cada reactivo, los errores en las respuestas incorrectas y la forma de interpretar la clasificación de los niveles y subniveles de logro. Guías semejantes a éstas se tienen en pruebas nacionales e internacionales, como en los informes de PISA.

CRITERIOS TÉCNICOS SOBRE LA CALIFICACIÓN Y LOS NIVELES DE DESEMPEÑO tt Está

disponible el documento que explica la forma en que se asignó calificación a estudiantes (normativa, criterial u otra).

Es una prueba de calificación criterial, relativa a las competencias descritas en las tablas de especificaciones y con el modelo de calificación y puntos de corte asociado a criterio de jueces. La calificación se realiza con el modelo clásico usando ITEMAN y con el software Bilog siguiendo el modelo de tres parámetros de la TRI que es un modelo descriptivo, no invariante (depende de cuántos y cuáles ítems se contestan por la persona) y posteriormente debe hacerse el cambio de escala para reportar la calificación en el intervalo 200-800. Debe hacerse notar que los valores (sumando y factor) para el cambio de escala de las medidas logísticas se reportan en cada MT, pero no se han actualizado los datos, lo cual debe demostrarse en caso de que las pruebas mantengan sus parámetros métricos o modificarse en caso contrario. Se tiene una mención en el MT acerca de un estudio comparativo entre grados para

72

estimar la ganancia educativa, pero no se cuenta con evidencias de ello, con lo que se pierde también la ventaja de disponer de una escala fija. tt Se

cuenta con la explicación del diseño de la escala de la prueba y la forma de calcular los puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección por azar, entre otros posibles criterios.

Al diseñar la escala se entiende que hay una traslación de la media a 500 puntos y un escalamiento de la desviación estándar a 100 puntos, en el MT se indican los valores de traslación y escala que, en principio, se entiende que deberían cambiar con las aplicaciones por utilizarse el modelo descriptivo de la TRI , pero se han mantenido a lo largo de los años para Español y Matemáticas, y los de las materias rotativas se reportan incorrectamente. Esta parte parece descuidada y debería mejorarse. Estos elementos, en principio, permiten reportar medidas con referencia a criterio, pero no se cuenta con una declaración clara sobre el carácter de calificación criterial de ENLACE . Por esta circunstancia combinada con la asignación de puntos de corte sin sustento cualitativo, se tiene una incompatibilidad entre escala y referencia para reportar los niveles de desempeño. Una vez que se tiene una escala, su aplicación puede servir solamente para reportar medidas de la prueba global o para obtener medidas en cada subprueba. No se emiten resultados parciales (por ejemplo por tema) en la escala 200800 y no se hace ningún detalle en este sentido. No se tiene evidencia de que se asigne ninguna penalización ni corrección por azar. Se explica el procedimiento para obtener la calificación global como combinación de diversos instrumentos o partes de la prueba. No es aceptable la asignación global como promedio de promedios. No se detalla una escala para las calificaciones parciales. Se entiende que se entrega información por cada área evaluada en función de aciertos y errores, pero la escala solo se aplica al global. Al parecer la calificación global no se obtiene como promedio de las puntuaciones parciales. Aunque ENLACE no consiste de varios instrumentos diferentes, sí se puede considerar como múltiple por las asignaturas y áreas que explora, por lo que posiblemente sea de importancia reportar puntajes en las subpruebas.

8. Niveles de desempeño e interpretación de resultados

tt Existe

el marco teórico-metodológico basado en currículo que justifica la organización en niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con el procedimiento de asignación del valor del punto de corte en la escala.

No se encontró información relevante para este criterio, en principio las especificaciones fueron definidas por los responsables de currículum de la SEP, como se indica en el capítulo previo de este reporte. En cambio, se encontró información escueta en un gráfico o esquema que ilustra la partición del continuo de medición en niveles. Por ejemplo en las páginas 51 y 52 del MT 2012 solo se esquematiza la forma de establecer los puntos de corte, pero este criterio se refiere no Aspectos psicométricos

73

al punto mismo sino a la especificación del estándar educativo relacionado con cada intervalo definido por los puntos de corte.

Las pruebas ENLACE para educación básica

Esto también tiene implicaciones en los estudios longitudinales y de ganancia, que deberían tomar en cuenta el conjunto de especificaciones curriculares y el cambio que han tenido en el sistema educativo sexenal. tt Se

dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para determinar los niveles de desempeño o estándares.

Este criterio no se satisface. La prueba se plantea como criterial pero la información que describe el procedimiento seguido es muy escueta y presentada solo en una secuencia gráfica que muestra el concepto general del proceso, pero no proporciona evidencias de su realización. Se reportan puntos de corte desde el MT 2007 sin demostración acerca de la forma de obtenerlos (con un exceso de decimales). Puede pensarse que para determinar los puntos de corte se sigue un procedimiento por jueceo, el cual debe sustentarse con una verificación empírica en referencia a la población y a la prueba misma. No se cuenta con documentación de estos análisis. tt Los

estándares desarrollados a partir de comités de jueces, cuentan con el análisis del dominio curricular y/o tienen en cuenta consecuencias empíricas de la identificación de puntajes de corte.

El MT 2007 explica el esquema para definir tres puntos de corte (cuatro niveles de logro) y menciona que se hizo un análisis factorial, del que no hay evidencia. Los parámetros de referencia para los puntos de corte no se han cambiado desde 2007 en Español y Matemáticas y se han incluido los de otras asignaturas pero en forma descuidada, repitiendo datos o presentándolos sin justificar respecto a mantener los puntos a lo largo del tiempo y sin el soporte del análisis factorial anunciado. En este caso faltaría contar con estudios completos que señalen las proporciones de alumnos clasificados en cada nivel que deben ser, a su vez, revisados por los jueces a fin de asegurarse que los puntos de corte dividan a los estudiantes en grupos que puedan ser interpretados y distinguibles, frente al dominio curricular en términos de las definiciones de las competencias establecidas para la prueba y justificar los descriptores de cada nivel. tt Los

puntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se demuestra experimentalmente su ubicación y se reporta el intervalo de confianza correspondiente.

No se tiene demostración de este aspecto. En el MT se dispone de la tabla con valores de corte que permiten obtener el intervalo de cada nivel, lo cual es diferente del intervalo de confianza de los puntos de corte que no se tienen disponibles. Por ejemplo, al asignar el punto de corte en 500 puntos se puede tener el intervalo de confianza de 497 a 503 puntos, de tal modo que todos los estudiantes que caen en dicho intervalo recibirán el mismo tratamiento. El intervalo de confianza se obtiene en función del error de medida en el punto de corte. tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan

bien en relación a contenido de prueba. 74

No se dispone de evidencia al respecto, fuera de la definición de los puntos de corte como se indicó en el criterio anterior. Se cuenta con la metodología y evidencia del proceso realizado para describir el significado de los niveles de desempeño o del conjunto de competencias por nivel en términos de los puntos de corte. No se cuenta con documento detallado de los desempeños por nivel para las competencias y contenidos propuestos en la prueba. En cambio, sí se cuenta con descripciones de desempeño por dificultad de los reactivos y por materia en el portal de la SEP. tt Se

tiene el documento que detalla los desempeños por nivel para las competencias y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los resultados de las pruebas.

En el MT 2012 (Pág. 28 a 49, 69 a 85) solo existen las tablas de especificaciones generales de la prueba y descripciones por dificultad de los ítems, pero no están organizadas por niveles de desempeño respecto de los puntos de corte. Se indicó en el MT 2007 que es algo a completar pero no se ha realizado. Las descripciones de desempeño por dificultad de los reactivos también se encuentran disponibles las tablas por materia en la página web siguiente: http://www.dgep.sep.gob.mx/Brow-AES/APOYOS12/Pedagogico2012/UP2012-3.as tt Los

integrantes de los comités encargados de definir los niveles de desempeño son seleccionados por sus perfiles académicos y/o laborales y por su representatividad dentro de la diversidad cultural del país; dichos integrantes pasan por un proceso de capacitación orientado al manejo de la metodología a utilizar.

Con base en las descripciones contenidas en los MT, se debe suponer que los evaluadores son representativos y experimentados, especialistas en las asignaturas, con experiencia en evaluación, construcción y análisis de reactivos. Al respecto los manuales técnicos señalan: “el jueceo se ha realizado con la participación de profesores de las 32 entidades federativas del país, además de profesores del SNTE y de las Áreas Estatales de Evaluación” (MT 2012: 93; 2013:113). Dicen también que en los talleres de jueceo “se ha contado con la participación de personal de la Sociedad Matemática Mexicana, de la Dirección General de Desarrollo Curricular, del SNTE y del INEE” (MT 2012: 94; 2013:113). Se indica también que hasta 2008 el INEE definió el perfil de los jueces, proporcionó el software para la validación y coordinó el proceso de jueceo de reactivos, que la DGEP coordinó los trabajos y junto con el ILCE se sistematizó el proceso (MT 08: págs. 4-40 a 4-44), y que en años 2012 y 2013 el proceso de validación de reactivos fue llevado por la Subsecretaría de Educación Básica, y que la DGEP se ocupó de sistematizar la información resultante (MT 2013:86). En los manuales técnicos se señala la participación numerosa de especialistas de asignatura capacitados para ser diseñadores y validadores, pero no se proporcionan listas de los jueces, ni tampoco hay evidencias del programa de capacitación, como el temario o el número de horas de cada taller. No obstante, en el Manual Técnico 2008 se detalla un procedimiento desarrollado por el INEE que se operó con 55 profesores de 32 entidades para revisar: 1) representatividad Aspectos psicométricos

75

del dominio de los contenidos curriculares, 2) formulación de cada reactivo, 3) presencia de sesgos (MT08: págs. 4-40 a 4-44).

Las pruebas ENLACE para educación básica

CONCLUSIONES La prueba ENLACE-B, como otras pruebas estandarizadas que se producían anteriormente por la SEP, ha cumplido con algunos propósitos favorables de apoyo a la educación y a la cultura de la evaluación en México, en especial porque algunas asociaciones no gubernamentales y los medios de comunicación han empezado a hacer uso de los resultados de la prueba y han identificado varias formas de reportar resultados en los distintos niveles de agregación, dependiendo del usuario a quien se dirigen. No obstante, esta práctica debe ser revisada y atendida por las autoridades porque, como se ha comentado en el cuerpo del reporte de este Comité, se sabe que varios usos no son apropiados por no estar contemplados en los propósitos de diseño, lo cual reduce o perjudica la utilidad de la información que se ha distribuido y manejado entre la sociedad. Por ello es importante aclarar a las autoridades y a la sociedad en general, que es un acierto que diversos grupos de personas y miembros de la sociedad utilicen los resultados de la evaluación, pero con todo cuidado y solo dentro de lo que se ha planeado en el proyecto de evaluación. Otro acierto interesante se asocia con el diseño de ENLACE, que se plantea como un conjunto de instrumentos organizados en torno a un cuerpo base con preguntas referidas a competencias generales del currículum y una parte matricial para piloteo y equiparación. No queda duda de la necesidad de utilizar ítems de opción múltiple para producir la prueba censal y calificarla en forma automática. No está por demás insistir a los usuarios que está fuera de discusión la pertinencia de esta prueba en comparación con otro tipo de instrumento (portafolio, pruebas de ensayo, producción de materiales de estudio en equipo), además de la conveniencia del tipo de ítem para poder explorar una gama amplia de contenidos o competencias e incidir en una mayor información para reportar y retroalimentar al estudiante, al maestro, a los padres de familia, a las autoridades. Es importante que este tipo de pruebas cuente con uno o varios consejos o comités integrados por docentes y especialistas en diversa áreas, con experiencia y reconocimiento en el medio. Junto con este grupo de personas y la base de información que permite diseñar las pruebas con referencia al currículum y a los criterios de desempeño, se puede sustentar la validez y objetividad de las pruebas. Igualmente, los comités ayudarán a identificar los niveles de desempeño de las competencias, siguiendo un proceso que deberá formalizarse con evidencia adicional sobre las reuniones de los especialistas, la forma en que se fijan los contenidos, desempeños y cualidades de los niveles reportados. Una de las fortalezas de ENLACE es la existencia de los manuales técnicos que publica la UPEPE desde 2007 con periodicidad anual (independientemente de que deben ser completados y respaldados con la información pertinente más allá de afirmaciones generales). El Manual Técnico (MT ) proporciona información completa sobre el diseño, la construcción de los ítems, la aplicación, la calibración, la equiparación de pruebas, la interpretación de los resultados, cubriendo los atributos de validez, objetividad y confiabilidad requeridos para el proyecto de evaluación. Los manuales disponibles se organizan en dos partes: la primera con aspectos de interés para el

76

público general y la segunda con datos más específicos y detallados con orientación a un público más especializado. En el manual se incluyen elementos que favorecen revisar la evolución de la prueba en tópicos como el diseño, la atención a problemas de copia, la referencias a ligas de sitios de Internet de la SEP donde se pueden conseguir datos adicionales y resultados de estudios realizados. Uno de los puntos importantes es que el manual técnico explica el alcance de las pruebas, aclara los usos pertinentes sobre los que se responsabiliza la SEP y señala usos indebidos que se deben evitar. No está por demás destacar dentro de los puntos positivos de ENLACE-B, el enorme esfuerzo administrativo ligado a la aplicación, que incluye la logística de distribución, seguridad, lectura, calificación y emisión de reportes. Las debilidades fueron enmarcadas en los criterios detallados previamente. Puede apuntarse, inicialmente, que debido a la difusión de los reportes proporcionados por la SEP, la disponibilidad de pruebas, datos y bases informativas diversas en el sitio web, se ha incurrido en usos no pertinentes para el proyecto, los cuales, evidentemente, no son imputables a la SEP. Una limitación es que el diseño se ha enfocado a un perfil de competencias de tipo genérico en Español y Matemáticas, lo que puede ocultar el currículum educativo o pasarlo a un segundo plano. Ese punto es fundamental especialmente hoy por hoy que se exige que las pruebas estandarizadas no se enfoquen solo a la exploración de conocimientos factuales y conceptuales. Para evitar este sesgo de apreciación se debe mejorar el diseño de las tablas de especificaciones, donde se detallen los niveles taxonómicos y la dosificación respecto de ellos. Las tablas de validez de contenido o de especificaciones deberían homogeneizarse para reconocer un criterio de construcción de los instrumentos para el proyecto ENLACE y dar una continuidad al proceso de evaluación en los diversos niveles educativos y las asignaturas. Se debe revisar el procedimiento para determinar los puntos de corte, mejorar su presentación en los manuales técnicos (sin llegar al abuso en el número de decimales) y demostrando la razón para mantener constantes los valores a lo largo del tiempo o modificarlos según sea el caso conforme se revisen las especificaciones de las pruebas. La lista de usos indebidos de ENLACE se ha discutido en varias secciones de este reporte, lo cual implicará que la SEP insista entre sus diversos usuarios para evitar este tipo de aplicaciones inconvenientes que abren posibilidades pero limitan la generalidad y utilidad de la prueba en otros ámbitos. La SEP hizo un trabajo importante de certificación de algunos de sus procesos, pero no se debe confundir este proceso de metaevaluación de ENLACE con base en estándares de medición y evaluación del logro, con los procesos de revisión con normas ISO. La certificación ISO fue tramitada para la documentación de la lectura, calificación y construcción de instrumentos de medición, que tienen un propósito de tipo administrativo y documental y que no aportan elementos necesarios para la evaluación técnica objeto de este trabajo. Es importante terminar los estudios esbozados o propuestos en los manuales técnicos (por ejemplo análisis factoriales para identificar constructos y dimensiones métricas de las pruebas). Igualmente, se tienen que realizar los estudios y documentos faltantes, entre los que se pueden citar:

Aspectos psicométricos

77

Las pruebas ENLACE para educación básica

a) Estudios • Validez de criterio, en particular de validez concurrente con otras pruebas. • Dimensiones y subescalas que se miden con la prueba. Pueden utilizarse modelos factoriales, por jueceo o mixtos. Este trabajo debe hacerse en colaboración con los responsables curriculares que definen las especificaciones de las pruebas y el marco teórico académico del proyecto. • Error de medida, determinado con modelo clásico o con TRI , porque es un dato fundamental para juzgar la calidad de la medición que se realiza con los instrumentos. • Sesgos de diversos tipos y de funcionamiento diferencial de los ítems y estudios de factores asociados a los resultados de ENLACE. La carencia de este tipo de estudios impacta otros aspectos de la calidad de la prueba, como se cita en el capítulo sobre aspectos culturales. • Equiparación entre versiones de un mismo año y en pruebas longitudinales. La información disponible en presentaciones digitales deben respaldarse con los estudios y presentar formalmente los resultados de la equiparación. • Análisis multinivel que contengan variables explicativas de los resultados de los estudiantes, tomando en cuenta los anidamientos por salón, escuela, entidad, entre otros posibles niveles. • Reporte de los procesos de análisis y detección de copia, junto con la logística de aplicación frente a las posibles actividades fraudulentas, desde la enseñanza dirigida en clase a responder de cierta forma, el dictado de respuestas en el momento de la aplicación o la adaptación de los enfoques educativos en ciertos planteles. b) Manuales • Diseño de la muestra piloto debidamente justificado tanto para el marco poblacional como para los reactivos a considerar en las pruebas matriciales. • Diseño y calibración de reactivos, separado del manual técnico, con elementos específicos de diseño de ítems su forma de analizar y dictaminar la calidad, tanto con modelo clásico como de la TRI , el conjunto de criterios de aceptación para los ítems calibrados, la selección de ítems y los criterios de aceptación para el banco de reactivos. • Calificación y de interpretación de resultados, en combinación con las justificaciones descriptivas de las competencias asociadas con los niveles. • Manejo y respaldo que se tiene con los bancos de ítems y los sistemas administrativos relacionados con ellos. Deben incluirse los inventarios considerando la clasificación temática, la complejidad y los valores métricos, porque su ausencia no permite juzgar acerca de su calidad. Igualmente se requiere complementar la muy escasa información sobre los sistemas informáticos de almacenamiento de los ítems y de la generación de pruebas. En todos los casos es imprescindible acompañar los estudios y manuales con referencias formales y publicaciones debidamente organizadas, así como explicaciones de los modelos, algoritmos, fórmulas y criterios bien definidos, con lo cual se brindaría el soporte completo al proyecto, evitando el uso indiscriminado de presentaciones en Power Point y hojas de Excel, que no son documentos formales de apoyo al proyecto.

78

3

Atención a la diversidad cultural

Los autores de este apartado tuvieron a su cargo examinar el aspecto de validez cultural, noción que se define como el grado en que el diseño, el proceso de desarrollo y el contenido de una prueba toman en consideración la forma en que factores culturales, lingüísticos y socioeconómicos no relacionados con los constructos de interés influyen en la manera en que los estudiantes interpretan el contenido de los ítems y la forma en que responden a esos ítems (Solano-Flores, 2013; Solano-Flores y Nelson-Barber, 2001). Se propusieron los siguientes criterios de validez cultural: 1) Marco conceptual de la prueba; 2) Especificación de las poblaciones; 3) Estrategia para considerar diversidad cultural, lingüística y socioeconómica; 4) Especificación de ítems; 5) Profesionales involucrados en el desarrollo de los ítems; 6) Representación de poblaciones diversas en las muestras de estudiantes piloto; 7) Validación cognitivo-cultural; 8) Revisión; 9) Análisis de sesgo; 10) Estudios de generalizabilidad; 11) Tiempos y calendarios y; 12) Mecanismos de corrección. Los autores examinaron la prueba ENLACE de acuerdo con los criterios de validez cultural antes mencionados, usando la documentación de la prueba que entregó la DGEP de la SEP, y que el INEE puso a disposición de los miembros del comité, vía su sitio web. Dicha documentación incluyó los manuales técnicos de las pruebas, bases de datos, reportes de estudios especiales, y presentaciones a diversas audiencias de las características de la prueba. Dichos documentos abarcan un período de seis años, del 2007 al 2012. A fin de contar con más información que permitiera evaluar la validez cultural de las pruebas se efectuó el microanálisis de una muestra de los reactivos ENLACE. Dichos reactivos fueron seleccionados aleatoriamente del conjunto de reactivos publicados por la Secretaría de Educación Pública en los manuales intitulados Apoyos para el uso pedagógico de los resultados ENLACE publicados en diciembre de 2012 por la Dirección General de Evaluación de Políticas (SEP, 2011-2012a,b,c,d,e,f,g). Tales documentos fueron entregados a los docentes de todo el país durante el ciclo escolar 2012-2013 con la finalidad de ayudarlos a preparar al alumnado para la presentación de la prueba ENLACE en el mes de abril de 2013. Estos materiales tienen, entre otros propósitos, el de “promover la apropiación del estudio ENLACE, a través de (...) los instrumentos de medición empleados...” En total, los materiales contienen una selección de 376 reactivos de Español y 391 reactivos de Matemáticas. La tabla 3.1 muestra el número de reactivos por área de contenido y grado escolar.

79

Tabla 3.1 Número total de reactivos de Español y Matemáticas incluidos en los Apoyos para el uso pedagógico de los resultados ENLACE

Las pruebas ENLACE para educación básica

Área de Contenido

Primaria

Secundaria

Tercero

Cuarto

Quinto

Sexto

Primero

Segundo

Tercero

Español

52

54

56

49

52

59

51

Matemáticas

49

50

57

66

62

58

49

Fuente: Elaboración propia.

Para cada reactivo, los materiales dan información sobre el contenido evaluado y sobre el desempeño de los alumnos, como porcentaje de los que respondieron correctamente (valor p). Además del total nacional se reportan datos desagregados en cuatro tipos de escuela: Particular, General, Indígena y CONAFE. Los materiales no informan sobre los años de aplicación de ENLACE en que se basan los datos. Es importante mencionar la posible existencia de error en estos datos. Los materiales de todos los grados incluyen las cuatro categorías en los datos sobre el desempeño de los estudiantes. Sin embargo, las categorías Indígena y CONAFE solo operan en los niveles de preescolar y primaria. La muestra aleatoria consistió en 29 reactivos, 14 de Español y 15 de Matemáticas. Dentro de cada área de contenido, dos de los reactivos seleccionados pertenecían a cada uno de los siete grados escolares reportados en el documento mencionado de Apoyos (SEP, 2011-2012a,b,c,d,e,f,g) de tercero al sexto de primaria y primero al tercero de secundaria. Un reactivo adicional se analizó en el caso de Matemáticas tercer grado. Este tamaño de la muestra representa cerca del cuatro por ciento de los reactivos incluidos en los materiales. A partir de los resultados observados en esta muestra aleatoria de reactivos, es posible tener una idea del porcentaje de reactivos en la población total de reactivos en las que es probable que haya errores que afecten la validez cultural de la prueba. Se empleó la técnica del microanálisis de reactivos (Solano-Flores y Trumbull, 2003), que puede ser definida como el razonamiento sobre la manera en que las propiedades de los reactivos y las características lingüísticas, culturales y sociales de los examinados operan en combinación y afectan la validez cultural al influir en la manera en que los estudiantes los interpretan. Este análisis es integral, multidisciplinario y basado en juicios. Dadas las limitaciones de tiempo y recursos no se efectuaron análisis empíricos que examinaran la correlación entre medidas de error de diseño de los reactivos y medidas de desempeño. Tal estudio supondría la participación de diversos profesionales y el empleo de muestras más grandes de reactivos. Para cada reactivo se examinaron los aspectos gramaticales, pragmáticos, semánticos y de contenido que, en combinación, pueden afectar el desempeño de los estudiantes, especialmente los indígenas o hablantes primarios de lenguas indígenas, estudiantes de nivel socioeconómico bajo o estudiantes de zonas rurales. A continuación se redactó una narrativa que describe las características problemáticas del reactivo. Los anexos I y II presentan, respectivamente, el microanálisis de cada uno los 29 reactivos de Matemáticas y Español seleccionados. Cada microanálisis contiene el reactivo y la información de desempeño, tal y como se les reporta en los Apoyos y la narrativa que sintetiza

80

el microanálisis. Para cada reactivo incluido se reporta la página del material de Apoyos correspondiente en que el reactivo apareció. Además de los retos lingüísticos por diseño inadecuado, se observa en los reactivos una variedad de problemas de contenido, organización y redacción. Entre los más serios hay: 1) descontextualización de la información que se le presenta para resolver problemas; 2) uso de un registro (lenguaje académico, convenciones de notación) ajeno al usado en México; 3) más de una posible respuesta correcta en reactivos de opción múltiple; 4) ausencia de opción correcta en esos reactivos; 5) información errónea; 6) información incompleta; 7) palabras faltantes y, por ende, oraciones incomprensibles; 8) complejidad innecesaria de información contextual; 9) redacción-estilo y léxico inusuales en textos mexicanos, y; 10) diseño defectuoso de las ilustraciones. Estos problemas, que son relevantes para la evaluación válida de cualquier sector poblacional, pueden presentar retos aún más serios para poblaciones minoritarias. No es difícil apreciar que estos problemas derivan de la falta de cumplimiento con los criterios de validez cultural que reveló el análisis de la documentación de ENLACE . A petición del INEE, la DGEP proporcionó unos material adicionales que fueron también analizados. Este informe integra los resultados obtenidos a partir tanto de los documentos iniciales como de los documentos adicionales de acuerdo con cada uno de los doce criterios de validez cultural.

1. Marco conceptual de la prueba. Considera cómo la efectividad en el aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia sociocultural del estudiante y su familiaridad con la lengua y el dialecto en que se administran las pruebas.

No se encontró ningún documento que presente el marco conceptual de ENLACE . Los documentos que contienen información cercana relevante al marco conceptual de la prueba son los manuales técnicos. Dichos documentos son comunes a las áreas de contenido (Español, Matemáticas, asignatura variable) y abordan el aspecto conceptual del contenido evaluado de cada una de estas áreas de una manera muy superficial, en menos de una página, y no hacen mención alguna de los factores socioculturales, lingüísticos y epistemológicos que influyen el aprendizaje y la evaluación de un contenido. Sumada a lo anterior, la información sobre la organización del contenido tiene serias deficiencias, independientemente de que no considera aspectos socioculturales, lingüísticos y epistemológicos. Por ejemplo las matrices de contenido no presentan cruces de área temática y habilidad, sino cruces de áreas temáticas con niveles de desempeño. Esta deficiencia impide que se tenga una visión compleja y detallada de los contenidos. La revisión minuciosa de las nuevas evidencias cedidas por la DGEP confirma lo expuesto en la entrega previa. No se encontró un marco conceptual de ENLACE , y mucho menos un marco que considere la condición multilingüe y pluricultural de la población escolar. Las breves menciones que se hacen a las primarias indígenas se refieren a los posibles problemas durante la aplicación. En el MT 2012 el marco conceptual se limita a la descripción de la metodología para la elaboración de la prueba, su planeación, algunos criterios para el diseño de reactivos y consideraciones sobre

Atención a la diversidad cultural

81

Las pruebas ENLACE para educación básica

su aplicación. Se menciona brevemente, cuando se señala su carácter censal, que incluye a escuelas de todas las modalidades, pero no enuncian posibles variables de naturaleza sociocultural.

2. Especificación de las poblaciones. Como parte del desarrollo de la prueba se establecen las características de la población objetivo que consideran la diversidad cultural y lingüística del país y los múltiples contextos y escenarios culturales y ambientales.

No se encontró en los documentos revisados alguno que presente un marco de muestreo poblacional. Tampoco se encontró ningún documento que identifique los principales grupos lingüísticos, étnicos, o socioeconómicos de estudiantes a los que se aplica la prueba. En los cuestionarios de contexto de ENLACE se pregunta al estudiante si habla alguna lengua indígena, sin que se especifique de qué lengua se trata. No hay preguntas que permitan conocer a profundidad el perfil lingüístico de los estudiantes como el tipo de bilingüismo que maneja. Entre los documentos adicionales no se encontró ninguno que presente o reporte alguna visión conceptual de la diversidad lingüística y cultural en el país, que permita asegurar la representación estadística equitativa de distintos grupos demográficos en el proceso de desarrollo de ENLACE .

3. Estrategia para considerar diversidad cultural, lingüística y socioeconómica. Como parte del desarrollo de la prueba se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideración la diversidad, cultural, lingüística y socioeconómica del estudiantado mexicano.

En ningún documento revisado se encontró una metodología o el uso de un marco teórico para abordar la diversidad cultural, lingüística, socioeconómica y regional del país. Una búsqueda automática de términos como indígena y lengua, asociados a la diversidad cultural y lingüística permitió corroborar que los documentos analizados no consideran, ni siquiera tangencialmente, la diversidad poblacional del país y los distintos estratos poblacionales que deben ser tomados en cuenta para planear y pilotear una prueba. Entre los documentos que se proporcionaron para la segunda ronda de revisión, no se encontró tampoco ninguna evidencia del uso de tales referentes conceptuales. El único documento en el cual se encontró alguna alusión a condiciones particulares sobre la aplicación de ENLACE en escuelas a las que asisten niños indígenas es el Manual para el Coordinador de aplicación. Muestra controlada. Sin embargo, las dos menciones (p. 6 y p.14) se limitan a dar indicaciones sobre la posible dificultad de los estudiantes hablantes de lengua indígena para comprender las instrucciones o el contenido de los reactivos. En ambos casos la instrucción se limita a aprobar la traducción del contenido por parte de los aplicadores cuidando de no incluir en dicha traducción indicaciones sobre la respuesta correcta: “En escuelas de educación indígena los docentes-aplicadores deberán apoyar a los alumnos en caso de que no comprendan alguna palabra o texto de la prueba, explicando en lengua indígena si es necesario, limitando su respuesta a explicar solo su significado” (p.6).

82

Más adelante (p. 14), el documento incluye consideraciones sobre la aplicación de la prueba a una muestra AAE en escuelas de educación indígena, escuelas unitarias y multigrado, y la aplicación a estudiantes con necesidades especiales. Sin embargo, tales consideraciones son relevantes a las dificultades que pudieran presentarse durante la aplicación de la prueba y no son parte de un diseño o procedimiento sistemático que tome en cuenta la diversidad.

ESPECIFICACIÓN DE ÍTEMS 4. Especificación de ítems. Los documentos que establecen los distintos tipos y formatos de los ítems a incluir en la prueba proporcionan lineamientos para asegurar que la información gráfica y contextual incluida en los ítems sea familiar para la mayoría del estudiantado y reflejen una amplia variedad de contextos culturales.

Al igual que con el marco conceptual, no se encontró en los documentos examinados una metodología rigurosa que permita el desarrollo sistemático de los reactivos. Debido a la ausencia de esa metodología, no existe mención alguna de acciones que deben tomarse para asegurar que los formatos de los reactivos consideren la diversidad regional, de género, cultural, lingüística y socioeconómica del país. Independientemente del descuido de estos aspectos, las especificaciones que se proporcionan para elaborar reactivos son extremadamente generales, lo que provoca que se les interprete de maneras muy distintas por los autores de los reactivos. La ausencia de especificaciones detalladas para la elaboración de reactivos provoca una variedad tremenda entre los reactivos que se consideran como del mismo tipo y contribuye sustancialmente a la varianza de error. Entre los documentos que se proporcionaron para la segunda ronda de revisión no se encontró ninguna evidencia del uso de tales referentes conceptuales. Existen documentos Excel, con “vistas previas” del banco de reactivos que describen los distintos tipos de problemas con un formato como el siguiente: “Estructura 123351- Resolver un problema que implique cálculo de potencias con exponente negativo.” (5 Vista previa Banco ENLACE MAT_8) Tales descripciones son muy generales y no especifican los componentes de los ítems y sus relaciones ni dan información suficiente para que los autores de ítems determinen los contextos de los ítems y sus niveles de complejidad de una manera sistemática. Tal información dista mucho de dar atención a cualquier aspecto cultural o lingüístico de los ítems. A continuación se presenta un ejemplo del nivel más detallado que se observó en documentos que de alguna manera especifican las características de los reactivos continuación. El fragmento del documento que aparece en el cuadro 3.1 muestra simplemente, y de manera muy sucinta, los aprendizajes esperados y el tipo de reactivo que se ha de desarrollar:

Atención a la diversidad cultural

83

Cuadro 3.1 T

G

Contenidos

Las pruebas ENLACE para educación básica

6.1.6 Cálculo de distancias reales a través de la medición aproximada de un punto a otro en un mapa.

Medida

5.3.7 Identificación de múltiplos y submúltiplos del metro cuadrado y las medidas agrarias.

6º

6.3.4 Relación entre unidades del Sistema Internacional de Medidas y las unidades más comunes del Sistema Inglés. 6.5.5 Relación entre el decímetro cúbico y el litro. Deducción de otras equivalencias entre unidades de volumen y capacidad para líquidos y otros materiales. Equivalencia entre unidades del Sistema Internacional de Medidas y algunas unidades socialmente conocidas, tales como (barril, quilates, quintales, etc.).

Aprendizajes esperados Describe rutas y calcula la distancia real de un punto a otro en mapas.

Selección Sí

No Resuelve problemas que implican conversiones del Sistema Internacional (SI) y el Sistema Inglés de Medidas.

Resuelve problemas que implican usar la relación entre unidades cúbicas y unidades de capacidad.

Sí

Sí

Entre los documentos proporcionados para la segunda ronda de revisión se encontró uno que potencialmente podría contener información sobre la especificación de ítems. Se trata del documento, “Normas para la construcción de reactivos de opción múltiple”, de solo cinco páginas, que contiene reglas para asegurar que el formato de los reactivos sea consistente. Desafortunadamente, aunque son útiles para los autores de reactivos, las reglas que contiene este documento no son suficientes para asegurar un desarrollo sistemático de los reactivos. Esto se puede corroborar con los hallazgos en los microanálisis a los que se hace referencia en la primera sección de este apartado.

5. Profesionales involucrados en el desarrollo de los ítems. Los equipos de profesionales a cargo de desarrollar los ítems son multidisciplinarios; además de los expertos en contenido, dichos equipos incluyen a profesionales con especialidades en el área de la cultura e idioma (p.ej., antropólogos y lingüistas) y a maestros de minorías culturales y lingüísticas y de escuelas rurales y de nivel socioeconómico bajo.

Entre los documentos que se proporcionaron para la segunda ronda de revisión, no se encontró ninguna información sobre las características de los individuos que participaron en el desarrollo de las pruebas ENLACE . Únicamente en el Manual para el Coordinador de aplicación: Muestra controlada, se menciona la inclusión de docentes-aplicadores indígenas, pero en ninguno de los documentos sobre diseño o evaluación de reactivos se menciona esta posibilidad. Llama la atención el hecho de que en, la mención que se hace a la posibilidad de problemas de comprensión por parte de los estudiantes de escuelas de educación indígena, se presupone que los docentesaplicadores conocen la lengua que hablan los niños cuando está documentado en la literatura sobre la educación indígena en México que existe una gran cantidad de profesores bilingües mal ubicados o con manejo deficiente de la lengua que hablan sus alumnos (COMIE, 2013).

84

6. Representación de poblaciones diversas en muestras de estudiantes para piloto. Las muestras de estudiantes con los que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeconómicas del país.

No se encontró mención alguna de que las pruebas se hayan piloteado con muestras representativas de grupos culturales, lingüísticos y socioeconómicos diversos. Esta falla se relaciona con la falta de una estrategia para abordar la diversidad poblacional del país. Entre los documentos que se proporcionaron para la segunda ronda de revisión no se encontró evidencia de la inclusión del empleo de muestras representativas de distintos sectores poblacionales de los alumnos. No se encontró ningún documento que desarrolle estos temas. Al parecer, los criterios que se utilizaron para normar el diseño de reactivos no contemplaron las particularidades de la población escolar en México (ver documento “Normas para la construcción de reactivos”). Desde la perspectiva de quienes analizaron la documentación de la prueba, “Piloteo de Reactivos para 2013: Guía para el Coordinador de aplicación” es el documento en que se debiera proporcionar información sobre la inclusión de poblaciones minoritarias en el proceso de piloteo de los reactivos. Desafortunadamente, tal documento contiene solamente un conjunto de normas a seguir cuando los responsables visitan las escuelas para aplicar versiones piloto de las pruebas, pero no especifica ningún procedimiento para asignar sistemáticamente diversos grupos lingüísticos y culturales a los distintos reactivos y determinar fuentes posibles de sesgo.

7. Validación cognitivocultural. Como parte del desarrollo de la prueba se efectúan entrevistas cognitivoculturales para investigar si estudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan de la misma manera el contenido de muestras representativas de los ítems de la prueba.

En los documentos iniciales no se encontró evidencia de que, como parte del desarrollo de las pruebas, se hagan entrevistas cognitivo-culturales con grupos socioeconómicos, lingüísticos o culturales, o que se tomen en cuentas potenciales diferencias regionales o por género. En los documentos que se proporcionaron adicionalmente tampoco se hallaron evidencias de que se haya efectuado alguna forma de validación cultural. De hecho, se encontró muy poca evidencia de que se hayan examinado aspectos de cualquier forma de validez. El documento que podría haber proporcionado cierta guía a los autores de reactivos para considerar aspectos cognitivos culturales es el “Procedimiento de Construcción de Pruebas de Medición”. Se trata de un documento prescriptivo que lista las actividades que se han de seguir para el desarrollo de pruebas, pero no detalla tales actividades. En el segmento transcrito a continuación, se aprecia que la validez de los reactivos se atiende como una serie de pasos no detallados. El énfasis en el aspecto operacional minimiza el aspecto conceptual de la validez e impide tratar a profundidad cualquier aspecto de validez, relacionado o no con diversidad lingüística o cultural.

Atención a la diversidad cultural

85

Las pruebas ENLACE para educación básica

Cuadro 3.2

Valida reactivos construidos

• Recibe del Subdirector de Elaboración de Instrumentos los paquetes con las tarjetas reactivo y materiales de apoyo. • Revisa que los reactivos no presenten problemas de contenido. • Revisa la congruencia entre la información del reactivo y la referencia bibliográfica citada. • Verifica que los reactivos cumplan con las normas de construcción establecidas. • Propone ajustes a los reactivos que presenten problemas. • Emite una opinión técnica acerca de la calidad de los reactivos.

Área de Control de Calidad (ACC)

En la información de los cuestionarios contextuales únicamente se incluye una pregunta sobre el uso de alguna lengua indígena en la escuela y/o el hogar, pero, como ya se mencionó anteriormente, no existe algún espacio para especificar de qué lengua se trata.

8. Revisión. Hay un proceso de revisión con jueces que considera fuentes de sesgo cultural, lingüístico y socioeconómico en muestras representativas de los ítems.

En la documentación revisada inicialmente no se encontró ninguna mención a procesos de revisión basada en juicio de expertos para monitorear y asegurar la calidad de los reactivos, ni mucho menos en relación con fuentes potenciales de sesgo cultural, lingüístico o socioeconómico. Entre los documentos que se proporcionaron para la segunda ronda de revisión, no se encontró ninguna evidencia de que se haya utilizado un procedimiento sistemático y exhaustivo para la revisión de ítems, y mucho menos para que esta revisión haya considerado aspectos culturales, lingüísticos y socioeconómicos. En el Manual del usuario-juez no se incluye alguna mención sobre temas vinculados a la diversidad lingüística, social y cultural en el país. Los elementos que se incluyen en su página 13 para juzgar el valor de los reactivos son los siguientes:

86

Cuadro 3.3

Entre los documentos que la DGEP proporcionó se encontraron documentos Excel que contienen los comentarios de un grupo de revisores a los reactivos. Estos documentos no son producto de un procedimiento de revisión que se haya llevado a cabo de manera sistemática y regular. Más bien, son el resultado de una serie de presiones políticas. La revisión documental reveló que en el año 2011 se convocó a un grupo de expertos de la Coordinación de Educación Intercultural y Bilingüe (DGEIB), La Dirección General de Educación Indígenas (DGEI ) y el Instituto Nacional de Lenguas Indígenas (I NALI) para revisar los contenidos de los reactivos después de una denuncia presentada ante la Comisión Nacional para prevenir la discriminación (CONAPRED) por parte de un docente chiapaneco que denunció a la pruebe ENLACE como discriminatoria hacia los estudiantes indígenas. Este colectivo analizó reactivos de las asignaturas de Matemáticas, Español y Ciencias Naturales, seleccionados de forma aleatoria, correspondientes a los siete grados evaluados por la prueba. Un resumen del producto de dicho grupo se presenta en el documento intitulado “Comentarios a ítems”, que no incluye la metodología que se siguió para el análisis. Tal documento solamente proporciona información sobre el grado, los comentarios al reactivo y la manera en que se atendió –o no– la observación. Llama la atención que muchas de las observaciones se refirieron a particularidades en el uso del español y sobre errores gramaticales. Algunas de ellas incluyen sugerencias sobre vocabulario que no es frecuente en el español de México y, las menos, al uso de expresiones que tienen implicaciones culturales –como el uso de rarámuri en vez de tarahumara– o que pudieran ser mejor formuladas para su comprensión por parte de los alumnos bilingües. Sorprende que casi la cuarta parte de las observaciones tiene que ver con reactivos que no tienen una respuesta Atención a la diversidad cultural

87

correcta o tienen más de una. Tal observación coincide con los hallazgos en los microanálisis de reactivos descritos en la primera sección de este apartado.

Las pruebas ENLACE para educación básica

El documento referido tampoco incluye conclusiones sobre la pertinencia lingüística y/o cultural de reactivos ENLACE. A través de comunicaciones personales con dos de sus miembros, se supo que a este grupo de trabajo no se le pidió alguna reflexión adicional sobre el conjunto de la prueba, las condiciones de aplicación en las escuelas rurales, indígenas o CONAFE, o los retos para su desempeño entre los estudiantes que acuden a la escuela en condiciones precarias, como pudiera ser el caso de escuelas ubicadas en campos para jornaleros agrícolas o escuelas unitarias o multigrado. Como se muestra en los ejemplos siguientes, aunque bien intencionado, el ejercicio de revisión de reactivos no tuvo un respaldo conceptual o metodológico sólido. La visión de lo que es cultural se limita a aspectos superficiales. Además no se reporta la metodología seguida, ni se documenta quiénes fueron los individuos que participaron en este único intento de revisión de reactivos. El siguiente ejemplo presenta los comentarios a un reactivo de Español. El comentario del revisor es tan corto y poco elaborado que no se puede desprender de él ninguna pieza útil de retroalimentación. Cuadro 3.4 PO ESP

4

34

P. 34, texto

Muy bien detallado lo cultural, pero nada de lo lingüístico.

X

No se comprende si el revisor demanda que se desarrolle ampliamente la información referente a la lengua de los huicholes en la monografía que se presenta. El texto dice: Las raíces de la lengua huichola están basadas en el náhuatl, el pima, el yaqui, el cora y el tepehuano. Es decir, la monografía fuente incluye información lingüística. Cabe señalar que dicha información procede de las monografías publicadas en Red escolar ILCE. Es importante destacar que la estructura y contenido de la monografía incluida en la prueba corresponde a que presenta el libro de texto gratuito correspondiente en la p. 37.

Como muestra el siguiente ejemplo, los comentarios de los revisores de ítems reflejan alguna preocupación por los grupos indígenas, pero esta preocupación parece referida solo a su representación en el contenido de pasajes literarios.

Cuadro 3.5

6

7

P. 7, texto

La lectura de esta prueba refiere a un personaje no existente en un entorno indígena y rural. [Beatriz Rodríguez y Jorge Ramírez]

X

La DEAPE no considera que se incurra en discriminación en contra de los alumnos de los contextos rural e indígena al presentar un texto que se refiere a la labor de un bombero. Menos aun cuando el material consiste en una entrevista a través de la cual un bombero explica sus actividades.

El siguiente es un ejemplo de un comentario pertinente, aunque no se relaciona con el sesgo psicométrico: 88

Cuadro 3.6

8

13

143

La opción C incluye la expresión “negrita” refiriéndose a la sirvienta. Es una expresión cariñosa pero que puede ser discriminatoria hacia los afrodescendientes. Sugiero sacar esa frase y cambiarla por el nombre de la sirvienta. También es un estereotipo poner a la gente de servicio domestico como “negritas”

Atendida. Se propone la sustitución del término SIRVIENTA por ANA.

X

El siguiente ejemplo de Matemáticas, ilustra cómo, en algunos casos, el interés por no causar sesgo está guiado por concepciones erróneas o sin fundamento de los grupos indígenas. Cuadro 3.7

6

5

18

Son de cultura urbana. El contexto del problema no es cercano para algunas comunidades. No conocen el fútbol.

X

La especificación alude a la equivalencia del Sistema Internacional con medidas del Sistema Ingles y se requiere contextualizar de la manera planteada.

El siguiente ejemplo es en Ciencias Naturales. Es uno de los pocos casos en que se encontró un comentario que proporcionara un análisis suficientemente detallado que condujera al mejoramiento del ítem: Cuadro 3.8

3

60

La opción correcta depende del contexto, para el urbano la más común sería la opción C, sin embargo en contextos rurales e indígenas, la B y la D también serían posibles acciones.

X

Atendida, se sustituyó “ambulancia” por “médico”.

9. Análisis de sesgo. Se efectúa el análisis del funcionamiento diferencial de una muestra representativa de ítems para diversos grupos focales: estudiantes de distintos grupos indígenas, estudiantes de distintas zonas geográficas, de nivel socioeconómico bajo y de zonas rurales.

El material analizado inicialmente no incluye información sobre funcionamiento diferencial de al menos una muestra de reactivos. Aunque se han hecho estudios técnicos, se enfocan principalmente a equiparamiento. No se encontró evidencia de que se hayan conducido estudios para analizar sesgo en distintos grupos poblacionales, a pesar de que en los manuales se menciona la necesidad de considerar potenciales sesgos por factores culturales, socioeconómicos y género.

Atención a la diversidad cultural

89

Las pruebas ENLACE para educación básica

El Manual para el Coordinador de aplicación. Muestra controlada (pág. 14) incluye información sobre la posibilidad de aplicar esta muestra en escuelas de educación indígena, entre alumnos con discapacidad, en escuelas unitarias y multigrado. Sin embargo el documento no da información sobre el porcentaje de escuelas con estas características incluidas en la muestras controlada, ni los hallazgos sobre potenciales sesgos por razones de tipo lingüístico, cultural, por género, discapacidades o por la condición de ruralidad o migración de los estudiantes. Existen documentos (por ejemplo, E4H_CAL1) en los que se reportan los niveles de dificultad de los ítems por área de contenido y grado. Sin embargo, no se encontró en ninguno de esos documentos ninguna evidencia de que se hayan efectuado análisis de sesgo, o de que los datos sobre dificultad hayan sido desagregados por grupo de interés para determinar posibles diferencias sistemáticas en los puntajes entre grupos demográficos debidas a factores no relacionados con los constructos medidos. Entre el conjunto de documentos que se proporcionaron para la segunda ronda de revisión se encontró uno, que contiene lo más cercano a lo que podría ser el análisis de diferencias sistemáticas entre distintos grupos de interés. Tal documento es el Informe de Ganancia Educativa 2010-2013 de las pruebas ENLACE. Este documento contiene análisis de la ganancia educativa en las tres áreas de contenido de ENLACE. Dicho documento fue presentado por el CENEVAL a la Dirección General Adjunta de Programas Especiales y para la Dirección de Programas para la Administración Pública. Presenta la información de ganancia educativa basándose principalmente en estadísticas descriptivas muy básicas, comparando cohortes de estudiantes de acuerdo con el criterio de marginación económica. Aunque el documento presenta información importante, éste no reporta información basada en estadística inferencial sobre el análisis de las diferencias entre poblaciones desagregadas por distintos criterios, incluyendo etnicidad y compara resultados de de tercero de secundaria con los resultados de ENLACE MS .

10. Estudios de generalizabilidad. Se efectúan análisis de generalizabilidad para determinar la confiabilidad y validez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y nivel socioeconómico.

Ni en el primer grupo de materiales ni en el segundo se encontró evidencia alguna de que se hayan efectuado estudios de generalizabilidad para examinar confiabilidad y validez con respecto a lengua, o para comparar la generalizabilidad de las medidas de desempeño académico entre distintos grupos culturales, lingüísticos y socio-económicos.

11. Tiempos y calendarios. Los que se refieren a actividades que tienen como objetivo considerar la diversidad cultural, lingüística y socioeconómica son razonables y factibles.

90

La información sobre tiempos y calendarios que se encontró en los documentos revisados inicialmente no permite determinar si éstos hacen posible considerar adecuadamente la diversidad cultural, lingüística y socioeconómica (por ej. para identificar distintas muestras poblacionales y asegurar su participación en las fases piloto del desarrollo de las pruebas). En cuanto a los materiales adicionales, en el Manual para el Coordinador de aplicación. Muestra controlada 2013 (el ultimo con que se cuenta) se incluye el calendario para que se realice la prueba. Como se puede ver a continuación (páginas 4 y 5 del documento), dicho calendario es rígido y no prevé contingencias de naturaleza cultural o siquiera climática, a pesar de que la prueba se realizó al inicio de la temporada de lluvias en la mitad sur de país, en donde vive la mayor parte de la población indígena mexicana. Cuadro 3.9

En la página 6 únicamente se incluyen consideraciones para ajustar los calendarios en las escuelas de turno vespertino o en donde las clases no empiezan a las 8:00 de la mañana.

Atención a la diversidad cultural

91

Las pruebas ENLACE para educación básica

Cuadro 3.10

92

12. Mecanismos de corrección. El proceso de desarrollo de pruebas incluye mecanismos de corrección y mejoramiento de las pruebas con base en la información obtenida respecto a validación cognitivo-cultural, la revisión, los análisis de sesgo y los estudios de generalizabilidad de los ítems.

No se encontró en los documentos revisados inicialmente la existencia de mecanismos de corrección que permitan refinar los procedimientos de desarrollo de las pruebas con base en resultados de los análisis de sus propiedades técnicas. Esta ausencia de mecanismos de corrección es, en parte, consecuencia de la ausencia de estudios de sesgo y de generalizabilidad, y de entrevistas cognitivoculturales y procedimientos de revisión que debieran efectuarse como parte rutinaria del desarrollo de las pruebas. Como se discutió en relación con el criterio de Revisión, el único ejercicio de revisión para temas vinculados a la pertinencia lingüística y cultural dio como resultado una recomendación de la CONAPRED y solamente se hizo con un puñado de reactivos, y casi solamente en cuanto a su fraseo y al uso del español de México. No existe evidencia de que, como resultado de este trabajo, se revisara el procedimiento para su desarrollo con el fin de minimizar problemas de discriminación, sesgo potencial, etcétera. Solo se realizaron ajustes mínimos al contenido de un pequeño conjunto de reactivos con la finalidad de evitar el uso de términos que pudieran resultar discriminatorios. A pesar de que varias de las observaciones se centraron en la presuposición del conocimiento de la realidad urbana por parte de los estudiantes, se respondió por parte de la DGEP que dicha información forma parte de los contenidos de los libros de texto, ignorando la potencial influencia del contexto de los estudiantes en sus respuestas. Este tipo de ejercicios de revisión hubieran podido dar lugar a una nueva generación de pruebas adecuadas para atender el diagnóstico educativo de la población lingüística y culturalmente diversa en México, lo cual formaría parte de sus derechos a recibir una educación acorde a esta condición según dicta la Ley General de Derechos Lingüísticos de los Pueblos Indígenas en su artículo 13.

CONCLUSIÓN Estos resultados revelan que las pruebas ENLACE-B no cumplen satisfactoriamente ninguno de los criterios de validez cultural. Es muy importante mencionar que, en gran medida, las deficiencias observadas no solamente están directamente relacionadas con los temas de validez cultural, sino que son deficiencias que no debieran existir en ninguna prueba, aun cuando la población estudiantil fuera homogénea culturalmente y no existieran desigualdades sociales. Los análisis de ejemplos de ítems revelan una consideración muy limitada de los aspectos de validez cultural y serias limitaciones en los documentos que guiaron el desarrollo de las pruebas ENLACE (p. ej., marco conceptual, especificaciones de reactivos, marco de muestreo).

Atención a la diversidad cultural

93

Las pruebas ENLACE para educación básica

Estudios más detallados permitirían identificar los principales tipos de errores de los reactivos para determinar la manera en que las limitaciones (o la ausencia) de documentos normativos de la prueba influyen en la calidad de los reactivos. Con base en la documentación analizada inicialmente se identificaron deficiencias en las pruebas y los procedimientos para su desarrollo que limitan seriamente su validez cultural y, en general, su validez. El análisis de la documentación adicional confirma las conclusiones anteriores: no existe evidencia de un tratamiento sistemático de la diversidad lingüística, cultural y socioeconómica en el país. Ante la ausencia de documentos normativos que prescriban acciones y procedimientos específicos para tratar tal diversidad, los comentarios se basan en documentos cuyo contenido podría haber incluido el tratamiento de estos temas. Las limitaciones identificadas derivan en gran medida de la falta de documentos normativos que permitan una práctica sistemática en el desarrollo de las pruebas Enlace. Entre los principales documentos cuya ausencia afecta a la calidad de dichas pruebas están: 1. Un marco conceptual de la prueba para cada área de contenido que proporcione una visión de la naturaleza de los contenidos a evaluar y su intersección con habilidades genéricas. 2. Un documento de especificación de reactivos que proporcione información detallada las características de los ítems a desarrollar, con un nivel de detalle tal que asegure que factores idiosincráticos entre los elaboradores de pruebas no influyan en el nivel de complejidad de los reactivos. 3. Un documento de marco muestral de la prueba que defina la estructura sociodemográfica y étnica de la población estudiantil y que permita la identificación de los grupos sociales, étnicos y lingüísticos muestras de los cuáles deberán incluir en todas las etapas de desarrollo de las pruebas.

94

4

Aplicaciones

La aplicación de las pruebas es un paso crucial dentro del proceso de desarrollo (Downing, 2010). Es en esta etapa en la que se hacen llegar los cuadernillos con los ítems generados a los sustentantes, se promueve su respuesta, se recolecta la información y se realizan análisis sobre el comportamiento de los ítems. De la manera en la cual se realice esta etapa, dependerá la validez de los puntajes y la utilidad que tengan para el cumplimiento de los propósitos con los que la prueba fue creada (Downing, 2010). Las estandarización de las aplicaciones es recomendada para controlar la mayor cantidad de variables extrínsecas que puedan afectar las respuestas de los sustentantes. La estandarización implica que se ha definido e implementado un mismo procedimiento relacionado con las “indicaciones, condiciones de la prueba y su calificación” (AERA, APA, & NCME, 2014, p. 111). Esta estandarización es de gran importancia para asegurar que los sustentantes tienen la misma oportunidad de demostrar su talento al momento de responder la prueba. Las limitaciones de una prueba con respecto a la estandarización de sus procedimientos pueden poner en riesgo la generación de puntajes comparables, la medición del constructo y, por lo tanto, la utilidad e interpretación de los puntajes (AERA et al., 2014). Algunos autores señalan que “condiciones laxas, inseguras, o no estandarizadas de administración de una prueba pueden invalidar la interpretación de los puntajes para algunos o todos los examinados y estropear el trabajo realizado en las otras etapas del proceso de desarrollo de la prueba” (Downing, 2010, p. 163). En general, se busca que en esta etapa se eliminen las condiciones que podrían invalidar los resultados, sus interpretaciones y su uso para el cumplimiento de los propósitos de la prueba. Esto comprende procesos que se llevan a cabo antes, durante y después de la aplicación. Antes de la aplicación, es importante que se garantice que se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral; que las muestras utilizadas en la aplicación estén basadas en diseños sólidos, y en las que los estratos hayan sido definidos con base en argumentos teóricos defendibles; y, que se hayan diseñado procedimientos para verificar que los sustentantes a los que se aplica la prueba sean los que se planificaron. Además es necesario que se lleve a cabo un minucioso proceso de planeación de la aplicación, incluyendo la generación de manuales que hayan sido probados en campo, la definición de un cronograma detallado, identificación del personal de las escuelas que participará en la aplicación, precisión de requisitos y procedimientos para garantizar confidencialidad y seguridad de materiales de evaluación así como de las respuestas de los sustentantes, y mecanismos para controlar la calidad de la aplicación. Finalmente, en esta etapa se selecciona y capacita al personal de aplicación, esto involucra la definición de criterios estandarizados para su reclutamiento, selección y entrenamiento; la definición de procedimientos de entrenamiento que aseguren el adecuado conocimiento de los materiales y el dominio de las funciones que 95

realizarán en campo, la documentación de estos procesos, y la definición de procedimientos para monitorear la aplicación de las pruebas.

Las pruebas ENLACE para educación básica

Durante la aplicación de las pruebas se busca que no haya irregularidades que puedan afectar las respuestas de los alumnos. Comprende, principalmente: motivar la respuesta de los alumnos; contar con procedimientos estandarizados para lidiar con la no respuesta y prevenir y enfrentar la copia o cualquier tipo de fraude; implementar mecanismos de control de calidad que permitan asegurar que las condiciones de administración de la prueba sean estandarizadas, que se realicen conforme a lo planificado y se aseguren los materiales y las respuestas de los alumnos. Después de la aplicación, es importante que se establezcan y lleven a cabo procedimientos sistematizados para la preparación del procesamiento de datos que retomen las experiencias y prácticas internacionales. También requiere que se asegure que se cuenta con personal calificado para el manejo de los datos y hayan sido entrenados en todos los aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos técnicos aceptados para el manejo de los datos y que comprenden su importancia, para que los análisis posteriores se hagan sobre información de la mejor calidad posible. La conformación y verificación de las bases de datos es crucial en esta etapa, focalizando en la estructura de la base de datos, la asignación de identificadores a los sustentantes, y el comportamiento de las respuestas de los sustentantes a cada uno de los ítems. Finalmente, la documentación de los procesos y la definición de procedimientos para notificar y documentar irregularidades son fundamentales para la validación del proceso de aplicación. En este capítulo se presentan los hallazgos principales del análisis sobre la validez de las aplicaciones de ENLACE-B. Los hallazgos se presentan justamente de acuerdo a los diferentes momentos del proceso de administración de las pruebas: Antes de la aplicación • Selección de la muestra • Planeación de las aplicaciones • Selección y capacitación del personal de aplicación Durante la aplicación • Minimización de carga, motivación, no respuesta y fraude • Procedimientos para el control de calidad de las aplicaciones Después de la aplicación • Preparación del procesamiento de datos • Procesamiento y verificación de datos • Notificación de irregularidades Para la valoración de los criterios, se utilizó información de diferente naturaleza. En primer lugar se revisaron los documentos electrónicos proporcionados por la Dirección General de Evaluación de Políticas (DGEP) al Instituto Nacional para la Evaluación de la Educación (INEE); también se revisaron los documentos disponibles en la página web de Enlace Básica (http:// www.enlace.sep.gob.mx/ba/). Se condujeron entrevistas semiestructuradas en diez entidades federativas (Aguascalientes, Colima, Distrito Federal, Durango, Estado de México, Guanajuato, Nuevo León, Veracruz, Yucatán y Zacatecas) y se aplicó un cuestionario en línea dirigido a los responsables de las Áreas Estatales de Evaluación de todas las entidades federativas que fue

96

respondido en 26 entidades, por un total de 31 informantes.1 La información recuperada se incorporó también en la valoración de los criterios. La creciente participación de diversos países latinoamericanos en las principales evaluaciones estandarizadas internacionales ha posibilitado comparar las prácticas nacionales en la materia, compartir experiencias, adoptar criterios de calidad relativamente homogéneos e identificar oportunidades de mejora.

CRITERIOS DE VALIDEZ ANTES DE LA APLICACIÓN Selección de muestra (aplicable a ENLACE para muestra controlada)

1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral.

De acuerdo con la documentación disponible y particularmente según lo planteado consistentemente en los manuales de ENLACE para las diversas aplicaciones que ha habido, las bases de datos de escuelas y estudiantes se conforman a partir de la información provista por las entidades federativas, no de un sistema de información central. Es responsabilidad de cada estado la actualización de sus bases de datos, por lo tanto, la confiabilidad del listado dependerá de la precisión de las bases de datos generadas por cada estado en el periodo que son solicitadas por la SEP. En el cuestionario en línea, informantes de 8 de las 26 entidades que lo respondieron señalaron estar en desacuerdo con la siguiente afirmación: “El nivel de actualización de las bases de datos de escuelas y estudiantes (censo escolar, formato 911) sobre las cuales se basa la SEP para llevar a cabo la aplicación es adecuado”. Las razones principales que dieron ante este problema, fue la falta de actualización debida a la fecha en que se solicitan las bases de datos, que no permite registrar la movilidad y deserción estudiantil, las escuelas de reciente creación y la baja de escuelas. Teniendo en cuenta que en la información proporcionada no se encuentra mención a la periodicidad en que debe llevarse a cabo la actualización y en qué momento se cierra el proceso y se remiten los archivos para impresión y transporte de materiales, es probable que el proceso de actualización de las bases de datos incida en que se presenten importantes oscilaciones en el censo de escuelas y estudiantes (particularmente en el intervalo comprendido entre 2010 y 2013 en el que en cada año varió la tendencia; ver http://www.enlace.sep.gob.mx/noticias/ noticia_2/). De acuerdo con la información proporcionada en el cuestionario aplicado en línea a las Áreas Estatales de Evaluación, se identificó que en la aplicación 2013, se solicitó el envío de la base de datos en enero del mismo año. Hacer la solicitud en esa fecha implica que los movimientos de alumnos que transcurren entre ese momento y la aplicación no se registran y se limita

Las entidades que dieron respuesta al cuestionario aplicado en línea fueron: Aguascalientes, Baja California, Baja

1

California Sur, Campeche, Chiapas, Chihuahua, Coahuila, Colima, Distrito Federal, Durango, Estado de México, Guanajuato, Guerrero, Hidalgo, Jalisco, Michoacán, Morelos, Nayarit, Nuevo León, Oaxaca, Puebla, Querétaro, Quintana Roo, San Luis Potosí, Sinaloa, Sonora, Tabasco, Tamaulipas, Tlaxcala, Veracruz, Yucatán y Zacatecas.

Aplicaciones

97

Las pruebas ENLACE para educación básica

su oportunidad de responder la prueba, pues en el Manual del Coordinador de aplicación se señala que a los alumnos que no cuenten con hojas de respuesta personalizadas se les tendrá que informar que solo podrán resolver el examen en línea posterior al periodo de aplicación nacional (no se pueden utilizar hojas de respuesta personalizadas de alumnos que no asistieron o se dieron de baja del plantel).2 La mayoría de los informantes que respondieron el cuestionario en línea (19 de 31) señaló estar totalmente de acuerdo o de acuerdo con la afirmación “El nivel de actualización de las bases de datos de escuelas y estudiantes (censo escolar, formato 911) sobre las cuales se basa la SEP para llevar a cabo la aplicación es adecuado”; 11 informantes estuvieron en desacuerdo. Dentro de los comentarios emitidos sobre las bases de datos, dos informantes señalaron que la fecha establecida para entrega de la base de datos la consideran anticipada y otros sugirieron alternativas de mejora de distinta naturaleza, como se puede ver a continuación: ampliar el tiempo de validación de las bases de datos; revisar los tiempos en que se solicitan las bases de datos; proyectar los cambios derivados de los movimientos de la matrícula y el estado de las escuelas; establecer mecanismos para hacer frente la movilidad escolar y las altas de nuevas escuelas; solicitar la actualización mensual de la base de datos de los alumnos y escuelas; considerar un período previo a la aplicación de ENLACE para incluir las altas de los alumnos; consolidar un Registro Nacional de Escuelas, Alumnos y Docentes que permita su actualización permanente en línea (sistema único de información actualizada). Es probable que el estado de la base de datos tenga que ver con algunas irregularidades que se presentan durante la aplicación, en particular con la correspondencia de las cajas y hojas de respuesta entregadas en cada escuela, y la suficiencia de cuadernillos y hojas de respuesta. A este respecto, en el cuestionario en línea, 17 de 26 entidades señalaron que en la última aplicación se presentaron irregularidades de este tipo, dentro de las cuales, señalaron: en 11 entidades reportaron insuficiencia de cuadernillos, en 2 de ellas faltaron cuadernillos para grupos completos; en 9 entidades faltaron hojas de respuesta, en 3 de estos casos las hojas de respuesta pertenecían a otras escuelas; y, en una entidad reportaron haber recibido cajas mal etiquetadas.

2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos se definirán con base en argumentos teóricos defendibles

ENLACE no cuenta con un diseño muestral, al ser una prueba censal. Sin embargo, hay una

“muestra controlada” que se utiliza dentro de ENLACE para realizar un piloteo inicial y uno subsecuente de reactivos con una muestra de sujetos por asignatura-grado. Los manuales técnicos proveen algo de detalle sobre las fórmulas para diseñar las dos muestras utilizadas en ENLACE: 1) una muestra para validar (pilotear) reactivos (este ejercicio se realiza antes de la aplicación nacional), y 2) una muestra controlada para la aplicación del pre-test (que se lleva a cabo durante la aplicación de ENLACE). En este apartado nos referiremos a estas dos muestras como “muestra para pilotaje” y “muestra controlada”. Cabe hacer notar que, en general, los manuales están redactados de forma que generan confusión acerca de las muestras que se emplean y como se calculan. Por ejemplo se refiere a ambas muestras como “controladas.” En la p. 137 en el Recuadro, la SEP se refiere a las dos Cabe señalar que aunque se hace esta precisión, en el cuestionario en línea, algunas entidades reportaron haber sido

2

autorizados para que los alumnos sin hojas de respuesta registraran sus respuestas en el cuadernillo, y éstas después fueron capturadas en una plataforma específica.

98

muestras empleadas como “general” y “controlada” pero no queda claro a cual se refiere cada una de ellas. O bien, se explica un diseño muestral en un apartado (por ej. Aleatorio simple nacional), y después se presenta información para sugerir que lo que realmente se ejecuta es un diseño distinto (estratificado por escuelas, utilizando como marco de referencia únicamente algunos estados). A continuación se describe el diseño seguido para establecer cada una de las dos muestras utilizadas por ENLACE , según lo que se puede apreciar en los manuales técnicos consultados. El diseño de la muestra para pilotaje de reactivos sigue un modelo de muestreo aleatorio simple, con fórmulas y diseño estándar. El tamaño de muestra de 5,000 sujetos (individuos) bajo dicho esquema de muestreo aleatorio simple proporciona un error de 1% lo cual es muy adecuado. El Manual Técnico de 2009 menciona que “los diseños de las muestras controladas (para probar ítems), son supervisadas por la DGEP”. Aunque el diseño es correcto dados los supuestos, hay dos puntos que pudieran debilitar la utilidad de la muestra para este ejercicio de validez y para la generación de variables de contexto de alumnos, padres y docentes. Primero, en algunos años (por ej. 2013), la muestra para pilotaje, por razones de costo, se realiza únicamente con sujetos en el Estado de México y el Distrito Federal. Aunque no es una muestra representativa, el Manual Técnico argumenta las razones por las cuales es todavía válida: “Una muestra representativa de todos los estados y características de la población puede ser atractiva para darle mayor validez al piloteo, pero produciría un costo muy alto para el proyecto, con un impacto poco interesante en los resultados” (Manual Técnico ENLACE, 2013). En este punto, valdría la pena ser más explícitos sobre por qué en este caso el costo no justifica el beneficio. Durante reuniones con personal de DGEP, se comentó que en otros años la muestra incluye escuelas de otros estados. Esto no está detallado en los manuales técnicos. Segundo, la descripción del manual (se revisó 2009, 2012 y 2013) no provee suficiente detalle para asegurar que el muestreo, tanto para la muestra de pilotaje como la controlada, realmente sea aleatorio simple (i.e. tomando como marco muestral sujetos individuales todos con la misma probabilidad de ser seleccionados). En el manual de 2013 se dice que la muestra controlada la conforman escuelas, y no alumnos (p. 116). Por lo tanto, parece ser que la muestra se asemeja más a un muestreo de conglomerados, que a una muestra aleatoria simple de sujetos (alumnos). Valdría la pena que los manuales aclararan este punto. Si éste fuera el caso, convendría especificar cómo se seleccionan los conglomerados (escuelas o aulas) para entender qué tipo de población representan. En el manual de 2013, por ejemplo, no se especifica claramente cómo se seleccionan las escuelas de la muestra, ya que la discusión técnica de diseño se hace con la consideración de que el muestreo se hace con base a sujetos (alumnos). El manual técnico de 2008 hace un llamado a SEP que justificase el diseño muestral (por conglomerados) y obtuviera el error de muestreo (utilizando la aproximación al utilizar un diseño de muestreo simple). Sin embargo, en los manuales subsecuentes se sigue planteando la fórmula de muestreo simple (que se utilizó como referencia) sin plantear la fórmula realmente utilizada ni proveer más detalles al respecto de los errores. Con respecto a la muestra controlada para el pre-test (la prueba que calibra los reactivos del año siguiente) esta se aplica de manera matricial por lo que los resultados relevantes son a nivel de aula (para luego validar ítems a nivel grado-asignatura). El manual de 2009, por ejemplo, en la p. 115, alude a esto (se refiere a una aplicación donde todos los alumnos en un aula forman Aplicaciones

99

Las pruebas ENLACE para educación básica

parte de la muestra controlada). Sin embargo, no se detalla cómo se selecciona esta muestra (se revisó manual del 2009 y 2013).

3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planificó.

El manual del coordinador de aplicación de la muestra controlada especifica que el coordinador de la aplicación de la muestra deberá verificar que las pruebas extra y las hojas de respuestas (prellenadas) coincidan con el folio asignado en ENLACE . Si la hoja no está prellenada, deberá llenarse ahí mismo con la información proporcionada por el director. Al final de la aplicación se verifica que las personas que llenaron las hojas y las están entregando coincidan con la lista contenida en el “Formato para el Control de la Aplicación en el Aula” (este formato es firmado por el coordinador de la aplicación y el docente aplicador en el aula). Los formatos de control de aplicación en la escuela, también proveen un espacio para anotar si el número de alumnos evaluado por grado coincide con el número que estaba planeado en la lista. Estos formatos son firmados por el Coordinador de la Aplicación y el director de la escuela y se envían sellados a la DGEP con copia a las áreas estatales de evaluación y a cada escuela. El acta de entrega, recepción e irregularidades hace constar cualquier discrepancia en este proceso. Esa acta es firmada por el coordinador de la aplicación, el director y dos testigos (un docente y un padre de familia). tt En

aplicaciones muestrales el manual que precisa los pasos para seleccionar la muestra, si se manejarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar escuelas de reemplazo si las hay y los porcentajes aceptables de exclusiones y no respuesta.

Los pasos para seleccionar la muestra se especifican en el manual. La muestra para pilotaje de reactivos se calcula como 5,000 sujetos más 8-10% asumiendo merma. No se encontraron previsiones si alguna escuela se pierde de la muestra controlada por razones de errores en logística u otros. No encontramos previsiones para pérdida de muestra en la muestra controlada del pre-test o como asegurar que la muestra sea la misma que se diseñó inicialmente (los manuales carecen de detalle acerca del diseño de la muestra controlada para el pre-test). En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace en ese caso. No se dan particulares al respecto.

4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes aceptables.

tt Se

documentan en detalle los pasos para la selección de la muestra.

Los pasos para seleccionar la muestra se especifican de manera breve en el manual. Como se comentó anteriormente, en algunos pasos, especialmente en lo que concierne al diseño por 100

conglomerados y los errores muestrales subsecuentes para las muestras de pilotaje de reactivos, se necesita más detalle. Además, no se provee detalle suficiente sobre el proceso de selección de la muestra controlada para el pre-test. tt Hay

una verificación de la muestra por una instancia externa.

Los manuales especifican que los diseños de las muestras controladas (pre-test) son supervisadas por la DGEP. Se menciona también que un experto internacional, contratado por esa dirección, es el que llega al cálculo final. Sin embargo, no se proveen detalles acerca de esta verificación externa. tt Hay

encuesta o sistema de aseguramiento de la calidad de la muestra.

El Manual de la Planeación de la Calidad se utiliza para todas las aplicaciones de instrumentos de DGEP. Esto aplica para la elaboración de instrumentos y exámenes así como para la lectura y calificación. Dicho manual sigue las normas de calidad ISO 9000:2000 e ISO 9001:2000. Las normas especifican los parámetros aceptados para el aseguramiento de la calidad de todas las etapas del proceso, incluyendo la muestra. Sin embargo, hay que recalcar que este tipo de monitoreo de calidad (vía procedimientos ISO) no es práctica común para programas de evaluación de largo alcance como sería ENLACE . Según lo que conocemos, no hay otro programa internacional o nacional (PISA, TIMSS, PIRLS, SABER ) que utilice este tipo de normas de aseguramiento de la calidad, toda vez que los estándares técnicos aplicables específicamente a este asunto, son establecidos por los organismos que lideran los respectivos proyectos.

PLANEACIÓN DE LAS APLICACIONES 5. Se planifican todos los puntos necesarios para hacer la aplicación de manera estandarizada, con formas y materiales que aseguren comparabilidad de los datos.

tt Hay

manuales de aplicación, probados en campo, que precisen las actividades a desarrollar por cada participante; se describen las variaciones aceptables.

Hay manuales impresos, cuyo contenido incluye elementos generalmente aceptados para este tipo de aplicaciones, por ejemplo: la descripción de las normas operativas, los materiales que se utilizarán durante la capacitación, y las funciones que deberán realizar antes, durante y después de la aplicación. No obstante, podrían mejorarse incluyendo mayores detalles relativos a la conducción de la aplicación y el manejo de eventualidades. Los manuales impresos también podrían complementarse con otros materiales de apoyo que tengan como objetivo asegurar el dominio de los procesos, por ejemplo, videos con animaciones, gráficas, y sonido. Esto último, permitiría contar con herramientas más didácticas, en procura de una mejor capacitación del personal de campo, que redundaría en una mayor estandarización en el ejercicio de sus labores. Esto es crucial, teniendo en cuenta que en el proyecto participan más de un millón de personas y las variaciones, desconocimiento o implementación no apropiada conforme a lo previsto inciden en los resultados.

Aplicaciones

101

tt Hay

un cronograma detallado de todos los pasos del proceso.

Las pruebas ENLACE para educación básica

En los manuales técnicos de las diversas aplicaciones se hace referencias generales a los pasos del proceso de aplicación, desde la organización administrativa de recursos humanos hasta la entrega de los archivos de lectura. Estos asuntos se detallan de mejor manera en el manual técnico correspondiente a la aplicación de 2013. Versiones previas fueron más agregadas. Se establecen las funciones de cada participante en el proceso, aunque no se mencionan fechas. Dada la complejidad de los procesos de aplicación, se recomienda que se establezcan tiempos aproximados que sirvan como una referencia común para todas las entidades federativas (e.g. “90 días antes de la aplicación las entidades federativas deberán haber enviado la versión definitiva de su base de datos”). Se identifica a personal de las escuelas que tendrá que ver con la aplicación (directores, maestros) para contar con su cooperación. En los manuales se establecen mecanismos de comunicación con algunos actores de la escuela que participarán en la aplicación, en específico, con el director y los Padres-observadores: el Coordinador regional elabora los oficios de notificación a cada escuela y las cartas compromiso para Padres-observadores (Manual para el c 2013); y, la semana previa a la aplicación, el director convoca a dos padres de familia de cada grupo evaluado para que participen como observadores (Manual para el Coordinador de la aplicación 2013). En los manuales no se precisan acciones previas con respecto a los docentes aplicadores. Es importante mencionar que la capacitación a los docentes, padres de familia y miembros del Consejo Escolar de Participación Social tiene lugar el mismo día de la aplicación cuando se les entregan las guías diseñadas por la SEP.3 Al inicio de cada día de aplicación, los directores señalan a los padres de familia las funciones que deberán cumplir. A los docentes, el Coordinador de aplicación les describe las funciones a realizar y los formatos que tendrán que completar. Estas medidas pueden restringir la capacidad de reacción ante eventualidades y/o incidir en el rigor en la aplicación de los estándares previstos para la conducción de la prueba. Por otra parte, el grado de libertad de las entidades federativas con relación al perfil del personal que se vincule al proceso puede tener un impacto no deseado en la aplicación. En el manual de 2013, página 141 se menciona: “Si se contrató personal para supervisión y apoyos diversos, el estado define las características del personal a contratar, requisitos, forma de contratarlos”. Es recomendable que se establezcan normativas generales acerca del personal a participar en la aplicación, que sean seguidas homogéneamente por los Estados. tt Se

precisan requisitos de confidencialidad y seguridad de materiales y respuestas.

Se establece: “Para la impresión de materiales de ENLACE realizada por la CONALITEG , se siguen las especificaciones de control y seguridad que ellos mismos establecen, bajo la supervisión de personal de la DGEP…”

Las versiones electrónicas de estos documentos son enviadas antes de la aplicación, pero, por lo general solo se impri-

3

men aquéllos manuales que serán entregados a la estructura intermedia de las entidades (Coordinadores regionales – Centros de Desarrollo Educativo, Supervisores, Enlaces Regionales y Coordinadores de Aplicación).

102

Es recomendable que para la impresión de pruebas los estándares de control y seguridad sean establecidos por un ente externo al impresor, no solo supervisados. En cuanto a aplicación controlada debe haber refuerzos en todas las etapas, antes, durante y después del proceso. Las irregularidades manifestadas por 17 entidades en el cuestionario en línea (de 26 entidades que los respondieron), con respecto a los materiales que llegan a las escuelas, hacen evidente la necesidad de medidas que garanticen el control, cuidado y confidencialidad de los materiales. Es recomendable que las medidas busquen eliminar la variación en decisiones que toman en la entidad ante faltantes de materiales. Por ejemplo, ante la falta de cuadernillos en la última aplicación, algunas entidades optaron por reproducirlos y otras por dividir los cuadernillos en dos partes, entregando alternadamente las secciones en el grupo para que alcanzaran a dar respuesta. Existen riesgos en la reproducción de los cuadernillos dentro y fuera de la escuelas, que ponen en peligro la confidencialidad de los materiales y también que su ensamblaje sea el previsto por los diseñadores. Con respecto a las hojas de respuesta las entidades que reportaron haber recibido una cantidad insuficiente de este material tomaron las siguientes diferentes medidas: que los alumnos registraran sus respuestas en cuadernillos y posterior captura para envío a DGEP ; devolver a los alumnos a sus casas para que después contestaran la prueba en línea. Podría considerarse un operativo independiente de distribución y recolección de materiales que asegure su llegada el día de la aplicación a cada escuela, de manera que se minimicen riesgos operativos, tales como acceso inapropiado, manipulación o sustracción de cuadernillos y hojas de respuestas. Esto tiene un impacto financiero, pero convendría por mayor seguridad de los ítems a ser aplicados en un futuro. En cuanto al retorno de las hojas de respuestas, únicamente se encontró referencia a que ellas son entregadas para lectura óptica dos semanas después de la aplicación. Es necesario que se den a conocer más detalles acerca de este proceso, a efectos de poder conceptuar. tt Se

precisa la forma en que deberán documentarse todos los pasos de la aplicación y las incidencias que se puedan presentar.

Hay previsiones de orden general sobre pasos de la aplicación y posibles contingencias. Se menciona un formato para consignar lo relativo a eventualidades o desviaciones del proceso, sin embargo, el registro de las irregularidades en el formato es abierto. Para analizar en detalle la aplicación se requiere una tipificación de los casos presentados en una aplicación y su frecuencia, esto seguramente requerirá que en futuras aplicaciones los formatos incluyan categorías específicas de irregularidades que se buscan controlar y se mantenga la oportunidad para el registro abierto de otro tipo de irregularidades. Es fundamental que todos los actores del proceso tengan claridad sobre la importancia del cuidadoso diligenciamiento de las actas de entrega y recepción de materiales, así como de las irregularidades, de tal manera que faciliten la evaluación del proceso. • Hay procedimientos de aseguramiento de la calidad de la aplicación. El “Manual de la Planeación de la Calidad” se utiliza para todas las aplicaciones de instrumentos de DGEP. Esto aplica para la elaboración de instrumentos y exámenes así como para la lectura y calificación. Dicho manual sigue las normas de calidad ISO 9000:2000 e ISO 9001:2000. No obstante lo anterior, es fundamental que los procedimientos de aseguramiento de calidad se Aplicaciones

103

Las pruebas ENLACE para educación básica

desarrollen en apego específicamente a los estándares aplicables a evaluaciones estandarizadas de la educación. Como se comentó anteriormente, los sistemas de evaluación educativa de gran escala no suelen circunscribirse a procesos de control de calidad tipo ISO. En su lugar, se utilizan comités de expertos en evaluación educativa, tanto nacionales como internacionales, con experiencia en los organismos técnicos en la materia, quienes pueden proveer de una revisión externa objetiva y emitir un juicio colegiado acerca de la calidad de la prueba y sus procesos. Las normas especifican los parámetros aceptados para el aseguramiento de la calidad de todas las etapas del proceso. Los procedimientos están establecidos en los manuales para cada actor del proceso (se denominan guías y son consistentes en el tiempo). El rol del observador como garante independiente es fundamental para la calidad de la aplicación, pero es insuficiente, teniendo en cuenta las observaciones y recomendaciones formuladas por las entidades federativas, tales como: • Revisión acuciosa de los originales mecánicos para evitar errores de impresión. • Distribución oportuna a las entidades federativas. • Mejorar formatos para que sean entendibles para los usuarios. • Revisar contenido de guías y manuales. • Empaquetamiento adecuado y conforme a lo planificado, que asegure la suficiencia de materiales para las escuelas. • Asegurar que los materiales están completos y claros.

SELECCIÓN Y CAPACITACIÓN DEL PERSONAL DE APLICACIÓN 6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolección de datos, en todos los niveles.

tt Hay

criterios para reclutar y entrenar aplicadores y apoyos. Los lineamientos generales sobre la materia estipulan que los estados definirán lo pertinente en cuanto al reclutamiento y entrenamiento de aplicadores y apoyos. Es recomendable que se establezcan criterios de aplicación general y estandarizados acerca del perfil del personal y que se verifique su cumplimiento por parte de monitores externos a las aplicaciones en una muestra aleatoria de escuelas en visitas no anunciadas.

tt Se

recluta y capacita a suficiente personal de reemplazo.

No se cuenta con información específica sobre este criterio en relación a los Coordinadores de Aplicación en las escuelas y los Aplicadores en Aula. Teniendo en cuenta que la aplicación en aula es conducida por docentes, parece asumirse que no hay inconvenientes en la consecución de aplicadores de reemplazo en caso de necesidad, aunque no puede asegurarse en todos los casos. Podría ser particularmente necesario que se contemplen aplicadores en aula de reemplazo cuando las entidades implementen estrategias de intercambio de docentes entre escuelas de la misma zona o región (por ejemplo, Aguascalientes fue una de las entidades que en la aplicación del 2013 implementó la estrategia de intercambio de docentes entre escuelas).

104

Con respecto a los Coordinadores de Aplicación en las escuelas, se hace evidente la necesidad de contemplar personal de reemplazo, pues es personal externo a las Secretarías de Educación o Institutos de Educación de las entidades federativas, y podrían enfrentar imprevistos para asistir a la aplicación en particular cuando se trata de escuelas ubicadas en localidades aisladas o alejadas de su lugar de residencia o donde reciben los materiales. tt La

capacitación incluye oportunidad de practicar con los instrumentos.

No se cuenta con información específica sobre el particular. Con respecto a los docentes que dirigen la aplicación en aula, dado que su capacitación se imparte el día de la aplicación, es muy probable que no haya tiempo suficiente para conocer carátulas, formatos e indicaciones que tendrán que dar a los alumnos para responder la prueba en detalle. Es recomendable programar capacitaciones a aplicadores antes del día de la aplicación, de manera que puedan ultimarse detalles de importancia. tt La

formación de capacitadores y/o el entrenamiento del personal que asegurará la calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma que se asegure su adecuado funcionamiento.

Se ha implementado una estrategia de capacitación en cascada que responde a las necesidades básicas del proyecto. No hay información acerca del monitoreo a su implementación. Es importante señalar que no se encontraron orientaciones para la implementación de la capacitación, solo los materiales a utilizar con diversos actores. De hecho, uno de los informantes que respondió el cuestionario en línea señaló: “La entidad únicamente recibe materiales de forma digital [antes de la aplicación] y es toda la orientación que se recibe, a partir de los manuales y normas se diseña en la entidad el formato de capacitación que se utiliza al interior del estado”. Se recomienda reforzar la estrategia de capacitación presencial basada en medios impresos mediante el uso de la tecnología. tt Se

llevan registros de las sesiones de entrenamiento de aplicadores.

No hay información sobre el particular. tt Se

monitorean las actividades en campo por personal de la instancia central y/o externo, y se registran problemas detectados.

Existe el rol de observador de las aplicaciones, ejercido por los padres de familia. En la guía se especifica que deben observar: que las cajas lleguen selladas a la escuela; los maestros no apliquen el examen al grupo de alumnos que regularmente atienden; el Docente-aplicador dé las instrucciones a los alumnos; los alumnos no copien, ni se comuniquen entre sí; el Docenteaplicador recupere todos los materiales y los entregue al Coordinador de aplicación. Se les pide que cualquier irregularidad la comuniquen al Director de la escuela y/o al Coordinador de la aplicación. En la guía no se precisan otros medios para comunicar o documentar las irregularidades. También los miembros del Consejo Escolar de Participación Social participan como observadores de la aplicación. Se solicita que al menos un miembro de las siguientes instancias que lo conforman esté presente durante cada día de la aplicación (pueden variar entre días): padres Aplicaciones

105

Las pruebas ENLACE para educación básica

de familia y/o representantes de sus asociaciones, maestros y/o representantes de su organización sindical, directivos de la escuela, ex alumnos y miembros de la comunidad interesados en el desarrollo de la propia escuela. De manera general, se les pide que verifiquen el cumplimiento de las normas y respondan la hoja de registro de la observación. No se proporcionó el formato de la hoja de registro de la observación de la aplicación 2013; sin embargo, en función de la revisión de un formato de la aplicación 2011, se advierte que se les solicita dar seguimiento a los aspectos que se muestran en el siguiente cuadro: Cuadro 1 Aspectos que supervisan los Consejos Escolares de Participación Social (CEPS) Primer día

Segundo día

Revisión de la guía del aplicador con los docentes. Participación de padres de familia como supervisores de la aplicación en cada grupo. Intercambio de docentes al interior de la escuela Respeto del tiempo de cada sesión en la aplicación de la prueba Inducción de respuestas por parte del docente aplicador y acciones implementadas en respuesta a este comportamiento (reconvenir al docente aplicador; sustituir al docente aplicador; cancelar la aplicación de la prueba en grupo y asentar en acta de irregularidades; ninguna acción). Comunicación entre alumnos para resolver la prueba y acciones realizadas ante este comportamiento (reconvenir al docente aplicador; sustituir al docente aplicador; cancelar la aplicación de la prueba en grupo y asentar en acta de irregularidades; ninguna acción). Permanencia de docentes en los salones durante la aplicación, y acciones ante ausencia de docentes (reconvenir al docente aplicador; sustituir al docente aplicador; ninguna acción).

Sellado y resguardo de materiales al final de la jornada.

Permanencia del coordinador de aplicación durante todos los días de la aplicación Número de miembros del CEPS que participaron durante la aplicación (de cada instancia)

Fuente: Elaboración propia, con base en: http://portal2.edomex.gob.mx/ieval_edu/evaluacionesnacionales/enlace_basica/resultados_2013/groups/public/documents/edomex_archivo/ieval_edu_pdf_eb2013.pdf (diapositiva 43)

El formato donde registran las observaciones los miembros del CEPS es de lectura óptica, lo cual permitiría suponer que la sistematización de respuestas, análisis y generación de reportes es uno de sus productos, sin embargo, no se proporcionaron reportes relacionados con este formato. Sería de utilidad conocer un compilado de los reportes a efectos de analizarlos y formular recomendaciones. Es importante señalar que aunque en la Guía de Observación. Consejo Escolar de Participación Social, se precisan de manera general los aspectos a dar seguimiento, no se dan orientaciones para su realización, es decir, no se especifica de qué manera se deberán organizar los diferentes miembros del Consejo Escolar de Participación Social que funjan como observadores y que acciones deberán realizar. Los problemas detectados durante la aplicación también son registrados por los Coordinadores de Aplicación, y algunas entidades implementan estrategias propias para monitorear las actividades en campo. Sin embargo, esto depende de cada entidad federativa. Se recomienda que se den orientaciones para realizar un proceso de monitoreo estandarizado en todas las entidades. tt Se

hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo.

106

No hay información al respecto. Estos ejercicios son fundamentales para formular planes de mejora, incluyendo aportes de todos los roles de la aplicación.

Análisis del cumplimiento de los criterios de validez antes de la aplicación En general, se encontró información suficiente para sustentar la mayoría de los criterios de validez. En los siguientes subcriterios, no se contó con información para su valoración: • En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace en ese caso. • Pasos detallados para la selección de la muestra. • Se recluta y capacita a suficiente personal de reemplazo. • La capacitación incluye oportunidad de practicar con los instrumentos. • Se llevan registros de las sesiones de entrenamiento de aplicadores. • Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo.

CRITERIOS DE VALIDEZ DURANTE LA APLICACIÓN Minimización de carga, motivación, no respuesta y fraude.

7. Se fijan límites realistas sobre la carga de responder pruebas y cuestionarios de contexto para que no sea excesiva tomando en cuenta los sujetos.

tt Se

utilizan los resultados de la aplicación piloto para revisar que los estimados de carga sean realistas y aceptables. tt En los manuales técnicos se determinan los detalles de los pilotajes y el uso de la información obtenida a través de ellos para la aplicación de las pruebas. A partir del análisis del comportamiento de los ítems en los pilotajes puede determinarse la extensión de la prueba. tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscando minimizar la carga para los sujetos. Los procedimientos se han mantenido estables en el tiempo. Su descripción es sencilla y no genera una carga importante para los estudiantes que toman la prueba. tt En

los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden obtener de otras fuentes.

En los cuestionarios se indaga por datos que solo pueden ser provistos por los alumnos. Cabe recalcar que los cuestionarios de contexto únicamente se aplican a una muestra de alumnos, pero son bastante extensos (129 ítems para primaria y 142 para secundaria). tt Se

agenda la aplicación en horarios convenientes para los sujetos.

Aplicaciones

107

Las pruebas ENLACE para educación básica

Los horarios están previstos tanto para jornada matutina como vespertina y son congruentes con la jornada escolar a la que usualmente asisten los estudiantes. Las fechas de aplicación de la prueba forman parte del calendario escolar oficial.

8. Se busca motivar a los sujetos para que no respondan las preguntas de la prueba a la ligera.

tt Se

informa ampliamente a los sujetos de la evaluación acerca de los propósitos del estudio y cómo se utilizarán sus datos.

De acuerdo con la información provista, hay un amplio despliegue de medios masivos de comunicación, con el propósito de difundir los propósitos e importancia de ENLACE para la sociedad mexicana en su conjunto. Adicionalmente, hay previsiones explícitas sobre el particular en los diversos manuales. Por ejemplo, a través del instructivo para el Docente-aplicador se comunica a los estudiantes que la prueba contribuirá a mejorar la educación del país, se especifican las asignaturas que se evaluarán, se detalla que no se afectarán sus calificaciones individuales, a la vez que se les incentiva a hacer su mejor esfuerzo.

9. Se desarrollan procedimientos para lidiar con la no-respuesta o el rechazo a responder a la prueba y se entrena al personal de aplicación para seguirlos.

No se cuenta con información sobre el particular. Es necesario que haya previsiones explícitas acerca del manejo de las situaciones de no-respuesta o de rechazo a responder la prueba, incluyendo revisión de las hojas de respuestas devueltas antes de culminar el tiempo disponible y recorrido constante del salón. Dado que ENLACE no es un estudio de investigación sino parte de la evaluación oficial que realiza la SEP, el rechazo a participar no debería ser un problema.

10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude y se entrena al personal de aplicación para seguirlos.

En algunos de los manuales de aplicación hay instrucciones relacionadas con la copia, el dictado y la inducción de respuestas, como se ilustra en el siguiente cuadro:

108

Cuadro 2 Instrucciones relacionadas con copia y otras formas de fraude. Documento

Instrucciones

Guía para padres

Se señala que “[n]o está permitido que el Docente-aplicador dicte o sugiera las respuestas.”

Guía de observación. Consejo Escolar de Participación Social

Se solicita que durante la aplicación observen “[q]ue los docentes aplicadores y/o los padres observadores no induzcan las respuestas de los alumnos, ni permitan la comunicación entre ellos.”

Manual del Coordinador de aplicación

Se señala que “[e]n caso de detectar acciones de copia o dictado de respuestas por parte de alumnos y/o docentes, es muy importante anotarlo en el Acta de Entrega Recepción e Irregularidades, dado que: SERÁ CANCELADA LA APLICACIÓN AL GRUPO”. Se solicita que informe al “Director de la escuela que si se detecta “copia” (similitud de respuestas) impactará en los resultados, de Carrera magisterial, del Docente-aplicador en el grupo, del Docente que atiende regularmente al grupo y del propio Director del plantel.” Se solicita que describa en el acta de irregularidades cuando observe o le reporten que en algún grupo se permitió la “copia” o que se “dictaron las respuestas”.

Fuente: Elaboración propia en función de los documentos señalados.

Como se observa en el cuadro 2, los comportamientos de fraude no son referidos de manera consistente para todos los actores, y no se contemplan otras formas de fraude tales como suplantación de identidad y sustracción de materiales de evaluación. Por otro lado, no se dan indicaciones sobre la manera de detectar estos comportamientos y no se señalan medidas para prevenirlos, por ejemplo: “estipular requerimientos para identificación de los estudiantes, construir mapas para la ubicación de los estudiantes en las aulas, asignar a los sustentantes a asientos específicos, requerir un espacio adecuado entre asientos… proveer un monitoreo continuo del proceso” (AERA et al., 2014, p. 117), restringir el acceso de celulares, tabletas, reproductores de audio o video y demás elementos electrónicos al sitio de aplicación para evitar que los sustentantes u otros participantes puedan transmitir, recibir o copiar información de la prueba. No existen esquemas de penalización o sanciones administrativas a los estudiantes o docentes aplicadores que infringen la normatividad establecida. En la preparación de los datos, la SEP aplica un algoritmo de detección de copia que se menciona en los manuales. Se habla del uso de un software comercial que se utiliza al respecto, sin proveer mucho más detalle o descripción acerca del proceso de detección. No se proveen tampoco evidencias concretas de los estudios realizados para detectar copia y sus resultados, incluyendo reportes de la probabilidad de copia esperada según el número de personas y el número de reactivos, entre otros. Al respecto cabe mencionar que hay una sanción “indirecta” en la utilidad de estos resultados para Carrera magisterial. En el caso de docentes que utilizan los resultados de ENLACE para conformar su puntaje de “Aprovechamiento Escolar” en Carrera magisterial, los resultados en alumnos donde se detecta copia son calificados como con “cero puntos.” Por lo tanto, no cuentan para el promedio del resultado del docente que se utiliza en Carrera magisterial.

Aplicaciones

109

Las pruebas ENLACE para educación básica

En la aplicación de la muestra controlada el manual del Coordinador de la Aplicación es muy explícito que “[e]n caso de detectar acciones de copia o dictado de respuestas por parte de alumnos y/o docentes, es muy importante anotarlo en el Acta de entrega-recepción e irregularidades, dado que: SERÁ CANCELADA LA APLICACIÓN AL GRUPO” (énfasis en el original).

PROCEDIMIENTOS DE CONTROL DE CALIDAD EN LAS APLICACIONES 11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.

tt Se recluta y entrena a monitores que lleven a cabo actividades de control externo de calidad,

observando la recolección de datos en un subconjunto de los sitios. Hay esfuerzos de aseguramiento de calidad basados en la gestión de padres de familia, miembros de los Consejos Escolares de Participación Social y observadores externos (vinculados a la Confederación Patronal de la República Mexicana, COPARMEX ). Se desconoce el procedimiento que se sigue para entrenar a observadores externos. En relación a los padres de familia y los miembros del Consejo Escolar de Participación Social, el momento de capacitación coincide con la aplicación misma, lo que podría representar una desventaja para el dominio de sus funciones. Se recomienda que la capacitación a estos monitores sea estandarizada y previa a la aplicación. En algunas entidades federativas implementan procedimientos específicos para el control de calidad de la aplicación, sin embargo, son definidos por ellos mismos. También en este sentido, se requieren orientaciones que permitan estandarizar los procesos de monitoreo que llevan a cabo las entidades, de tal manera que se puedan capitalizar sus resultados. tt Si

no es viable se hacen entrevistas presenciales o por teléfono de control de calidad con aplicadores y demás personal involucrado en la aplicación.

La Oficina de Servicios Federales de Apoyo en la Educación (OSFAE) de la Secretaría de Educación Pública entrevista a los diversos actores involucrados, con el propósito de evaluar la aplicación. Sin embargo, no se encontraron reportes de la evaluación de las OSFAE. Se hace revisión de control de calidad en una muestra aleatoria de los datos recolectados para asegurar que se hayan llenado completa y correctamente. Los procedimientos de Calificación de la DGEP incluyen: 1. Verificar que las cantidades de registros contenidos en las bases de datos correspondan con la cantidad que el usuario reporta. 2. Verificar que la cantidad de información de las escuelas tenga correspondencia con los datos históricos. 3. Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de las actividades y para identificar y corregir las causas de problemas de calidad. No hay información sobre el particular. Es fundamental conocer los reportes que haya sobre estos asuntos para analizarlos y proponer mejoras a los procesos que incidan en la calidad de la aplicación. 110

Análisis del cumplimiento de los criterios de validez durante la aplicación La aplicación en general, cuenta con procedimientos preestablecidos estandarizados. Sin embargo, las condiciones de la capacitación y entrenamiento para docentes aplicadores en aula, padres de familia y miembros del Consejo Escolar de Participación Social (realizadas el mismo día de la aplicación y con procedimientos definidos por cada entidad federativa), podría implicar que el proceso de aplicación no garantizara su estandarización y por tanto repercutiera en los resultados y la manera en que pueden ser interpretados. En particular, se recomienda desarrollar procedimientos para identificar la no respuesta de los alumnos, comportamientos indicadores de copia y otras formas de fraude, y la definición de estrategias estandarizadas para enfrentarlos. Por otro lado, no se contó con información para valorar los siguientes criterios: • Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo. • Se resumen resultados de cada etapa de aplicación para monitorear el estatus de las actividades e identificar y corregir causas de problemas de calidad.

CRITERIOS DE VALIDEZ DESPUÉS DE LA APLICACIÓN Preparación del procesamiento de los datos

12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según normas internacionales: cómo introducir los datos; asignar identificadores a alumnos-maestros-escuelas; variables a incluir, códigos válidos, de datos faltantes o respuestas no aplicables; formato de datos, estructura de archivos, limpieza, entre otros.

El MT 2013 detalla el proceso para lectura óptica de los resultados, así como las bases de datos que se utilizan en el proceso (base de datos de lectura óptica, de respuestas correctas y de alumnos sustentantes). Después se detalla muy brevemente el resultado del proceso de calificación, fase de lectura óptica (archivo de salida del software BILOG). El manual también detalla que los procesos de lectura y calificación han sido certificados “bajo la norma ISO, por lo que tienen una dinámica de garantía para sus procedimientos” (Manual 2013: p. 158). Se proveen los códigos de documentación de dichos procesos. Según las normas de la certificación ISO esto implicaría que se ha desarrollado documentación de todos los procesos así como producción de evidencias de que dichos procesos se están cumpliendo. En algunos casos se pueden requerir métricas de cumplimiento que se puedan monitorear. En los manuales consultados no se observaron las evidencias de cumplimiento que ISO hubiera requerido, aunque la certificación puede tomarse como prueba de que dichas evidencias existen y se produjeron para el proceso de certificación. El proceso de lectura inicia al recoger las hojas de respuesta de los alumnos y entregarlas al área de Informática para su lectura. Después, el área de informática genera un archivo de texto conteniendo un registro por cada estudiante. El área de lectura y verificación procede a verificar los archivos identificando presencia de respuestas en blanco o doble respuesta, sobre las cuales se Aplicaciones

111

hace una depuración para eliminarlas de la calibración inicial de reactivos. Después, el resultado se entrega al área de Lectura responsable para su análisis y revisión.

Las pruebas ENLACE para educación básica

No hay en el manual detalles específicos sobre cómo introducir los datos, o el formato y estructura de los archivos, así como limpieza. Tampoco se detalla el procedimiento para asignar identificadores a alumnos (se asume que se ingresan con número de folio y CCT, y con algún identificador de aula que después pueda ser cruzado con el docente para fines de Carrera magisterial, aunque esto no se describe en el manual).

13. Se cuenta con personal calificado para el manejo de los datos y se les entrena en todos los aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos aceptados para manejar datos y que comprende la importancia de recolectar y capturar la información con el cuidado necesario para que los análisis posteriores se hagan sobre información de la mejor calidad posible.

El manual describe cómo se dividen las funciones o áreas del proceso de lectura: recepción, lectura y validación y captura. El manual especifica que “[u]na persona de cada una de las áreas sea nombrado como responsable del proceso correspondiente.” No hay en el manual detalles específicos al respecto de la selección y capacitación de dicho personal. La DGEP es acompañada por asesores externos en la parte de procesamiento y calificación de resultados, pero no se encontraron reportes del análisis de procesamiento de datos y calificación de resultados.

14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicación. En particular se asegura que:

tt La

estructura de los datos se apegue a la de los instrumentos.

Los Procedimientos de lectura óptica y calificación de la DGEP incluyen previsiones generales sobre el particular. tt Los

datos tengan suficientes redundancias para permitir control de calidad.

El manual no brinda detalles al respecto. tt Las

bases tengan identificadores únicos consistentes para que alumnos y escuelas y, en su caso, maestros o directores, puedan relacionarse.

El manual describe en varios puntos que todas las hojas de respuesta cuentan con folio que debe coincidir con el cuadernillo. La DGEP tiene procedimientos para asegurar que cada folio sea único y no existan folios repetidos o no utilizados (en blanco; ver “Procedimiento de Calificación-Referencia a punto de la norma ISO 9001:2000: 7.5”). Las hojas de respuesta vienen prellenadas con la información de los niños (incluyendo folio y número). Entre las funciones del Docente-aplicador está registrar el grupo, nombres, apellidos y folio para cada alumno en un formato de control, y verificar que el niño que aparece en la 112

hoja prellenada sea el que toma el examen y lo entrega. En cuanto a las bases de datos con la CURP que se ligan a los folios desde la etapa de prellenado de las hojas de respuesta, la DGEP proporcionó información sobre el porcentaje de registros de la CURP incorrectos o en blanco que proveen las entidades. Siete entidades reportan CURP incorrectos o en blanco por encima del 5% de sus registros. Las demás tienen CURP en blanco o irregulares que representan menos del 5% de los registros. Sin embargo, la DGEP no proporcionó detalles sobre la consistencia de los folios o pruebas que se hayan hecho para asegurar que sean únicos y que correspondan a los niños evaluados, más allá de lo que verifica el docente. No se muestra evidencia independiente o externa sobre el resultado de su propio proceso de verificación. tt Se

lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar que se cumplan los puntos anteriores.

El documento “Procedimiento de Calificación-Referencia a punto de la norma ISO 9001:2000:7.5” especifica que se deben hacer verificaciones para asegurar que las bases de datos coincidan con la base de datos original y que no haya datos en blanco. Sin embargo, no se especifica un procedimiento específico (i.e. revisión de submuestras) para llevar esto a cabo. tt Se

documenten todas las actividades de preparación de datos.

El proceso está verificado con la norma ISO. El manual contiene algo de documentación acerca de los procesos (diagramas de flujo, descripción de los pasos involucrados), pero se percibe insuficiente, al menos en lo que fue entregado a este comité de validación.

Procesamiento y verificación de los datos

15. Se cuenta con procedimientos para asegurar que la lectura de las respuestas y todos los pasos del procesamiento y verificación de los datos son confiables.

tt Durante

la lectura de los datos se hacen dobles verificaciones en forma sistemática para garantizar la confiabilidad del proceso.

El manual 2013 especifica que “la verificación del proceso de lectura que realiza la DGEP incluye la revisión manual de una muestra de hojas elegidas al azar de los diferentes paquetes y se lleva una bitácora de los casos atendidos y de la cantidad de incidencias detectadas y resueltas” (p. 159). No se detalla qué hacer en caso de que las incidencias detectadas sean mayores de cierto número o proporción. Tampoco se proporcionó documentación con los reportes de estos análisis que realizan. tt En

caso de que la lectura de datos se haga en forma descentralizada se asegura que se cumplan los estándares en todos los sitios.

La lectura se hace centralmente, por la DGEP en una parte de las entidades federativas y en el resto en forma descentralizada. No se muestran evidencias de que se verifique el cumplimiento de los estándares en todos los sitios.

Aplicaciones

113

tt Se

revisa que la estructura de bases se apegue a la acordada, las variables estén en rangos válidos y los identificadores sean únicos e íntegros.

Las pruebas ENLACE para educación básica

El MT 2103 especifica: El análisis y calibración de reactivos se realiza utilizando un software comercial sugerido por el experto externo asesor del proyecto... Una vez depurada la clave de respuestas, se eliminan los reactivos con deficiencias métricas y que no satisfacen los criterios de calidad establecidos para el proyecto; con los reactivos aceptados se procede a la calificación, para obtener la puntuación de cada alumno. También describe que cuando para llevar a cabo esta revisión “se debe contar con los resultados preliminares en formato de Excel y con un formato para anotar las observaciones y decisiones que se tomen respecto de los reactivos, de la prueba y los parámetros con los que se realiza la calificación”. Es conveniente conocer un formato aplicado con información real de una aplicación a efectos de determinar si es suficiente, o en caso contrario, proponer mejoras. tt Se

contrastan archivos de datos con instrumentos y cuestionarios.

El MT 2013 no tiene detalles al respecto. tt Se

calculan estadísticas analíticas para cada ítem.

En el anexo al capítulo de diseño de la prueba, el MT presenta estadísticas agregadas para los ítems, incluyendo alpha, media biserial, error estándar, entre otras, las cuales son producidas por el software de análisis estadístico que se utiliza. Esto lleva a pensar que sí se hacen estadísticas analíticas para cada ítem. tt Se

calculan estadísticas descriptivas para todas las variables para revisar que no haya valores extremos o faltantes; si hay se reportan para revisión.

La calificación después de la lectura óptica incluye transformar variables en las escalas definidas según las calibraciones ancladas con base en los resultados anteriores. Se realizan reuniones con el personal de DGEP y asesores externos para revisar los resultados de las calibraciones actuales y revisar posibles discrepancias. El software que utiliza la DGEP produce análisis estadísticos por ítem. El anexo al capítulo 4 presenta estadísticas de las pruebas, incluyendo gráficas con ejemplos de reactivos que se ajustan o no a la curva característica para cada grado. En este punto se realiza un análisis de probabilidad de copia para emitir un reporte específico para autoridades de cada plantel donde se presenta el caso. El manual presenta un diagrama con las etapas del proceso. tt Se

documentan todos los pasos del proceso.

El manual detalla el procedimiento de lectura y calificación, pero no da evidencia para determinar si se realizó según estipulado (reporte de incidencias detectadas, anomalías en procesos) ni de resultados del proceso (número de hojas verificadas aleatoriamente, observaciones con datos faltantes o en blanco). No se reportan los casos de copias detectados ni las aulas o escuelas notificadas por ello.

114

Notificación de irregularidades

16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser aprobada y documentada.

Hay actas para anotar, en cada escuela, irregularidades detectadas. El acta debe ser firmada por el director, un testigo docente y un padre observador; el coordinador regional debe firmar de recibido. No se proporcionó información sobre el procesamiento de esas actas por parte de la DGEP, los reportes que generan o las decisiones que se derivan del análisis de irregularidades detectadas. El manual detalla varias instancias en el proceso de lectura y calificación donde se deben reportar incidencias u errores encontrados a DGEP. Sin embargo algunos de estos procesos son circulares (DGEP hace revisión aleatoria y reporta a sí misma si hubo irregularidades). En las reuniones para análisis de reactivos después de la lectura óptica se habla de revisión de posibles discrepancias y de que se deberá “anotar las observaciones y decisiones que se tomen respecto a los reactivos, de la prueba y los parámetros con los que se realiza la calificación” (MT 2013: 160), pero no queda claro quién aprueba dicha resolución.

Análisis del cumplimiento de criterios de validez después de la aplicación. Los procedimientos de lectura óptica y calificación de la DGEP se han formulado de acuerdo con la norma ISO y tienen previsiones generales para su adecuado control. A este respeto, es fundamental que los procedimientos de aseguramiento de calidad atiendan específicamente a los estándares aplicables a evaluaciones estandarizadas de la educación. Para evaluar los procesos posteriores a la aplicación sería a importante explicitar en la documentación del proyecto lo necesario para que se cumpla con los criterios de que los datos tengan suficientes redundancias para permitir control de calidad y de que se lleven a cabo verificaciones aleatorias, de submuestras de las bases de datos para verificar que se cumplan los puntos anteriores.

CONCLUSIÓN La aplicación de la prueba de ENLACE-B requiere de una amplia coordinación entre el nivel federal, estatal y las escuelas. Se percibe un gran esfuerzo realizado por la DGEP para asegurar diversos aspectos críticos de la aplicación, especialmente en lo concerniente al involucramiento de diversos actores a nivel escuela como son docentes, directores y padres de familia, así como observadores externos. Existen manuales para el coordinador de la aplicación así como otros actores clave del proceso y se percibe un esfuerzo por controlar (a través del reporte de varios actores) todos los aspectos de la aplicación.

Aplicaciones

115

Las pruebas ENLACE para educación básica

Por los reducidos tiempos entre la aplicación y la lectura y análisis de la información, algunas etapas del proceso requieren mayor atención y verificación para asegurarse que la aplicación se lleve a cabo en la práctica como está planeada en los manuales y otros documentos. En general, no se encontró suficiente información que permita confirmar, de manera externa, que los procesos se llevan a cabo como están estipulados, aunque los procedimientos de certificación técnicos llevan a suponer que así es. Hacen falta reportes de resultados de los diferentes procesos y las decisiones que fueron tomadas. Se requiere fortalecer los procesos de conformación y verificación de las bases de datos de escuelas y alumnos por parte de los estados, para garantizar la consistencia de lo información y evitar oscilaciones como las que hubo entre 2010 y 2013 (periodo en el que en cada año varió la tendencia). Con este mismo propósito, la DGEP podría implementar controles adicionales a los existentes para asegurar que las variaciones que se presenten en el censo se encuentren dentro de márgenes preestablecidos y de no ser así, alertar oportunamente al estado correspondiente. Lo anterior contribuiría a optimizar el dimensionamiento de los recursos requeridos para la implementación del proyecto, con su correspondiente impacto en costos y validez de resultados. La aplicación cumple algunos, pero no todos los criterios de validez según lo planteado en este documento (el cual plantea criterios según la mejor práctica a nivel internacional). Los estándares y manuales son consistentes en general a lo largo del tiempo. Hay procedimientos de aseguramiento de la calidad y de control a nivel aula, escuela y entidad. Se levantan reportes y constancias de irregularidades firmadas por el aplicador, coordinador, director y, en algunos formatos, padres de familia que sirven de testigos. No obstante, se percibe que se requieren controles de calidad más estrictos en fases cruciales del proceso que involucren proveer más detalle técnico sobre el diseño y proceso, así como llevar a cabo verificaciones aleatorias o realizadas por terceras personas (por ejemplo en el diseño y selección de la muestra, las aplicaciones en aula, el procesamiento de lectura óptica, la verificación de bases de datos provenientes de los estados, o la selección y diseño de la muestra controlada). El diseño de instrumentos de evaluación, así como la lectura óptica y la calificación están elevados a norma técnica de calidad, no así la aplicación propiamente dicha. Teniendo en cuenta su importancia para la validez de los resultados, todo lo relacionado con la aplicación, sus procesos previos y posteriores amerita el mayor rigor que operacional y financieramente sea posible conferirle. No se evidencia la existencia de un proceso sistemático de mejora continua ni se dispuso de un reporte consolidado de las irregularidades típicas, su tratamiento y las lecciones aprendidas luego de cada aplicación como insumo para fortalecimiento de la siguiente. Aunque los resultados de las escuelas con patrones de copia no se utilizan para la evaluación de Carrera Magisterial (es decir, se cancelan y no cuentan para la evaluación docente),4 y a pesar de que los reportes de copia se recopilan por medio de las formas de control, no se perciben esfuerzos que podrían ayudar a desmotivar esas irregularidades, contribuyendo a elevar la validez de la aplicación. Tampoco se encontraron medidas para identificar, prevenir y enfrentar otras formas de fraude. 4

No encontramos evidencia para sustentar este proceso en los manuales técnicos de ENL ACE ni en los Lineamientos de Carrera magisterial, pero en conversaciones con funcionarios de DGEP así como en documentación preparada por ellos mismos para efectos de esta revisión, se pudo constatar esta práctica.

116

En el manual de 2013, página 141 se menciona: “[s]i se contrató personal para supervisión y apoyos diversos, el estado define las características del personal a contratar, requisitos, forma de contratarlos”. Es recomendable que se establezcan normativas generales acerca del personal a ser seguidas homogéneamente por los Estados. En relación a los cuestionarios de contexto, se sugiere revisar su extensión tomando en consideración el uso real de la información que de ellos se obtiene. Los informes de aplicación, sesiones de entrenamiento y manejo de novedades en la operación de campo se gestionan manualmente. Teniendo en cuenta el tamaño de la población atendida, se requiere contar con herramientas tecnológicas apropiadas, que permitan determinar las oportunidades de mejora y su impacto logístico, enriqueciendo el proceso en general.

Aplicaciones

117

5

Usos y consecuencias

OBJETIVO Y MARCO CONCEPTUAL En este apartado se presentan los resultados de un análisis detallado de la evidencia disponible relativa a los usos y consecuencias de la prueba ENLACE (Evaluación Nacional de Logro Académico en Centros Escolares), frecuentemente denominado en la literatura especializada como análisis de validez consecuencial. Se busca revisar evidencia de que se dan usos apropiados y previstos a los resultados de la prueba, que estos están teniendo los efectos y consecuencias previstas, y que por el contrario no se están dando usos inapropiados y que conlleven consecuencias negativas. La noción de validez relativa a usos y consecuencias de las pruebas combina un amplio rango de consideraciones teóricas, psicométricas, y prácticas, y su aplicación (en general o en casos particulares) es un tema en constante evolución que se discute activamente en la literatura especializada (Lissitz, 2009). En este trabajo se conceptualiza la validez consecuencial de manera amplia, y no ceñida a un modelo de medición particular. Esto se refleja en el convenio de ejecución entre INEE y UAA que incluye en este apartado “la forma en que se difunden los resultados de las pruebas, los análisis de factores asociados y el uso que se hace de dichos resultados, así como las consecuencias que ha traído consigo su utilización en el sistema educativo mexicano”.1 Dado que este estudio se conceptualiza primordialmente desde la perspectiva de la política educativa, se considera que el uso de la prueba determina directamente su significado y consecuencias (Welner, 2013), sin importar necesariamente si esto corresponde a la definición especifica de validez dentro de algún modelo psicométrico. Sin embargo, es importante diferenciar la evaluación del uso de un instrumento en el contexto de una política educativa que se busca aquí, de la evaluación general del impacto social de esta política en un sentido amplio, que este estudio de validez no pretende abordar.

CRITERIOS DE VALORACIÓN Los criterios de valoración que se proponen se basan en los estándares de AERA , APA y NCME (1999) que ofrecen los lineamientos profesionales más ampliamente establecidos a nivel internacional. Adicionalmente se incluyen elementos de los estándares del Educational Testing Service (2000) que además de la calidad de la prueba atienden lo relativo a equidad y consecuencias 1

El “análisis de factores asociados” se entiende aquí como un monitoreo de patrones y tendencias a nivel sistémico para propósitos de investigación, o toma de decisiones sobre programas o políticas—a diferencia de análisis a nivel del individuo que pertenecen al tema de validez de constructo.

118

(Standards for Quality and Fairness); y los del Centro Nacional de Evaluación para la Educación Superior de México (2000) que además tocan lo relativo a comunicación de resultados y capacidad de interpretación. Finalmente se incluye una publicación reciente del Banco Mundial que considera factores que inciden en distintos tipos de usos (Kellaghan, Greaney y Scott Murray, 2009). De estas tres fuentes se sintetizaron una serie de criterios que se engloban en cuatro aspectos de validez de uso y consecuencias, a saber: 1) Soporte para interpretaciones, usos y consecuencias previstas; 2) Acceso equitativo y capacidad de interpretación y uso; 3) Comunicación que facilite la buena interpretación de los resultados, y 4) Interpretaciones, usos y consecuencias imprevistas. En la elaboración de este reporte se definieron inicialmente 16 criterios específicos que luego se redujeron a 11 para eliminar redundancias y alinear las distintas fuentes de evidencia más directamente a los criterios.

Tabla 5.1 Criterios de valoración: validez relativa a usos y consecuencias A. Soporte para interpretaciones, usos y consecuencias previstas 1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico. 2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba.

B. Acceso equitativo y capacidad de interpretación y uso 3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes involucradas sin discriminación. 4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación y utilización de los resultados.

C. Comunicación que facilite la buena interpretación de los resultados 5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación deseable (o correcta) de los resultados. 6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general. 7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil y características de la población de referencia. 8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigma.

D. Interpretaciones, usos y consecuencias imprevistas 9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables). 10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas, o inadecuadas/negativas). 11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar acciones correctivas. Fuente: Adaptado de AERA /APA / NCME (1999), ETS (2000), CENEVAL (2000).

Es importante señalar que aunque estos criterios reflejan aspectos concretos de calidad técnica de la prueba, a diferencia de aspectos psicométricos u operativos, estos no se pueden evaluar directamente en términos cuantitativos o procedimentales exactos. Por el contrario, la evaluación de criterios aquí requiere juicios de grado basados en evidencia teórica y empírica, que se refieren a características que no necesariamente son observables de manera directa y confiable, y que ocurren en el contexto complejo de un sistema de pruebas de gran alcance que se usa para propósitos específicos. Es evidente, por ejemplo, que el grado de escrutinio técnico necesario es mayor en el caso de una prueba de alto impacto que implica consecuencias serias para los sujetos implicados, que en una prueba diagnóstica sin consecuencias (AERA, APA, NCME, 1999). Usos y consecuencias

119

Las pruebas ENLACE para educación básica

Igualmente compleja es la evaluación de usos o consecuencias no propuestas fuera del control del desarrollador. En el contexto de una prueba nacional del tipo y alcance de ENLACE , el organismo responsable de satisfacer los criterios de calidad que se delinean es el sistema educativo federal en conjunto, no solo el departamento encargado de aspectos técnicos de desarrollo— lo que además concuerda con la nueva ley de educación que establece que las evaluaciones con consecuencias para individuos son responsabilidad de la SEP. Las acciones de otros actores del sistema educativo tales como asociaciones civiles, prensa, o incluso gobiernos estatales se consideran y evalúan como externos al órgano desarrollador. En todos los casos, la asignación y evaluación de responsabilidad se hace con una perspectiva amplia y descriptiva, que considera parámetros realistas referidos al contexto nacional y a experiencias en otros sistemas a nivel internacional (Cizek, Bowen y Church, 2010; Nichols y Williams, 2009). Por último, como en los otros capítulos de este reporte el análisis que se presenta aquí trata de distinguir entre aspectos básicos o primarios que se podrían considerar como requerimientos mínimos o indispensables en cualquier sistema de medición educativa de esta dimensión, y aspectos que se consideran adicionales o ideales, que representan objetivos de calidad que se deben buscar, pero no son indispensables para una operación mínimamente apropiada (dentro de ciertos parámetros y contexto).

TIPOS DE USOS DE LA PRUEBA Como punto de partida de análisis, la Tabla 2 presenta una síntesis de usos, consecuencias o beneficios previstos por los diseñadores de la prueba ENLACE, según se reflejan en el manual técnico 2013 y materiales que acompañan a la prueba. La tabla presenta una variedad de beneficios que comprenden usos sumativos, formativos, e informativos; interpretaciones de distinta granularidad, foco, y grado de agregación; y diversos mecanismos de mejora e intervención. Estas interpretaciones y usos involucran a cuatro tipos de usuarios específicos: 1) alumnos y padres de familia, 2) docentes y directores, 3) autoridades, organismos evaluadores y la sociedad en general, y 4) investigadores e instituciones académicas. Además se menciona a la sociedad en general, o la sociedad civil como un actor y beneficiario importante en los esfuerzos de mejora.

120

Tabla 5.2 Usos, beneficios, y/o consecuencias previstos de ENLACE Padres de familia 1. O frecer información sobre el logro académico de sus hijos y orientación y apoyo para reforzar contenidos educativos no logrados (áreas de oportunidad). 2. Proporcionar resultados de la escuela donde estudia el alumno, así como los obtenidos por el resto de las primarias y secundarias del país. 3. Socializar el trabajo de la escuela y fortalecer la idea de la comunidad escolar.

Docentes y directivos 4. D etectar áreas de oportunidad y orientar la práctica pedagógica del docente al indicar contenidos curriculares logrados y no logrados. 5. Diagnosticar el trabajo de la escuela, proporcionando elementos para la autoevaluación y gestión del centro escolar. 6. Eliminar el exceso de instrumentos de evaluación que se aplican en las escuelas, optimizando tiempos para el proceso de enseñanza-aprendizaje. 7. Posibilitar comparación entre escuelas en contextos socioculturales similares. 8. Proporcionar información para diseñar cursos de capacitación al magisterio.

Autoridades educativas estatales y nacionales 9. T omar decisiones inmediatas asociadas con el proceso educativo para la formulación e implementación de políticas educativas. 10. Fortalecer el Sistema Nacional de Evaluación y contribuir a mejorar la coordinación entre las instancias educativas federales y locales. 11. Estimular las mejores prácticas docentes y reconocer el esfuerzo de alumnos, docentes y directivos hacia la mejora continua de la calidad educativa. 12. Proporcionar información de impacto a nivel de alumno y centro escolar para evaluar programas educativos al conocerse resultados previos a su aplicación. 13. Proveerindicadores e información para decisiones, diseño y evaluación de políticas educativas a nivel estatal (capacitaciones, asignación de recursos). 14. Promover el uso de los resultados para la mejora del Sistema Educativo.

Investigadores e Instituciones Académicas 15. Analizar y reflexionar en torno a los resultados, determinar áreas de oportunidad y alimentar el diseño de estrategias de mejora, incluyendo estudios de factores asociados. 16. Realizar estudios que pongan a prueba la calidad de la prueba y/o verifiquen procedimientos o resultados de los estudios reportados en el manual técnico.

Sociedad en General 17. Mejorar la calidad educativa y el aprendizaje de los estudiantes. 18. Promover la transparencia y rendición de cuentas en el sistema educativo. Fuente: Basado en Manual Técnico ENL ACE , 2013.

Es importante hacer algunas precisiones sobre los contenidos de la Tabla 5.2. Primero, la tabla no existe como tal en el reporte, y sus contenidos no se condensan de esta forma exacta en el manual técnico u otros materiales. La tabla refleja por tanto la síntesis que hacen los autores del gran número de objetivos y usos previstos a que hace referencia de forma explícita o implícita el manual técnico 2013. El siguiente cuadro presenta algunas citas representativas tomadas del manual que implícita o explícitamente se refieren a beneficios esperados derivados del uso de la prueba ENLACE .

Usos y consecuencias

121

Cuadro 5.1 Objetivos y usos de la Prueba. Extractos del Manual Técnico

Las pruebas ENLACE para educación básica

(p.6) La prueba ENLACE es un instrumento estandarizado, objetivo, de alcance nacional, diseñado para que los docentes, directivos, autoridades educativas, investigadores y escolares de todo el país, dispongan de una medida válida, objetiva y confiable, del estado actual del logro académico de los estudiantes de educación básica. (p.7) El propósito primordial de ENLACE es recopilar […] información específica de la población objetivo para: (1) identificar áreas donde hay progreso, (2) reconocer donde hay deficiencias y, por tanto, se erigen como áreas de oportunidad para diseñar mediaciones pedagógicas a realizar en clase por los docentes, (3) intercambiar opiniones de las que emanen acciones donde intervengan los padres de familia para incidir en el aprendizaje y el desarrollo de sus hijos, (4) socializar el trabajo de la escuela y (5) fortalecer la idea de comunidad escolar y su participación en los procesos formativos de los estudiantes. (p.7) Los instrumentos de evaluación utilizados en el programa ENLACE en educación básica tienen como principales objetivos: a) Medir el logro académico en: Español y Matemáticas (y las competencias de otro ámbito del conocimiento, diferente cada año pero que se repite cíclicamente) de todos los alumnos de los grados educativos considerados. b) Establecer criterios y estándares de calidad aceptados en todo el país, como una base de referencia. No se trata de conocimientos o habilidades mínimos, sino los comunes o críticos aceptables para todo el país. c) Obtener y entregar resultados de todos los alumnos y todas las escuelas. (p.190) la DGEP […] se compromete a demostrar que es una información fidedigna, sin omisiones ni inclusiones que pudieran afectar los resultados y cuyas bases de datos están disponibles para que cualquier investigador pueda verificar los procedimientos y resultados... Fuente: ENL ACE , Manual Técnico, 2013.

Una segunda precisión se refiere a la clasificación de usos de la prueba como previstos o no. Esta sección del reporte no pretende ofrecer un juicio cualitativo sobre el valor potencial de diversos usos propuestos y posibles de ENLACE , o si estos objetivos son adecuados o deseables en un sentido social más amplio. La distinción en cambio se hace necesaria en las siguientes secciones del reporte por motivos prácticos y técnicos, para permitir delinear las responsabilidades de diseñadores/desarrolladores y usuarios de la prueba. En primera instancia los desarrolladores son responsables principalmente en lo que se refiere a aquellos usos que ellos mismos han propuesto para la prueba—aunque como se verá más delante, también existe un cierto grado de responsabilidad en la prevención, detección y corrección de usos que se consideren injustificados o inadecuados. Por lo tanto, una primera conclusión en lo que se refiere a los objetivos de esta sección del reporte es que el manual carece de una estructura y organización conceptual sólida que presente y describa los objetivos y contexto de la prueba de forma explícita y clara. El lenguaje y la forma en que se presenta la información es por turnos vaga o poco clara, incompleta, o redundante—el cuadro 5.2 presenta ejemplos adicionales de este tipo de lenguaje y formulación de conceptos de poca utilidad para los propósitos de un manual técnico. Por supuesto, la falta de claridad en organización y terminología no se menciona como crítica estilística (aunque sin duda el manual se beneficiaría de una revisión a fondo por un editor competente). Es mucho más importante notar que esta falta de claridad incide directamente en la calidad de la prueba pues resulta difícil establecer con certeza los propósitos, usos, y consecuencias previstas de la prueba— y por tanto representa una limitación directa e importante en el proceso de construir un marco apropiado para evaluar la medida en que estos objetivos se cumplen en la práctica.

122

Cuadro 5.2 Objetivos y usos de la Prueba. Extractos del Manual Técnico (p.5) ENLACE es, así, un programa fundamental que la Secretaría de Educación Pública (SEP ) desarrolla ante las exigencias actuales de rendición de cuentas. En este marco, se proporciona información a los estudiantes, padres de familia, docentes, directivos de las instituciones educativas y a la sociedad en general, respecto del logro académico de los alumnos del Sistema Educativo Nacional. (p.6) En este sentido, se viene cumpliendo la expectativa de que, con el paso del tiempo, ENLACE se constituya —a partir de sus resultados— en una referencia válida y confiable de la evolución del avance en el desempeño escolar, de la concreción de los esfuerzos de todo el sistema escolar en los resultados escolares, tomando en cuenta diferentes niveles de agregación: estatal, municipal, local, escolar, grupal e individual. (p.7) Los resultados de ENLACE sirven, en gran medida, para la toma de decisiones y la elaboración de la política educativa del país. También son útiles para la sociedad en su conjunto, ya que alumnos, docentes y padres de familia obtienen información puntual para orientar y diseñar una intervención pedagógica sólidamente sustentada. (p.7) De esta manera, ENLACE contribuye con un modelo de apoyo a la mejora educativa del país en diversos ambientes: el salón de clases, la escuela, la familia, los medios de comunicación y la sociedad en su conjunto. Se espera que los informes de resultados del logro académico de los estudiantes sean interpretados pertinente y constructivamente por padres de familia, docentes y directivos escolares y la sociedad en general; para ello, es necesario que, en el marco de una cultura de la evaluación, se abandonen las prácticas tradicionales de evaluaciones incompletas, mal diseñadas y sin interpretación alguna. (p.8) Así queda claro, por ejemplo, por qué los resultados de ENLACE no impactan en las calificaciones de los alumnos participantes; en cambio, sirven para explorar el nivel de logro de los conocimientos y las habilidades cognitivas que tienen en Español, Matemáticas y otro campo de conocimiento adicional. Así mismo, queda clara la utilidad y alcance que los resultados de ENLACE tienen para las autoridades educativas del país en la definición de la política educativa, la cual debe construirse, revisarse y renovarse continuamente. Fuente: ENL ACE , Manual Técnico, 2013.

F UENTES DE EVIDENCIA Y ANÁLISIS Los 11 criterios de valoración que se presentan en la Tabla 5.1 proveen el marco conceptual para el análisis de los aspectos teóricos, psicométricos, y prácticos de ENLACE , sus usos previstos e imprevistos, y las consecuencias que de estos se derivan. Evaluar estos aspectos de validez requiere de información y evidencia de muy diversos tipos y fuentes, que normalmente no están disponibles en forma sintética en ningún documento o base de datos. El grado en que ENLACE se usa en las formas previstas y produce los resultados esperados, por ejemplo, no se puede establecer directamente con análisis psicómetros, sino que requiere recolectar y sintetizar fuentes de información de distinto tipo (cuantitativo y cualitativo), origen (SEP, INEE , prensa, entrevistas, observación directa, y otros), y granularidad (de nivel individual, o agregados por aula, escuela o estado). Este estudio busca ofrecer una síntesis cualitativa que refleje la cantidad y calidad de evidencia disponible de varias fuentes, respecto a los criterios de valoración propuestos. Dada la naturaleza de las preguntas de esta sección, y las limitaciones en cuanto a la cantidad y calidad de información disponible que documenta usos y consecuencias de ENLACE, además de las limitaciones de este estudio en términos de tiempo y recursos disponibles, para este estudio se buscó profundizar el análisis con información proporcionada por actores involucrados directamente en el uso de resultados de la prueba, además de revisar la documentación, manuales, reportes, y otros materiales y estudios especiales disponibles. En particular, el equipo de investigación de la UAA recogió información adicional de cuatro fuentes: Usos y consecuencias

123

Las pruebas ENLACE para educación básica

1. Información de usos y consecuencias a nivel estatal, con una encuesta de actores involucrados en la administración y uso de las pruebas ENLACE en cada localidad; 2. Entrevistas a profundidad con autoridades y personal clave involucrado en el diseño de mecanismos, programas y políticas basadas en las pruebas ENLACE en una muestra de 10 estados y 2 subsecretarias federales; 3. Literatura especializada y entrevistas con investigadores y organismos que utilizan la prueba para investigación/evaluación de programas o políticas; 4. Búsqueda estructurada utilizando herramientas Google y Google Scholar para identificar evidencia sobre usos y consecuencias previstas e imprevistas, con base en una revisión de cobertura en prensa, y grupos y organismos de la sociedad civil. La Tabla 5.3 sintetiza las fuentes de información que sirven de base para los análisis y consideraciones siguientes, organizadas según los criterios de valoración ofrecidos en la Tabla 5.1.

Tabla 5.3 Fuentes y tipos de evidencia empleadas por criterio de valoración Criterio

Tipo de evidencia

A. Interpretaciones, usos y consecuencias previstas 1. E videncia y respaldo 2. Monitoreo

 Manual Técnico ENLACE 2013.  E studios especiales y literatura especializada.*  E ncuesta y entrevistas con personal de entidades.  E stadísticas de uso de portales de resultados. B. Acceso equitativo, y capacidad de interpretación y uso

3. Reporte / acceso a resultados 4. Capacitación y apoyo

 Manual Técnico ENLACE 2013.  Documentos de apoyo (Talleres de actualización y uso pedagógico de los resultados de ENLACE ). M anual para docentes y directivos.  E stadísticas de uso de portales de resultados.  E ncuesta y entrevistas con personal de entidades.

C. Comunicación que facilite la buena interpretación de los resultados 5. Reportes informativos 6. Lenguaje adecuado 7. Marco de referencia 8. Limitaciones / errores comunes

 Manual Técnico ENLACE 2013  Reportes de resultados producidos para grupos de usuarios (padres, maestros, directores, autoridades) accesibles en página SEP/ENLACE (30/12/2013)  Otros contenidos, datos, y documentos disponibles en página web SEP/ENLACE (30/12/2013)

D. Interpretaciones, usos y consecuencias imprevistas 9. A dvertir sobre usos inapropiados 10. Documentar esos usos 11. Acciones respecto a ellos * Ver Tabla A en Apéndice y Referencias.

124

 Manual Técnico ENLACE 2013.  E studios Especiales y Literatura Especializada.*  E ncuesta y entrevistas con personal de entidades. C obertura de medios y ONG s.

REVISIÓN DE LA EVIDENCIA DISPONIBLE POR CRITERIO DE VALORACIÓN A. Soporte para interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalden los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico.2

El manual técnico detalla los propósitos, usos, y audiencias previstas de la prueba ENLACE . Aunque los usos previstos no se sintetizan explícitamente, el manual hace mención repetida de gran número y variedad de objetivos que busca la prueba y beneficios que ofrece a los diversos actores (alumnos, maestros, directores, autoridades, y sociedad en general). Sin embargo, tanto el manual, como los materiales que lo acompañan y otros disponibles en el portal web presentan evidencia teórica y empírica muy limitada para respaldar específicamente los usos propuestos y consecuencias previstas. Los documentos ofrecen argumentos generalmente superficiales y vagos, y proponen beneficios del uso de la prueba que típicamente no se sustentan directamente en razonamientos o argumentos lógicos o teóricos, y menos aún en evidencia empírica. El cuadro 5.3 presenta un ejemplo que se considera indicativo de la discordancia entre los usos propuestos y la evidencia que se ofrece para sustentarlos. Uno de los usos propuestos más prominentes de la prueba ENLACE es el de informar la práctica docente con base en el análisis y diagnóstico de las fortalezas y debilidades de los alumnos—de este se deriva en teoría una de las contribuciones más importantes de la prueba al mejoramiento del aprendizaje y del sistema educativo en general. Sin embargo, el manual y materiales que lo acompañan no presenta evidencia psicométrica que sustente la fiabilidad del uso diagnóstico basado en subpuntajes ya sea a nivel individual o agregado a nivel de aula. Este tipo de uso diagnostico conlleva un juicio práctico contextualizado sobre la calidad de la información disponible—es decir, la precisión de los puntajes a interpretar en cada área y nivel de agregación. Esto usualmente implica calcular, reportar, y promover el uso adecuado de un indicador de precisión escalado (i.e. error estándar). En cambio, en el manual técnico ENLACE se ofrecen solo coeficientes de confiabilidad alfa para puntajes globales a nivel de alumno. Estos coeficientes no reflejan la precisión de los puntajes, si no una proporción teórica de varianza del error de poca o nula utilidad práctica para el uso que se propone, y ni siquiera se refieren al puntaje de interés—por área y agregado a nivel de aula—si no al puntaje global individual de menor o nula relevancia para informar la práctica del docente. El contraste entre la teoría de acción y la evidencia técnica disponible para justificarla es notable. La alta confiabilidad del puntaje global no garantiza la confiabilidad de todos los subpuntajes que se podrían generar (Brennan, 2005; Haberman, 2008); por otro lado la baja confiabilidad de un subpuntaje a nivel individual no asegura lo mismo al nivel de aula (Brennan, 1995); 2

Este criterio se refiere a los usos y consecuencias previstas de la prueba ENL ACE que se describen en el Manual Técnico 2013 y materiales que lo acompañan, y que se sintetizan en la Tabla 2. Para análisis de reportes específicos de resultados dirigidos a distintos tipos de usuarios ver análisis de criterios 5 a 8.

Usos y consecuencias

125

Las pruebas ENLACE para educación básica

finalmente, un índice de confiabilidad alta a cualquier nivel no garantiza un error estándar (e intervalo de confianza) que justifique las interpretaciones y diferenciaciones prácticas que se pretenden (Crocker & Algina, 2004). Cuadro 5.3 Usos propuestos de puntajes al nivel del aula o docente (p.10) ENLACE no pretende que los docentes realicen análisis psicométrico de los reactivos o de la prueba en su conjunto; esta función es competencia de la SEP, responsable de garantizar la validez, objetividad y confiabilidad de la prueba, de dar interpretaciones y tomar las decisiones a nivel nacional o estatal. Lo que sí se espera es que los docentes analicen la información para estimar de manera cuantitativa y cualitativa las fuerzas y debilidades que presentan sus estudiantes con relación al perfil de especificaciones evaluado en la prueba. (p.125) Confiabilidad de la prueba Cada prueba se analiza para estimar la confiabilidad con el coeficiente de consistencia interna alfa de Cronbach y con él se determina el error de medida. (p.132) Confiabilidad por consistencia interna El coeficiente alfa de Cronbach es la expresión de propósito general más empleada en la práctica y es la que se emplea en ENLACE . Fuente: ENL ACE , Manual Técnico, 2013.

El uso diagnóstico de los puntajes por parte del maestro, también se basa en supuestos sobre la sensibilidad instruccional de la prueba, es decir, el grado en que esta es capaz de reflejar diferencias en la calidad (o incluso cantidad) de enseñanza a que está expuesto un estudiante en un periodo determinado. De forma más general, este supuesto está implícito en la idea de influenciar el aprendizaje a través de mejoras en la práctica docente que es parte fundamental del modelo lógico de ENLACE —y por tanto en la evaluación paralela de programas de capacitación docente y otros. Sin embargo, en el manual técnico no se ofrecen argumentos teóricos o lógicos explícitos, ni evidencia empírica alguna que justifiquen el supuesto de que la prueba es efectivamente sensible a (capaz de reflejar) variaciones en la práctica docente—ni siquiera en términos de puntajes globales, menos aún al nivel de subpuntajes por áreas. Es importante notar que esto implica una omisión básica importante aunque el estudio de sensibilidad instruccional no es parte del menú básico en la literatura en medición educativa. Si este tipo de evidencia no acompaña a muchas de las pruebas de gran escala más conocidas a nivel internacional, es porque no es común que estas propongan usos diagnósticos que involucren tan distintos actores, grados de detalle y niveles de agregación en la información. En el caso de ENLACE parecería fundamental la necesidad de ofrecer algún tipo de evidencia empírica en este sentido, ya sea cuantitativa o cualitativa, experimental o descriptiva, longitudinal o transversal, o de otro tipo.3

Un pequeño pero creciente número de estudios emplea encuestas, entrevistas, estudios de caso y otros métodos para

3

recoger información sobre usos de ENL ACE por diversos actores en el sistema (padres, maestros, directores). Estos se mencionan en otras secciones de este reporte y pueden ofrecer información valiosa para diagnosticar y mejorar la operación de la prueba, monitorear sus efectos primarios o secundarios, o entender el impacto o no de programas o intervenciones. En el mejor de los casos esta información eventualmente podría ayudar a explicar los resultados de un estudio de sensibilidad instruccional, pero no constituyen un estudio de este tipo.

126

En general, nuestro análisis de la documentación revela fundamentalmente una grave falta de alineamiento entre los usos propuestos de la prueba ENLACE y los cuerpos de evidencia teórica y empírica que el organismo desarrollador (la Secretaria de Educación Pública) ofrece para sustentar estos usos. Es muy importante recordar que en teoría se espera que los usos e interpretaciones propuestas de la prueba informen directamente su diseño y la evidencia que se deberá recoger para justificarlos; en el caso de ENLACE esto no parece haber ocurrido así. El manual no describe por ejemplo la idoneidad del diseño (censal, con cobertura fija) en relación al uso diagnostico preponderante, o los mecanismos para considerar la precisión de los indicadores al interpretar los resultados. Esto probablemente es indicativo de limitaciones técnicas y materiales concretas enfrentadas al definir y recolectar la evidencia, pero también refleja la falta de claridad inicial sobre los objetivos de la prueba y sobre la interdependencia entre usos propuestos y decisiones de diseño de la prueba. Los objetivos y usos propuestos se presentan de forma vaga, parcial, y un tanto fortuita, y aunque muchas veces se pueden inferir de los contenidos del manual de forma indirecta o por eliminación (por ejemplo, al diferenciar usos sumativos que no se consideran adecuados), de ninguna manera constituyen el eje organizador del manual técnico como se esperaría. Finalmente, es notable también el uso de aseveraciones generales y ambiguas sobre usos y consecuencias que no se fundamentan en ninguna evidencia concreta. Por ejemplo, el manual no ofrece ninguna base para evaluar la afirmación de que: ENLACE ha permitido avanzar en la generación de una cultura de corresponsabilidad en la

tarea educativa que involucra a la comunidad escolar en su conjunto; asimismo, ha venido propiciando un enfoque diferente de la evaluación, cada vez más alejado del carácter sancionador que llegó a tener en el aula; y ha promovido el ejercicio de la planeación del trabajo docente, lo mismo que la utilización del modelo de autoevaluación de centros educativos orientados a la mejora continua (p. 164). Este tipo de lenguaje no es común o particularmente útil en el manual técnico de una prueba si no que por el contrario hace más difícil el análisis y la evaluación, porque combina con lógica circular supuestos, hipótesis, características y objetivos de corto y largo plazo, sin ofrecer una línea de argumento sustentada en evidencia. El uso de este tipo de lenguaje en el manual técnico recuerda la importancia de crear estructuras para asegurar además de la calidad técnica, la objetividad e independencia de un sistema de pruebas aun cuando este opera al interior del organismo responsable de mejorar los resultados.

2. Se documenta y evalúa el grado en que se producen los usos y consecuencias previstas y/o deseables de la prueba.

El manual técnico 2013 y otros documentos que se ofrecen en el portal web reflejan un nulo o mínimo esfuerzo por documentar el grado en que se producen los usos y consecuencias previstas de ENLACE . No se encontró ningún documento o esfuerzo sistemático de otro tipo que busque concentrar información, ni siquiera en lo que respecta a los usos más básicos o de mayor alcance que se dan a ENLACE al interior de la misma SEP a nivel federal. La documentación Usos y consecuencias

127

Las pruebas ENLACE para educación básica

que existe está sumamente fragmentada y para obtenerla hubo que recurrir al conocimiento de personas involucradas en distintos niveles, o consultar individualmente con subsecretarías, unidades, y programas particulares. Nuevamente son frecuentes aseveraciones de tipo general que combinan objetivos y supuestos hipotéticos pero que no están sustentados en evidencia. La siguiente cita del manual técnico ejemplifica este tipo de contenidos de poco valor para evaluar aspectos concretos de validez: Gracias a esta difusión, los alumnos, padres de familia, docentes, directores de centros escolares, investigadores educativos, así como autoridades educativas estatales y federales, pueden reflexionar en torno a los resultados, determinar áreas de oportunidad en sus respectivos campos de acción y alimentar el diseño de estrategias de mejora. El análisis pertinente de los resultados debe conducir a tomar acciones concretas encaminadas al incremento de la calidad de la enseñanza, aprendizaje y [… ] servicios educativos en general (p.162). El manual incluso refleja un cierto grado de confusión sobre la responsabilidad de los actores en relación a los usos de las pruebas o la recolección de evidencia de estos usos cuando indica que las instituciones tienen: … pleno derecho de emplear los resultados como insumo en el diseño de planes para la mejora continua de sus procesos pedagógicos, la detección de necesidades de formación o actualización de sus docentes, la generación de nuevas estrategias didácticas y otras acciones que se consideren pertinentes para alcanzar los propósitos educativos planteados por la SEP (p.162). El establecer un derecho institucional a utilizar los resultados es una postura inusual y de dudosa pertinencia y relevancia legal tanto para el organismo desarrollador de pruebas como para los usuarios. En cambio, el cargo si no legal si profesional del desarrollador es asegurar primero que dichos usos de los resultados estén adecuadamente fundamentados, y luego documentar el grado en que las instituciones y actores hacen uso de la prueba en las formas previstas, obteniendo los resultados esperados, y sin que se produzcan otros imprevistos que se consideren inapropiados. Evidentemente ese tipo de esfuerzo trasciende a cualquier investigador, institución u organismo particular, y se debe concebir de forma más amplia como un área de corresponsabilidad y oportunidad para colaboración entre investigadores y organismos desarrolladores de pruebas. Por tanto el criterio se evalúa aquí en relación al desarrollo de mecanismos e iniciativas que se encaminen a y faciliten el monitoreo y la investigación de los usos de la prueba. En ese sentido se puede señalar la falta de canales para promover el uso de la información por parte de los investigadores, a quienes el manual identifica como uno de los usuarios previstos de los resultados. Esto limita el desarrollo de esfuerzos conjuntos de investigación que requiere el cumplimiento de este criterio a mediano plazo y que puedan informar las prácticas y políticas educativas como en teoría se pretende. Aunque el criterio por tanto parece no cumplirse de entrada, este se aborda aquí desde una perspectiva general usando todas las fuentes de información existente y otras que se recabaron especialmente para este proyecto, con el propósito de informar el trabajo que el INEE lleve a cabo a futuro en la siguiente generación de pruebas. Las fuentes de información incluyen literatura especializada y estudios especiales (ya sean publicados, u obtenidos directamente de su 128

fuente), y entrevistas con personal encargado del uso de ENLACE en seis estados: Aguascalientes, Nuevo León, Colima, Durango, Yucatán y Veracruz. Las entrevistas indican que los estados toman medidas muy diversas para promover el uso de los resultados de ENLACE , y que la definición misma de uso puede variar significativamente entre estados. Como muestra este reporte más adelante, estas definiciones de uso a nivel estatal no siempre son consistentes con los usos y consecuencias previstas que se establecen o pretenden a nivel federal. La sección siguiente se organiza en relación a los distintos actores que se distinguen en la Tabla 2.

Padres y Alumnos El modelo lógico implícito en la prueba ENLACE incluye la participación de los padres de familia en los esfuerzos de mejora educativa, como actores que se involucran directamente tanto en el aprendizaje de sus hijos a nivel individual, como en la labor de sus maestros y escuelas en general. La encuesta de autoridades estatales realizada para este estudio (N=20) indica que tres de cada cuatro estados han implementado un programa para diseminar los resultados de la prueba directamente a padres de familia, incluyendo reuniones en persona (23%), portales de internet (46%), y difusion de materiales impresos (40%). Sin embargo, la encuesta también indica que solo una quinta parte de los estados considera el apoyo a padres como un objetivo prioritario de uso para ENLACE. Otros estudios han investigado más directamente el uso que dan los padres a esta información. Por ejemplo, el Instituto de Fomento e Investigación Educativa (IFIE) realizó un estudio basado en una muestra nacional representativa de alrededor de 2,000 padres de alumnos de primaria, secundaria y preparatoria, para documentar el grado de conocimiento y los usos que dan a los resultados de ENLACE (IFIE , 2010). El estudio reveló serias limitaciones en el acceso a los resultados individuales de los alumnos y por tanto en el posible uso de estos resultados por los padres. Aunque una gran mayoría de padres (más del 80%) considera la aplicación de ENLACE como importante, alrededor de la mitad de los padres a nivel nacional en los tres niveles no llegan a conocer nunca los resultados de sus hijos, y de estos más de la mitad no reporto ningún uso o acción concreta después de conocer los resultados. Es también evidente la gran variabilidad regional en el conocimiento de los resultados (con índices que van desde el 26% en el norte de la república, hasta el 76% en occidente) y el bajo índice de acceso a resultados por medio de Internet, que es utilizado solo por uno de cada seis padres que recibe los resultados (o menos del 9% total). En cuanto al uso que se orienta al mejoramiento de las escuelas, una proporción aún menor en todos los niveles dijo conocer los resultados de la escuela de sus hijos. En total entre un 10 y 20 % de padres reporta tomar algún tipo de acción concreta para buscar el mejoramiento escolar basado en los resultados de ENLACE . Los resultados sugieren que el modelo de mejora de ENLACE en el mejor de los casos ha sido adoptado muy lentamente por uno de los actores clave. Sin contar con datos longitudinales es imposible determinar si existe una tendencia hacia mayor utilización por parte de los padres, pero una hipótesis plausible es que estos resultados reflejan el grado máximo o estable de uso que se logró a través de los mecanismos implementados a nivel federal dentro del modelo que funcionó hasta 2013. El estudio del IFIE culpa entre otros factores a la difusión tardía de resultados (publicados en otoño para el año escolar anterior) de las estadísticas desalentadoras de conocimiento y uso de resultados—además de limitar estructuralmente el modelo de mejora docente propuesto. Usos y consecuencias

129

Las pruebas ENLACE para educación básica

El estudio del IFIE no permite identificar programas de uso de resultados por parte de padres promovidos al interior de cada estado. Una posibilidad es que en los estados se estén llevando a cabo otros esfuerzos de comunicación y uso que la encuesta no identifica con precisión. En las entrevistas con personal estatal de Aguascalientes, Nuevo León, Yucatán, Veracruz, Durango y Colima, solo uno de los estados señala el uso sistemático de ENLACE para orientar a los padres para apoyar a sus hijos para reforzar contenidos. Este estado reportó dos esfuerzos distintos que buscan involucrar a los padres a través de la prueba ENLACE: el primero pide a los docentes que envíen la prueba Pre- ENLACE a los padres (como sugerencia a los docentes por medio de una revista impresa para docentes distribuida a nivel estatal), el segundo promueve que docentes y directores se reúnan con padres para presentar los resultados ENLACE y pedirles “mayor involucramiento en el proceso de aprendizaje de sus hijos”. Los entrevistados no tenían conocimientos o evidencia concreta sobre resultados o consecuencias de estas acciones.

Docentes y Directores El modelo lógico de mejora de ENLACE ubica explícitamente al maestro como el actor principal, su uso de los resultados para mejorar la práctica docente como el mecanismo central de impacto, y la escuela como el contexto próximo clave donde se promueve y facilita este esfuerzo de mejora. Una variedad de programas, políticas, y esfuerzos a nivel federal y estatal reflejan la importancia que se da al uso de los resultados de la prueba ENLACE por parte del docente. Estos se reflejan en una variedad de materiales de apoyo y orientación al docente de diverso tipo, profundidad, alcance, y calidad. Estos incluyen materiales que son parte de la documentación y material de apoyo creados por los propios desarrolladores de ENLACE , y otros muchos que se usan en la mayoría de los estados. El INEE realizó una encuesta sobre conocimiento, opinión, y usos de ENLACE con una muestra nacional representativa de más de tres mil docentes de cuarto a sexto grado de primaria (Delgado, Grijalva, y García, 2011). La encuesta revela patrones preocupantes como el que 60% de docentes conoce los objetivos de la prueba solo de forma superficial (cerca del 10% los ignora por completo) y una proporción aún mayor tiene un conocimiento superficial o nulo de la interpretación y uso adecuados de los resultados de la prueba. Es interesante notar que un 55% de los docentes opina que ENLACE no permite diagnosticar las fortalezas y debilidades de los alumnos que reciben cada año. Sin embargo, el 60% reporta que emplea tiempo en clase durante un mes o más con el objetivo único de preparar a los alumnos para la prueba. Estos resultados contrastantes reflejan con toda probabilidad la creciente prominencia de la prueba tanto en términos de visibilidad general como de uso concreto en el contexto de políticas y usos de mediano y alto impacto a nivel federal o estatal. Existe una gran variedad de programas y esfuerzos que buscan utilizar los resultados de la prueba ENLACE para informar esfuerzos de mejora de docentes o escuelas. A nivel federal las intervenciones relacionados al programa Escuelas de Calidad (PEC) o el de Mejoramiento del Logro Educativo (PMLE) son un ejemplo de este tipo de uso (p. ej. PMLE atiende a escuelas donde 50% o más del alumnado obtenga un nivel insuficiente en ENLACE). A nivel estatal los datos de la encuesta con autoridades educativas estatales que se realizó para este estudio confirman la gran variedad de programas que buscan utilizar los resultados de la prueba para informar esfuerzos de mejora de docentes o escuelas. Tres de cada cuatro estados 130

reportan como prioridad el uso diagnóstico de ENLACE para informar esfuerzos de autoevaluación en las escuelas; el 56% mencionó como objetivo prioritario el informar la práctica docente, mientras que el 50% mencionó orientar la capacitación docente. Solo la tercera parte de los estados menciona el fortalecimiento de la comunidad escolar, y una cuarta parte la evaluación de escuelas, o de programas o políticas educativas. Estos incluyen una variedad de esfuerzos de difusión de resultados, programas que promueven la autoevaluación escolar o docente, y programas de intervención o asistencia externa para escuelas, directores, o docentes. La encuesta sugiere que todos o casi todos los estados cuentan con mecanismos para difundir resultados a supervisores, escuelas, y docentes. Los mecanismos más frecuentes para diseminar los resultados con los tres grupos (supervisores, directores, y maestros) son reuniones, difusión de materiales impresos, y acceso a portales de internet.4 En general a nivel estatal se puede hablar, en palabras de uno de los investigadores entrevistados para este reporte, de uso “generalizado pero no sistematizado”. El tipo de uso específico de los puntajes y las acciones que se derivan de los resultados puede variar considerablemente entre estados e incluso entre escuelas y con frecuencia estos no se especifican claramente. Por ejemplo, al revisar los planes de mejora escolar del programa PEC en dos estados encontramos que la gran mayoría de las escuelas mencionan a ENLACE como uno de los criterios observables de mejora a considerar. Sin embargo, los planes típicamente no detallan el uso específico que se dará a los puntajes, o lo que se describe dista del análisis detallado de fortalezas y debilidades que en principio se pretende. La mayoría de los planes que revisamos se limita a listar porcentajes brutos por nivel de rendimiento y, cuando hay resultados no adecuados o de retroceso, se ofrecen esfuerzos adicionales (y llama la atención, focalizados) para mejorar los puntajes en los ciclos siguientes. Es también notorio que el análisis que se realiza no considera el grado de error o volatilidad inter-anual en los indicadores, con lo que la interpretación y planeación de acciones puede estar basada en resultados de bajo grado de certeza estadística. Sin pretender extrapolar los resultados de una muestra pequeña en dos estados a los de todo el país, esto coincide con la idea de uso extendido pero no sistemático que se mencionó anteriormente. Las entrevistas realizadas con personal de las secretarias de educación de seis estados (Aguascalientes, Nuevo León, Durango, Colima, Veracruz y Yucatán) indican en la mayoría de los casos un alto interés en el uso de ENLACE para orientar la autoevaluación escolar, las intervenciones pedagógicas y la capacitación docente. Sin embargo, las entrevistas y páginas web estatales sugieren que las acciones que se implementan en cada estado pueden variar significativamente en frecuencia, profundidad, y enfoque, y que estas se documentan con nivel también muy variable de detalle. Por ejemplo, en uno de los estados la oferta de formación continua docente se ajusta a las necesidades detectadas en ENLACE, pero no se documenta sistemáticamente cómo se hace el diagnóstico de necesidades, o cómo se estructura la formación continua para mejorar las prácticas docentes.

Resultados basados en una muestra de n=20 estados. Ver Apéndice 1.

4

Usos y consecuencias

131

Las pruebas ENLACE para educación básica

En dos estados un mecanismo de intervención común consiste en poner a disposición de los docentes varios materiales didácticos a través de un sitio web, un blog, o una revista. Además, se trata de promover el uso y análisis de los datos ENLACE por los docentes a través de capacitaciones impartidas por multiplicadores (como los directores, consejos técnicos, supervisores regionales, asesores, o consultores privados) focalizados en aspectos generales o específicos de la práctica docente (por ejemplo el uso formativo de los reactivos de ENLACE para la evaluación de aula, o el análisis de los resultados por cada reactivo, tratando de identificar como se relacionan estos con los planes de estudio y los enfoques y actividades didácticos utilizados). Respecto de la interpretación de los resultados de ENLACE, en dos estados se implementan talleres en todos los niveles del sistema para analizar los resultados. Para estos fines se producen rankings especiales por región, sector, escuelas y alumnos, y en un estado se utilizan para esto los “semáforos” según el porcentaje de estudiantes por sobre un cierto nivel de logro. Las entrevistas reflejan la ausencia de esfuerzos de seguimiento y por tanto la muy escasa o nula evidencia sobre la efectividad de las acciones e intervenciones iniciadas desde los estados. En el mejor de los casos se señalan beneficios generales y poco específicos no basados en evidencia concreta como lo fue en un estado la generación de “una cultura diferente de la evaluación, una cultura que tiene que ver con la idea de mejora.” Una observación general que se puede derivar de estos resultados es que el rol que se otorga a ENLACE en el mejoramiento de la práctica docente parece muy ambicioso, particularmente si se

consideran los limitados medios y mecanismos de uso y apoyo que lo acompañan. La evidencia sugiere que a nivel federal y estatal no se ha evaluado de forma sistemática el modelo lógico que subyace las intervenciones más comunes a nivel docente, a saber la efectividad de materiales didácticos que ayuden al maestro a diagnosticar los contenidos curriculares no logrados por los alumnos y a mejorar su enseñanza en aula con base en este diagnóstico.

Autoridades La tabla V.4 presenta el reporte de la unidad que desarrolla la prueba (la Dirección General de Evaluación) sobre los usos de los resultados de ENLACE de que tiene conocimiento en otras áreas y unidades al interior de la SEP. La lista se presentó como un documento electrónico de una página sin mayor detalle sobre los usos que se mencionan y por tanto no es posible hacer un juicio sobre su confiabilidad o lo exhaustivo de la información. Sin embargo, se consideró importante incluirla aquí como evidencia por un lado de la amplia variedad de usos que se dan a la prueba en distintos ámbitos, y por otro del grado limitado de documentación y seguimiento de los usos y aplicaciones de la prueba al interior mismo del sistema. Algunos de los usos que se mencionan se presentan en mayor detalle en otras secciones de este reporte.

132

Tabla 5.4 Uso de resultados de ENLACE por unidades al interior de SEP Uso de los resultados por la SEP para mejora de los resultados educativos a) Programa de trabajo DGEP 2012. b) Informe de cumplimiento del Programa de Trabajo DGEP 2012 (15 anexos). c) R eportes de SEB y SEMS sobre uso de resultados para el mejoramiento de la calidad educativa. d) Reportes de medidas estratégicas prioritarias, acciones, programas o políticas orientadas a mejorar la calidad educativa (REPARO ), correspondientes a: 1. Enlace Educación Básica: Alumnos y Escuelas a nivel nacional y estatal. Escuelas con al menos 50 por ciento de alumnos en nivel de logro insuficiente 2. Enlace Media Superior: Alumnos y Escuela a nivel nacional y estatal. Escuelas con al menos 50 por ciento de alumnos en nivel de logro insuficiente 3. Estudio Competencia Lectora a nivel nacional y estatal. e) Información impresa de resultados a nivel nacional y estatal de Enlace Básica y Media Superior; f) Información entregada en la CONAEDU 2012 a los Secretarios de Educación estatales.

Otros programas que utilizaron resultados de ENLACE Básica a) Programa de Fortalecimiento de la Secundaria (INEE-SEB-UPEPE/DGEP ). b) Programa de Mejoramiento del Logro Educativo (PMLE, SEB ). c) Modelo de Autoevaluación de Escuelas (el texto ¿cómo mejorar los resultados de mi escuela? utiliza los resultados de ENLACE ). d) Programa de establecimiento de metas a través de los Consejos Escolares de Participación Social. e) Estudio de Ganancia Educativa en Media Superior. Fuente: Dirección General de Evaluación.

En la tabla se menciona uno de los ejemplos de uso sistemático más extendido, correspondiente al Programa de Mejoramiento del Logro Educativo (PMLE) desarrollado por instancias del llamado del Consejo Nacional de Autoridades Educativas (CONAEDU) a desarrollar un sistema de asesoría académica a la escuela que permita dar seguimiento a la aplicación de los resultados de la prueba ENLACE , apoyar la toma de decisiones en la materia y fortalecer el quehacer docente (ACUERDO R.18ª.30). Los lineamientos del PMLE promueven el aprovechamiento diverso de los resultados de ENLACE , que van del apoyo a alumnos mediante materiales de refuerzo y práctica, hasta diplomados para maestros enfocados específicamente al análisis y mejoramiento de los resultados en la prueba (SEP, 2010). A nivel estatal existe un pequeño número de estudios que detalla el uso diverso que se ha dado a la prueba en distintas entidades. El reporte de Salieri y Santibáñez (2010), por ejemplo, indica que la gran mayoría de los estados distribuyen resultados de ENLACE a todas sus escuelas ya sea en formato impreso o electrónico, y realizan algún tipo de actividad de seguimiento de resultados que comúnmente toma la forma de reuniones regionales, enfocadas a discutir los resultados del último ciclo escolar. La mayoría también ofrece algún tipo de apoyo para escuelas de bajo rendimiento a través de supervisores de zona o sector. Estos resultados parecen corroborarse con los datos de la encuesta de autoridades educativas estatales que se realizó para este estudio y que se reportaron en las dos secciones anteriores. Por otra parte, un número menor de estados ha desarrollado infraestructura para ofrecer análisis más detallados de los resultados de ENLACE a las escuelas ligados a mecanismos de desarrollo profesional para docentes y directores. Tres de los seis estados entrevistados ejemplifican este tipo de mecanismo, que involucra informar la autoevaluación y gestión escolar. En un estado esto funciona mediante capacitación de supervisores regionales para que asistan a las escuelas en el desarrollo de análisis de resultados tanto de ENLACE como de otros indicadores educativos en Usos y consecuencias

133

Las pruebas ENLACE para educación básica

sesiones de trabajo conjuntos. Estos análisis son luego la base para el diagnóstico que hacen los supervisores de las escuelas a su cargo. En otros dos estados las escuelas tienen la obligación de considerar en sus proyectos de gestión y autoevaluación los resultados de ENLACE para diagnosticar necesidades, establecer metas, y analizar los efectos de sus intervenciones. Finalmente la literatura y reportes de organismos especializados, así como información obtenida de los estados en las entrevistas ofrecen ejemplos aislados de uso de los resultados de ENLACE para la evaluación de políticas y programas a nivel estatal o federal, donde ENLACE se utiliza como indicador de impacto principal o único—la variable dependiente en el análisis. En este sentido en 2012 la Comisión Nacional de Evaluación (CONEVAL ) reportó que se realizaron 25 evaluaciones de programas de la SEP a nivel nacional. Es interesante notar que aunque un buen número de estos programas menciona el aprovechamiento escolar o aprendizaje del alumno como objetivo, solo se logró identificar un pequeño número que utiliza directamente los resultados en ENLACE como indicador para la evaluación de impacto. La lista incluye las evaluaciones de los programas Escuelas de Calidad (PEC), Escuelas de Tiempo Completo (PETC), y Asesor Técnico Pedagógico (PATP). Esto probablemente refleja limitaciones en la disponibilidad de ENLACE en ciertos grados o materias, pero también puede ser producto de la dificultad de acceso a los resultados en forma desagregada que permitiera análisis adecuados para la evaluación de programas. Otras evaluaciones identificadas que no lista la síntesis de CONEVAL incluyen por ejemplo las del programa Enciclomedia (Sánchez Zuniga, 2009), el Programa Escuelas de Calidad en el estado de Colima (De Hoyos, García, Patrinos, 2013), el programa de Apoyo a la Gestion Escolar (AGE) en el medio rural (Gertler, Patrinos, Rodríguez-Oreggia, 2012) y otras evaluaciones de programas no documentadas que se realizan de forma interna en la Subsecretaria de Educación Básica (Desarrollo de Gestión e Innovación Escolar).

Investigadores e Instituciones Académicas Por lo que respecta a investigaciones independientes, se identificó un pequeño número de estudios que utilizaron la base de datos de ENLACE para análisis de tendencias, factores asociados y otros que abordan temas de calidad y equidad educativa. Dado lo disperso de esta literatura se identificaron estudios por medio de una revisión de artículos y reportes disponibles, información y referencias recibida de investigadores de forma individual, y finalmente una búsqueda en las bases de datos ERIC y Google. Un número reducido de estudios disponibles emplea las bases de datos al nivel de alumno y técnicas sofisticadas de análisis estadístico para estudios de impacto o factores asociados. Estos incluyen estudios de impacto recientes que analizaron los efectos del programa de apoyo a concejos escolares (Santibañez, Abreu, y O’Donoghue, 2014), la duración del año escolar (Agüero y Beleche, 2013); y el programa de apoyo a la gestión escolar (Gertler, Patrinos, y Rodríguez, 2012). Otros estudios investigaron diferencias entre escuelas de distintos turnos (Cárdenas, 2009), o el impacto de programas de gestión escolar (Bando, 2010). Otros estudios investigan factores determinantes del logro en ENLACE. El más conocido es probablemente el estudio de factores asociados que publica cada año la Facultad Latinoamericana de Ciencias Sociales (FLACSO) utilizando puntajes ENLACE de muestras nacionales representativas 134

de decenas de miles de estudiantes. Los estudios más recientes publicados en 2010 y 2011 identifican la variabilidad que se debe a factores al nivel del aula y escuela, y el papel de factores escolares y de aula como moderadores del grado de asociación entre el nivel de aprendizaje de los alumnos y su nivel socioeconómico (FLACSO, 2011). Otros estudios similares incluyen el de De Hoyos et al. (2013) con datos de la prueba nacional de secundaria; otro del mismo autor analizando el efecto del Programa de Atención Especifica (PAE) del estado de Colima; el de Luschi (2012) sobre factores asociados al docente; el de Lizasoain y Joaristi (2010) que analiza factores escolares en lengua en Baja California; y uno de Gómez et al (2008) sobre determinantes geográficos del logro en Ciudad Juárez, Chihuahua. Otros estudios disponibles incluyen por ejemplo el del Centro Nacional de Evaluación para la Educación Superior (CENEVAL ) sobre el avance en puntajes de 3º de secundaria a 1º de bachillerato, que compara el crecimiento en el aprendizaje de los alumnos en este periodo entre distintos subsistemas escolares y estados, y otro de FLACSO que utilizó la encuesta del director de ENLACE para crear indicadores descriptivos de calidad y procesos escolares. Se puede tener la certeza de que existen otros estudios interesantes de este tipo que no se localizaron para esta versión del reporte. Sin embargo, y a reserva de una revisión más exhaustiva de la literatura que se presentará en la versión final de este informe, se puede afirmar en general que el volumen de estudios disponible evidencia un menor grado de involucramiento de la comunidad de investigación del que se esperaría con un programa nacional de la envergadura y relevancia de ENLACE . Esto refleja sin duda la necesidad de establecer mecanismos claros y eficientes que permitan acceso a datos a investigadores calificados. Estos mecanismos son necesarios porque la utilización de los datos por parte de la comunidad de investigación es un elemento importante para el entendimiento de los patrones y tendencias en los resultados, y el desarrollo de bases de conocimiento necesarias para la mejora. Aunque reducidos en número, estos estudios muestran la utilidad potencial de analizar la base de datos de ENLACE utilizando herramientas estadísticas sofisticadas que permitan identificar factores del aula, la escuela, o el contexto, que expliquen el rendimiento de los alumnos.

Sociedad Civil y Prensa Por último, en años recientes se ha extendido el uso de resultados de ENLACE por parte de los medios de comunicación, organizaciones civiles, fundaciones, y otros actores de la sociedad en general. Esto incluye usos de corte puramente informativo como lo es la publicación de reportes de resultados, y otros que conllevan juicios metodológicos y evaluativos implícitos como lo son los ordenamientos de estados y escuelas, los reconocimientos a escuelas, docentes, e incluso alumnos, la comparación (y por consiguiente evaluación) de maestros, escuelas, e incluso subsistemas educativos y una larga lista de otros. El interés que generan estos esfuerzos informativos/evaluativos es mayúsculo, y su número y visibilidad va en aumento. En general es posible decir que estos esfuerzos ejercen una influencia significativa en las percepciones sociales sobre la prueba, los resultados de estudiantes, maestros y escuelas, y las acciones necesarias de mejora. Dada la extensa cobertura en prensa de todos tipos y niveles en el país no es factible incluir aquí una revisión detallada de este tipo de usos de la prueba. A modo de ilustración, una búsqueda en www.google.mx con los términos vinculados “resultados de ENLACE” encontró más Usos y consecuencias

135

Las pruebas ENLACE para educación básica

de 240,000 resultados—para el año 2013 específicamente se encontraron 94,300 resultados, y “ENLACE básica 2013” llegó a 9,120 resultados. Como fuente adicional de información se realizó una búsqueda para los años 2012 y 2013 en cinco de los principales diarios de circulación nacional (Reforma, El Universal, Milenio, La Jornada y El Financiero); se encontraron 150 artículos que se analizaron para generar categorías basadas en temas y mensajes principales (ver Tabla 5.5). Nuestro análisis muestra tres grandes temas en los artículos aparecidos en estos cinco diarios en los años 2012 y 2013: (a) en 2013 el futuro de ENLACE despertó gran interés; encontramos por un lado artículos argumentando a favor de seguir aplicando ENLACE, y otros criticando la prueba como herramienta de medición o de política educativa y sugiriendo cambios en su diseño; (b) otros artículos presentan resultados de la prueba; con un número similar enfocado a resultados positivos o de mejora, y negativos o de retroceso, pero usualmente sin mucho contexto y siguiendo el tono del mensaje que se manda con el titular; (c) un buen número de notas anuncia o reporta la aplicación de ENLACE en el país, resistencia a estas aplicaciones por parte de maestros en algunas localidades, o casos de corrupción o copia. Finalmente un número menor de notas reporta usos de la prueba en varios ámbitos del sistema educativo entre los que se encuentran la evaluación docente, y los reconocimientos a alumnos, escuelas o maestros con altos puntajes.

Tabla 5.5 Análisis de prensa (N=150 artículos de 2012 y 2013) Categorías de contenido de títulos

N

Aplicación

14

Aplicación (seguridad)

8

No aplicación (general)

3

No aplicación – resistencia de maestros

14

Corrupción, trampa

4

No corrupción

1

Usos/consecuencias negativas

Agrupaciones

Suma

Aplicación

39

Corrupción

5

7

Usos negativos

7

Usos/consecuencias positivas

2

Usos positivos

2

Evaluación docente

6

Evaluación Docente

6

Reconocimiento a alumnos-escuelas-maestros

3

Reconocimiento

3

Resultados (general)

5

Resultados (ranking)

4

Resultados negativos

17

Resultados

44

Resultados positivos

18

Futuro de ENLACE

20

Continuidad de ENLACE

23

Futuro de ENLACE

62

Critica a ENLACE como herramienta-política educativa

19

Total

168

168

Además de los diarios, ENLACE también ha despertado interés en revistas de circulación nacional entre las que se pueden mencionar Educación Futura, Nexos, Este Pais, AZ, y Proceso, entre otras. La cobertura de la prueba en estas revistas se ha incrementado en años recientes, con historias que se enfocan tanto a la discusión de resultados, como a las controversias diversas que rodean a la prueba. El formato de estas revistas con frecuencia les permite a reflejar una visión más compleja y matizada de la realidad de la prueba, sus resultados, y tendencias, de lo 136

que es posible en una nota de periódico. En algunos casos estas revistas incluso han publicado tratamientos a profundidad de corte netamente académico que representan un puente interesante para conectar a expertos e investigadores en la materia con periodistas y analistas de políticas públicas por una parte, y funcionarios y políticos por la otra; como ejemplo reciente se puede mencionar un análisis de inflación de puntajes en ENLACE de Contreras y Backhoff aparecida en la revista Nexos en el mes de octubre de 2014. Sin embargo, es importante notar que estas revistas no están exentas de sesgos ideológicos, y que con frecuencia también caen en tratamientos simplistas y sensacionalistas. Un ejemplo reciente es interesante en tanto refleja un grado de hiperatención social generalizada alrededor de los resultados de la prueba, que ha permeado incluso a la prensa internacional: en Octubre de 2013 la revista de divulgación científica y cultura popular norteamericana Wired publicó en su portada una historia sobre una estudiante de secundaria del estado de Tamaulipas que obtuvo el puntaje más alto en ENLACE en el país, bajo el encabezado “La siguiente Steve Jobs?”. El grado de atención de medios que generó esta historia en el país, y las consecuencias directas para la estudiante (reconocimientos, entrevistas, ofrecimiento de becas, y finalmente su fracaso en una prueba posterior) ofrecen un ejemplo inusualmente claro y dramático del peligro real que representa para los individuos y por extensión para la sociedad el uso injustificado de una prueba estandarizada de gran escala. Finalmente, resulta más que evidente el gran interés que despiertan los resultados de la prueba ENLACE en organizaciones diversas de la sociedad civil que atienden temas educativos. Entre las más destacadas en este respecto se pueden mencionar las Asociaciones Civiles Mexicanos Primero, Suma por la Educación, Proeducacion, Mejora tu Escuela, México Evalúa, entre otras, agrupadas en el Consejo Ciudadano Autonomo por la Educación (CCAE); así como el Instituto de Fomento e Investigación Educativa (IFIE), el Instituto Mexicano para la Competitividad (IMCO).5 Estos organismos han utilizado los resultados de la prueba ENLACE para argumentar a favor de la rendición de cuentas, transparencia, y mejoras en el sistema educativo, particularmente en lo relativo a la evaluación de alumnos, docentes, y escuelas, y la transparencia en el financiamiento de la educación pública. En 2013 y 2014 estas organizaciones dedicaron una gran parte de sus esfuerzos de comunicación al tema de de ENLACE; haciendo llamados en favor de la continuidad de la prueba, o la introducción oportuna de otra prueba estandarizada de gran escala. Por ejemplo, Mexicanos Primero publica el informe sobre el “Indice de Desempeño Educativo Incluyente” (IDEI) (2013) en el que los datos de ENLACE son un indicador preponderante (aunque no único) para la creación de ordenamientos (rankings) de “desempeño educativo”, lo que se dice busca permitir “comparar el esfuerzo que hace cada estado para incluir a todas sus niñas, niños y jóvenes en las oportunidades de aprendizaje” (Mexicanos Primero, 2013). En otros documentos disponibles en su página web, el mismo organismo identifica ventajas de mantener una prueba como ENLACE, analiza el efecto del “factor copia” en los resultados, y propone usos adecuados que los maestros, estados, e instituciones federales han dado a sus resultados. Finalmente, se presentan sugerencias para un nuevo (o mejorado) sistema nacional de evaluación a gran escala.6

También se consideró el Observatorio Ciudadano por la Educación, pero no se encontró de ellos información más alla

5

del 2009, y su página web www.observatorio.org está fuera de funcionamiento (8 de octubre, 2014). Ver “Nota sobre la cancelación de ENL ACE”, s.d.; http://www.mexicanosprimero.org/especiales/enlace/lo_que_nece-

6

sitas_saber_sobre_ENLACE_2014-nota_tecnica.pdf

Usos y consecuencias

137

Las pruebas ENLACE para educación básica

En el caso del IFIE , este publica en su página web todos los resultados de ENLACE 2012 y 2013 a nivel escuela, en formato de ranking por nivel, asignatura y estado. Además, el documento “Propuesta para el Desarrollo de un Sistema de Rendición de Cuentas en la Educación Básica” (s.d.) discute el rol que ENLACE y otros instrumentos y enfoques de evaluación podrían jugar en el rediseño del sistema de rendición de cuentas educativo nacional. Por su parte la página web del IMCO presenta información diagnóstica general sobre la educación en México, y detalla la oposición de este organismo a la cancelación de ENLACE en 2014 que incluye por ejemplo la campaña en twitter #SiENLACE2014, y editoriales con fuertes posicionamientos, que llegan incluso a equiparar la cancelación de la prueba en 2014 con “corrupción legalizada”. La organización Mejora tu Escuela es un esfuerzo del IMCO que utiliza los resultados de ENLACE para publicar rankings de escuelas de todo el país.7 El CCAE , con la representación y participación de los organismos que convoca, presentó recientemente su propuesta para el diseño de la nueva evaluación que sustituya a ENLACE , haciendo un llamado expreso a que esta sea anual y censal. Por último, la Unión Nacional de Padres de Familia (UNPF ) también señala en comunicados de prensa, tanto en 2013 como 2014, que la prueba ENLACE Básica es necesario para diagnosticar el estado de la educación mexicana, a nivel de cada escuela, grado, subsector y alumno. Esta organización también lamenta la suspensión de ENLACE Básica para el año 2014 y pide reiniciar una evaluación censal y anual tan pronto que sea posible.

B. Acceso equitativo y capacidad de interpretación y uso

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes involucradas sin discriminación.

El Manual Técnico 2013 menciona que el plazo previsto para completar la lectura y calificación de pruebas y preparación de reportes no deberá rebasar los 90 días (p. 161). Una vez terminado este proceso se procede a la divulgación de los resultados que son precedidos por una campaña institucional de promoción de la evaluación. El manual sin embargo no fija el plazo máximo para la difusión de resultados o disponibilidad de distintos tipos de reportes; solo se establece que los resultados de la medición se difundirán al inicio del siguiente ciclo escolar en el portal internet de ENLACE . Se implementa una campaña de difusión multimodal de aparente largo alcance para llegar a los actores interesados por medio de materiales para padres, reuniones con autoridades, documentos, folletos y carteles informativos, difusión a medios y grupos de opinión, y otros varios. La SEP lleva a cabo una variedad de actividades de difusión y apoyo con autoridades estatales para promover el uso sistemático de los resultados a nivel local, tanto por padres, como maestros y escuelas. En cuanto a la difusión de resultados directamente a las familias, el portal internet de ENLACE permite a los padres acceso a los resultados de sus hijos ingresando su número de CURP. 7

El organismo además clasifica a cada escuela en cuatro bandas de desempeño (excelente, bien, de panzazo, y reprobada) mediante un “semáforo educativo” cuya metodología es en el mejor de los casos muy opaca, y en el peor de ellos extraordinariamente rudimentaria.

138

Se establecieron además mecanismos de consulta para padres o comunidades que no cuenten con servicio internet mediante acceso en centros escolares, plazas INEA, centros de maestros, y mediante un número telefónico 1-800. Según estadísticas de acceso proporcionadas por la SEP, el porcentaje de alumnos cuyos resultados fueron revisados a través de la página web varía entre un 9% en 2008 y un 28% en 2012 (ver tabla 5.5). Sin embargo, estas tasas de uso asumen que cada consulta corresponde a un alumno distinto, un supuesto arriesgado y que no se puede verificar con los datos disponibles. Los resultados de otros estudios independientes (por ejemplo la encuesta de padres del IFIE reportada anteriormente) sugieren que estas estadísticas reflejan por lo menos en parte consultas repetidas del mismo CURP y que por lo tanto las tasas de acceso son bastante menores.

Tabla 5.6 Estadísticas de consulta. ENLACE Básica

Fuente: Dirección General de Evaluación, SEP.

Los resultados de los alumnos se entregan también al docente que tuvo a los estudiantes el ciclo escolar anterior y al que los atenderá en el ciclo que inicia, para que ambos los empleen para orientar su práctica pedagógica. En las escuelas se presentan resultados por grupo y asignatura y los resultados por escuela se publican también en el portal internet para su consulta. Las estadísticas de acceso a los resultados a nivel escuela recopilados por la SEP muestran que, en promedio, entre 2006 y 2013 han ocurrido entre 3 y 15 consultas por escuela participante de ENLACE, con el máximo alcanzado en 2010. Estos datos nuevamente asumen una distribución equitativa de consultas entre escuelas, un supuesto poco realista porque claramente debe haber escuelas donde el número de consultas es mucho mayor que el promedio, y otras donde la frecuencia es mucho menor. Tampoco se dispone de estadísticas de consulta por estado o región. Las limitaciones en la información acerca del uso del sistema de consulta dificultan cualquier evaluación de su alcance, utilidad, e impacto, un problema serio dado el importante papel de este mecanismo de consulta en el modelo lógico de impacto de ENLACE. Esto es particularmente Usos y consecuencias

139

desafortunado dado el bajo nivel de complejidad técnica que representaría el recolectar información suficiente para hacer un diagnóstico más preciso y útil.

Las pruebas ENLACE para educación básica

Por otro lado, las entrevistas con entidades estatales indican que los estados tratan de complementar el acceso a los resultados de ENLACE a través de la página web de la SEP con sus propios sistemas de difusión y consulta de resultados. Por ejemplo, en uno de los estados se desarrolló una plataforma web para escuelas y supervisores, con gran variedad de datos agregados, además de la opción de seguimiento en el tiempo tanto a nivel institucional como individual. Adicionalmente, en las entrevistas en dos de los seis estados se habla de promover la información y el involucramiento de los padres a través de reuniones implementadas por las escuelas donde se comunican los resultados de ENLACE . Por lo que respecta a la sociedad en general, los mecanismos de acceso y promoción del uso no son tan claramente establecidos. Los reportes agregados por escuela y estado están disponibles para consulta, pero no se presentan resultados más detallados ni análisis sofisticados que permitan entender con mayor precisión los patrones, tendencias y diferencias observadas en los resultados. Al mismo tiempo no se contempla el acceso a las bases de datos de resultados individuales para el público en general u organismos o investigadores interesados, si no únicamente a nivel escuela y estado. Es importante mencionar que aunque el manual técnico hace mención repetida del rol de los investigadores como usuarios de los resultados, estos solo tienen acceso a los mismos resultados agregados (a nivel escuela y estado) que se ofrecen al público general, y estos ofrecen posibilidades muy limitadas de análisis. Esta estructura parece permitir y promover los usos más rudimentarios y menos útiles de los resultados, dejando la puerta abierta para otros usos que potencialmente están contraindicados, y cerrándola para usos sofisticados que en teoría podrían ser útiles. Existen ejemplos de investigaciones que tuvieron acceso a bases de datos a nivel individual a nivel nacional o estatal, algunos de los cuales se mencionan en el apartado anterior. Sin embargo, es evidente la necesidad de desarrollar un mecanismo regulado de acceso a las bases de datos (anonimizadas) para investigadores y organismos calificados.

4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación y utilización de los resultados.

En el manual técnico 2013 se mencionan los talleres de difusión y uso de los resultados ENLACE , destinados a autoridades educativas, equipos de supervisión escolar y docentes y directores. Según el manual, en estos talleres se discuten formas de leer los resultados, ejercicios para consultar la página web y preguntas de reflexión (p. 145). Otras fuentes relevantes de información y documentación proporcionada por la SEP incluyen el Manual de Sugerencias de Usos Pedagógicos para Maestros. Este documento presenta un tratamiento extenso y detallado para asistir a los maestros en la utilización de los resultados de los alumnos en ENLACE con relación a los contenidos específicos de los ítems de la prueba. Este manual en principio puede ofrecer información útil para apoyar al docente y promover el uso

140

adecuado de los resultados.8 Sin embargo, vale la pena hacer precisiones sobre el tipo y calidad de información que se presenta. Primero, el manual omite cualquier mención de la idea del error de medida o precisión de los puntajes. Aunque esto no sorprende porque esta información tampoco se presenta en el manual técnico, la falta de índices de precisión como el error estándar dificulta la apropiada utilización de los resultados para subpuntajes o ítems particulares, dado que se ignora el grado de diferenciación estadística entre los puntajes de los alumnos, y por tanto el grado en que diferencias observadas son significativas estadísticamente. Segundo, en otra sección de este reporte se presenta un análisis más detallado de algunos de los contenidos del manual del docente que evidencia errores y limitaciones importantes en su desarrollo y que en última instancia pueden limitar severamente su efectividad para ayudar a mejorar la práctica. Tercero, aunque el manual ofrece sugerencias de uso que parecen a primera vista adecuadas y reflejan una visión pedagógica sofisticada, es importante señalar que estas se refieren a usos que no son directamente aplicables en el caso de ENLACE . Es incontrovertible que: … es recomendable que el docente de grupo identifique las preguntas del examen que resultaron particularmente difíciles para sus alumnos [… ] e intente explicarse por qué sus alumnos no están logrando dominar el o los contenidos programáticos implicados en la resolución de tal cuestionamiento, a través de preguntas tales como: ¿Se abordó el estudio del contenido en clase? ¿Son suficientes las lecciones que tratan el tema en el libro de texto del alumno?¿Las condiciones de aplicación del examen en el grupo fueron adecuadas? Y de manera fundamental, ¿Qué tipo de estrategias didácticas puedo diseñar con mis alumnos para subsanar las eventuales deficiencias académicas observadas? Conviene dedicar especial atención en los reactivos en los que el alumno se equivocó e identificar la opción que eligió como respuesta para indagar cuál fue la posible causa del desacierto y tratar de inferir la “lógica del error”. Sin embargo, la literatura internacional sugiere que la efectividad de este tipo de recomendaciones genéricas es dudosa si no se acompaña con esfuerzos de supervisión y desarrollo docente más comprensivos, sostenidos en el tiempo y próximos al salón de clases y a la práctica diaria y concreta del maestro. Hay al menos uno de los estados visitados donde parece existir la capacidad de hacer este tipo de análisis detallados a nivel regional o incluso escolar, y en otros dos existe la clara preocupación por instalar una mayor capacidad para asistir a los usuarios de ENLACE a nivel regional y escolar en el análisis e interpretación con un propósito formativo. Esto se pretende realizar a través de talleres, plataformas web, y el incentivo de usar pruebas similares llamados pre- ENLACE o ENLACE intermedia. En el resto de los seis estados visitados parece no llevarse a la práctica este tipo de uso central y previsto, basado en los objetivos señalados en el Manual Técnico de ENLACE .

8 El Manual para Docentes y Directivos que se ofrece en ENL ACE Media Superior en cambio consiste mayormente de información básica sobre la prueba disponible en el manual técnico y añade solo una página de recomendaciones de redacción densa y confusa, y un nivel de detalle mínimo y a todas luces inadecuado.

Usos y consecuencias

141

Las pruebas ENLACE para educación básica

La evidencia recolectada en entrevistas con otros cuatro estados, así como los resultados de una encuesta de autoridades estatales, permitirá extender y profundizar este análisis. Una gran dificultad para llevar a la práctica las sugerencias de uso diagnóstico es que la prueba se administra al final del ciclo escolar y los resultados se reciben al inicio del ciclo siguiente.

C. Comunicación que facilite la buena interpretación de los resultados

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación correcta de los resultados.

Este criterio se refiere principalmente a los reportes de resultados para usuarios que se ofrecen en la página web de la SEP. En su introducción, el manual técnico 2013 (pp. 8-9) identifica explícitamente tres grupos de usuarios de resultados de ENLACE: (a) alumnos y sus padres, (b) docentes y directivos de escuelas, (c) autoridades educativas a nivel estatal y nacional. Este análisis por tanto se refiere al grado en que los reportes de resultados facilitan la adecuada interpretación de los resultados, sin necesidad de recurrir a información adicional disponible en el manual técnico u otras fuentes menos accesibles. El portal de la SEP (http://www.enlace.sep.gob.mx/) ofrece diferentes informes de resultados que no se organizan explícitamente por tipo de usuario sino por nivel; se pueden descargar informes a nivel del alumno, aula, escuela, entidad, y país. Los informes con resultados a nivel de alumno se acceden utilizando el folio del estudiante en la prueba o su CURP. Los informes con resultados a nivel grupo/curso y escuela están disponibles utilizando la Clave del Centro de Trabajo (CCT ), seleccionando el respectivo curso, nivel, o escuela entera. Los resultados nacionales y de entidad se entregan en presentaciones descargables. Para obtener los resultados de todas las escuelas del país, o de una entidad federal específica, solo se debe elegir la entidad y se descarga un archivo Excel con los resultados. Los datos a nivel escuela de todas las escuelas del país, o de cada estado por separado, están también disponibles para el público. De forma general se puede constatar que ninguno de los informes de resultados accesibles a través de la página web describe las características de la prueba, ni aclara lo que esta mide y no puede medir. Asimismo, los informes si aclaran las decisiones que se pueden basar en los resultados y los usos propuestos de estos (en forma de recomendaciones), pero no incluyen información y sugerencias explícitas para minimizar la incidencia de interpretaciones equivocadas o usos inapropiados de los resultados.

Informes de resultados a nivel alumna/alumno Estos se dirigen explícitamente a padres y estudiantes y tienen un formato y contenidos similares a los informes para docentes a nivel grupo/curso. Indican que el propósito principal de ENLACE para padres es de: (a) conocer los temas que requieren reforzamiento, para mejorar el rendimiento escolar del estudiante.

142

Los padres pueden acceder a la información a través de la página web de la SEP, opción “Resultados por alumno ENLACE Básica 2013,” ingresando el número de folio o CURP de su hija/hijo. Se ofrecen los resultados de cada alumna/alumno, además de resultados del curso y de la escuela en comparación con la entidad y el país.

Usos y consecuencias

143

Las pruebas ENLACE para educación básica

El informe también incluye las respuestas correctas e incorrectas del estudiante para cada pregunta de la prueba. Además, el informe incluye un apartado con recomendaciones generales para el mejoramiento académico:

Adicionalmente, la página web de la SEP incluye información descargable con recomendaciones de uso de los resultados de ENLACE por parte de los padres y estudiantes, en el documento con título ENLACE BÁSICA 2012: Actividades, prácticas familiares y actitudes y valores para mejorar el desempeño académico de los alumnos. Ese documento ofrece sugerencias por nivel de logro alcanzado del estudiante y por asignatura, además de recomendaciones generales, similares a los incluidos en el informe de resultados.

Informes de resultados para docentes y directivos a nivel grupo/curso/escuela Estos informes aclaran que los propósitos principales de la prueba ENLACE son: (a) identificar áreas que necesitan mayor apoyo, (b) detectar posibles áreas de mejora en las estrategias de enseñanza y necesidades de capacitación, y (c) como diagnóstico del grupo de estudiantes que recibe el docente.

144

La información complementaria destinada a los docentes y directivos de la página web de la SEP ofrece detalles sobre el desempeño del respectivo grupo de estudiantes, a nivel de cada pregunta de la prueba, además de dar acceso a las pruebas completas. Esta información está disponible a través de “ENLACE en Educación Básica”, “Resultados 2013 por Escuela”, ingresando el número CCT de la escuela.

Usos y consecuencias

145

Las pruebas ENLACE para educación básica

Adicionalmente, la página web de la SEP pone a disposición un conjunto de documentos con recomendaciones de uso de los resultados de ENLACE, incluyendo ENLACE BÁSICA 2013: Recomendaciones para Docentes, Apoyos Técnico Pedagógicos y Directivos para el uso de los resultados en la mejora de la calidad educativa y Apoyo para el Uso Pedagógico de Resultados ENLACE 2012. A diferencia de los informes de resultados, este último documento menciona limitaciones de ENLACE e información sobre lo que no mide, p.ej. solo algunas asignaturas, solo preguntas con respuestas cerradas de opción múltiple, etc. Sin embargo, solo este segundo documento menciona posibles interpretaciones equivocadas y usos indebidos de los resultados de ENLACE y lo hace de manera breve y un tanto superficial.

Informes de resultados a nivel escuela Estos informes incluyen solo resultados por nivel /grado en formato tabla y gráfico; no incluyen información adicional en formato texto sobre propósitos y recomendaciones de uso, como es el caso de los informes a nivel alumno o grupo/curso.

146

Además de los informes sobre el desempeño de cada escuela, a través de la página web de la SEP se puede acceder públicamente a una base de datos que contiene los resultados de todas las escuelas a nivel nacional y separado por estado, en formato Excel. Antes de poder acceder a estas bases, se encuentran aclaraciones para una apropiada interpretación de los datos (se mencionan limitaciones relacionadas al número mínimo de estudiantes por escuela, representatividad de los datos a nivel escuela, etc.). En la página web se sugiere el uso de la información proporcionada por ENLACE para la autoevaluación de los centros educativos, con mayor información a través de la página web de la Dirección de Evaluación de Programas y Estudios Especiales de la SEP. Para las autoridades educativas la página web contiene, e formato Excel, además de los datos a nivel escuela, los correspondientes a todo el país, o bien a todas las escuelas de una entidad específica, una presentación de resultados descargable en formato PDF. Esta presentación muestra resultados de los niveles de logro por asignatura, nivel, modalidad educativa, y entrega comparaciones con otras entidades. Es notorio que ninguno de los documentos disponibles presenta un argumento razonado para reportar resultados usando estas categorías como base. En concreto, la presentación de resultados por grupo o por subsistema sin un análisis adicional que permita matizar y entender los resultados en contexto y detalle apropiados, y que presenten oportunidades o avenidas para la mejora, puede contribuir simplemente a agudizar percepciones y reforzar sesgos pre-existentes entre padres o el público.

Usos y consecuencias

147

Las pruebas ENLACE para educación básica

Por último, la página web de ENLACE ofrece una hoja de datos Excel con análisis adicionales a nivel estado (“Estadísticas 2013”), y la posibilidad de cruzar los datos Excel usando algunos datos adicionales como criterios de ordenamiento:

El simple hecho que se ofrece en el sistema de reporte de resultados de la SEP un ordenamiento de las escuelas por entidad según criterios como el puntaje bruto, significa que incluso el desarrollador mismo invita usos no inicialmente previstos como es el ranking de escuelas solo en base a los resultados brutos en la prueba.

Sociedad como usuario de los resultados ENLACE Aunque se menciona a la sociedad en general como beneficiario de la prueba en varios puntos del manual y otros documentos, no se trata a esta como un tipo distinto de usuario. En consecuencia los reportes anuales generales de resultados se presentan con un mínimo de información de contexto o guías para facilitar la interpretación de resultados destinada a los medios de comunicación o al público en general. De modo general, la página web de la SEP incluye descripciones de las características de la prueba ENLACE , su estructura, y datos sobre su aplicación, que son de fácil acceso para los usuarios:

148

En general, en todos los reportes de resultados se ofrecen información de apoyo muy breve para ayudar a la correcta interpretación de los puntajes.

Cabe mencionar que los resultados se comunican utilizando tablas y gráficos bastante complejos, sin una interpretación en formato de texto. Una combinación de formatos de comunicación facilitaría una adecuada interpretación de los puntajes, especialmente en el caso en que los destinatarios de la información son docentes, padres y estudiantes.

Usos y consecuencias

149

Las pruebas ENLACE para educación básica

Por otro lado, ni los reportes ni la página web ofrecen ejemplos o apoyo adicional para la interpretación correcta de los resultados. Por ejemplo, no se dan ejemplos para ilustrar una interpretación concreta y adecuada del nivel de logro alcanzado a nivel alumno/a en la asignatura de matemática de 3º grado básico, ni para la comparación que se sugiere entre resultado de un alumno específico y grupo, escuela, entidad y país. Se evidencia la falta de videos, animaciones, y otros elementos gráficos atractivos y eficientes que podrían ser efectivos para ofrecer ejemplos de buenas prácticas en el uso de resultados. En el caso de los reportes que acceda el docente estos también podrían incluir síntesis cualitativas y estudios de caso que puedan justificar y representar adecuadamente los usos de la prueba.

6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro comprensible para una audiencia general.

Tal como en el caso de los criterios anteriores, este criterio se refiere a la manera en que los resultados de ENLACE se comunican a una audiencia amplia de usuarios, incluyendo a padres y docentes de aula, por medio de los reportes y materiales correspondientes.

150

En los informes de resultados por lo general se utiliza un lenguaje claro y preciso, sin jerga técnica innecesaria. Sin embargo, se utilizan algunos términos técnicos como “niveles de logro” y “puntaje promedio” sin mayor aclaración.

Además, los resultados se comunican utilizando tablas y gráficos bastante complejos, los cuales contienen mucha información en cada caso. No se ofrece una interpretación de los datos en formato de texto. Una combinación de distintos formatos de comunicación facilitaría una adecuada interpretación de los resultados. En la página web de la SEP existe una sección de preguntas frecuentes, pero en esta no se aclara la terminología técnica de los informes antes mencionada. No se encuentra disponible un glosario de términos técnicos. En general, los textos disponibles utilizan un lenguaje de nivel técnico bajo y parecen adecuados para el lector común, docentes y directivos—la excepción son los informes técnicos, que no se dirigen a una audiencia general y requieren presentar información técnica compleja. Pese a lo anterior persiste la duda sobre si la mayoría de los padres puede manejar adecuadamente la página web para acceder a toda la información disponible a nivel estudiante y escuela, e interpretar la información correctamente para sacar conclusiones concretas sobre el caso de su hija/hijo. Usos y consecuencias

151

Las pruebas ENLACE para educación básica

Existen dos estudios empíricos (uno del IFIE y otro del INEE) que investigaron el uso y comprensión de los resultados de ENLACE por parte de padres y docentes, respectivamente. El estudio del IFIE sugiere que muchos padres quisieran ver una mayor difusión de resultados (47%) y mas información detallada con respecto a los resultados de sus hijos (35%) incluyendo el acceso a resultados por vía telefónica. Sin embargo, la encuesta no ofrece información para valorar si los padres efectivamente comprenden la información contenida en el reporte. La información del estudio del INEE puede ofrecer una vista complementaria. Los autores reportan que solo 28% de los docentes reporta entender cómo se interpretan los resultados de la prueba en detalle, y 21% reporta desconocerlo por completo. Asimismo, cerca de 70% de los docentes reporta no conocer o conocer solo de forma superficial los objetivos de ENLACE. Esto contrasta con 50% que reporta que ENLACE es necesaria para mejorar la educación y que los docentes toman en cuenta los resultados. Es interesante también notar que un tercio de los docentes reporta que ENLACE determina lo que tienen que enseñar en su salón de clases.

7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil y características de la población de referencia.

Dado que ENLACE es una prueba censal, en este caso la población de referencia para los resultados a nivel nacional constituye el universo de colegios y alumnos de un determinado grado y asignatura. El manual técnico 2013 (p. 164) y el sito web entrega información respecto de la cobertura de la aplicación de ENLACE a través del tiempo. Sin embargo, es relevante describir la población de referencia a la hora de comparar el desempeño de escuelas de un estado específico, al entregar información de comparación a escuelas específicas (p.ej., al sugerir la comparación de una escuela con otras escuelas de un mismo nivel de marginación), y también al entregar resultados para facilitar la comparación a nivel individual (p.ej., comparación con el grupo de estudiantes de la escuela). Los informes de resultados entregan información breve respecto de los marcos de referencia para interpretar los resultados ENLACE . En el informe para docentes y directivos, al igual que en el informe para padres, aparece lo siguiente:

152

Sin embargo no se entregan descripciones de los grupos de referencia para las comparaciones que se invitan a hacer en cada nivel de agregación (estado, escuela, individuo). En el Manual Técnico 2013, 2.7, se entrega información relevante sobre escalas de referencia e interpretación adecuada de puntajes y niveles de logro. Desafortunadamente, esta información (según nuestro mejor conocimiento) no se comunica en suficiente detalle ni en la página web ni los informes de resultados.

8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigma.

En los informes de resultados se comunican los resultados de cada alumno, curso y escuela en comparación con los resultados de alumnos, cursos y escuelas del mismo grado de marginación y tipo de escuela, por cada asignatura y grado. No se entrega información para otros subgrupos que podrían resultar relevantes, por ejemplo, por sexo, pertenencia a grupos indígenas, o nivel socioeconómico dentro de los cursos y escuelas. Como se mencionó anteriormente tampoco se justifica en ningún documento la selección de estas dos variables (“grado de marginación” y “tipo de escuela”) para formar los subgrupos dentro de los que se reporta a las escuelas. De hecho, es notorio que la palabra “marginación” no aparece mencionada en la totalidad del último manual técnico de ENLACE 2013. Respecto de los niveles de logro (insuficiente, elemental, bueno, excelente) y la escala de puntajes entre 200 y 800, el Manual Técnico 2013 menciona que el uso de la escala y los cuatro niveles no se asocia con la escala tradicional de notas del sistema escolar mexicano que va del 0 al 10, lo cual “favorece la expresión de niveles de logro sin la connotación peyorativa que tienen [estos] valores” (p. 19). Sin embargo, debe notarse que los términos categóricos insuficiente y elemental también podrían acarrear connotaciones negativas en la práctica. El Manual 2013 además ofrece información importante para una correcta interpretación de los puntajes y niveles de logro que no se comunican en ninguna otro documento: “El valor obtenido en escala logarítmica se transforma a una forma estandarizada, con media en 500 y desviación estándar de 100 para cada grado-asignatura. La escala se establece para cada grado-asignatura; por lo tanto, resulta incorrecto hacer comparaciones de puntajes entre niveles, asignaturas y grados diferentes” (p. 72). En el Manual Técnico 2013 (el cual claramente está dirigido a una audiencia que tiene un cierto grado de formación en temas de evaluación educativa, poco común entre actores escolares y padres de familia) se menciona en la p. 8 que es lo que ENLACE no mide: actitudes, intereses, valores, procesos meta-cognitivos de los estudiantes; no se trata de evaluaciones de aula (por lo que ENLACE no debe impactar en las calificaciones de los estudiantes). Es interesante notar que también se menciona que la prueba es de tipo formativo y por tanto tampoco deberá utilizarse para propósitos de evaluar directamente al alumno o el desempeño docente del maestro. Esto contrasta con el uso generalizado y explícito de los puntajes de los alumnos como parte de la evaluación de maestros que se incluye dentro del programa federal “Carrera magisterial.” Esto representa una discordancia entre las características de la prueba y el uso que se hace de ella, particularmente nocivo e inexplicable pues es el propio desarrollador el que utiliza los resultados de una forma para los que no diseñó la prueba (la SEP). Otro ejemplo de esto es que Usos y consecuencias

153

Las pruebas ENLACE para educación básica

se ofrece en el sistema de reporte de resultados de la SEP un ordenamiento de las escuelas por entidad según criterios como el puntaje bruto. Esto significa que incluso el desarrollador mismo invita usos no inicialmente previstos como es el ranking de escuelas solo en base a los resultados brutos en la prueba. La página web ofrece algunos documentos dirigidos a docentes y directivos que aclaran algunas de las interpretaciones incorrectas y errores comunes, o bien comentan algunas limitaciones de los datos al comparar resultados de distintas pruebas. Por ejemplo, en el breve documento con título Información general ENLACE Básica 2013 se alerta a la imposibilidad de comparar los resultados en Formación Cívica y Ética entre 2009 y 2013. En el documento más extenso con título Apoyos para el correcto uso pedagógico de resultados ENLACE se mencionan limitaciones respecto de los contenidos evaluados, además de limitaciones relativos a las condiciones en que se aplica la prueba:

Además, al seleccionar “Estadísticas” aparece una advertencia sobre la imposibilidad de comparar los resultados de diferentes materias y grados, ya que no “están expresados exactamente en la misma escala, por lo que técnicamente, los datos no se deben mezclar.”

154

En esta misma línea existe una advertencia antes de poder acceder a los archivos Excel a nivel escuela para cada estado como se mencionó. Este texto advierte sobre temas de representatividad de los datos, % de exámenes en revisión (indicador de posible trampa), interpretación de la diferencia entre los puntajes 2012 y 2013, entre otros. Sin embargo, no hay aclaraciones sobre interpretaciones erróneas y limitaciones en los documentos dirigidos a padres y estudiantes.

D. Interpretaciones, usos y consecuencias imprevistas

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables).

Este criterio se refiere principalmente a la información que se ofrece en el Manual Técnico y documentos accesibles a través de la página web de la SEP. El Manual Técnico aclara los usos indebidos de los resultados en el Cuadro V.4 (p. 9).

Usos y consecuencias

155

Cuadro 5.4 Usos indebidos de ENLACE señalados en el Manual Técnico 2013.

Las pruebas ENLACE para educación básica

Estos usos pueden llegar a confundirse con relativas aplicaciones de la prueba, como por ejemplo la factibilidad de contar con una sola prueba que englobe las funciones desempeñadas por otras que se ofrecen durante el año escolar; brindar información indicativa para evaluar programas educativos; la posibilidad de clasificar a las escuelas de todo el país (ranking); brindar una evidencia “dura” de los esfuerzos educativos, metodologías y enfoques de los docentes del país; premiar a los estudiantes que obtengan mejores resultados en la prueba, asumiendo que son los mejores estudiantes de una entidad federativa; asignar bonos y becas como apoyo a la Carrera magisterial; distribuir recursos a las escuelas con mayores méritos, entre otros. Como ejemplo de las advertencias pertinentes para promover el uso adecuado de los resultados de ENLACE , se refiere el siguiente texto, tomado en 2008 por el IEIA del “Documento de apoyo para los Talleres Generales de Actualización”, disponible en internet en la dirección http://enlace.sep.gob.mx: “Esta evaluación es un elemento muy importante para diagnosticar la calidad del aprendizaje de los estudiantes, pero de ninguna manera es el único. De ahí que la evaluación final del grado para cada alumno deba apegarse al criterio del docente. ENLACE ayuda a conocer y reconocer buenas escuelas, pero de ninguna manera podemos decir que las mejores escuelas son únicamente las que obtienen el puntaje más alto. Esa distinción debe atribuirse más bien a las escuelas cuyos alumnos muestran los avances académicos más significativos respecto de la situación en la que se encontraban cuando ingresaron a la misma. ENLACE no se utiliza como examen de ingreso a secundaria ni a bachillerato porque no está diseñado para tales efectos.” Fuente: ENL ACE , Manual Técnico, 2013.

El manual técnico 2013 también hace alusión al uso pedagógico adecuado de los reactivos liberados: Esta práctica hace que el uso de los reactivos y de las pruebas no sea controlado por la SEP, por lo que se presta a diversos usos de los reactivos de la prueba, tanto apropiados como indebidos. Por ello se han elaborado materiales de apoyo que recomiendan los usos apropiados (con fines pedagógicos) y que tratan de evitar usos para los cuales no está elaborada la prueba (p. 144). Un uso no previsto relacionado con la difusión de los reactivos consistiría en la preparación de los estudiantes con el solo fin de obtener un buen rendimiento en la prueba ENLACE (p. 20). Una encuesta a maestros ejecutada recientemente sugiere que este tipo de uso en aula se está dando de forma generalizada (INEE , 2011). Otros usos no previstos o indeseables que se mencionan en el manual incluye de forma prominente el uso de resultados para hacer ordenamientos (rankings) de escuelas e interpretaciones que insinúan que la mejor escuela es la que obtiene el mayor puntaje ENLACE (p. 9). O el asignar premios a estudiantes, docentes y escuelas solo con base a resultados en de ENLACE . Por ejemplo, el Documento de apoyo para los Talleres Generales de Actualización sugiere que aunque: …esta evaluación es un elemento muy importante para diagnosticar la calidad del aprendizaje de los estudiantes […] de ninguna manera podemos decir que las mejores escuelas son únicamente las que obtienen el puntaje más alto. Esa distinción debe atribuirse más bien a las escuelas cuyos alumnos muestran los avances académicos más significativos respecto de la situación en la que se encontraban cuando ingresaron a la misma. ENLACE no se utiliza como examen de ingreso a secundaria ni a bachillerato porque no está diseñado para tales efectos.

156

Usos y consecuencias

157

Las pruebas ENLACE para educación básica

Todo lo anterior presenta una paradoja interesante para el sistema. Poner a disposición pública no solo informes de resultados, sino también los resultados brutos a nivel escuela asegura máxima transparencia, pero también abre las puertas a interpretaciones incorrectas y usos inapropiados. Por ejemplo, con esta información fácilmente se pueden generar rankings de escuelas por entidad. Antes de dar acceso a los datos la página web advierte las limitaciones y peligros de este tipo de uso de la prueba (ver abajo). Sin embargo, en la práctica este es precisamente uno de los usos de ENLACE que se han vuelto más extendidos, con la publicación rutinaria de resultados, rankings, y listas de escuelas de alto o bajo rendimiento. Es interesante notar que aunque este tipo de uso responde frecuentemente a la influencia o trabajo de medios de comunicación nacionales o estatales, a veces puede reflejar la misma iniciativa de los gobiernos estatales. Por lo tanto es claro que la simple advertencia es insuficiente para prevenir incluso los usos más perniciosos y evitables de la prueba.

10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/ positivas, o inadecuadas/negativas).

Como se mencionó anteriormente a nivel nacional se dan una gran variedad de usos a los resultados de la prueba ENLACE . Sin embargo hasta donde tenemos conocimiento SEP/DGE no realiza un monitoreo sistemático de los usos o consecuencias previstas o imprevistas que permitan evaluar el grado en que algunas de estas podrían ser inadecuadas o incluso perniciosas. La DGE, por ejemplo, no hace seguimiento ni mantiene documentación alguna de usos previstos y menos aún de los imprevistos. Esto incluye incluso usos no recomendados que son ampliamente conocidos, como lo son el de usar ENLACE para evaluar maestros en Carrera magisterial, o la publicación de rankings en muchos estados. Una preponderancia de evidencia anecdótica en los medios y otra que se deriva de las entrevistas a nivel estatal apunta a otros usos imprevistos como el que las escuelas mismas utilicen sus buenos resultados en ENLACE para legitimarse frente a la comunidad escolar, y promocionarse con el fin de atraer mayor matrícula y recursos. En cinco de los seis estados entrevistados para este trabajo encontramos un uso imprevisto que consiste en otorgar premios (p.ej., un equipo de cómputo e impresora, y hasta premios monetarios significativos) o reconocimientos públicos a los mejores alumnos, docentes, o escuelas ya sea a nivel estatal o municipal. Además, el personal en cuatro estados reportó prácticas de preparación de la prueba ENLACE , incluyendo pruebas bimestrales con un formato similar a ENLACE , la elaboración por parte de la entidad estatal de pruebas específicas sobre contenidos con bajos resultados en ENLACE , y un “Concurso de Español y Matemáticas” en todas las escuelas una semana antes de la fecha de aplicación de ENLACE , para “motivar a los alumnos y docentes a esforzarse para obtener buenos resultados.” En uno de los estados un entrevistado señaló que el propósito de la premiación de escuelas sería “incentivar la rivalidad entre escuelas locales, o sea la competencia, nosotros hemos detectado que cuando en las escuelas se incentiva el orgullo y la competitividad entre ellas, eso es lo que 158

rompe el monopolio de un sistema de servicio monopólico que si no generas esa competitividad no mejora.” De los seis estados entrevistados cinco reportan al menos un uso no previsto según el Informe Técnico ENLACE 2013. Otro resultado imprevisto (aunque no improbable) y en potencia pernicioso es la inflación de puntajes a través del tiempo. La evidencia de corrupción o adulteramiento generalizado de resultados se mantiene con pocas excepciones en el terreno de lo anecdótico; por ejemplo la DGE hace un seguimiento de estadísticas de copia, que sugiere que esta no se ha modificado en la última década. Sin embargo es importante continuar dando seguimiento a estas tendencias dado el creciente papel de los puntajes de ENLACE como parte de evaluaciones de alto impacto. Por otra parte, existen datos y estudios que muestran en cambio que la inflación también se da por el efecto natural aunque no menos pernicioso de incentivos y sanciones dentro de un sistema de pruebas estandarizado y de alto impacto. La Tabla 5.7 ejemplifica el posible patrón inflacionario en algunos estados. La tabla muestra la evolución de resultados de ENLACE y E XCALE en Español y Matemáticas entre 2005-06 y 2012-13 para cuatro estados: Aguascalientes y Querétaro que tradicionalmente están entre los estados con bajos índice de pobreza y rendimiento en pruebas nacionales; Chiapas y Guerrero por otra parte representan el extremo contrario, con altos índices de pobreza y menores tasas de aprendizaje. Los resultados de la prueba E XCALE reflejan resultados relativamente estables en los cuatro estados (con una ligera mejora en los dos primeros estados y un ligero retroceso para los segundos). Un patrón similar se observa en los resultados de PISA entre 2003 y 2012 (no presentados en la tabla). Como comparación, la tabla presenta también los resultados de ENLACE que reflejan una estabilidad relativa en Aguascalientes y Querétaro; sin embargo, Chiapas y Guerrero experimentan una mejora muy acentuada, se diría incluso que dramática, de 70 puntos en promedio. La relativa estabilidad de los resultados en pruebas muestrales de bajo impacto (E XCALE y PISA ) y el patrón de divergencia con estados de comparación, sugiere una tendencia inflacionaria en Chiapas y Guerrero que puede reflejar una combinación de factores como enseñanza enfocada a la prueba, copia, o en algunos casos ayuda al alumno, entre otras—muchas de ellas reflejadas en una multitud de evidencias duras o anecdóticas. El patrón evidencia el potencial corruptor de los indicadores sociales con un uso de alto impacto notado por Campbell (1975).

Usos y consecuencias

159

Tabla 5.7 Inflación de Resultados en ENLACE . Comparación con EXCALE

Español

Las pruebas ENLACE para educación básica

ENLACE

E XCALE

700

700

650

650

600

600

550

550

500

500

450

450

400

400

2006

2013

2006

2012

2006

2012

Matemáticas ENLACE

E XCALE

700

700

650

650

600

600

550

550

500

500

450

450

400

400

2006

agu

qro

2013

gro

chi

Fuente: Instituto Nacional para la Evaluación de la Educación (INEE ).

11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar acciones correctivas.

Evidentemente no se puede esperar que el equipo técnico encargado del diseño de la prueba corrija usos inapropiados que están fuera de su alcance o conocimiento, o que involucran actores políticamente poderosos, y en ausencia de recursos materiales y humanos, herramientas legales, y voluntad política para tomar medidas correctivas. Sin embargo, el actor responsable se define en este estudio de forma más amplia; la SEP tiene un control y poder mucho mayor para establecer usos adecuados, y monitorear, limitar y corregir los que no lo sean. Por tanto, en principio si se puede hacer responsable a la secretaria de usos inadecuados que se puedan dar a la prueba ENLACE. Esto es especialmente aplicable en el caso de usos que los

160

mismos manuales y materiales de la prueba definen explícitamente como inapropiados como lo es la evaluación docente o el ordenamiento de escuelas. En el caso de la Carrera Magisterial la secretaría no solo toleró si no que expresamente originó y concertó en su interior este uso de ENLACE . En el caso de los rankings de escuelas lo incluyó en sus herramientas de reporte de resultados a través de la página web. En el diseño de la siguiente generación de pruebas nacionales el INEE estará en una posición a medio camino entre la DGE y la SEP en este contexto; sin el poder y alcance teórico de la secretaría para tomar acciones o impedir procesos, pero tampoco en la posición de debilidad institucional y política de la DGE. Por tanto, le será posible (y es deseable) diseñar un sistema que permita monitorear y corregir en la medida posible usos e interpretaciones inadecuadas o perniciosas.

CONCLUSIONES Nuestro análisis de la documentación y evidencia disponible acerca de usos y consecuencias de la prueba ENLACE produjo una serie de hallazgos que consistentemente evidencian la falta de alineamiento entre los usos propuestos de la prueba ENLACE, sus características técnicas, y los cuerpos de evidencia teórica y empírica que se han recogido y que se ofrecen para sustentar los usos propuestos. El diseño de la prueba no parece derivarse directamente de una consideración detallada de los usos y objetivos que se persiguen. El manual técnico no describe por ejemplo la idoneidad de una prueba con diseño censal de cobertura fija en relación al uso diagnóstico que se pretende. Tampoco presenta indicadores de precisión de los puntajes necesarios para la interpretación diagnóstica de resultados. Esto refleja por un lado limitaciones de capacidad técnica y recursos, pero también una evidente falta de realismo y claridad inicial sobre los objetivos de la prueba, que se presentan de forma parcial y fortuita, y no pueden proveer el eje central alrededor del cual se organice el diseño de la prueba y los contenidos de los manuales técnicos y otros materiales. Nuestro estudio evidencia también la efervescencia de intereses y actividades alrededor de la prueba que se refleja en la gran variedad de usos, incentivos, materiales, programas, intervenciones, organizados alrededor de los resultados de la prueba. En palabras de un experto entrevistado para este estudio, “el uso de la prueba es generalizado pero no sistematizado”. Aunque este alto nivel de interés y actividad tiene aspectos alentadores y evidencia en cualquier caso la energía que muchos actores dirigen al mejoramiento educativo, este mismo también inevitablemente resulta en una variedad de usos cuestionables, injustificados o francamente perniciosos. En este sentido es relevante considerar una perspectiva histórica de la prueba ENLACE que a través de los años ha experimentado una marcada evolución en términos de alcance, uso, y visibilidad social. Sin embargo, es interesante notar que los usos propuestos de la prueba no se han modificado significativamente desde su inicio. Los usos que se proponen en el manual técnico de ENLACE 2007 (el primero disponible en formato de reporte en la página de la SEP) son en principio idénticos a los que se encuentran en el de 2013 (ver tabla 2).

Usos y consecuencias

161

Las pruebas ENLACE para educación básica

De esto se deduce que, desde el punto de vista de los diseñadores, los usos propuestos de ENLACE no se modificaron a través del tiempo, manteniendo el enfoque en aplicaciones diagnósticas y formativas de bajo impacto o consecuencias para los que en principio se diseñó la prueba—de hecho el manual 2007 mencionaba la “estandarización de criterios para acreditación”, un tipo de uso de corte más sumativo que dejó de plantearse en años posteriores. Esto contrasta, sin embargo, con el creciente número de usos de mediano y alto impacto que en la práctica se dan a la prueba ENLACE en distintos contextos. Un informe reciente de la OCDE (Santiago et al., 2012) sobre sistemas nacionales de evaluación educativa reportaba que en México los usos más comunes de ENLACE eran del tipo considerado como de alto impacto (p. 73), e incluían por ejemplo la publicación y diseminación activa de resultados y rankings de escuelas, incentivos monetarios para maestros con base en los resultados de sus estudiantes en la prueba, o el reconocimiento público de alumnos, maestros, o escuelas con los mejores resultados en ENLACE . Si se contrasta con la estabilidad de los usos propuestos que reflejan los manuales técnicos más recientes, parece evidenciarse una tendencia de corrupción o inflación de funcionalidad –donde los usos de un instrumento se extienden sin que ello refleje un cambio de misión y diseño de la prueba. Este tipo de inercia inflacionaria de uso tiende a corromper el indicador (lo que se conoce como Ley de Campbell), limitar el uso diagnóstico que inicialmente se buscaba, y eventualmente puede traer consecuencias no deseables si se combinan con incentivos, sanciones, y otros usos de alto impacto. En el caso de ENLACE , según el informe de la OCDE mencionado anteriormente, la evidencia acumulada en los últimos años sugiere que algunos efectos importantes del uso de la prueba incluyen el uso de una parte importante del tiempo aula para instrucción específicamente enfocada en la prueba, además de incentivar excesivamente a alumnos y maestros para obtener puntajes altos, lo que ha generado prácticas y dinámicas que ponen en peligro la integridad de los resultados (pp. 80-82). El equipo de la OCDE concluye que “los efectos no intencionales de ENLACE parecen ser importantes. A pesar de la gran cantidad de datos recolectados, hasta qué punto se utilizan para un propósito formativo no está claro.” (p. 82). Para finalizar, al evaluar las consecuencias del uso de la prueba ENLACE no se puede olvidar la dimensión ética crucial involucrada en las pruebas de alto impacto: una máxima de la medición en educación es que solo se pueden tomar decisiones o acciones que afectan a personas o grupos cuando existe evidencia sólida que lo justifique. La necesidad de gran claridad en la definición de lo que mide o no una prueba, o los usos que se consideran justificados o injustificados, no se deriva de un concepto de rigor técnico si no de uno de probidad ética. Nuestro análisis no pretendió definir si las interpretaciones y usos propuestos de ENLACE (o de las pruebas estandarizadas en general) son posibles, apropiados, o deseables. La revisión que se hizo de la evidencia disponible busca en cambio evaluar el grado en que los usos previstos 162

específicos de esta prueba particular se soportan y justifican con base en evidencias sólidas como requieren las mejores prácticas en medición educativa a nivel internacional. Aunque, como se ha mencionado en otros capítulos, la falta de evidencia no necesariamente implica que la prueba sea de baja calidad o el uso sea inadecuado, sí genera cuestionamientos legítimos que se deben atender si se pretende que la prueba tenga los alcances e impactos que se buscan.

Usos y consecuencias

163

Conclusiones iniciales

Retomando las conclusiones de los cinco apartados del informe, las conclusiones a las que se puede llegar en este momento, que en el informe final se podrán enriquecer y precisar, como se señaló en la introducción, se sintetizan como sigue.

ALINEACIÓN A LOS REFERENTES El análisis de la validez de contenido de ENLACE, entendida como su alineación con el currículo de la educación básica, muestra deficiencias importantes en todos los criterios de este apartado. Los documentos normativos contienen elementos que apuntan en la dirección adecuada, pero en general son poco precisos y, sobre todo, la ausencia generalizada de evidencias que muestren que las orientaciones se cumplen, lleva a la conclusión, tentativa ciertamente, pero que consideramos fundada, de que en muchas ocasiones, probablemente en la mayor parte de los ejercicios anuales, se han omitido cuidados básicos para asegurar que las pruebas tengan la calidad esperada. Como deficiencias particulares destacan: • La falta de documentación sobre el proceso seguido para determinar el contenido a evaluar, carencia que impide una valoración precisa del grado de validez de contenido de las pruebas. • La ausencia de evidencias precisas sobre la conformación de comités que tienen un papel fundamental para el cumplimiento de varios criterios, su perfil, la capacitación que se ofrece a sus integrantes y las metodologías que orientan su trabajo, hace pensar que el funcionamiento de esos colegiados es, al menos, poco consistente. • Los puntos relativos a la complejidad cognitiva de los contenidos de las pruebas presentan deficiencias particularmente notorias. • La situación de los criterios de cumplimiento más difícil, como el relativo a la alineación de los contenidos de la prueba con los de la enseñanza o los de la evaluación que los docentes llevan a cabo en el aula, es más claramente aún de deficiencia prácticamente completa.

A SPECTOS PSICOMÉTRICOS • Dado el alto impacto de los resultados de las pruebas, es importante presentar en detalle los procedimientos y resultados estadísticos que permitan a los técnicos comprobar y replicar los procedimientos seguidos para el análisis y presentación de los resultados de las pruebas. Esto implica no solo la presentación de fórmulas, sino también de resultados detallados (por ejemplo estadísticos por reactivos, etc.) que permita verificar la información reportada y utilizada.

164

• En cuanto a la selección de modelos de análisis, es importante que se presenten en detalle las razones por las cuales se seleccionó uno por sobre otro. Si bien se entiende que hay diversidad de modelos, al igual que criterios y valoraciones que llevan a escoger un modelo sobre otro, es importante al menos presentar, y en el mejor de los casos discutir, las ventajas de haber escogido el o los modelos utilizados, al igual que las desventajas para haber rechazado los otros modelos. • Si bien se entiende que ninguna evidencia es perfecta, o apoya 100% un proceso, es la acumulación de evidencias a favor de un proceso lo que valida y legitima el proceso. Este proceso de crear y presentar evidencias a favor de un proceso, al igual que evaluar y estudiar cuidadosamente las evidencias en contras, es lo que a largo plazo nos permite confiar que la información que se genera a través del proceso es útil y confiable. En todos estos aspectos mencionados anteriormente, si bien encontramos que se presentaba algunas evidencias al respecto, muchas de las aseveraciones eran presentadas de manera dogmática sin presentación o discusión de evidencias en apoyo de las acciones seguidas o descritas. Distinto a casos judiciales, en los que se presume “inocencia hasta que se pruebe lo contrario”, en el caso de los usos de la medición y sus correspondientes procesos se presume no son adecuados hasta que se prueba lo contrario. Por lo que el peso de la responsabilidad pesa sobre proveer evidencias que los procesos y usos son adecuados, a pesar de sus imperfecciones.

ATENCIÓN A LA DIVERSIDAD CULTURAL Los criterios de este apartado pueden considerarse, en general, como ideales, en el sentido de que si bien es deseable que se cumplan desde las primeras aplicaciones de toda prueba, esto, desafortunadamente, no sucede siempre, aun en países con larga tradición psicométrica. Ello no quiere decir que no deban atenderse, especialmente en países como el nuestro en que la enorme diversidad cultural de los estudiantes plantea importantes retos a los sistemas educativos. En ese sentido, no es sorprendente que las pruebas ENLACE no cumplan satisfactoriamente ninguno de los criterios se validez cultural. Es preciso añadir, sin embargo, que el reconocimiento de la multiculturalidad trae consigo la consecuencia de que se debe comenzar a trabajar para que los criterios de esta área sean atendidos en el mediano plazo. La condición multicultural de México se encuentra reconocida a nivel legal por la constitución y que el derecho a recibir una educación con pertinencia lingüística y cultural –lo que incluye la evaluación de la misma– se encuentra normada por la Ley General de derechos lingüísticos de los Pueblos indígenas, por lo que incumplir con este criterio es, de alguna manera, incumplir dicho marco legal que protege y promueve una educación incluyente.Además debe considerarse que el análisis ha mostrado que, en buena medida, las deficiencias observadas en los criterios de validez cultural derivan de deficiencias que no debieran existir en ninguna prueba.

APLICACIONES La aplicación de ENLACE requiere de una amplia coordinación entre el nivel federal, estatal y las escuelas. Se percibe un gran esfuerzo realizado por la SEP a través de la DGEP para asegurar diversos aspectos críticos de la aplicación, especialmente en lo concerniente al involucramiento de los diversos actores del proceso en la escuela (docentes, directores y padres de familia), así como de los observadores externos. Conclusiones iniciales

165

Las pruebas ENLACE para educación básica

Algunos procesos importantes, como el diseño de instrumentos de evaluación y la lectura óptica y calificación de los resultados están elevados a norma técnica de calidad, pero no así la aplicación en su conjunto. En general, no existe suficiente información que permita confirmar, de manera externa, que todos los procesos se llevan a cabo como están estipulados, aunque los procedimientos técnicos de certificación llevan a suponer que así es. Lo anterior puede deberse al poco tiempo disponible para la planeación de la aplicación, así como a los cortos periodos que transcurren entre aplicación, lectura, análisis de la información y reporte de resultados. Dada la importancia de la prueba para el sector educativo nacional, se percibe que se requieren controles de calidad a nivel central más estrictos en fases cruciales del proceso que involucren verificaciones aleatorias o realizadas por terceras personas (por ejemplo en el procesamiento de lectura óptica, la verificación de bases de datos provenientes de los estados, o la selección y diseño de la muestra controlada). Por otra parte, a nivel estatal y local, se percibe que todos los actores involucrados en la aplicación de ENLACE realizan un enorme esfuerzo para verificar el proceso a nivel del aula y el centro escolar, mediante el levantamiento de actas de irregularidades que se reportan a las autoridades estatales. Esta información es muy útil ya que puede ayudar a retroalimentar todo el proceso. Sin embargo, no se evidencia la existencia de un proceso sistemático para recoger dicha información y alimentar un proceso de mejora continua. Por ejemplo, no se dispuso de un reporte consolidado de las irregularidades típicas, su tratamiento y las lecciones aprendidas luego de cada aplicación como insumo para fortalecimiento de la siguiente. En resumen, la información que se revisó para este estudio nos lleva a concluir que aunque el proceso de aplicación cumple con gran parte de los estándares aquí establecidos, no cumple con todos. Y en algunos casos, aunque los manuales dan cuenta de que los estándares se cumplen, no se presenta suficiente información para verificar que realmente así sea. Dados los alcances de la prueba, se considera importante asegurar la calidad en todas las fases de la aplicación y proveer evidencia de ello. Esto, mediante un reporte más detallado de la aplicación en todas sus etapas, soportado en el uso de tecnología informática apropiada a la escala del proyecto, que permita establecer un proceso sistemático de mejora continua y aprovechamiento de la información generada a nivel del centro escolar.

USOS Y CONSECUENCIAS Los análisis de este apartado muestran la falta de alineamiento entre los usos propuestos de la prueba ENLACE y los cuerpos de evidencia teórica y empírica que se han recogido para sustentarlos. En la mayoría de los casos esto significa que no hay evidencia de validez para justificar ciertos usos de las pruebas; en algunos sin embargo, la evidencia técnica que existe sugiere que la prueba no es adecuada para algunos de los usos propuestos. Lo anterior refleja limitaciones de capacidad técnica y recursos por un lado, pero también falta de claridad inicial sobre los objetivos de la prueba, y una tendencia hacia la expansión de uso no respaldada en evidencia. En concreto, el incremento en usos de alto impacto (p. ej. publicación de rankings de escuelas, incentivos para maestros o escuelas basados en los resultados de sus alumnos, y otros) refleja una tendencia de inflación en la funcionalidad de la prueba, donde los usos se extienden sin los correspondientes adaptaciones al diseño de la prueba, y la evidencia adicional de validez que se requiere. 166

Es claro el gran interés que existe alrededor de la prueba, que se manifiesta en la gran variedad de usos, esfuerzos, programas, e intervenciones en todos los niveles, desde autoridades federales y estatales, a escuelas, maestros y padres, así como organizaciones de la sociedad. Este interés y energía que se genera en torno a los resultados incuestionablemente tienen aspectos muy positivos y esperanzadores para el sistema educativo del país, al reflejar la gran importancia que muchos actores dan a la calidad de la educación, y al uso de evidencia solida para contribuir a los esfuerzos de mejora. Sin embargo, en este mismo contexto existe también el riesgo de que se den usos cuestionables, injustificados, o incluso injustos para actores individuales, o que resulten contraproducentes para el sistema en general. La evidencia en este estudio indica que la prueba está siendo utilizada de forma muy extendida en los estados pero que 1) no todos los usos están técnicamente fundamentados y 2) no se da un seguimiento que ofrezca información detallada sobre los usos que se dan, y menos aún de los resultados de los esfuerzos, intervenciones y programas que de estos se derivan. Evidencia de otros estudios sugiere que pueden estarse dando efectos no deseables del uso de ENLACE como el que los maestros empleen un número importante de horas aula para instrucción enfocada a la prueba, o que se generen incentivos excesivos que pueden comprometer la integridad de los resultados—e.g. mejoras espectaculares observadas en ENLACE en algunos estados, que no se reflejan en otras pruebas nacionales o internacionales. Es importante recordar que los análisis presentados en este capítulo no pretenden establecer si ciertos usos de las pruebas de gran escala son apropiados o deseables en términos generales referidos a política educativa. El análisis se concibió, en términos técnicos más concretos, como una evaluación del grado en que los usos de esta prueba particular (tanto los previstos en el manual técnico, como otros no previstos pero de los que existe amplia evidencia) se justifican con base en evidencias concretas sólidas como requieren las mejores prácticas en medición educativa. Este enfoque conlleva la necesidad de gran claridad en la definición de lo que mide o no una prueba, las características de los indicadores que se generan, y los usos que se consideran justificados o injustificados, pero el mismo no se deriva de una posición de rigor o purismo técnico. Por el contrario, la necesidad de observar cuidadosamente las características técnicas de la prueba obedece a un concepto aún más fundamental de probidad ética que es esencial en mediciones de alto impacto: los usos que afectan directamente a personas o grupos particulares solo son adecuados si existe evidencia solida que los justifique. Finalmente, el rigor técnico también tiene implicaciones para el sistema en la medida en que evita que se den también usos contraproducentes que limiten la efectividad de una política o incluso dificulten otros esfuerzos e iniciativas de mejora en el sistema.

Conclusiones iniciales

167

Las pruebas ENLACE para educación básica

Referencias bibliográficas Agüero, Jorge M., y Beleche, Trinidad (2013). Test-Mex: Estimating the Effects of School Year Length on Student Performance in Mexico. Journal of Development Economics, 103 (1), pp. 353-361. AERA . American Educational Research Association, American Psychological Association, National Council

on Measurement in Education (1999). Standards for Educational and Psychological Testing. Washington: Autores. Anderson, L., y Krathwohl, D. (eds.) (2001). A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom’s Taxonomy of Educational Objectives. Nueva York: Longman. Bando, R. (2010). The Effect of School Based Management on Parent Behavior and the Quality of Education in Mexico (tesis no publicada). Universidad de California, Berkeley. Barriga, R. (2005). Estudios sobre el habla infantil en los años escolares: Un solecito grandotote. México: El Colegio de México. Basterra, M. Rosario, Trumbull, E., y Solano, G. (eds.) (2011). Cultural Validity in Assessment: Addressing Linguistic & Cultural Diversity. Nueva York: Routledge. Bertely, M., Dietz, G., y Díaz Tepepa, M.G. (2013). Estado del conocimiento: Educación y multiculturalismo. México: COMIE . Bond, T.G., y Fox, C.M. (2001). Applying the Rasch Model. Fundamental Measurement in the Human Sciences. Nueva Jersey: Lawrence Erlbaum Associates, pp. 4-8. Bormouth, J.R. (1970). On the Theory of Achievement Test Items. Chicago: University of Chicago Press. Brennan, R.L. (1995). The Conventional Wisdom about Group Mean Scores. Journal of Educational Measurement, 14, pp. 385-396. (2001). An Essay on the History and Future of Reliability from the Perspective of Replication. Journal of Educational Measurement, 38(4), pp. 295-317. (2005). Some Test Theory for the Reliability of Individual Profiles (CASMA Research Report 12). Iowa: Center for Advanced Studies in Measurement and Assessment-The University of Iowa. Campbell, D.T. (1975). Cap. 1 Assessing the Impact of Planned Social Change. En Lyons, G. (ed.), Social Research and Public Policies: The Dartmouth/OECD Conference (pp. 3-45). Hanover: The Public Affairs Center- Dartmouth College. Cárdenas, S. (2009). Is the Class Schedule the Only Difference between Morning and Afternoon Shift Schools in Mexico? (tesis no publicada). Harvard University. Centro Nacional de Evaluación para la Educación Superior (2000). Estándares de calidad para instrumentos de evaluación educativa. México: Autor. Cervera Gómez, Luis Ernesto, Lizárraga Bustamante, Gilberto Martín, y Sánchez Guillén, Laura Paola (2008). Estudio georreferencial de la Evaluación Nacional de Logro Académico en Centros Escolares (ENLACE ) en el municipio de Juárez, Chihuahua: análisis espacial. Revista Electronica de Investigacion Educativa, 10(1). Cizek, G.J. (2007). Introduction to Modern Validity Theory and Practice. Presentación invitada al National Assessment Governing Board, McLean, Virginia. , Bowen, D., y Church, K. (2010). Sources of Validity Evidence for Educational and Psychological Tests: A Follow-up Study. Ponencia en la reunión anual del National Council on Measurement in Education, Denver. CONEVAL . Consejo Nacional de Evaluación de la Política de Desarrollo Social (2013). Síntesis de evaluacio-

nes de programas y políticas de la SEP. Crocker, L., y Algina, J. (2004). Introduction to Classical and Modern Test Theory (2a. ed.). Nueva York: Hott, Rinehart, and Winston.

168

Cronbach, L.J. (1971). Test Validation. En Thorndike, R.L. (ed.). Educational Measurement (pp. 443-507). Washington, American Council on Education. (1988). Five Perspectives on Validity Argument. En Wainer, H., y Braun, H. (eds.), Test Validity (pp. 3-17). Princeton: Lawrence Erlbaum Associates. Crooks, T.J., Kane, M.T., y Cohen, A.S. (1996). Threats to the Valid Use of Assessments. Assessment in Education, 3(3), pp. 265-285. Dawis, R.V. (1987). Scale Construction. Journal of Counseling Psychology, 34(4), pp. 481-489. DOF. Diario Oficial de la Federación (2011, 19 de agosto). Acuerdo número 592 por el que se Establece la

Articulación de la Educación Básica. Downing, S.M., y Haladyna, T.M. (eds.) (2006). Handbook of Test Development. Mahwah: Lawrence Erlbaum Associates. Educational Testing Service (2000). ETS Standards for Quality and Fairness. Princeton: Autor. Feldt, L.S., y Brennan, R.L. (1989). Reliability. En Linn, R.L. (ed.). Educational Measurement (pp. 105-146). Nueva York: American Council on Education / Macmillan. Gertler, Paul, Patrinos, Harry Anthony, y Rodriguez-Oreggia, Eduardo (2012, primavera). Parental Empowerment in México: Randomized Experiment of the “Apoyos a la Gestión Escolar” (AGE ) Program in Rural Primary Schools in Mexico. SREE. Guion, R.M. (1977). Content Validity-The Source of my Discontent. Applied Psychological Measurement, 1, pp. 1-10. Guttman, L. (1969). Integration of Test Design and Analysis. In Proceedings of the 1969 Invitational Conference on Testing Problems. Princeton: Educational Testing Service. Haberman, S.J. (2008). When Can Subscores Have Value? Journal of Educational and Behavioral Statistics, 33, pp. 204-229. Haertel, E.H. (2006). Reliability. En Brennan, R. (ed.). Educational Measurement (pp. 65-110). Westport: American Council on Education-Praeger. Haladyna, T.M., y Downing, S.M. (1988). A Taxonomy of Multiple-Choice Item-Writing Rules. Applied Measurement in Education, 1, pp. 37-50. Hambleton, R. (1994). Guidelines for Adapting Educational and Psychological Tests: A Progress Report. European Journal of Psychological Assessment, 10, pp. 229-244. y Jones, R. (1993). Comparison of Classical Test Theory and Item Response Theory and their Applications to Test Development. An National Council on Measurement in Education Instructional Module. Recuperado el 3 de octubre de 2007 de: http://www.ncme.org/pubs/items.cfm Haynes, S., Richard, D., y Kubany, E. (1995). Content Validity in Psychological Assessment: A Functional Approach to Concepts and Methods. Psychological Assessment, 7(3), pp. 238-247. Hively, W. (1974). Introduction to Domain Referenced Testing. Educational Technology, 14, pp. 5-9. Instituto Colombiano de Evaluación de la Educación (2013). Pruebas SABER 3º, 5º. y 9º: Manual para el aplicador. Bogotá: Autor. (2013). Pruebas SABER 3º, 5º. y 9º: Manual para el delegado. Bogotá: Autor. (2013). Pruebas SABER 3º, 5º. y 9º: Manual para el coordinador de salón. Bogotá: Autor. (2013). Pruebas SABER 3º, 5º. y 9º: Manual para el rector. Bogotá: Autor. International Association for the Evaluation of Educational Achievement (2001). Technical Standards for IEA Studies: An Annotated Bibliography. Ámsterdam: IEA. Johnson, J.A. (2004). The Impact of Item Characteristics on Item and Scale Validity. Multivariate Behavioral Research, 39(2), pp. 273-302 Jornet, J.M., Suárez, J.M., y González-Such, J. (1990). Estudio de validación de un cuestionario de valoración de la Docencia Universitaria por los estudiantes en un conjunto homogéneo de centros de la Universitat de València. Revista de Investigación Educativa, 7(13), pp. 57-92. y Suárez, J.M. (1989a). Conceptualización del dominio educativo desde la perspectiva integradora de la Evaluación Referida al Criterio. Bordón, 41, pp. 237-275. Referencias bibliográficas

169

y Suárez, J.M. (1989b). Revisión de modelos y métodos en la determinación de estándares y en el establecimiento del punto de corte en Evaluación Referida a Criterio (ERC). Bordón, 41(2), pp. 277-301. Kane, M.T. (2006). Validation. En Brennan, R. (ed.). Educational Measurement (4a. ed., pp. 17-64).

Las pruebas ENLACE para educación básica

Westport: American Council on Education / Praeger. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50 (1), pp. 1-73. Ley General de Derechos Lingüísticos de los Pueblos Indígenas. Li, S., y Sireci, S.G. (2005). Evaluating the Fit between Test Content, Instruction, and Curriculum Frameworks: A Review of Methods for Evaluating Test Alignment. Center for Educational Assessment MCAS Validity Report No. 9. (CEA -558). Amherst: Center for Educational Assessment-University of Massachusetts. Linacre, J.M. (2006). A User’s Guide to Winsteps. Recuperado de: winsteps.com Lissitz, R. (ed.) (2009). The Concept of Validity. Charlotte: Information Age Publishing. Lizasoain, L., y Joaristi, L. (2010). Estudio diferencial del rendimiento académico en lengua española de estudiantes de educación secundaria de Baja California (México). Revista Iberoamericana de Evaluación Educativa, 3(3), pp. 115-134. Recuperado de: http://www.rinace.net/riee/numeros/vol3-num3/art6.pdf Luschei, T. (2012). In Search of Good Teachers: Patterns of Teacher Quality in Two Mexican States. Comparative Education Review, (56)1, pp. 69-97. Madaus, G.F., y Kellaghan, T. (1992). Curriculum Evaluation and Assessment. En Jackson, P.W. (ed.). Handbook of Research on Curriculum (pp. 119-154). Nueva York: Macmillan. Messick, S. (1989). Validity. En Linn, R.L. (ed.). Educational Measurement (3a. ed., pp. 13-103). Nueva York: American Council on Education / Macmillan. (1998). Test Validity: A Matter of Consequence. Social Indicators Research, 45(1-3), pp. 35-44. Moss, P.A. (2008). A Critical Review of the Validity Research Agenda of the NBPTS at the End of its First Decade. En Ingvarson, L., y Hattie, J. (eds.). Assessing teachers for professional certification: the first decade of the NBPTS (pp. 257-312). Oxford: Elsevier. Nichols, P., y Williams, N. (2009). Consequences of Test Score Use as Validity Evidence: Roles & Responsibilities. Educational Measurement: Issues & Practice, 28(1), pp. 3-9. Nitko, A. (1994). A Model for Developing Curriculum-Driven Criterion-Referenced and Norm-Referenced National Examinations for Certification and Selection of Students. Ponencia presentada en la Conferencia Internacional sobre Evaluación y Medición Educativas, de la Asociación para el Estudio de la Evaluación Educativa en Sudáfrica (ASSESA ). (1995). Curriculum-Based Continuos Assessment: a Framework for Concepts, Procedures and Policy. Assessment in Education, 2(3). OECD. Organization for Economic Cooperation and Development (2000-2012a). National Project

Manager’s Manual for the PISA Survey. (2000-2012b). Technical Standards for PISA. Popham, J. (1990). Modern Educational Measurement. A Practitioner’s Perspective. (2a. ed.). Boston: Allyn and Bacon. Roid, G.H., y Haladyna, T.M. (1982). A Technology for Test-Item Writing. Nueva York: Academic Press. Rojas, A. (2006) Entre la banca, la casa y la banqueta. Socialización y matemáticas entre los niños otomíes que viven en la ZMG (tesis para obtener el grado de doctora en Ciencias Sociales). CIESAS , Guadalajara, México. Sánchez Zúñiga, M. Consuelo (2009). Evaluación de Enciclomedia. Algunos hallazgos relacionados con la Evaluación Nacional de Logro Académico en Centros Escolares (ENLACE ). Revista Latinoamericana de Estudios Educativos (México), XXXIX, pp. 251-259. Santiago, P., McGregor, I., Nusche, D., Ravela, P., y Toledo, D. (2012). OECD Reviews of Evaluation & Assessment in Education Mexico 2012, París: OECD. Recuperado de: http://dx.doi.org/10.1787/9789264172647-3-en

170

Santibañez, L., Abreu-Lastra, R., y O’Donoghue, J. (2014) School Based Management effects: Resources or governance change? Evidence from Mexico. Economics of Education Review, 39, pp. 97-109. SEP. Secretaría de Educación Pública (2008-2013a). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE: manual técnico. México: Autor. (2008-2013b). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE: normas operativas. México: Autor. (2008-2013c). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE: guía para el docente aplicador. México: Autor. (2008-2013d). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE: manual para el coordinador de aplicación. México: Autor. (2011-2012a). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE 2012: características generales e información de los reactivos aplicados para su uso pedagógico, tercer grado de educación primaria. México: Autor. (2011-2012b). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE 2012: características generales e información de los reactivos aplicados para su uso pedagógico, cuarto grado de educación primaria. México: Autor. (2011-2012c). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE 2012: características generales e información de los reactivos aplicados para su uso pedagógico, quinto grado de educación primaria. México: Autor. (2011-2012d). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE 2012: características generales e información de los reactivos aplicados para su uso pedagógico, sexto grado de educación primaria. México: Autor. (2011-2012e). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE 2012: características generales e información de los reactivos aplicados para su uso pedagógico, primer grado de educación secundaria. México: Autor. (2011-2012f). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE 2012: características generales e información de los reactivos aplicados para su uso pedagógico, segundo grado de educación secundaria. México: Autor. (2011-2012g). Evaluación Nacional del Logro Académico en Centro Escolares ENLACE 2012: características generales e información de los reactivos aplicados para su uso pedagógico, tercer grado de educación secundaria. México: Autor. Sireci, S.G. (2009). Packing and Unpacking Sources of Validity Evidence: History Repeats Itself Again. En: Lissitz, R.W. (ed.). The Concept of Validity: Revisions, New Directions, and Applications. Charlotte: Information Age Publishing. (2013). Agreeing on Validity Arguments. Journal of Educational Measurement, 50(1), pp. 99-104. Solano-Flores, G. (1993). Item Structural Properties as Predictors of Item Difficulty and Item Association. Educational and Psychological Measurement, 53(1), pp. 19-31. (2011). Assessing the Cultural Validity of Assessment Practices: An Introduction. En Basterra, M.R., Trumbull, E., y Solano-Flores, G. (eds.). Cultural Validity in Assessment: Addressing Linguistic and Cultural Diversity (pp. 3-21). Nueva York: Routledge. y Nelson-Barber, S. (2001). On the Cultural Validity of Science Assessments. Journal of Research in Science Teaching, 38(5), pp. 553-573. y Trumbull, E. (2003). Examining Language in Context: The Need for New Research and Practice Paradigms in the Testing of English-Language Learners. Educational Researcher, 32(2), pp. 3-13. Stanley, J.C. (1971). Reliability. En Thorndike, R.L. (ed.). Educational Measurement (pp. 356-442). Washington: American Council on Education. Thorndike, R.L. (1951). Reliability. En Lindquist, E.F. (ed.). Educational Measurement (pp. 560-620). Washington: American Council on Education.

Referencias bibliográficas

171

Tiemann, P. W., y Markle, S. M. (1990). Analyzing Instructional Content: A Guide to Instruction and Evaluation. Seattle: Morningside Press. Tristán, L.A., y Vidal, R. (2007). Linear Model to Assess the Scale’s Validity of a Test. Ponencia en la confe-

Las pruebas ENLACE para educación básica

rencia anual de la AERA , Chicago. Disponible en: ERIC: ED501232. Viveros, M.J., Contreras, L.A., y Caso, J. (2013). Development and Preliminary Evaluation of an Academic Density Index, as a Quantitative Indicator to Determine the Relative Importance of Curricular Contents. 26th International Congress for School Effectiveness and Improvement, Santiago, Chile. Welner, K. (2013). Consequential Validity and the Transformation of Tests from Measurement Tools to Policy Tools. Teachers College Record, 115(9). Wright, B.D., y Stone, M.H. (2004). Making Measures. Chicago: The Phaneron Press, pp. 35-39.

172

Anexos 1. Criterios y subcriterios de evaluación 2. Microanálisis de reactivos de ENLACE de Español 3. Microanálisis de reactivos de ENLACE de Matemáticas

Anexo 1. Criterios y subcriterios de evaluación SOBRE LA ALINEACIÓN A LOS REFERENTES Análisis del currículo cuyo dominio se evalúa 1. Se cuenta con un documento que revisa la teoría del contenido curricular y es el marco teórico que orienta el desarrollo de la prueba. tt El documento incluye un análisis de las áreas del currículo que evaluará la prueba, que precise los subdominios y contenidos, así como competencias y niveles de demanda cognitiva que se deberán cubrir.

Alineación de la prueba con el currículo 2. Se presentan evidencias de cómo se definieron las especificaciones de la prueba en términos de objetivos, competencias u otro referente curricular. tt Se presenta estructura del dominio curricular completo del que se muestrea el contenido de la prueba, y la estructura del dominio curricular evaluado. 3. Se explica el procedimiento usado para determinar la importancia relativa de los contenidos que se decidió evaluar, o se incluye un análisis de las unidades del dominio curricular y su densidad diferencial. tt Se justifican técnicamente ajustes a la ponderación de ítems y subescalas. tt Se justifica metodológicamente tamaño de la prueba y sus partes (número de ítems) cumpliendo ponderación indicada en tablas de especificaciones. Si se maneja justificación administrativa esta se debe definir claramente. 4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios y el dominio curricular definidos. tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de la representación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular completo. 5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido. tt Se utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de los ítems, en relación con lo establecido en el currículo. tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad cognitiva real corresponda a la esperada.

Anexo técnico

173

Especificación, generación y escritura de ítems

Las pruebas ENLACE para educación básica

6. Existe un manual o guía de redacción o diseño de reactivos, en el que se especifican y justifican los procedimientos para formularlos. El manual: tt Describe y da ejemplos de todos los tipos de reactivo que tendrá la prueba, indicando cómo clasificarlos y justificarlos, con referencia a la relevancia de las respuestas para el dominio pretendido. tt Usa tablas o modelos de especificación precisos para homogeneizar el diseño de los tipos de ítems, y ofrece un formato o documento donde los diseñadores de reactivos hagan la captura y la modificación. tt Fue desarrollado especialmente para la prueba con sus particularidades; no es aceptable un manual genérico o tomado de otro sistema de evaluación. 7. Los ítems son diseñados por un comité seleccionado teniendo en cuenta la especialización académica, laboral y su representatividad respecto a la diversidad del país, y estuvo coordinado por una persona calificada. tt El comité fue formado específicamente para realizar su labor, considerando todos los elementos característicos del tipo de prueba a diseñar. tt La capacitación del comité incluye procesos metodológicos y referencias a taxonomías o sistemas de clasificación cognitiva para especificar dominio.

Control de la calidad de los ítems 8. Existe un manual o guía para el análisis de reactivos que señala los criterios de aceptación, revisión y modificación. tt Se presentan estructura y funciones representadas en el comité evaluador. tt El manual describe procedimientos/criterios para revisar ítems por jueceo. 9. Hay un comité de revisión calificado para aplicar lo que define el manual. tt Se utilizaron criterios de selección de jueces con un perfil académico y laboral preciso y con representatividad de la diversidad del país. tt El comité de revisión está formado por jueces diferentes al del de escritura. tt Se detalla el procedimiento que se siguió para capacitar a los evaluadores 10. El sistema de revisión lógica de cada ítem incluye análisis de: tt Calidad técnica: claridad en la formulación, adecuación al marco de prueba tt Congruencia ítem-contenido o ítem-objetivo (subdominio) tt Posibles fuentes de sesgo de cada reactivo: género, diversidad cultural… tt Concordancia de juicio para la selección de reactivos o procedimientos para estimar la confiabilidad de los juicios de los evaluadores 11. Se cuida la alineación de la prueba en general. tt Se verifica que contenido de pruebas corresponda al dominio curricular en todos los aspectos y niveles de demanda cognitiva planeados. tt Se cuida la alineación de ítems y prueba con el currículo, los estándares de interpretación y, de ser posible, con la enseñanza y la evaluación en aula. tt Se dispone de una metodología para demostrar la validez de contenido (cualitativa y cuantitativa) de la prueba. tt Se muestran evidencias para fundamentar la validez de contenido.

174

A SPECTOS PSICOMÉTRICOS Calidad de las pruebas 1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran usualmente en la medida en que sean aplicables. tt Se describe el procedimiento seguido para el análisis de validez de criterio, al menos en una de sus formas (predictiva, concurrente, discriminante, etc.) y se reportan los valores obtenidos en los estudios de validez de criterio. tt Hay evidencia documental del análisis de validez de escala y su pertinencia en relación con el constructo y el modelo del perfil a evaluar. tt Se presenta documentación que muestra cómo se realizó el proceso para analizar la validez de constructo y se presentan los resultados. 2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar las pruebas, definiendo equivalencia y periodicidad. tt Se indica el procedimiento seguido para construir las pruebas a partir de las especificaciones y del banco de ítems. tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en el tiempo o según sedes o localidades. tt Se cuenta con metodología para hacer versiones equivalentes y se reportan los valores de diseño y experimentales que lo demuestren. No es aceptable reportar resultados sin evidencias de equivalencia entre versiones o formas. tt La periodicidad de aplicación se justifica con criterios teórico-metodológicos o logísticos sustantivos, distinguiéndolos de criterios políticos o de opinión. tt Se especifica y justifica el marco metodológico que integra en forma coherente los procesos y métodos que guían el desarrollo de la prueba. tt Se especifica y justifica el modelo psicométrico usado. tt Hay manuales técnicos que orientan de manera detallada todos los procesos involucrados en el desarrollo de la prueba. 3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para el análisis psicométrico. tt Se presentan los procedimientos psicométricos utilizados para determinar sesgo, funcionamiento diferencial e impacto adverso de la prueba. tt Se describen los análisis efectuados para detectar influencias de factores diversos en la calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la ansiedad, etc. 4. Se ofrece información sobre la confiabilidad de las pruebas. tt Se describen los procedimientos usados para calcular la confiabilidad de las subescalas y versiones de la prueba. En particular se reportan resultados del cálculo de consistencia interna de la prueba y sus subescalas. tt Se dispone de resultados de correlación con aplicaciones repetidas. tt Hay un reporte con valores de separación del modelo logístico empleado. tt Se reporta la metodología para el cálculo del error de diseño de la prueba y sus subescalas y se reportan los resultados obtenidos en las aplicaciones. tt Se presenta la metodología usada para análisis de funcionamiento diferencial y de sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de estudios hechos para determinar posibles sesgos.

Anexo técnico

175

Calidad de ítems y bancos de reactivos

Las pruebas ENLACE para educación básica

5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el cuidado de su calidad. tt Se cuenta con un documento que describe el modelo de calibración de reactivos y los criterios para su aceptación, revisión y modificación. tt Se explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificultad, discriminación, ajuste [fit], distractores, dimensiones, etc.) 6. Se ofrecen evidencias sobre la calidad de los bancos de ítems. tt Hay normativa para revisar, corregir y desechar reactivos en función de los resultados de la calibración, considerando varios parámetros y evidencias. tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o que haya reactivos sin calibración. tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el banco o en las versiones, forma de almacenamiento en medio informático o físico y forma de actualización para uso posterior.

Calificación y niveles de desempeño 7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que responden las pruebas. tt Está disponible el documento que explica la forma en que se asignó calificación a estudiantes (normativa, criterial u otra). tt Se cuenta con la explicación del diseño de la escala de la prueba y la forma de calcular los puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección por azar, entre otros posibles criterios. tt Se explica el procedimiento para obtener la calificación global como combinación de diversos instrumentos o partes de la prueba. No es aceptable la asignación global como promedio de promedios. 8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación de resultados de las pruebas. tt Existe el marco teórico-metodológico basado en currículo que justifica la organización en niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con el procedimiento de asignación del valor del punto de corte en la escala. tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para determinar los niveles de desempeño o estándares. tt Los estándares desarrollados a partir de comités de jueces, cuentan con el análisis del dominio curricular y/o tienen en cuenta consecuencias empíricas de la identificación de puntajes de corte. tt Los puntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se demuestra experimentalmente su ubicación y se reporta el intervalo de confianza correspondiente. tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan bien en relación a contenido de prueba.

176

tt Se

cuenta con la metodología y evidencia del proceso realizado para describir el significado de los niveles de desempeño o del conjunto de competencias por nivel en términos de los puntos de corte. tt Se tiene el documento que detalla los desempeños por nivel para las competencias y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los resultados de las pruebas. tt Los integrantes de los comités encargados de definir los niveles de desempeño son seleccionados por sus perfiles académicos y/o laborales y por su representatividad dentro de la diversidad cultural del país; dichos integrantes pasan por un proceso de capacitación orientado al manejo de la metodología a utilizar.

ATENCIÓN A LA DIVERSIDAD 1. El marco conceptual de la prueba toma en cuenta cómo la efectividad en el aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia sociocultural del estudiante y su familiaridad con la lengua y la variedad dialectal en que se administran las pruebas. 2. Como parte del desarrollo de la prueba, se establecen las características de la población objetivo, que consideran la diversidad cultural y lingüística del país y los múltiples contextos y escenarios culturales y ambientales. 3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideración la diversidad, cultural, lingüística y socioeconómica del estudiantado mexicano. 4. Los documentos que definen tipos y formatos de ítems dan lineamientos para asegurar que la información gráfica y contextual sea familiar para la mayoría del estudiantado y refleje amplia variedad de contextos culturales. 5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en contenido incluyen a profesionales con especialidades en el área de cultura (antropólogos, lingüistas) y maestros de minorías culturales y lingüísticas y de escuelas rurales y de nivel socioeconómico bajo. 6. Las muestras de estudiantes con que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeconómicas del país. 7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si estudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan de igual manera el contenido de muestras representativas de los ítems de la prueba. 8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural, lingüístico y socioeconómico en muestras representativas de los ítems de la prueba. 9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel socioeconómico bajo y de zonas rurales. 10. Se efectúan análisis de generalizabilidad para determinar la solidez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y nivel socioeconómico. 11. Los tiempos y calendarios de las actividades que tienen como objetivo tomar en consideración la diversidad cultural, lingüística y socio-económica son razonables y factibles.

Anexo técnico

177

Las pruebas ENLACE para educación básica

12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en la información obtenida con la validación cognitivo-cultural, la revisión, los análisis de sesgo y los estudios de generalizabilidad.

APLICACIONES Selección de muestra 1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral. 2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos se definirán con base en argumentos teóricos defendibles. 3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planificó. tt En aplicaciones muestrales se precisan pasos para seleccionar la muestra, si se manejarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar escuelas de reemplazo si hay, y porcentajes aceptables de exclusiones y no respuesta. tt En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace en ese caso. 4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes aceptables. tt Se documentan en detalle los pasos para la selección de la muestra. tt Hay una verificación de la muestra por una instancia externa. tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.

Planeación de las aplicaciones 5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales que aseguren comparabilidad de los datos. tt Hay manuales de aplicación, probados en campo, que precisen actividades a desarrollar por cada participante; se describen las variaciones aceptables. tt Hay un cronograma detallado de todos los pasos del proceso. tt Se identifica a personal de las escuelas que tendrán que ver con la aplicación (directores, maestros) para contar con su cooperación. tt Se fijan requisitos de confidencialidad-seguridad de material y respuestas. tt Se precisa la forma en que deberán documentarse todos los pasos de la aplicación y las incidencias que se puedan presentar. tt Hay procedimientos de aseguramiento de la calidad de la aplicación.

Selección y capacitación del personal de aplicación 6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolección de datos, en todos los niveles. tt Hay criterios para reclutar y entrenar aplicadores y apoyos. tt Se recluta y capacita a suficiente personal de reemplazo. 178

tt La

capacitación incluye oportunidad de practicar con los instrumentos. formación de capacitadores y/o el entrenamiento del personal que asegurará la calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma que se asegure su adecuado funcionamiento. tt Se llevan registros de las sesiones de entrenamiento de aplicadores. tt Se monitorean las actividades en campo por personal de la instancia central y/o externo, y se registran problemas detectados. tt Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo. tt La

Minimización de carga, motivación, no respuesta y fraude 7. Se fijan límites realistas de la carga de responder pruebas y cuestionarios de contexto para que no sea excesiva tomando en cuenta los sujetos. tt Se utilizan los resultados de la aplicación piloto para revisar que los estimados de carga sean realistas y aceptables. tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscando minimizar la carga para los sujetos. tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden obtener de otras fuentes. tt Se agenda la aplicación en horarios convenientes para los sujetos. 8. Se busca motivar a sujetos para que no respondan preguntas a la ligera. tt Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del estudio y cómo se utilizarán sus datos. 9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder a la prueba y se entrena al personal de aplicación para ello. 10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude y se entrena al personal de aplicación para seguirlos.

Procedimientos de control de calidad en las aplicaciones 11. Se manejan procedimientos para asegurar la calidad de las aplicaciones. tt Se recluta y entrena a monitores que lleven a cabo actividades de control de calidad, observando la recolección de datos en una muestra de sitios. tt Si no es viable se hacen entrevistas presenciales o por teléfono de control de calidad con aplicadores y demás personal involucrado en la aplicación. tt Se hace revisión de control de calidad en muestra aleatoria de los datos recolectados para asegurar llenado completo y correcto. tt Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de las actividades y para identificar y corregir causas de problemas.

Preparación del procesamiento de los datos 12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según normas internacionales: cómo introducir los datos; asignar identificadores a alumnosmaestros-escuelas; variables a incluir, códigos válidos, de datos faltantes o respuestas no aplicables; formato de datos, estructura de archivos, limpieza, entre otros. Anexo técnico

179

Las pruebas ENLACE para educación básica

13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos aceptados y que comprende la importancia de recolectar y capturar la información con el cuidado necesario para que los análisis posteriores se hagan sobre información de la mejor calidad posible. 14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicación. Se asegura que: tt La estructura de los datos se apegue a la de los instrumentos. tt Los datos tengan suficientes redundancias para permitir control de calidad. tt Las bases tengan identificadores únicos consistentes para que alumnos y escuelas y, en su caso, maestros o directores, puedan relacionarse. tt Se lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar que se cumplan los puntos anteriores. tt Se documenten todas las actividades de preparación de datos.

Procesamiento y verificación de los datos 15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del procesamiento y verificación de los datos son confiables. tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemática para garantizar la confiabilidad del proceso. tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que se cumplan los estándares en todos los sitios. tt Se revisa que estructura de bases se apegue a la acordada, las variables estén en rangos válidos y los identificadores sean únicos e íntegros. tt Se contrastan archivos de datos con instrumentos y cuestionarios. tt Se calculan estadísticas analíticas para cada ítem. tt Se calculan estadísticas descriptivas para todas las variables para revisar que no haya valores extremos o faltantes; si hay se reportan para revisión. tt Se documentan todos los pasos del proceso.

Notificación de irregularidades 16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser aprobada y documentada.

USOS Y CONSECUENCIAS Soporte de interpretaciones, usos y consecuencias previstas 1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico. 2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba. 180

Acceso equitativo y capacidad de interpretación y uso 3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes involucradas sin discriminación. 4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación y utilización de los resultados.

Comunicación que facilite interpretación de resultados 5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación deseable (o correcta) de los resultados. 6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general. 7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil y características de la población de referencia. 8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigma.

Interpretaciones, usos y consecuencias imprevistas 9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables). 10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/ positivas, o inadecuadas/negativas). 11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar acciones correctivas.

Anexo 2. Microanálisis de reactivos de Español ESPAÑOL TERCERO DE PRIMARIA: EJEMPLO 1 (P.12) Este primer ejemplo se incluye no solo como apoyo para los docentes de tercer grado de primaria para la signatura de Español. Es también el ejemplo que se incluye en todos los cuadernillos –independientemente del grado escolar del que se trate– para ilustrar la manera en que se presentarán cada uno de los reactivos de entrenamiento. De este ejemplo queremos destacar la brecha entre el porcentaje de respuestas positivas obtenido por los estudiantes de escuelas particulares y generales frente a las de los estudiantes de primarias indígenas y de CONAFE. En particular, si nos remitimos al análisis la respuesta del inciso: Anexo técnico

181

A) Que la lluvia que descargan las nubes hace crecer el algodón

Las pruebas ENLACE para educación básica

Muchos niños pueden confundir el sentido del enunciado que, en este caso se presentó para explorar la capacidad de los estudiantes para comprender metáforas por analogía, en contraste con respuestas mucho más cercanas a su experiencia cotidiana. Los niños que asisten a las primarias indígenas y CONAFE viven en el medio rural, en 3que las nubes se asocian con la producción agrícola. Es importante recordar que el sentido metafórico en el lenguaje se encuentra fuertemente condicionado no solo por el contexto cultural, sino también por la experiencia cotidiana. A partir de esto podríamos inferir que para los niños que habitan en el medio rural es mucho más factible una analogía sobre las relaciones entre palabras y el medio natural que una analogía entre dos sustantivos a partir de sus referentes por su apariencia.

ESPAÑOL TERCERO DE PRIMARIA: EJEMPLO 2 (P. 36) Los niños de todos los tipos de primarias se encuentran más familiarizados con el concepto de cuento que con el de texto expositivo, mismo que no es utilizado como una categoría en las clasificaciones sobre tipos de literatura. A esto es importante añadir que muchos de los cuentos que existen en las bibliotecas de las aulas cuentan con protagonistas animales, por lo que no resulta extraño que la mayor parte de los estudiantes de tercer grado hayan respondido con una respuesta diferente a la esperada por quienes diseñaron este reactivo.

182

ESPAÑOL CUARTO DE PRIMARIA: EJEMPLO 1 (PP. 25-26) Este reactivo muestra una limitada exploración en relación con lo que se puede considerar pertinente culturalmente. En primer lugar, en el propósito se expresa que se trata de una narración indígena mexicana, pero no se aclara su origen (debemos recordar que en México existen, al menos 68 agrupaciones etnolingüísticas según informan el I NEGI y el I NALI). En segundo lugar, la respuesta esperada por quienes diseñaron el reactivo es la que obtiene el porcentaje más bajo de respuestas positivas, especialmente entre los niños de primarias indígenas. Si el objetivo de este reactivo era incluir información que considere la diversidad cultural existente en nuestro país, sería esperable que los niños que asisten a primarias indígenas hubieran respondido correctamente. Sin embargo, para la mayoría de los estudiantes, la opción de respuesta que se proponía como la correcta resultó poco clara. Sería conveniente contrastar el contenido del libro de Español de tercer grado sobre la estructura de una narración con este reactivo. Anexo técnico

183

Las pruebas ENLACE para educación básica

ESPAÑOL CUARTO DE PRIMARIA: EJEMPLO 2 (P. 39) En este ejemplo queremos destacar que los verbos en infinitivo se tratan de formas no activas de dicha clase léxica. Por ese motivo se comportan de manera diferente a los verbos conjugados y no pueden fungir como núcleos de una oración. Por este motivo, a muchos niños se les dificulta usarlos como respuesta a una pregunta, ya que la forma en que se presentan la mayor parte de los verbos en español es en alguna de sus formas activas.

184

ESPAÑOL QUINTO DE PRIMARIA: EJEMPLO 1 (PP. 26) El uso de fábulas y refranes está directamente relacionado con la oralidad y se ha documentado que cada día son menos los niños que son socializados utilizando este tipo de géneros discursivos por la fuerte influencia de los medios electrónicos de comunicación. Por lo tanto, resulta difícil explorar la comprensión de este tipo de recursos lingüísticos tanto por la complejidad de pasarlos de la tradición oral a una prueba escrita, como por el hecho de estar cayendo en desuso (Barriga, 2005). El curriculum implementado puede diferir considerablemente del curriculum oficial. Es posible que los docentes, en su práctica, utilicen con poca frecuencia, en el espacio del aula, fábulas o refranes con fines didácticos.

ESPAÑOL QUINTO DE PRIMARIA: EJEMPLO 2 (P. 32) El uso de expresiones con fines copulativos –como conjunciones, disyunciones y otras formas de nexos– resulta difícil de determinar, pues se trata de expresiones vacías de significado, que requieren de un contexto lingüístico claro para adquirirlo. Este reactivo carece de contexto, por lo que la expresión que se está explorando pudiera coincidir tanto con lo que se responde en el inciso D), como lo que se responde en el inciso C) dependiendo del contexto lingüístico en la cual pudiera aparecer. En consecuencia, se puede argumentar que el reactivo tiene dos posibles opciones correctas.

Anexo técnico

185

ESPAÑOL SEXTO DE PRIMARIA: EJEMPLO 1 (P. 24)

Las pruebas ENLACE para educación básica

Este reactivo no permite evaluar si los estudiantes conocen el concepto de frase adverbial, pues la respuesta se encuentra determinada por el significado de uno de los términos utilizados en la respuesta del inciso D) –el marcador temporal después– y no en la estructura completa de los enunciados. Se requiere ampliar el contexto lingüístico para poder determinar si la respuesta en D) es una frase adverbial.

ESPAÑOL SEXTO DE PRIMARIA: EJEMPLO 2 (P. 35) El uso de paréntesis en un texto es un recurso estilístico que no se encuentra claramente regulado en el uso del español escrito, por lo que el reactivo podría tener, en realidad, más de una respuesta correcta. Además, la ausencia del uso de comillas o cursivas dificulta le interpretación del material citado textualmente.

186

ESPAÑOL PRIMERO DE SECUNDARIA: EJEMPLO 1 (PP. 29-30) La selección de un título para cualquier texto es una decisión sumamente arbitraria. En general, se espera que el título guarde una estrecha relación con el contenido del texto, pero también suelen buscarse fórmulas atractivas para el potencial lector a fin de invitar a la lectura. Este reactivo podría llevar por título varias de las opciones que se ofrecen como respuesta. Esta limitación puede ser la explicación de que la opción correcta no haya sido la respuesta más frecuente.

ESPAÑOL PRIMERO DE SECUNDARIA: EJEMPLO 1 (P. 54) Uno de los criterios para la selección lingüística se establece por la frecuencia de uso tanto de los reactivos léxicos como de los enunciados. En el siguiente ejemplo, de acuerdo con la frecuencia de uso de algunos de los términos, tanto la respuesta incluida en el inciso B), como la del inciso C) son sintáctica y semánticamente correctas. La primera utiliza términos de uso más frecuente en el español de México, mientras la segunda recurre a un enunciado con un registro mucho más formal. Este fenómeno resulta claro cuando vemos el patrón de respuestas de los estudiantes de primero de secundaria.

Anexo técnico

187

Las pruebas ENLACE para educación básica

ESPAÑOL SEGUNDO DE SECUNDARIA: EJEMPLO 1 (P. 29) Existe más de una respuesta correcta posible a la pregunta del reactivo. No hay claridad entre el aprendizaje que se supone adquieren los estudiantes en el aula y el conocimiento que se adquiere a partir de la experiencia cotidiana, el cual, se sabe, resulta muy impactante en la manera en que las personas reaccionan ante instrucciones. Aun suponiendo que hay un pasaje de lectura que no se incluyó junto con el reactivo, se podría argumentar que las primeras tres opciones son correctas. Incluso la opción D), en contextos particulares, puede ser una respuesta correcta.

188

ESPAÑOL SEGUNDO DE SECUNDARIA: EJEMPLO 1 (P. 42) Cualquiera de los tipos de compendios informativos enlistados en las opciones es útil para la elaboración de una investigación. En su experiencia en el aula, los estudiantes pueden haber estado expuestos a todos estos tipos de fuentes de consulta. Potencialmente, todas las opciones pueden ser correctas.

Español Tercero de Secundaria (pp. 27) La respuesta que plantea el reactivo como correcta utiliza un verbo (dar) que, en el español de México, es inusual para referirse al intercambio comunicativo, salvo en expresiones como dar la palabra que se refieren a cambios de turnos en una conversación. Las leyendas, como otros tipos de textos no se dan, se puede recopilar, escribir, colectar… incluso producir. Los discursos implican intercambio entre el emisor y el (o los) receptor(es), por lo que una acción que solo incluye un agente resulta inapropiada culturalmente, no solo para los hablantes de lenguas indígenas, sino también para los estudiantes que únicamente conocen el idioma español.

Anexo técnico

189

ESPAÑOL TERCERO DE SECUNDARIA (P. 30)

Las pruebas ENLACE para educación básica

El reactivo contiene más de una respuesta potencialmente correcta. La formulación de la pregunta no incluye la suficiente información contextual para poder determinar si la respuesta correcta es B) o D). Si se tiene en mente un artículo científico como texto científico, B) es una respuesta correcta.

190

Anexo 3. Microanálisis de reactivos de Matemáticas M ATEMÁTICAS TERCERO DE PRIMARIA: EJEMPLO 1 (P. 72) Existe en la literatura sobe la construcción de las relaciones espaciales evidencia de que muchos niños, especialmente en el medio rural, conocen los puntos cardinales antes de ingresar a la escuela primaria (Rojas 2006), pero lo hacen en contextos tridimensionales. Trasladar ese tipo de conocimiento a un plano bidimensional resulta riesgoso, pues puede mezclar información sobre la construcción de las nociones de espacio según referencias absolutas con otro tipo de conocimiento espacial como los conceptos arriba-abajo, derecha-izquierda, los cuales son de naturaleza egocéntrica. Evidentemente, esta falta de concordancia, que potencialmente pone en desventaja a poblaciones rurales, no refleja un problema del reactivo necesariamente, sino la necesidad de enriquecer los contenidos curriculares.

M ATEMÁTICAS TERCERO DE PRIMARIA: EJEMPLO 2 (P. 77) La abundancia de elementos numéricos puede hacer que las instrucciones sean difíciles de decodificar para estudiantes de tercero de primaria. Podría haberse simplificado la formulación si los equipos hubieran recibido su nombre a partir de otro elemento clasificatorio como las letras del alfabeto y así evitar incluir numerales tanto en la denominación de los equipos como en las operaciones aritméticas requeridas para solucionar el reactivo. Nótese la forma gramatical en la lista en la base del reactivo (e.g., “El equipo 1. Era de 4 niños y cada uno hizo 5 flores.”) que es poco frecuente en el español usado en México.

Anexo técnico

191

Las pruebas ENLACE para educación básica

MATEMÁTICAS CUARTO DE PRIMARIA: EJEMPLO 1 (P. 65) La notación utilizada en este reactivo no es muy usual en México. No solo se omite el signo $, frecuentemente usado tanto en la escuela como fuera de ella. También se omite la coma, utilizada en México para separar cifras (e.g., $17,448).

M ATEMÁTICAS CUARTO DE PRIMARIA: EJEMPLO 2 (P. 65) Este reactivo presenta problemas de tipo estilístico y gráfico –tres de los cuadros están coloreados en un tono de gris más oscuro que el resto. La redacción del texto es poco accesible y posiblemente refleja la influencia del inglés (colocando azulejo a su pared). La formulación de la pregunta está hecha en un estilo de español poco frecuente en México, pues no solemos referirnos a fracciones de pared, sino a pedazos o partes. 192

M ATEMÁTICAS QUINTO DE PRIMARIA: EJEMPLO 1 (P. 67) Este reactivo muestra inconsistencia con el uso de notación numérica. En alguno de los ejemplos anteriores observamos que se dejaba un espacio para separar a las unidades y decenas de millar del resto de las cifras consignadas. En cambio, en este reactivo no se utilizan ni las comas ni los espacios para diferenciar las unidades de millar. Nótese también el uso indebido de comas para separar oraciones, lo que dificulta la interpretación del reactivo.

Anexo técnico

193

M ATEMÁTICAS QUINTO DE PRIMARIA: EJEMPLO 2 (P. 80)

Las pruebas ENLACE para educación básica

En el español de México es más frecuente utilizar la expresión relación que un término como razón para referirse a fracciones en las que se usa como unidad de medida a personas. La estructura gramatical de la primera oración es innecesariamente compleja.

M ATEMÁTICAS SEXTO DE PRIMARIA: EJEMPLO 1 (P. 70) Este es probablemente uno de los reactivos que capturó nuestra atención con mayor preocupación. A partir de la información y las instrucciones que se proporcionan, ninguna de las cuatro opciones de este reactivo es correcta. De acuerdo con el significado canónico de la expresión ¿cuántos alumnos tienen entre 12 y 14 años? la respuesta correcta debiera ser la suma de alumnos que de 12, 13 y 14 años de edad (440). Aun cuando (indebidamente) la interpretación de la expresión fuera alumnos de 13 años de edad, tampoco hay una opción que represente el número 135.

194

M ATEMÁTICAS SEXTO DE PRIMARIA: EJEMPLO 2 (P. 74) En México no se utiliza la notación dm3. Muchos estudiantes de sexto grado pueden no haber estado expuestos a medidas de volumen más allá de los contenidos curriculares de Matemáticas sexto grado.

Anexo técnico

195

M ATEMÁTICAS PRIMERO DE SECUNDARIA: EJEMPLO 1 (P. 93)

Las pruebas ENLACE para educación básica

Además que el reactivo no tiene una contextualización adecuada, faltan palabras en la oración de la base del reactivo. Es imposible que el estudiante pueda generar una respuesta correcta.

M ATEMÁTICAS PRIMERO DE SECUNDARIA: EJEMPLO 2 (P. 110) Un eje de simetría es una línea que divide a un cuerpo en dos partes con conjuntos de puntos equidistantes. Por definición, eje de simetría se refiere a un cuerpo o polígono, no a dos. Sin embargo, el reactivo presenta grupos de dos figuras repetidas. En la manera en que está planteado, el reactivo no da una opción correcta (ninguna de las ocho figuras tiene un eje de simetría) ¿Cuál opción muestra aquellas (figuras) que son simétricas? sería la forma adecuada de plantear el problema.

196

MATEMÁTICAS SEGUNDO DE SECUNDARIA: EJEMPLO 1 (P. 80) La ilustración utilizada en este reactivo es confusa y la falta de claridad impide distinguir la figura del fondo. Las letras empleadas para denotar las líneas se confunden con las tonalidades de la figura. Habilidades cognitivas y perceptuales, irrelevantes al constructo medido, pueden afectar negativamente el desempeño de los estudiantes.

M ATEMÁTICAS SEGUNDO DE SECUNDARIA: EJEMPLO 2 (P. 86-87) Aunque este reactivo pretende evaluar el conocimiento de la geometría, el desempeño de los estudiantes puede ser afectado por habilidades cognoscitivas o perceptuales o por prácticas culturales irrelevantes al constructo que se pretende medir. Al parecer, el cuadro de línea punteada representa la superficie de la cara del cubo superior derecho de la figura tridimensional. Tal representación no es clara, posiblemente por no ofrecer una proyección adecuada. La presencia del espejo dificulta aún más la interpretación de la imagen, pues éste se traslapa con el cuadro punteado. Si el óvalo es un espejo, ¿por qué es transparente y permite ver la línea punteada? Finalmente, no es claro si la flecha y la acotación “90º” indican rotación, dirección o detalle. La explicación que se proporciona debajo de la figura no ayuda mucho a que el lector interprete la representación gráfica.

Anexo técnico

197

Las pruebas ENLACE para educación básica

M ATEMÁTICAS TERCERO DE SECUNDARIA: EJEMPLO 1 (P. 93) La base del reactivo no especifica la posición del triángulo con respecto al círculo. El alumno tiene que suponer que el ángulo alfa se origina en el centro del círculo. Debido a la ausencia de esa especificación, la opción correcta también podría ser D). Se usa la segunda persona del singular del registro formal (forma usted): Observe el siguiente círculo. Aunque es difícil que el desempeño del estudiante sea afectado por esta forma poco común, ésta refleja que el estilo de redacción de los reactivos es inconsistente, pues en el resto de los reactivos se usa la forma coloquial tú. 198

M ATEMÁTICAS TERCERO DE SECUNDARIA: EJEMPLO 2 (P. 94) La ilustración tiene un estilo representativo inconsistente con el resto de los reactivos (sombreado, escala de tono gris, recuadro). No es claro por qué, si emiten rayos laser (que no se expanden), las lámparas hacen que se forme un círculo. El planteamiento del contexto geométrico como tridimensional es innecesario, puesto que el problema involucra un plano y el cálculo de la mitad de la medida de un ángulo a partir de las medidas de los catetos y la hipotenusa. Nótese que, además de los problemas mencionados, la redacción es pobre y confusa.

M ATEMÁTICAS TERCERO DE SECUNDARIA: EJEMPLO 3 (P. 115) Ni la base del reactivo ni las leyendas de las ordenadas especifican que el número de kilos representados es acumulativo. Por lo tanto, ninguna de las opciones es correcta. La opción correcta debiera representar una línea horizontal a la altura de 35 kilos, o bien la leyenda de la ordenada en todas las gráficas debiera decir: “kilos de pescado acumulados” Además de los problemas mencionados, las gráficas son muy pequeñas y difíciles de segmentar para poder responder la pregunta.

Anexo técnico

199

200

Las pruebas ENLACE para educación básica

L AS PRUEBAS ENLACE PARA EDUCACIÓN BÁSICA UNA EVALUACIÓN PARA EL I NSTITUTO N ACIONAL PARA LA EVALUACIÓN DE LA E DUCACIÓN

En su formación se utilizaron las familias tipográficas: Frutiger Lt Std y Museo.

Las pruebas ENLACE para educación básica

Recommend Stories

Story Transcript

Get in touch

Social