Las pruebas ENLACE para educación media superior

ANEXO Las pruebas ENLACE para educación media superior Una evaluación para el Instituto Nacional para la Evaluación de la Educación Las pruebas ENL

Author: Alejandra Montoya Rojo

7 downloads 41 Views 2MB Size

Report

DOWNLOAD PDF

Recommend Stories

NORMAS PARTICULARES PARA LAS INSTALACIONES DE ENLACE

NORMAS PARTICULARES PARA LAS INSTALACIONES DE ENLACE 14 de marzo de 2008 Instalaciones de Enlace UNELCO ENDESA (14/03/2008) INDICE 1. INSTALACION

SECRETARÍA DE EDUCACIÓN SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR Y SUPERIOR DIRECCIÓN GENERAL DE EDUCACIÓN MEDIA SUPERIOR

SECRETARÍA DE EDUCACIÓN SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR Y SUPERIOR DIRECCIÓN GENERAL DE EDUCACIÓN MEDIA SUPERIOR Departamento de Bachillera

SECRETARÍA DE EDUCACIÓN SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR Y SUPERIOR DIRECCIÓN GENERAL DE EDUCACIÓN MEDIA SUPERIOR

SECRETARÍA DE EDUCACIÓN SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR Y SUPERIOR DIRECCIÓN GENERAL DE EDUCACIÓN MEDIA SUPERIOR Departamento de Bachillera

SECRETARÍA DE EDUCACIÓN SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR Y SUPERIOR DIRECCIÓN GENERAL DE EDUCACIÓN MEDIA SUPERIOR

SECRETARÍA DE EDUCACIÓN SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR Y SUPERIOR DIRECCIÓN GENERAL DE EDUCACIÓN MEDIA SUPERIOR Departamento de Bachillera

SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR

SUBSECRETARÍA DE EDUCACIÓN MEDIA SUPERIOR CRITERIOS Y REQUISITOS PARA LA CREACIÓN O CONVERSIÓN DE INSTITUCIONES DE EDUCACIÓN MEDIA SUPERIOR Y FORMACIÓ

DOCUMENTOS ORIENTATIVOS PARA LAS PRUEBAS DE ACCESO

INSTITUTO SUPERIOR PEDAGÓGICO Félix Varela FACULTAD DE ENSEÑANZA MEDIA SUPERIOR

INSTITUTO SUPERIOR PEDAGÓGICO Félix Varela FACULTAD DE ENSEÑANZA MEDIA SUPERIOR Sugerencias para el trabajo con la videoclase de Física en el Nivel M

TORNEO DEPORTIVO CAMINO OCELOTES CATEGORIA MEDIA SUPERIOR

Novedades de las pruebas

PRODUCTOS PARA PRUEBAS BIOQUÍMICAS Y PRUEBAS PARA DETECCIÓN E IDENTIFICACIÓN

PRODUCTOS PARA PRUEBAS BIOQUÍMICAS Y PRUEBAS PARA DETECCIÓN E IDENTIFICACIÓN 75 PRODUCTOS PARA PRUEBAS BIOQUÍMICAS Y PRUEBAS PARA DETECCIÓN E IDENTI

Story Transcript

ANEXO

Las pruebas ENLACE para educación media superior Una evaluación para el Instituto Nacional para la Evaluación de la Educación

Las pruebas ENLACE para educación media superior Una evaluación para el Instituto Nacional para la Evaluación de la Educación

Felipe Martínez Rizo Coordinador

Luis Ángel Contreras Niño • Eugenio González Jesús M. Jornet Meliá • Ma. Regina Martínez Casas J. Felipe Martínez Fernández • María Guadalupe Pérez Martínez Francisco E. Reyes Jiménez • Lucrecia Santibáñez Guillermo Solano Flores • Marianne Sandy Taut Agustín Tristán López Universidad Autónoma de Aguascalientes

ANEXO Cuaderno de investigación

40

Las pruebas ENLACE para educación media superior Una evaluación para el Instituto Nacional para la Evaluación de la Educación Primera edición, 2015 ISBN : En trámite

Coordinador Felipe Martínez Rizo Luis Ángel Contreras Niño, Eugenio González, Jesús M. Jornet Meliá, Ma. Regina Martínez Casas, J. Felipe Martínez Fernández, María Guadalupe Pérez Martínez, Francisco E. Reyes Jiménez, Lucrecia Santibáñez, Guillermo Solano Flores, Marianne Sandy Taut, Agustín Tristán López

D.R. © Instituto Nacional para la Evaluación de la Educación

Barranca del Muerto 341, Col. San José Insurgentes, Del. Benito Juárez; C.P. 03900 México, D.F. Editora María Norma Orduña Chávez Corrección de estilo Hugo Soto de la Vega Formación Heidi Puon Sánchez Impreso y hecho en México. Distribución gratuita. Prohibida su venta. Consulte el catálogo de publicaciones en línea: www.inee.edu.mx La elaboración de esta publicación estuvo a cargo de la Dirección General de Difusión y Fomento de la Cultura de la Evaluación. El contenido, la presentación, así como la disposición en conjunto y de cada página de esta obra son propiedad del INEE . Se autoriza su reproducción parcial o total por cualquier sistema mecánico o electrónico para fines no comerciales y citando la fuente de la siguiente manera: Martínez Rizo, F. (Coord.) (2015). Las pruebas ENLACE para educación media superior. Una evaluación para el Instituto Nacional para la Evaluación de la Educación. México: INEE .

Índice

Presentación ................................................................................................................... 7 Introducción ................................................................................................................. 11 Alineación a los referentes .......................................................................................... Aspectos técnicos ......................................................................................................... Atención a la diversidad .............................................................................................. Aplicaciones ................................................................................................................. Usos y consecuencias ...................................................................................................

14 45 63 78 99

Conclusiones y recomendaciones ............................................................................. 136 Referencias bibliográficas.......................................................................................... 147 Anexos 1. Criterios y subcriterios de evaluación ......................................................................................... 1149 2. Informe de estudios especiales de comités de expertos y entrevistas cognitivas sobre reactivos de enlace-ms 3. Microanálisis de una muestra de reactivos de enlace-ms 4. Información de entidades sobre aplicaciones 5. Resultados de encuesta de autoridades estatales sobre usos y consecuencias 6. Material de entrevistas con autoridades estatales y federales sobre usos y consecuencias 7. Revisión de prensa

5

DIRECTORIO JUNTA DE GOBIERNO Sylvia Irene Schmelkes del Valle CONSEJERA PRESIDENTA

Eduardo Backhoff Escudero CONSEJERO

Gilberto Ramón Guevara Niebla CONSEJERO

Margarita María Zorrilla Fierro CONSEJERA

Teresa Bracho González CONSEJERA

Presentación

En diciembre de 2009 la Universidad Autónoma de Aguascalientes (UAA ) y el Instituto Nacional para la Evaluación de la Educación (INEE) firmaron un convenio, en cuyo marco el INEE encomendó a la UAA la realización del Estudio de validación de las pruebas ENLACE y EXCALE de educación básica, para lo cual el 1 de octubre de 2013 se firmó un Anexo de Ejecución del convenio mencionado. Dicho Anexo de Ejecución precisa que el estudio analizará varios aspectos de las pruebas ENL ACE y E XCALE ,

con base en la documentación que sobre su diseño, aplicación, resultados y la utilización y consecuencias de los mismos aporten la SEP [Secretaría de Educación Pública] y el INEE y, en la medida en que sea necesario, en información adicional proporcionada por personas de la SEP, el INEE y los sistemas educativos de las entidades federativas del país, en relación con aspectos de los que no haya elementos suficientes en la información documental que se recabe. Se añade que el estudio incluirá recomendaciones que tengan en cuenta las mejores prácticas internacionales […] de manera que el desarrollo del sistema nacional de evaluación de México, en lo relativo a educación básica, incluya evaluaciones de aprendizajes en gran escala que, por la calidad de su diseño y aplicación, así como por el uso que se haga de sus resultados, contribuyan en la mayor medida posible al propósito de mejorar la calidad de la educación mexicana. El Anexo precisa que los aspectos que comprenderá el estudio serán: 1. La alineación al currículo de la educación básica de México, revisando el grado en que las pruebas atienden adecuadamente y según la naturaleza de una evaluación en gran escala, los campos formativos, las asignaturas y los niveles de demanda cognitiva considerados en los planes y programas de estudio de la educación básica nacional. 2. Los aspectos técnicos de las pruebas, como la calidad de los reactivos que las integran, la de las versiones de las pruebas, las escalas y modelos psicométricos utilizados, las técnicas de equiparación, entre otros. 3. La forma en que las pruebas atienden las diferencias culturales y lingüísticas que hay entre los estudiantes de un sistema educativo de grandes dimensiones, en un país que se define como multicultural, y las implicaciones de lo anterior. 4. La forma en que se llevan a cabo las aplicaciones de las pruebas, tanto censales como muestrales, y las implicaciones que tienen para la calidad de los resultados. 5. La forma en que se difunden los resultados de las pruebas, los análisis de factores asociados y el uso que se hace de dichos resultados, así como las consecuencias que ha traído consigo su utilización en el sistema educativo. 7

Las pruebas ENLACE para educación media superior

El Anexo de octubre 2013 consideraba cuatro etapas, pero en abril de 2014 el INEE solicitó incluir las pruebas ENLACE de educación media superior (ENLACE - MS en adelante), para lo que en junio se suscribió un Addendum al Anexo, con lo que el trabajo comprende cinco etapas, de las cuales la cuarta corresponde al análisis de ENLACE - MS y la quinta a conclusiones y recomendaciones generales. A diferencia de las pruebas que se refieren a educación básica, las que se aplican a estudiantes de enseñanza media superior no pueden utilizar como referente para su construcción un currículo nacional, dado que no lo hay. Lo que existe es un marco común de competencias que todos los subsistemas que comprende el sistema educativo nacional en este tipo educativo deben atender. Por ello, para el análisis de las pruebas ENLACE - MS , el grupo de especialistas juzgó adecuado llevar a cabo dos actividades —que no se consideraron necesarias en el caso de los otras pruebas—, para explorar el grado en que los ítems evalúan competencias que no se limiten a las más elementales, sino que incluyan algunas que impliquen niveles de demanda cognitiva como los que se espera que alcancen los alumnos de ese tipo educativo: por una parte, la formación de comités de validación conformados por profesores de media superior y otros expertos en las dos áreas que cubren las pruebas de ENLACE - MS (matemáticas y lectura), y por otra, la realización de entrevistas cognitivas con estudiantes del nivel. Las demás actividades fueron similares a las de las etapas anteriores, por lo que se describen sintéticamente como sigue: • Una vez que el grupo de trabajo estuvo de acuerdo en añadir una etapa relativa a ENLACE - MS , y sin esperar a la firma del Addendum al Anexo de Ejecución, Luis Ángel Contreras, con apoyo de Jesús Jornet y Guillermo Solano, aceptó hacerse cargo de la coordinación de las dos tareas especiales a las que se ha hecho referencia. • De inmediato se solicitó a la Dirección General de Evaluación de Políticas (DGEP) de la SEP la información documental disponible sobre las pruebas de ENLACE - MS . • Aprovechando la reunión presencial del 16 y 17 de junio en que se revisó la primera versión del informe sobre E XCALE, se invitó a personal de la DGEP y el Centro Nacional de Evaluación para la Educación Superior (CENEVAL ), buscando ampliar la información documental recibida en un primer momento. • Los comités de validación con profesores y otros expertos tuvieron lugar en Ensenada del 7 al 10 de julio 2014, y las entrevistas cognitivas del 23 al 25 del mismo mes, en la Ciudad de México. En los comités participaron 8 profesores de media superior, 2 especialistas para el área de lectura, y otros tantos para la de matemáticas. Los estudiantes que participaron en las entrevistas cognitivas fueron 18, 9 para cada área. • Personal de la UAA llevó a cabo nuevas entrevistas a funcionarios de seis entidades federativas y de las direcciones generales de la Subsecretaría de Educación Media Superior a cargo de los principales subsistemas federales de ese tipo educativo; asimismo envió cuestionarios en línea a todas las entidades y revisó diarios de circulación nacional. • En julio y agosto de 2014 cada par de especialistas trabajó revisando la documentación sobre ENLACE proporcionada por el CENEVAL , por conducto de la DGEPE . • El 29 de agosto los subgrupos de especialistas hicieron llegar una primera versión del análisis de ENLACE - MS a la coordinación, que integró los avances en un documento que se envió al grupo el 5 de septiembre. 8

• La primera versión del texto integrado se discutió en reunión presencial de todos los miembros del grupo los días 8 y 9 de septiembre. • Los especialistas prepararon luego una segunda versión del análisis de ENLACE - MS , y el 3 de octubre enviaron sus respectivos productos a la coordinación, que elaboró esta versión final integrada del cuarto informe. Como en los casos anteriores, se contemplaba que la entregada en el mes de octubre no fuera la versión definitiva del análisis de las pruebas ENLACE de educación media superior, y que sus conclusiones podrían ser complementadas en el informe final a entregarse en diciembre. Sin embargo en este caso los autores no consideramos necesario hacer modificaciones a la versión anterior, por lo que ésta retoma sin cambios la entregada en el mes de octubre. Reiteramos que nuestros análisis y valoraciones se refieren siempre a nuestro objeto de estudio y de ninguna manera a las numerosas personas involucradas en su desarrollo, su aplicación y el procesamiento de resultados. También señalamos de nuevo que este informe es producto del trabajo colectivo del grupo, si bien cada par de especialistas tuvo una participación principal en el apartado que le correspondía. Los momentos de discusión colectiva permitieron enriquecer las aportaciones de cada persona con la visión del resto, lo que llevó a un grado de consenso considerable, aunque no absoluto. Felipe Martínez Rizo Aguascalientes, diciembre de 2014

Presentación

9

Introducción

Los dos informes anteriores del proyecto incluyeron sendos apartados en los que se precisa la noción de validación, las de confiabilidad y validez, y los criterios de evaluación que se utilizan en el análisis encomendado al grupo. En este tercer informe no consideramos necesario reiterar la presentación de dichas nociones, pero sí los criterios de evaluación utilizados. En el primer informe, a partir de una revisión de la literatura especializada, se llegaba a la propuesta de 72 criterios particulares que serían la base para llevar a cabo el estudio, sin contar tres criterios adicionales de carácter general. De esos criterios 11 se referían a lo que en ese momento se caracterizó como validez de contenido, y en particular a la alineación de las pruebas al currículo; 16 a la validez de constructo, y otros aspectos técnicos de las pruebas; 12 a la validez cultural; 16 tenían que ver con las aplicaciones y sus implicaciones para confiabilidad y validez; y 17 se referían a la validez de usos y consecuencias de las pruebas. A lo largo del trabajo el listado de criterios definido inicialmente se modificó, para quedar en 59 criterios y 102 subcriterios. Por último, al hacerse el análisis de las pruebas ENLACE de educación media superior se hizo un nuevo ajuste, quedando finalmente 58 criterios y 97 subcriterios. Además de ajustar el número de criterios y subcriterios, a partir del cuarto informe se decidió modificar la manera de designar los cinco aspectos a considerar, para lo que inicialmente se utilizaban expresiones que incluían el término validez, con diversas precisiones. Considerando las discusiones entre los especialistas al respecto, y siguiendo el criterio expresado desde 1999 en los estándares de la Asociación Estadounidense de Investigación Educativa, la Asociación Estadounidense de Psicología y el Consejo Nacional de Evaluación en Educación (AERA , APA y NCME , por sus siglas en inglés, respectivamente), el cual se ratificó en la versión más reciente de esos estándares, difundida en agosto de 2014, se decidió finalmente usar una terminología que no implique posturas específicas sobre la noción de validez. La tabla siguiente presenta la distribución de los criterios utilizados en este informe sobre ENLACE de educación media superior, que será la misma que se utilice en el informe final.

Tabla 1 Áreas, criterios y subcriterios de evaluación utilizados Aspecto

Áreas

Criterios

Subcriterios

11

25

8

33

1

Alineación a los referentes

2

Aspectos técnicos

3

Atención a la diversidad

12

—

4

Aplicaciones

16

39

5

Usos y consecuencias

11

—

TOTALES

58

97

11

Las pruebas ENLACE para educación media superior

A continuación puede verse un listado de los 58 criterios utilizados, enunciados en forma sintética; en el anexo 1 se podrá encontrar su formulación in extenso, con los subcriterios correspondientes.

ALINEACIÓN A LOS REFERENTES 1. Teoría de contenido, curricular u otro. 2. Definición de especificaciones. 3. Determinación de la importancia relativa de contenidos. 4. Representatividad de ítems y subescalas frente a subdominios y dominio. 5. Complejidad cognitiva del contenido. 6. Manual de diseño de reactivos. 7. Comité de redacción de ítems. 8. Manual de análisis de reactivos. 9. Comité de revisión de reactivos. 10. Sistema de revisión lógica de ítems. 11. Alineación de la prueba al currículo en general.

A SPECTOS TÉCNICOS 1. Documentación de evidencias de diversos tipos de validez. 2. Procesos para desarrollo de las pruebas, equivalencia y periodicidad. 3. Calibración y análisis psicométrico de las pruebas. 4. Confiabilidad. 5. Análisis psicométrico y calidad de ítems. 6. Calidad de los bancos de ítems. 7. Calificación. 8. Niveles de desempeño e interpretación de resultados.

ATENCIÓN A LA DIVERSIDAD 1. Marco conceptual de la prueba. 2. Especificación de las poblaciones. 3. Estrategia sobre diversidad cultural, lingüística y socioeconómica. 4. Especificación de ítems. 5. Profesionales involucrados en el desarrollo de los ítems. 6. Representación de poblaciones diversas en las muestras para piloto. 7. Validación cognitivo-cultural. 8. Revisión de ítems. 9. Análisis de sesgo. 10. Estudios de generalizabilidad. 11. Tiempos y calendarios. 12. Mecanismos de corrección.

12

APLICACIONES 1. Listado de escuelas actualizado y confiable. 2. Muestras con diseño sólido. 3. Coincidencia universo planeado-real. 4. Coincidencia muestra obtenida muestra planificada. 5. Planificación de aplicaciones. 6. Manuales para personal a cargo de las aplicaciones. 7. Minimización de carga de respuesta. 8. Motivación de los sujetos para responder. 9. Cuidado de no respuesta. 10. Cuidado con copia u otras formas de fraude. 11. Control de calidad de las aplicaciones. 12. Manuales para procesamiento de datos. 13. Personal para manejo de los datos. 14. Cuidado de la calidad de las bases de datos. 14. Lectura, procesamiento y verificación de los datos. 16. Notificación de irregularidades.

USOS Y CONSECUENCIAS 1. Soporte de usos y consecuencias previstas. 2. Documentación de consecuencias previstas. 3. Oportunidad de difusión y equidad de acceso a resultados. 4. Desarrollo de capacidad de interpretación de resultados. 5. Comunicación de propósitos, características, usos y consecuencias. 6. Claridad y precisión del lenguaje. 7. Marco normativo para evaluar el desempeño de los examinados. 8. Minimización de interpretaciones incorrectas o estigmatizantes. 9. Atención de usos o interpretaciones inapropiadas imprevistas. 10. Documentación de usos o consecuencias imprevistas. 11. Investigación y corrección de usos inapropiados. Las cinco partes principales del informe presentan los resultados del análisis hecho por los especialistas según estos criterios. Después de las conclusiones se incluyen los anexos listados en la tabla de contenido.

Introducción

13

1

Alineación a los referentes

CONSIDERACIONES PREVIAS Para el caso de las pruebas ENLACE -MS nuestro análisis consideró los siguientes aspectos: • Como ya se señaló cuando se analizaron las pruebas ENLACE de educación básica, las pruebas censales presentan una condición inicial que influye decisivamente en la representatividad del dominio curricular que buscan evaluar: las exigencias en cuanto a los medios e infraestructura necesarios para llevar su aplicación determinan que tengan necesariamente una longitud limitada, por lo que cualquier prueba censal parte de esta condición desventajosa. • A pesar de lo anterior, el grado de representatividad de una prueba censal puede propiciarse mediante procedimientos rigurosos. Así, nuestro análisis buscará determinar si los procesos utilizados se han llevado a cabo con el rigor requerido para asegurar la calidad de la representatividad curricular de la prueba. • La prueba ENLACE - MS viene desarrollándose desde 2008 y hasta 2014. Durante ese periodo se aprecia una evolución importante en sus procesos metodológicos, particularmente para ajustarse a la reforma curricular de la educación media superior de 2011. No obstante, en este trabajo no se pretende efectuar una valoración histórica de su diseño, sino de comprobar el nivel de calidad que la prueba ha alcanzado en su versión actual. • En consecuencia, consideramos que las evidencias más relevantes para valorar la calidad de la prueba son el último manual técnico publicado (Manual_Tecnico_ENLACEMS_2011_2012) y el recientemente difundido para docentes y directivos escolares (Manual_Docente_ENLACEMS_2014), así como los documentos técnicos complementarios que fue necesario solicitar a la Dirección General de Evaluación de Políticas (DGEP) de la Secretaría de Educación Pública (SEP). Otras evidencias anteriores a las mencionadas se emplearán únicamente como vía para entender y explicar mejor los factores asociados a su diseño, los cuales han tenido impactos positivos o negativos en su calidad actual. En todo caso, este comité ha tenido en cuenta todas ellas.

A NÁLISIS DEL CURRÍCULO U OTRO REFERENTE CUYO DOMINIO SE EVALÚA 1. Se cuenta con un documento que revisa la teoría del contenido (curricular u otro) y es el marco teórico que orienta el desarrollo de la prueba.

tt Presenta

una revisión de la teoría acerca del contenido o marco teórico que orienta el desarrollo de la prueba.

14

Un factor decisivo para juzgar en qué medida ENLACE - MS refleja el contenido curricular y su marco teórico, es la amplia dispersión del currículo de la educación media superior (EMS) en México. A diferencia de las pruebas ENLACE de educación básica y E XCALE, que tuvieron como referente para su diseño un currículo de la educación básica único a nivel nacional, las pruebas ENLACE - MS no tuvieron un referente curricular único. El documento “Manual_Tecnico_ ENLACEMS_2011_2012” da cuenta de la gran diversidad de subsistemas que hay en el bachillerato y la existencia de más de 200 currículos en el ámbito nacional (pág. 18). En consecuencia, inicialmente se optó por un diseño de las pruebas abocado a habilidades generales que son parte fundamental en la EMS y en todos los perfiles de egreso: Habilidad Lectora y Habilidad Matemática. Estas habilidades son transversales, es decir, se desarrollan a lo largo de la historia escolar y fuera de ella, además se manifiestan de modo diferencial en los individuos, lo que permite identificar diferentes niveles de dominio. Entre 2008 y 2010, la evaluación significó un diagnóstico del desarrollo de los sustentantes en esas dos áreas de habilidad [pág. 18]. No obstante, tras la aparición del Acuerdo 442 de la SEP (Diario Oficial de la Federación, 26 de septiembre de 2008), por el que se establece el sistema nacional de bachillerato en un marco de diversidad, las instituciones que imparten la educación media superior en el país adoptaron, de manera gradual y progresiva entre 2009 y 2011, un Marco Curricular Común (MCC) con base en competencias. De este modo, el Centro Nacional de Evaluación para la Educación Superior (CENEVAL ), organismo que ha desarrollado la prueba ENLACE - MS por encargo de la DGEP de la SEP, pudo contar con elementos para estructurar un nuevo marco de referencia de la prueba, el cual estuvo caracterizado por retomar únicamente aquellos aspectos del MCC que pueden ser evaluados mediante una prueba diagnóstica, objetiva, estandarizada, de bajo impacto y con reactivos de opción múltiple, cuya aplicación es censal y se realiza en sesiones de 50 minutos. Además, uno de los principales objetivos del instrumento es entregar un reporte de resultados individual a los alumnos donde se identifica su nivel de dominio en cada una de las áreas evaluadas [CENEVAL , 2013a: 14]. Para transitar de la versión de ENLACE - MS que estuvo vigente hasta 2010 a la nueva versión de la prueba, que se aplicó desde 2011, el CENEVAL y su Consejo Técnico “establecieron la importancia de dar continuidad al proceso evaluativo y a las especificaciones técnicas propias del perfil original, pero instituyeron como propósito prioritario obtener información acerca del desarrollo de los alumnos en relación con los objetivos y competencias determinadas por la RIEMS [Reforma Integral de la Educación Media Superior]” (CENEVAL , 2013a: 33). No obstante, para desarrollar la prueba ENLACE - MS solo se incluyó como referente una porción de la competencias que incluye la estructura del MCC de la RIEMS (Manual_Docente_ENLACEMS_2014: 8), misma que se muestra sombreada en el cuadro 1.1. Además, lo anterior significó definir como el nuevo objetivo de la prueba ENLACE - MS “brindar un diagnóstico del nivel de dominio de los sustentantes en dos de los cuatro campos disciplinares básicos incluidos en la RIEMS: Comunicación (Comprensión lectora) y Matemáticas” (CENEVAL , 2013a: 21).

Alineación a los referentes

15

Las pruebas ENLACE para educación media superior

Cuadro 1.1 Competencias que se promueven mediante el MCC Competencias Genéricas Disciplinares Profesionales

Descripción Comunes a todos los egresados de la EMS.

Básicas Extendidas

De caracter propedeútico, dependen del subsistema.

Básicas

Formación elemental para el trabajo.

Extendidas

Para el ejercicio profesional.

La documentación revisada no permite determinar en qué medida las decisiones generales respecto a los componentes del MCC de la RIEMS que deberían ser evaluados por ENLACE - MS fueron tomadas únicamente por el CENEVAL y su Consejo Técnico, aunque al parecer fue así, según se establece en el documento aportado por la DGEP que lleva por título “Delimitación del objeto de medida ENLACE - MS RIEMS . Tareas de adaptación del perfil original y alineación al MCC” (s/f), donde se establece que la adaptación de la prueba ENLACE - MS implicó que el Consejo Técnico se ocupara del diseño de la evaluación y revisara el perfil referencial (PR ) establecido en 2008 para definir los aspectos que se mantendrían y aquellos que, en congruencia con la RIEMS , orientarían las actividades de medición hacia el nivel de desarrollo de los sustentantes en relación con el MCC (pág. 4). Tampoco se comenta si también involucraron la participación de la DGEP o de representantes de las instituciones de EMS que serían afectadas por la evaluación. Lo que menciona el Manual técnico ENLACE Media Superior 2011-2012 es que fueron invitados a participar en los comités académicos, el comité diseñador y el de validación, profesores y especialistas en el currículo de diversas instituciones de bachillerato tecnológico, general y bivalente quienes, en el primer caso estudiaron las áreas, contenidos temáticos y procesos cognitivos de la ENLACE - MS prueba ENLACE - MS anterior, los referentes técnicos y operativos de la RIEMS y diferentes marcos

teóricos de pruebas estandarizadas nacionales e internacionales, entre ellas PISA (Programa Internacional de Evaluación de Alumnos), TIMSS (Estudio de las Tendencias en Matemáticas en Ciencias), SABER , ACREDITA - BACH , entre otras (pág. 35). Asimismo no se hace explícito cómo procedieron a efectuar una revisión de los planes y programas de diferentes modalidades y direcciones de EMS: DGB (Dirección General de Bachilleratos), CONALEP (Colegio Nacional de Educación Profe-

sional Técnica), CCH (Colegio de Ciencias y Humanidades), Bachilleres y Bachilleratos Tecnológicos, con la finalidad de identificar los contenidos comunes a todas las opciones de EMS y establecer el contexto que apoyaría la redefinición de los mismos y los procesos cognitivos por evaluar [pág. 35]. Por su parte, el comité de validación procedió a convalidar algunas de esas decisiones; en particular la “pertinencia y relevancia de los contenidos y taxonomía establecida para cumplir con los propósitos de ENLACE - MS” (pág. 36).

16

Lo cierto es que la prueba ENLACE - MS solo evalúa uno de los cuatro tipos de competencias que establece el MCC de la RIEMS: las disciplinares básicas; y de ellas solo evalúa el dominio de dos de los cuatro campos disciplinares básicos incluidos en la reforma: Comunicación (Comprensión lectora) y Matemáticas. Además, del campo de Comunicación (Comprensión lectora), retoma solo 7 de las 12 competencias que establece el perfil de egreso en el MCC, y en el campo de Matemáticas se retomaron 6 de las 8 competencias que establece el MCC. El Manual técnico ENLACE Media Superior 2011-2012 (pág. 23) ofrece una comparación entre las pruebas ENLACE - MS que operaron durante el periodo 2008-2010 y las nuevas que operan a partir de 2011, la cual se presenta en el cuadro 1.2.

Cuadro 1.2 Características de los perfiles de la prueba ENLACE MS Características

2008-2010 Evalúa dos habilidades básicas: •H abilidad lectora •H abilidad matemática

Generales

Presenta un total de 140 reactivos: 50 y 90, respectivamente. Se evalúa con base en contenidos (tipos de texto) y en grupos de procesos cognitivos.

Habilidad lectora/ Comunicación (comprensión lectora)

Habilidad matemática/ Matemáticas

2011-2012 Evalúa indicadores de competencias de dos campos disciplicares: • Comunicación (comprensión lectora) • Matemáticas Presenta un total de 110 reactivos: 50 y 60, respectivamente. Se evalúa con base en contenidos (tipos de texto) y en grupos de procesos cognitivos.

Se utilizan cuatro tipos de texto: • Apelativo • Argumentativo • Expositivo • Narrativo

Se utilizan cuatro tipos de texto: • Apelativo • Argumentativo • Expositivo • Narrativo

Con tres procesos jerarquizados en niveles de dificultad: • Extracción • Interpretación •R eflexión y evaluación

Con tres procesos jerarquizados en niveles de dificultad: • Extracción • Interpretación • Reflexión y evaluación

Se evalúan cuatro contenidos: • Cantidad • E spacio y forma •C ambios y relaciones •M atemáticas básicas

Se evalúan cuatro contenidos: • Cantidad • Espacio y forma • Cambios y relaciones

Con tres procesos jerarquizados en niveles de dificultad: • Reproducción • Conexión • Reflexión

Con tres procesos jerarquizados en niveles de dificultad: • Reproducción • Conexión • Reflexión

El documento también señala (págs. 21 y 22) que a pesar de tales cambios, se preservó la manera en que se concibieron los constructos implicados. Así, en el caso de la Comprensión lectora la evaluación continúa realizándose a partir de cuatro tipos de textos (expositivo, narrativo, argumentativo y apelativo) y tres procesos cognitivos (extracción, interpretación, y reflexión y evaAlineación a los referentes

17

Las pruebas ENLACE para educación media superior

luación). El total de reactivos asociados a esta área también se conservó (50), aunque se redistribuyeron los subtotales por tipo de texto. La redistribución de reactivos por grupo de procesos implicó eliminar, construir y modificar algunas especificaciones para conformar la nueva estructura. En total se eliminaron 13 especificaciones, se crearon otras 13, se hicieron modificaciones mínimas a 11 y 26 se dejaron sin cambio. Para el caso del campo formativo de Matemáticas, el documento precisa que se conservaron tres de los cuatro contenidos (cantidad, cambios y relaciones, espacio y forma). Se eliminó por completo el contenido de matemáticas básicas puesto que corresponde con competencias disciplinares extendidas y la nueva prueba busca evaluar únicamente los contenidos compartidos entre las diferentes opciones de bachillerato. Por lo anterior, se redujo el total de reactivos de 90 a 60; se eliminaron 20 especificaciones de matemáticas básicas, 5 especificaciones del área de cantidad y otras 5 de cambios y relaciones por considerar que evaluaban habilidades meramente académicas sin aplicación en la vida cotidiana [pág. 22]. El manual comenta también (pág. 23) que la adaptación del instrumento implicó diversos procesos integrados y sistematizados mediante diez fases propias de la metodología CENEVAL : diseño, delimitación del objeto de medida, construcción, verificación, ensamble, aplicación, calificación, emisión de resultados, mantenimiento del examen y del material complementario (CENEVAL , 2011). El desarrollo de casi todas las tareas fue responsabilidad del Centro, con excepción de aquellas asociadas a la aplicación, calificación y emisión de reportes, que estuvieron a cargo de la DGEP -SEP. Cabe hacer notar la diferencia en cuanto al tratamiento del contenido cuyo dominio se evalúa en ambas competencias. En el caso del campo formativo de Matemáticas, los contenidos (cantidad, cambios y relaciones, espacio y forma) corresponden a la estructura del campo disciplinario. En cambio, para la Comprensión lectora, en ocasiones se consideran como contenidos, o reciben un tratamiento como tales, los tipos de texto (expositivo, narrativo, argumentativo y apelativo) que pueden incluir o no contenidos que corresponden a la estructura disciplinaria. Al respecto, obsérvese en el cuadro 1.3 ejemplos que ilustran la ambigüedad de las referencias que se hacen en la documentación revisada al delimitar, caracterizar u operacionalizar el constructo Comprensión lectora. En todo caso, tales referencias ambiguas no contribuyen a una clara definición del constructo a partir del marco teórico curricular. Como se verá más adelante, esta situación tuvo un impacto en el diseño de la estructura de la prueba, el desarrollo de las especificaciones de ítems y en la elaboración de éstos. No obstante, puede decirse que siempre se contó con documentación que expusiera la teoría del contenido curricular y que fuera el marco teórico que orientara el desarrollo de la prueba. Los principales referentes mencionados en el Manual técnico ENLACE Media Superior son los propios de la prueba ENLACE - MS anterior, los de otras pruebas nacionales e internacionales como PISA , TIMSS , SABER , ACREDITA - BACH , entre otros referentes de los que se menciona que fueron estudiados, y desde luego el citado Acuerdo 442 de la SEP y la documentación que se generó en el marco del proceso de adopción de la RIEMS por parte de las instituciones de educación media superior, así como la propia experiencia en el rediseño de su currículo para 18

adaptarlo a la RIEMS , por parte de las instituciones del bachillerato que fueron convocadas por CENEVAL para participar en la parte inicial del desarrollo de la prueba.

Cuadro 1.3 Documento Manual técnico ENLACE Media Superior 2011-2012

Referencias a los tipos de texto como contenidos de la prueba Contenidos (subáreas). El contenido por evaluar está asociado con el tipo de texto del que se desprenden los reactivos que miden la Comprensión lectora. Los cuatro tipos de texto que contiene la prueba ENLACE -MS se eligieron por considerarse representativos del nivel educativo, y porque reflejan funciones importantes de la lengua. (pág. 37)

Manual técnico ENLACE Media Superior 2011-2012

Referencias a contenidos disciplinarios que se retoman para la prueba Siete competencias disciplinares básicas: • Identifica, ordena e interpreta las ideas, datos y conceptos explícitos e implícitos en un texto, considerando el contexto en que se generó y en el que se recibe. • Evalúa un texto mediante la comparación de su contenido, sus conocimientos previos y nuevos. • Identifica el uso normativo de la lengua, considerando la intención y la situación comunicativa. • Analiza un argumento preciso, coherente y creativo. • Relaciona ideas y conceptos en composiciones coherentes y creativas, con introducciones, desarrollo y conclusiones claras. • Evalúa la secuencia o relación lógica en el proceso comunicativo • Identifica e interpreta la idea general y posible desarrollo de un mensaje escrito, recurriendo a conocimientos previos y al contexto cultural (36 y 37). “Comité académico diseñador: es el responsable de la definición de los contenidos por evaluar, los grupos de procesos cognitivos y niveles de complejidad que explora la prueba y determinan su estructura” (pág. 24).

(pág. 44) La evaluación objetiva de la habilidad lectora en la educación media superior. Marcos de referencia 2

“La habilidad lectora se definió en términos del contenido o estructura del conocimiento que los estudiantes necesitan adquirir a lo largo de su trayectoria escolar y los procesos que se requieren llevar a cabo para comprender un texto” (pág. 36).

(pág. 42)

Alineación a los referentes

19

incluye análisis de áreas a evaluar que precise subdominios, contenidos, competencias y niveles de demanda cognitiva que se deberán cubrir.

Las pruebas ENLACE para educación media superior

tt Se

Otro elemento esencial para observar cómo aseguraron los diseñadores de ENLACE - MS que la prueba representa de manera apropiada los subdominios curriculares y los niveles de demanda cognitiva que éstos significan para el alumnado se encuentra en la metodología que siguieron para ello. Como ya señalamos, los requerimientos metodológicos necesarios se ubican en el ámbito de desarrollo de pruebas referidas a un criterio (Hambleton, 1994; Nitko, 1995; Li y Sireci, 2005; Cizek, 2007; Sireci, 2009). En este enfoque evaluativo los principales procesos que deben tenerse en cuenta para asegurar la representatividad son: • Efectuar un análisis explícito del currículo como universo de medida. Ello implica utilizar algún procedimiento de análisis y estructuración del dominio curricular, y documentar como evidencia los dominios y subdominios involucrados y las relaciones entre ellos y sus contenidos. • Proporcionar el marco de referencia de la prueba que derivó del análisis curricular, mismo que se evidencia en una tabla que refleje de manera formal la estructura de la prueba, así como en tablas de especificaciones donde se hagan explícitos los componentes del contenido y del nivel de demanda cognitiva que constituye cada unidad curricular para el alumnado. • El análisis debe ser realizado por un comité de especialistas, y validado posteriormente por un comité diferente del anterior. Al integrar los comités se recomienda la inclusión de especialistas diversos, entre ellos los que representan la diversidad socioeducativa y cultural, en este caso, de México. • Además, debe hacerse explícito cómo son capacitados los comités para llevar a cabo estas tareas, y los procedimientos seguidos para producir los procesos de juicio y el establecimiento de decisiones (consenso intersubjetivo, síntesis cuantitativa, etcétera). Tras revisar las evidencias aportadas al respecto, podemos realizar los siguientes comentarios y señalar sus evidencias: • Los manuales técnicos de ENLACE - MS 2008-2010 (pág. 36) y 2011-2012 (págs. 43-44) incluyen una sección que presenta la estructura general de la prueba. Como puede observarse en el cuadro 1.4, dicha estructura se muestra en una tabla donde aparecen el número de ítems por área disciplinaria, el tipo de contenido y el proceso cognitivo que se evaluaron en la prueba. Las únicas diferencias entre esta tabla y la que aparece en el manual de 2008-2010, se deben al proceso seguido para la adaptación al MCC de la RIEMS; estas diferencias incluyeron principalmente: cambiar el foco de la medición (evaluación de habilidades) y la designación de Habilidad lectora y Habilidad matemática, por la noción de indicadores de competencias en los campos disciplinares Comunicación (Comprensión lectora) y Matemáticas (CENEVAL , 2013a: 22); eliminar el contenido Matemáticas Básicas; y reducir de 90 a 60 el número de ítems para evaluar el campo disciplinar Matemáticas. El documento señala que se preservó cerca de 70% de los contenidos y procesos de la primera versión en la segunda.

20

Cuadro 1.4 Estructura ENLACE MS 2011-2012 Campo disciplinar Comunicación (Comprensión lectora)

Matemáticas

Contenido

Número de reactivos por procesos

Total

Extracción

Interpretación

Relexión y evaluación

Argumentativo Narrativo Expositivo Apelativo

4 3 5 2

5 7 7 2

6 5 3 1

15 15 15 5

Reactivos por proceso

14

21

15

50

Reproducción

Conexión

Reflexión

Cantidad Espacio y forma Cambios y relaciones

6 6 5

7 8 8

7 6 7

Reactivos por proceso

17

23

20 20 20

20

60

Total de reactivos de la prueba

110

Como las tablas son muy generales y no permiten observar el producto que evidencie el análisis que se llevó a cabo de las áreas del MCC, cuyo dominio evalúa la prueba, ni precisan los subdominios y contenidos que se cubren en ella, se solicitó a la DGEP información más específica sobre tales aspectos. Dicha dependencia nos proporcionó otros documentos1 que permitieron observar algunos detalles adicionales al respecto. Por ejemplo, un cuadro presenta una sección de la tabla que aparece en el documento denominado “ENLACE MEDIA SUPERIOR RIEMS” (pág. 9) en la cual se muestran, a manera de objetivos, aspectos del contenido de las subáreas que corresponden a las dos áreas evaluadas. En algunos casos, la columna llamada “ACOTAMIENTO” de esa misma tabla ofrece información más detallada sobre el contenido, pero no es sistemática y al parecer se trata más bien de elementos de la especificación para producir los ítems, lo cual se comentará más adelante y en el siguiente apartado. Otro ejemplo que ilustra una presentación con más detalle del contenido cuyo dominio se evalúa en la prueba aparece en el cuadro 1.5, correspondiente a una sección de la tabla que se presenta en el documento denominado “Especificaciones alineadas (mayo 2008)”, el cual se refiere a la planeación de la prueba que estuvo vigente en el periodo 2008-2010. En síntesis, no se observa una verdadera estructuración del dominio del contenido a evaluar, más allá de asociar enunciados simples a manera de objetivos de aprendizaje con las subáreas que corresponden a las dos áreas evaluadas. • Respecto al trabajo de análisis curricular y estructuración del dominio del contenido a evaluar, realizado por un comité de especialistas y validado después por un comité de especialistas diferente del anterior, a fin de contar con elementos para asegurar la validación de la prueba, el Manual técnico ENLACE Media Superior 2011-2012 menciona dentro del listado de cuerpos colegiados que colaboran en la construcción de la prueba la participación del Comité Académico Diseñador como el “responsable de la definición de los contenidos por evaluar, los grupos de procesos cognitivos y niveles de complejidad que explora la prueba y determinan su estructura. A partir de ello, elabora las especificaciones que son revisadas por el comité académico validador de especificaciones” (pág. 24). En estas definiciones, el documento menciona también la participación del Consejo 1

Algunos de esos documentos son de carácter confidencial por lo que no es posible presentarlos en este informe.

Alineación a los referentes

21

Las pruebas ENLACE para educación media superior

Técnico, que tiene entre sus funciones asesorar “a las autoridades educativas y a los comités académicos en el diseño, análisis y seguimiento de la prueba impulsando acciones que permitan respaldar su transparencia y confiabilidad; valida su estructura y sus contenidos” (pág. 24). No obstante, las funciones generales y diversas que tiene asignadas el Consejo Técnico y el perfil de sus integrantes hacen poco probable que este cuerpo colegiado haya funcionado como el comité de especialistas que validó técnicamente el trabajo de análisis curricular y estructuración del dominio del contenido a evaluar realizado por el Comité Académico Diseñador. Cuadro 1.5 Subárea

Clave de especificación

Subtema

A partir de un ensayo identificar qué tipo de relación existe entre dos ideas.

El texto seleccionado deberá incluir, por lo menos, dos ideas en las cuales exista algún tipo de relación como: problemasolución; causa-efecto; comparación-contrate, premisaconclusión, ejemplificación, descripción, negación, etcétera.

A partir de un ensato, identificar dos explicaciones sobre un tópico específico.

El texto deberá contar al menos con dos explicaciones.

AREC210 AREC311

A partir de un ensayo, identificar el contrargumento.

En la opciones de respuesta se presentan 4 contrargumentos.

NAIN212

A partir de un texto narrativo, identificar el motivo por el que un personaje actuó de determinada manera.

El contexto general de la narración es el que permite identificar la motivación del personaje.

NACM103

A partir de cuatro fases dadas, identificar la que resuma lo que está pasando en una parte de la narración.

En el reactivo se dice explícitamente a qué parte de la narración se refiere.

NACM204

A partir de un texto narrativo, elegir la frase que exprese por qué un personaje actuó de determinada manera.

La situación de los personajes se refiere a estados físicos (qué les está pasando, qué están haciendo) y a estados emocionales (qué están sintiendo, qué están pensando). Las razones deben estar explícitas en el texto.

NAIN211

A partir de un texto narrativo identificar el significado de una palabra señalada.

Se marcará en el texto una palabra o frase poco usual. El estudiante deberá elegir, entre varias opciones, el significado de la palabra (o frase).

NAIN313

A partir de las acciones y descripciones de una narración, inferir el lugar en el que están ocurriendo los hechos.

En el texto NO se dice en qué lugar se están desarrollando los hechos, pero hay algunas pistas que hacen imaginarse al lector de qué se trata. Se debe comprender toda la lectura para la realización de este reactivo.

NAIN108

A partir de un texto narrativo, indivar el significado de una frase ambigua.

El texto contará con alguna frase ambigua, o usará palabras de modo poco usual.

EXIN110

A partir de una palabra dada en un artículo de divulgación, determinar qué significado quiso darle el autor.

La palabra debe ser poco usual y se incluye en el glosario, pero ahí se define de dos maneras. El estudiante tendría que inferir a cuál definición se refiere el auto.

EXIN213

A partir de un artículo de divulgación, indicar qué relación tienen entre sí dos claúsulas dadas.

Las distintas relaciones pueden ser una que una parte contradice, repite, explica, ilustra o da una solución a la otra parte. Las cláusulas deben estar dispersas a lo largo del texto.

A partir de una carta, elegir el asunto ceentral que se plantea en ella.

La opción correcta presentará el asunto central, mientras que las otras opciones se referirán a asuntos que se tratan en la carta pero que no son lo más importante.

ARCM206 Argumentativo

Narrativo

Expositivo

Apelativo

Tema

APCM303

Por otra parte, el manual establece que “La pertinencia y relevancia de los contenidos y taxonomía establecida para cumplir con los propósitos de ENLACE - MS fueron revisadas por especialistas reunidos en comités académicos de validación (ver Anexo B, Tabla B2). […] La propuesta final 22

fue aprobada por el Consejo Técnico el día 3 de septiembre de 2010.” (pág. 36). Sin embargo, el cuadro 1.6 muestra que el comité al que se hace referencia es el que validó las especificaciones de ítems, tal como se mencionó anteriormente al comentar la responsabilidad del Comité Académico Diseñador. Cuadro 1.6 Comité Académico Validador de Especificaciones Comunicación (Comprensión lectora) Especialista

Adscripción

Dra. Nancy Mazón Parra

UNAM

Mtra. Silvia Teresa Lizárraga Rocha

UNAM

Matemáticas Mtro. Salvador Zamora Muñoz Act. Erick Mier Moreno

IIMAS AMAT

Al parecer la explicación de estas ambiguas referencias es que el Comité Académico Diseñador hizo ambas definiciones; es decir, el análisis curricular y la estructuración del dominio del contenido a evaluar, así como el diseño de las especificaciones para producir los ítems. Por su parte, el Comité Académico Validador de Especificaciones validó no solo las especificaciones de ítems, sino también el análisis curricular y la correspondiente estructuración del dominio del contenido a evaluar. Dos referencias apoyan lo anterior: la primera aparece en el Manual Técnico de 20112012: “La estructura fue validada por el Comité Académico validador antes de su aprobación por parte del Consejo Técnico. El criterio principal fue asegurar que con ella se obtuviera una muestra representativa de lo que todo bachiller debe dominar en congruencia con el MCC y el perfil de egreso de la RIEMS” (pág. 44). La segunda referencia se encuentra en una presentación denominada “Capacitación Comité Diseñador” que nos fue proporcionada por la DGEP, la cual se utilizó en la capacitación del Comité Académico validador de especificaciones. Independientemente del escaso número de especialistas de los comités académicos validadores de especificaciones (tres en el comité de Comunicación y dos en el de Matemáticas) y de su falta de representatividad (tres de la UNAM , uno del INEE y uno de Applied Mathematics and Actuary Training [AMAT]), esta forma de proceder no es la que se sugiere en la literatura especializada, donde se enfatiza la necesidad de que grupos independientes de especialistas en áreas diversas y complementarias, que representen la diversidad socioeducativa y cultural, analicen y estructuren unos el dominio del contenido a evaluar; otros juzguen otros tales decisiones; otros más elaboren las especificaciones técnicas para producir los ítems, y unos más validen tales productos; todo ello como parte de un proceso metodológico gradual, progresivo y coherente que haga posible acumular evidencias de validez relacionadas con el contenido de la prueba. • En cuanto a la manera en que fueron capacitados los comités académicos diseñadores para analizar y estructurar el dominio del contenido a evaluar, y los procedimientos que se siguieron para efectuar las operaciones de juicio y adoptar las decisiones, no se encontró referencia alguna al respecto en los manuales. La única información relacionada aparece en uno de los documentos adicionales que fueron solicitados a la DGEP. Se trata de una presentación que se utilizó en su capacitación, que ilustra de manera general aspectos que se consideraron para analizar el MCC o la manera en que se procedió para establecer el perfil referencial y determinar la estructura de la prueba. Alineación a los referentes

23

Las pruebas ENLACE para educación media superior

En síntesis la situación descrita no corresponde con las prácticas de análisis curricular y de detección y estructuración del contenido importante a evaluar en una prueba de estas características. Tampoco se han basado en una estrategia de validación del análisis del universo de medida que incluya aportes de validación de grupos interdisciplinarios de especialistas (en currículo, la disciplina cuyo dominio se evalúa, psicometría, operación del currículo en las aulas, en lenguaje, en cultura y en teoría cognoscitiva), que actúen de manera independiente y sucesiva. Por ello, consideramos que el procedimiento seguido no permite asegurar la representatividad del contenido a evaluar.

ALINEACIÓN DE LA PRUEBA CON EL REFERENTE 2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba en términos de objetivos, competencias u otro referente.

Otro aspecto necesario para obtener evidencias de validez relacionadas con el contenido de la prueba es el análisis de la estructura del dominio educativo que hace posible elaborar las especificaciones de contenido que orientan el diseño de los ítems. Esta estrategia es habitual en las pruebas referidas a un criterio, y debe incluir tanto la información estructural de la prueba, como las especificaciones de unidades del dominio. También permite contar con una visión precisa del universo de medida para orientar el muestreo de contenidos (Jornet y Suárez, 1989). En el caso de ENLACE - MS , el manual técnico de 2008-2010 establece que: Las especificaciones de reactivos tienen como propósito proporcionar un marco normativo, claro y significativo, que aporte los elementos necesarios para que los elaboradores construyan reactivos adecuados para evaluar los contenidos y procesos cognitivos, así como los detalles técnicos para que los ítems resulten efectivos en la población objetivo y permitan generar interpretaciones válidas (pág. 37). No obstante, entre los documentos recibidos inicialmente y en la entregada posteriormente no encontramos alguno en el que se presenten especificaciones técnicas para producir los ítems de la prueba. Al parecer las tablas a las que se ha hecho referencia tienen una doble función: como tabla de especificaciones de la prueba y como especificaciones para producir los ítems. La información en las columnas denominadas “Acotamiento” y “Subtema”, comúnmente se presenta en una especificación de ítems. Sin embargo, se observan varios problemas: en ciertos casos aparece alguna indicación sobre ciertas características que deben poseer los estímulos o las respuestas que se presentan a los examinados (por ejemplo, sobre los atributos de la información contextual como textos o figuras que es válido o no emplear; o bien sobre las instrucciones necesarias para responder; o bien sobre las características que debe tener la respuesta correcta para serlo, o los rasgos con que deben contar los distractores para ser efectivos). En otros casos no aparece alguno de esos detalles, sino solo una delimitación del contenido a evaluar. De hecho, en ninguno de los casos se encuentra alguno de esos tipos de indicaciones de manera completa o sistemática. Tampoco se incluye algún ejemplo de ítem que ilustre el cumplimiento de tales

24

indicaciones. El único referente que aparece en todos los casos, es la mención del contenido (redactado como objetivo de aprendizaje) cuyo dominio se evalúa. En otras secciones de los manuales aparecen elementos con información que generalmente también se incluye al elaborar una especificación para producir un ítem. Por ejemplo, los cuadros 1.7 y 1.8 presentan dos tablas contenidas en el Manual técnico ENLACE Media Superior 2011-2012 (págs. 22 y 27), mismas que contienen referentes para elaborar los reactivos de Comprensión lectora y Matemáticas. Ambas tablas presentan los contenidos (competencias específicas a evaluar) organizados por “niveles de complejidad específicos que permitieran evaluar la variabilidad en el nivel de dominio de los sustentantes” (pág. 16), y según el nivel del proceso cognitivo que se moviliza en cada caso, de conformidad con una taxonomía que se elaboró para cada campo disciplinar, la cual clasifica los “procesos cognitivos a través de los cuales los sustentantes exhiben su nivel de dominio de distintas competencias disciplinares básicas” (pág. 15).

Cuadro Tabla 31.7 Definición de niveles de complejidad por grupo de proceso cognitivo Definición de niveles de complejidad por grupo de proceso Comunicación (Comprensión lectora): ENLACEcognitivo MS Comunicación (Comprensión Lectora): ENLACE MS

Proceso cognitivo Niveles

Extracción

Interpretación Desarrollo de la Desarrollo de la comprensión interpretación

Reflexión y evaluación de la forma

del contenido

1

Identificar y seleccionar un elemento (hecho, fenómeno, acción, tópico, concepto, entre otros) que se encuentre en el texto de manera explícita. Será muy evidente para el lector y se puede encontrar en cualquier parte del texto.

Identificar el tema central de un párrafo, el cual NO está explícito e implica una inferencia local. Distinguir el carácter de dos o más proposiciones en un mismo párrafo.

Identificar el significado de una palabra o frase corta basándose en el contexto.

Identificar la estructura formal del texto. Determinar si los recursos gráficos (cursivas, viñetas, subtítulos, etcétera) utilizados por el autor contribuyen a la organización del texto a nivel local.

Identificar de manera global el propósito o la postura del autor, los cuales NO están explícitos.

2

Identificar y seleccionar dos elementos relacionados (hechos, fenómenos, acciones, tópicos, conceptos, entre otros) que se encuentran a lo largo del texto de manera explícita y que carecen de marcadores.

Integrar diferentes partes de un texto para identificar la idea central. Reconocer una relación (problemasolución; causaefecto; comparacióncontraste, premisaconclusión, concepto-ejemplo, etcétera).

Inferir relaciones entre los párrafos (problemasolución; causaefecto; comparacióncontraste, premisaconclusión, etcétera) y distinguir e identificar el sentido de las analogías, metáforas y otro tipo de figuras retóricas.

Identificar la correspondencia de la estructura del texto con el contenido. Establecer el propósito de los recursos gráficos (cursivas, viñetas, subtítulos, etcétera) a nivel de dos o más párrafos.

Identificar los recursos discursivos (datos, ejemplos, citas, argumentos, hechos, gráficas, metáforas, comparaciones, hipérboles o adjetivación, entre otros) que utiliza el autor para lograr su propósito y/o apoyar su punto de vista. Contrastar argumentos.

3

Identificar y seleccionar tres o más elementos relacionados (hechos, fenómenos, acciones, tópicos, conceptos, entre otros) y distinguirlos, a partir de un criterio determinado, de otros elementos semejantes que se encuentran a lo largo del texto de manera explícita.

Seleccionar un resumen o hacer otro tipo de inferencias que impliquen coherencia global para demostrar una comprensión completa y detallada de todo el texto.

Vincular la estructura, funciones y/o elementos del texto para realizar inferencias globales.

Identificar la correspondencia de la estructura, el léxico y los recursos gráficos utilizados, con las intenciones comunicativas del texto, el destinatario del mismo y su contexto.

Establecer una comparación entre el texto o un fragmento, y su relación con información externa. Identificar los contraargumentos que se incluyan en el texto.

 Estructura La estructura de ENLACE MS Comunicación (Comprensión Lectora) se determinó en

Alineación a los referentes

25

Las pruebas ENLACE para educación media superior

Tabla 5 Cuadro 1.8 Definición de niveles de complejidad por grupo de proceso cognitivo Definición de niveles de complejidad por grupo de proceso cognitivo Matemáticas: ENLACE MS Matemáticas: ENLACE MS Niveles

Proceso cognitivo Reproducción

Conexión

Reflexión

1

Resolución de tareas directas que implican identificar conceptos matemáticos en el mismo contexto en que se aprenden cotidianamente, y se resuelven con un solo paso o cálculo matemático.

Resolución de problemas que se desprenden de situaciones cotidianas en donde la tarea se precisa de forma directa y se resuelve con un cálculo o tarea matemática, selección y/o relación de modelos.

Resolución de problemas que requieren de una interpretación antes de reconocer la técnica matemática que hay que utilizar; además implican transitar y discriminar entre diferentes formas de representación de las situaciones, y aplicar un proceso matemático.

2

Resolución de tareas directas que requieren realizar dos o tres cálculos o tareas matemáticas básicas y/o identificación de modelos.

Resolución de problemas que se desprenden de situaciones cotidianas en donde la tarea se precisa de forma directa. Los problemas se resuelven con dos o tres cálculos o tareas matemáticas diferentes, decodificación, recodificación, selección y/o relación de modelos.

Resolución de problemas que requieren de una interpretación antes de reconocer la técnica matemática que hay que utilizar; además implican codificar y transitar entre diferentes formas de representación de situaciones cotidianas complejas, y exigen la aplicación de dos o tres operaciones diferentes y/o dos procesos matemáticos.

3

Resolución de tareas directas que requieren realizar cuatro o más cálculos o tareas matemáticas básicas diferentes y/o aplicación de modelos establecidos.

Resolución de problemas que requieren identificar y aplicar las técnicas matemáticas necesarias. Los problemas se resuelven con cuatro o más cálculos o tareas matemáticas diferentes, procesos básicos y complejos, decodificación y/o recodificación de modelos y/o identificación de sus elementos faltantes.

Resolución de problemas en contextos que impliquen diferentes variables, que requieran reconocer diferentes estructuras antes de aplicar la técnica matemática pertinente y/o transitar entre diferentes formas de representación de situaciones; además, requieren de cuatro o más operaciones diferentes, tres o más procesos matemáticos similares.

 Estructura No obstante, los elementos señalados no corresponden con los procedimientos, prácticas, forLa asignación reactivos que conforman la prueba de en Matemáticas tomó en cuenta matosde y otros componentes técnicos que se detallan la literatura especializada para la especificación de ítems, y que soncompetencias necesarios parabásicas propiciaryy la asegurar la producción de ítems válidos, el propósito sociofuncional de las definición del constructo, equivalentes y efectivos. por esta razón, si bien se incluyen ejercicios de todos los niveles de complejidad, la

estructuratt se aboca en mayor proporción a la medición de indicadores que requieren Se presenta la estructura del dominio completo —de donde se muestrea el contenido de la de la puestaprueba— en práctica de laprocesos con los grupos de así como estructura cognitivos del dominiorelacionados evaluado. Conexión y Reflexión (v. Tabla 6). De acuerdo con la definición operacional de ambos Para orientar el desarrollo de una prueba resulta imprescindible hacer explícita la estructura del grupos, estos implican la resolución de problemas en contextos de la vida cotidiana. dominio educativo a evaluar (el currículo), e identificar en ella la estructura de la prueba. Si se cuenta con ambos elementos, es posible analizar mediante las operaciones de juicio de un comité ad hoc si la estructura de la prueba responde adecuadamente a la del universo de medida. De esta manera, el análisis que aporta el comité constituye una evidencia de validez relacionada con el contenido de la prueba. 27

26

Como ya lo comentamos previamente, esta etapa del desarrollo de pruebas de gran escala referidas a un criterio está bien documentada en la literatura especializada, donde se expone la necesidad de que grupos independientes de especialistas, que incluyen expertos en currículo, evaluación, operación curricular en el aula, teoría cognoscitiva, aspectos culturales y la disciplina cuyo dominio se evalúa analicen primero el currículo y detecten y estructuren el contenido importante a evaluar; y después, otro grupo independiente con un perfil semejante juzgue tales decisiones con base en protocolos técnicos definidos previamente por los desarrolladores de la prueba, quienes también deberán facilitar los trabajos de ambos comités y en general operar como el vínculo formal entre éstos y los demás comités especializados que participan en la construcción de la prueba. En cuanto al proceso que llevaron a cabo los diseñadores de ENLACE - MS para hacer explícita la estructura del dominio educativo a evaluar (el MCC) e identificar en ella la estructura de la prueba, el manual técnico de 2011-2012 y los demás documentos que proporcionó la DGEP, ofrecen poca información. De hecho la única evidencia clara que pudimos observar aparece en una tabla en la que se especifican las competencias genéricas, disciplinares (básicas y extendidas) y profesionales (básicas y extendidas) que se promueven mediante el Marco Curricular Común de la Reforma Integral de la Educación Básica (RIEB). El texto que sigue a dicha tabla (Manual_Docente_ENLACEMS_2014: 8-9) argumenta sobre las dificultades o inconvenientes de evaluar las competencias genéricas, profesionales y disciplinares extendidas, por lo que se decidió centrar la evaluación en las competencias disciplinares básicas, y entre ellas solo las correspondientes a los campos disciplinares de Comunicación (Comprensión lectora) y Matemáticas. Al parecer, la decisión también estuvo matizada por razones de conveniencia, dado que se trata de una prueba “diagnóstica, objetiva, estandarizada, de bajo impacto y con reactivos de opción múltiple, cuya aplicación es censal y se realiza en sesiones de 50 minutos” (CENEVAL , 2013a: 14). Además, en otras secciones del manual (págs. 18-19; 23-24) se delimitan los componentes de ambos campos disciplinares que se evalúan en la prueba ENLACE - MS: en Comprensión lectora, 7 de las 12 competencias que promueve la RIEB; en el campo disciplinar Matemáticas, 6 de las 8 competencias que establece la reforma. Más allá de estas definiciones genéricas, no pudimos observar una representación de la estructura del dominio curricular completo de la RIEMS , dentro de la cual se delimite la estructura del dominio curricular evaluado por la prueba ENLACE - MS . Si los miembros del Comité Académico diseñador efectuaron un análisis más detallado del MCC y de los procesos curriculares para adaptarlo que realizaron las instituciones de educación media superior que fueron invitadas a participar en el análisis, no lo hicieron explícito en los manuales o en la documentación que nos fue proporcionada. Ello constituye una carencia importante que afecta la valoración del grado de validez de contenido de la prueba.

3. Se explica el procedimiento para determinar la importancia de los contenidos a evaluar o se incluye análisis de unidades del dominio y densidad diferencial.

La integración de una prueba referida a un criterio orientado por el currículo, se basa en criterios de selección de los contenidos que permiten formular su importancia relativa como expresión de la relevancia de los aprendizajes logrados. En la literatura este aspecto se conoce como densidad diferencial del dominio curricular (Jornet y Suárez, 1989) y es difícil llevarlo a la práctica. Alineación a los referentes

27

Las pruebas ENLACE para educación media superior

Usualmente se basa en valoraciones hechas por comités de especialistas, que indican el peso diferencial que cada área del dominio curricular deberá tener en la prueba. Ello sirve también para seleccionar la cantidad de reactivos que se utilizarán. Por ello se trata de un procedimiento crucial para definir el dominio a evaluar en una prueba. Diversos autores (Sireci, 2009; Cizek, 2007; Pope, citado por Cizek, 2007; Li y Sireci, 2005; Haynes, Richard y Kubany, 1995; Nitko, 1994; Guion, 1977) han hecho ver la necesidad de identificar blancos curriculares esenciales, puesto que es imposible evaluar en un examen el dominio de todo el currículo, ni siquiera todo lo que es relevante. De ahí la importancia de seleccionar una muestra de contenido que represente el dominio curricular. En el caso de la prueba ENLACE - MS , en el Manual técnico de ENLACE Media Superior 20112012 se afirma que la pertinencia y relevancia de los contenidos, que fue determinada por el Comité Académico diseñador, fueron revisadas por los comités académicos de validación (pág. 36). Sin embargo, no hemos observado en la documentación disponible el uso de algún procedimiento específico o criterio para determinar cuáles contenidos constituyen blancos curriculares de primer orden que deben ser considerados para la evaluación; o bien para ponderar la densidad diferencial de los contenidos que constituyen el dominio curricular (MCC) que se evalúa, a fin de decidir lo que es importante evaluar en la prueba. Por otra parte, el análisis de las tablas de contenido muestra que se enfatizaron aspectos diferentes del currículo y que se adoptaron criterios para determinar lo que era relevante. De hecho hay varias declaraciones en ese sentido, que ilustran que los constructores de la prueba fueron conscientes de esos aspectos. Por ejemplo, en el manual técnico de 2011-2012 se declara que “la evaluación se enfoca a un conjunto limitado de conocimientos y habilidades (y no a la totalidad de los que se indican en el MCC) que un grupo de expertos considera indicadores suficientes y representativos de las competencias básicas de dos campos disciplinares que deben dominar los sustentantes al egresar de bachillerato” (pág. 30). Lo mismo sucede con las dificultades o inconvenientes de evaluar determinados contenidos o las razones de conveniencia que se señalan en varias partes del manual (véase por ejemplo el último párrafo de la pág. 14 del manual). Sin embargo, en tales casos no fueron hechos explícitos por el Comité Académico diseñador los procedimientos o criterios que utilizaron para determinar tales aspectos o para decidir en cada situación.

4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios y el dominio definidos.

tt Para

especificar dominio a evaluar se presenta análisis lógico-empírico de representación de ítems y subescalas respecto a subdominios y dominio.

Existen dos aproximaciones generales al análisis de reactivos: lógica y empírica. La primera requiere la participación de comités de jueces (especialistas en contenidos, docentes frente a grupo, especialistas en medición y evaluación, etcétera), quienes juzgan propiedades como la representatividad del ítem respecto del contenido a evaluar, su independencia de errores sistemáticos y sesgo, entre otros aspectos. Así, esta perspectiva contribuye de manera directa en la obtención de evidencias de validez de contenido de la prueba. Por su parte, las comprobaciones empíricas aportan información sobre la correspondencia de los ítems con la estructuración 28

dimensional teórica que orientó el desarrollo de la prueba. En este apartado enfatizamos el análisis de la revisión lógica que realizaron los constructores de ENLACE - MS . Ya hemos hecho referencia al Comité Académico Diseñador como responsable de analizar el MCC de la RIEMS y determinar los subdominios del dominio que evalúa la prueba, así como al rol que desempeñó el Comité Académico Validador de Especificaciones, al juzgar la pertinencia y relevancia de los contenidos de la prueba y de su estructura. También hemos mencionado la escasa documentación disponible sobre el uso de procedimientos o criterios técnicos por parte de ambos comités para realizar esas tareas o adoptar sus decisiones. Sobre el aseguramiento de la representatividad de los ítems respecto al dominio y subdominios curriculares que se evalúan, en el Manual técnico ENLACE - MS 2011-2012 se hacen varias declaraciones al respecto. Por ejemplo, se afirma que se “evalúa solo una muestra representativa de indicadores de competencias básicas que fueron definidos operacionalmente para que el instrumento permitiera seguir obteniendo información diagnóstica para los estudiantes de la EMS” (pág. 21); o bien se asevera que en los diversos apartados [del Manual para docentes y directivos] se reitera que la prueba realiza la medición de una muestra representativa de los contenidos a través de los cuales se pueden evaluar indicadores de competencias disciplinares básicas (únicamente aquellos que pueden ser identificados con reactivos de opción múltiple), pero que de ninguna manera incluyen todos los temas que forman parte del MCC (pág. 78). También se asegura que “la prueba ENLACE - MS únicamente evalúa una muestra representativa de los indicadores de desarrollo de las competencias básicas correspondientes a dos campos disciplinares Comunicación (Comprensión lectora) y Matemáticas” (pág. 85); o bien que los “cuatro tipos de texto que contiene la prueba ENLACE - MS se eligieron por considerarse representativos del nivel educativo, y porque reflejan funciones importantes de la lengua” (pág. 37). Respecto a los procedimientos o criterios empleados para asegurar dicha representatividad, el manual aclara que Para describir los alcances de ENLACE - MS , es importante enfatizar que es una prueba referida a criterio y con cobertura de dominio restringido, es decir, la evaluación se enfoca a un conjunto limitado de conocimientos y habilidades (y no a la totalidad de los que se indican en el MCC) que un grupo de expertos considera indicadores suficientes y representativos de las competencias básicas de dos campos disciplinares que deben dominar los sustentantes al egresar de bachillerato [pág. 30]. Se aclara además que La estructura fue validada por el comité académico validador antes de su aprobación por parte del Consejo Técnico. El criterio principal fue asegurar que con ella se obtuviera una muestra representativa de lo que todo bachiller debe dominar en congruencia con el MCC y el perfil de egreso de la RIEMS . Para ello, los reactivos de la prueba cubren toda la gama de procesos cognitivos que se indican en la estructura, por lo que evalúan contenidos que exigen un desarrollo básico, intermedio y avanzado de las competencias disciplinares básicas [pág. 44].

Alineación a los referentes

29

Las pruebas ENLACE para educación media superior

No obstante, el mayor detalle que se aporta sobre la manera en que inicialmente se cuidó este aspecto, es referido a la cuarta parte del manual; donde se “explica con detalle la estrategia con que se modificó la estructura de ENLACE - MS para apoyar la evaluación de una muestra representativa de las competencias disciplinares básicas que promueve la RIEMS” (pág. 15). En esa sección (págs. 34 y 35) se establece que con el fin de “delimitar operacionalmente el objeto de evaluación, se deben seleccionar y definir las áreas, los contenidos y la taxonomía del examen”; y que para “delimitar el perfil de la prueba ENLACE - MS 2011-2012, se retomaron las definiciones de contenidos, áreas y procesos cognitivos correspondientes a la primera evaluación y se adaptaron según lo que marca la RIEMS”. Más adelante se indica que para ello fue convocado, para cada campo disciplinar, un comité académico diseñador en el que participaron representantes de los “tres grandes subsistemas de EMS: bachillerato tecnológico, bachillerato general y bachillerato bivalente”; quienes deberían tener “experiencia en la docencia, la investigación y la planificación curricular (específicamente los encargados de la adaptación de programas a la Reforma)” y que en su selección se procuró “que los grupos representaran a diferentes planteles y entidades de la República (ver anexo B, tabla B1)”. Enseguida se indica que los “expertos estudiaron las áreas, contenidos temáticos y procesos cognitivos de la prueba ENLACE - MS anterior, los referentes técnicos y operativos de la RIEMS y diferentes marcos teóricos de pruebas estandarizadas nacionales e internacionales, entre ellas PISA , TIMSS , SABER , ACREDITA - BACH , entre otras”; y que también se hizo una “revisión de los planes y programas de diferentes modalidades y direcciones de EMS: DGB, CONALEP, CCH , Bachilleres y Bachilleratos Tecnológicos, con la finalidad de identificar los contenidos comunes a todas las opciones de EMS y establecer el contexto que apoyaría la redefinición de los mismos y los procesos cognitivos por evaluar”. Finalmente, se afirma que Con este marco de referencia, los especialistas sesionaron de una a dos semanas para acordar y definir los contenidos específicos de cada campo, su organización y el peso de cada uno en la evaluación de acuerdo con una taxonomía diseñada especialmente para ENLACE - MS . Dado que la prueba pretende ser un diagnóstico general del nivel de dominio de los sustentantes, se consideró únicamente una muestra representativa de todo el universo de conocimientos y habilidades que pudieran establecerse como indicadores de desempeño en cada campo disciplinar. Como puede observarse en los párrafos anteriores, aunque no se aportan evidencias concretas sobre la manera en que procedieron ambos grupos o los criterios a partir de los cuales se tomaron las decisiones para asegurar la representatividad, la manera general de proceder sí corresponde a la que señala la literatura especializada, según lo comentamos al inicio de este apartado; es decir, las definiciones que hace un Comité Académico Diseñador, integrado por especialistas diversos, son luego revisadas por un Comité Académico Validador. No obstante, hay que señalar varias limitaciones específicas: no se menciona que en el análisis del MCC y en el diseño de la prueba participaran expertos en contenido de los campos disciplinarios de Comunicación (Comprensión lectora) y Matemáticas; ni se indica el modo en que fueron seleccionados los miembros de los comités diseñadores que aportaron las instituciones de EMS convocadas, o su perfil profesional de modo que pueda constatarse si en conjunto satisficieron las necesidades en cuanto a experiencia docente, investigación y planificación curricular en la adaptación de los programas a la RIEMS . Tampoco se aporta información técnica acerca de la metodología empleada para el análisis curricular del MCC, o para el jueceo (características a valorar en los ítems, criterios para tomar decisiones, protocolos para formalizar los juicios, determinación de la confiabilidad, entre otras). En particular, no se encontraron referencias, en 30

los manuales técnicos de ENLACE - MS o en la documentación adicional presentada, sobre los criterios y procedimientos empleados por el Comité Académico Validador para analizar la representación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular completo que evalúa la prueba.

5. Se cuida la alineación en lo relativo a la complejidad cognitiva del contenido.

tt Se

utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de los ítems, en relación con lo establecido en el referente. tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad cognitiva real corresponda a la esperada. En una prueba referida a criterio, la manera en que las expectativas del currículo se relacionan con la forma en que se evalúa su dominio constituye una evidencia de validez de contenido. Dentro del proceso de alineamiento de la prueba al currículo, una consideración relevante para determinar el muestreo del contenido que cubrirá el instrumento, es si las demandas cognitivas que imponen los ítems a los sustentantes corresponden con el nivel de dominio del contenido que es pretendido por el currículo, y si la prueba evita incluir características irrelevantes al objetivo curricular al que se orienta cada ítem de la prueba. Para este criterio evaluativo tenemos también dos clases de fuentes de evidencia: las basadas en juicios de un comité de especialistas (en la disciplina, currículo, teoría cognitiva, profesores en servicio), que generalmente son los diseñadores de la prueba, quienes analizan el nivel de dominio del contenido que pretende el currículo y lo formalizan con un sistema de clasificación o modelo taxonómico que permita regular el grado de demanda cognitiva que supone para el alumnado cada contenido, en la forma en que es evaluado por los ítems. Luego un comité independiente con perfil similar valida dicho sistema de clasificación. La segunda fuente de evidencias es el análisis del proceso de respuesta que ponen en acción los sujetos al responder los ítems, usualmente con grupos focales, laboratorios cognitivos o entrevistas con examinados apoyadas con protocolos verbales, para verificar que la complejidad cognitiva real corresponda con la esperada. Como ya se comentó, en el Manual técnico ENLACE Media Superior 2011-2012 se establece que, como parte del diseño de la prueba, específicamente al construir la tabla de especificaciones del examen, se elaboró una taxonomía para cada campo disciplinar. Dicho sistema clasifica los “procesos cognitivos a través de los cuales los sustentantes exhiben su nivel de dominio de distintas competencias disciplinares básicas” (pág. 15). Para el caso del campo disciplinar Comunicación (Comprensión lectora), la taxonomía considera las categorías y subcategorías: Extracción, Interpretación (Desarrollo de la Comprensión, y Desarrollo de la Interpretación), y Reflexión y Evaluación (de la forma, y del contenido) (pág. 39). En cuanto al campo disciplinar Matemáticas, la clasificación considera las categorías: Reproducción, Conexión y Reflexión (pág. 43). También se comentó que la pertinencia y relevancia tanto de los contenidos como de la taxonomía, fueron revisadas por los especialistas de los comités académicos de validación, y que posteriormente la propuesta fue aprobada por el Consejo Técnico. Aunque según el manual la taxonomía fue “diseñada especialmente para ENLACE - MS” (pág. 35), al parecer se trata de una adaptación del sistema de clasificación de grupos de compeAlineación a los referentes

31

Las pruebas ENLACE para educación media superior

tencias de PISA (cfr. PISA 2003 Assesment Framework, en: http://www.oecd.org/edu/school/ programmeforinternationalstudentassessmentpisa/33694881.pdf). También hay evidencia, en el documento “ENLACE _MS Procesos específicos y niveles de complejidad”, de que cada ítem tuvo asignado un nivel taxonómico y un nivel de complejidad. En consecuencia, puede decirse con seguridad que el desarrollo de la prueba ENLACE - MS contó con un sistema de clasificación de la demanda cognitiva que sirviera de referente para el desarrollo y la revisión de los ítems, en relación con lo establecido en el MCC de la RIEMS . En cuanto al uso de grupos focales, laboratorios cognitivos o entrevistas con examinados apoyadas con protocolos verbales, a fin de observar la correspondencia entre la complejidad cognitiva real (para el examinado) y la esperada (MCC), no pudimos encontrar evidencias de que se llevaron a cabo, ni alguna referencia al respecto en los manuales técnicos de ENLACE - MS o en la documentación adicional que nos fue proporcionada. Además de lo dicho en los dos párrafos anteriores y otros comentarios hechos en este documento sobre la alineación de la prueba al currículo, es sabido que los aprendizajes de alta demanda cognitiva son, desde luego, los más difíciles de alcanzar por parte de los estudiantes y los que plantean más problemas a los docentes, pero también los que resultan más difíciles de evaluar, en especial mediante pruebas en gran escala. Por ello, y por la circunstancia añadida de que en el caso de ENLACE - MS no se cuenta con un currículo nacional de referencia, sino con un marco curricular que define competencias de diversos tipos, muchas de las cuales no se prestan para su evaluación con este tipo de pruebas, se creyó conveniente realizar dos estudios especiales que aportaran evidencias de validez de constructo y contenido respecto a la alineación y los niveles de demanda cognitiva de la prueba, en relación con lo que establece su perfil referencial. Estos estudios se basaron en estrategias de análisis de contenido basadas en juicios de comités de jueces expertos (profesorado experimentado, así como especialistas disciplinarios, en medición, investigación educativa y currículo), así como en entrevistas cognitivas con alumnos de educación media superior. Los resultados de este trabajo se sintetizan en los párrafos siguientes. Cuando se compara la distribución por proceso cognitivo de los ítems relativos a la habilidad lectora que establecieron los comités del CENEVAL , como parte de la planeación de la prueba, con la distribución de esos mismos ítems que se basa en los juicios del comité de especialistas en lectura del estudio especial, se observa que son bastante similares. La similitud y proporcionalidad de los ítems en las categorías identificadas pueden interpretarse como evidencias de validez de contenido y de constructo de la prueba, puesto que el comité convocado para el estudio hizo una evaluación independiente que presenta coincidencias importantes con los diseñadores de la prueba. En el caso de la habilidad matemática se observa una distribución de ítems similar en cuanto a número de ítems y asignación proporcional a las categorías del dominio cognitivo, pero solamente en las categorías de Reproducción y Conexión, lo que también podría interpretarse como evidencia de validez de contenido y de constructo de la prueba, pero en forma limitada, ya que esto no ocurre en la mayoría de los ítems de la categoría de Reflexión, lo que pone de manifiesto una problemática asociada con esa categoría.

32

Por otra parte, la dificultad y el poder discriminativo de los ítems no parecen relacionados con las categorías de procesos cognitivos en Comprensión lectora o Matemáticas de ENLACE - MS 2014. Tampoco están relacionados con los procesos y juicios de los comités de Lectura y Matemáticas que evaluaron los ítems. Por lo que se refiere a los resultados de las entrevistas cognitivas, se identificaron los niveles de complejidad desagregados por cada proceso cognitivo de cada una de las pruebas analizadas, lo que sirvió de referencia para comparar la congruencia del modelo taxonómico cognitivo y la estructura de la prueba con los resultados del estudio cognitivo. En el caso de la prueba de Habilidad Lectora, se identificaron 15 niveles de complejidad y en la prueba de Matemáticas, nueve. En cuanto a Habilidad Lectora se encontró que, de los 18 reactivos analizados, tres están sobreestimados en cuanto al nivel de complejidad que se plantea en las especificaciones; uno está sobresimplificado, ya que apela a un nivel más complejo de habilidad, y dos no evalúan el proceso cognitivo que deberían evaluar. En cuanto a la prueba de Matemáticas, solo dos de los 18 reactivos analizados fueron congruentes con la estructura teórica declarada en el marco de referencia de la prueba. El fundamento de estas conclusiones sintéticas puede verse en el informe de los dos estudios especiales que se incluye como Anexo 2 de este documento. El primero de esos estudios fue coordinado por Luis Ángel Contreras N., y el segundo por Juan Carlos Pérez M. y Sofía Contreras R.

ESPECIFICACIÓN, GENERACIÓN Y ESCRITURA DE ÍTEMS 6. Existe un documento manual o guía de redacción o diseño de reactivos en el que se especifican y justifican los procedimientos para formularlos

Una etapa crucial del proceso de desarrollo de una prueba es la redacción de ítems. En ella convergen los demás elementos de la planeación del instrumento que hemos comentado hasta este punto. De este modo, resulta necesario que los reactivos representen las unidades del dominio educativo (universo de medida) que se consideran relevantes en la evaluación, como muestra del desempeño. Para lograrlo es importante que se estructure un procedimiento formal de escritura de ítems, mediante el cual se cuide de manera rigurosa que los reactivos representen el contenido por evaluar y que se adapten al nivel de desempeño que se da en la enseñanza, como expresión de las oportunidades de aprendizaje que se proporcionan a los estudiantes. En consecuencia, es fundamental que los redactores de ítems tengan tanto una formación adecuada, como referentes claros que les permitan homogeneizar la producción de ítems y ajustarla a los niveles de calidad requeridos. El procedimiento adecuado para lograrlo es contar con un manual de redacción de ítems, especialmente diseñado para ajustarse al propósito y contenido de la prueba, y que contenga todos los elementos necesarios para que los diseñadores de reactivos puedan llegar a interiorizar el tipo de producción de ítems que se espera de ellos. Para ello, deben incluirse en el documento suficientes indicaciones y ejemplos que ilustren su cumplimiento. Al respecto, la manera en

Alineación a los referentes

33

Las pruebas ENLACE para educación media superior

que procedieron los constructores de ENLACE - MS , respecto a estos aspectos particulares que hemos considerado, se describe y comenta a continuación. tt El

manual describe y da ejemplos de todos los tipos de reactivos que tendrá la prueba, indicando cómo clasificarlos y justificarlos, y haciendo referencia a la relevancia de las respuestas de los sujetos para el dominio pretendido.

En los manuales técnicos de ENLACE - MS de 2008-2010 y 2011-2012 no se hace referencia a un manual o guía que se haya diseñado para elaborar los ítems de la prueba. Al respecto, en el manual de 2011-2012 solo se menciona que con la finalidad “de mantener la calidad de la prueba y contar con reactivos técnicamente adecuados, el CENEVAL imparte talleres de capacitación basados en la metodología institucional y en los lineamientos para la elaboración de reactivos” (pág. 46). Para conocer mayores detalles sobre dichos lineamientos, se solicitó a la DGEP el documento que los contiene. La dependencia nos facilitó dos archivos que presentan los lineamientos para la construcción de reactivos de opción múltiple correspondientes a 2011 y 2013. Ambos documentos son muy similares y el más actual de ellos es un documento con 80 páginas, en las cuales presenta información general sobre el CENEVAL , como la integración de sus cuerpos colegiados, los tipos de exámenes que desarrolla, la metodología que sigue para el desarrollo de pruebas y bancos de reactivos, la selección de especialistas y sus responsabilidades como elaboradores de ítems. También incluye información sobre insumos requeridos para elaborar reactivos, tales como el perfil referencial de un examen y la estructura que debe tener, así como sobre las especificaciones para producir ítems e instalarlos en su plataforma informática, a fin de administrar cada banco de reactivos. Aunque el título del documento se refiere a los ítems de opción múltiple, los demás capítulos presentan información sobre varios tipos de ítems que son clasificados bajo dicha designación; como los tradicionales de opción múltiple, completamiento, cuestionamiento directo, elección de elementos, jerarquización, relación de columnas, independientes y multirreactivos. Además, hay una sección que presenta un decálogo de buenas prácticas del elaborador de reactivos, una más con preguntas frecuentes y otra con referencias sugeridas. Aunque en los lineamientos no se mencionan cuáles tipos de ítems se presentan en la prueba ENLACE - MS , la versión 2014 del examen muestra que se aplicaron dos tipos de ítems: multirreactivos de base común para evaluar el dominio de los contenidos del campo disciplinar de Comunicación (Comprensión lectora), e ítems de opción múltiple para el campo de Matemáticas. En consecuencia, revisamos lo que se dice sobre ambos tipos de ítems en la versión de 2013 del documento de lineamientos. En el apartado correspondiente a ítems de opción múltiple (págs. 27-30), se definen estos ítems y se identifican sus componentes: base, opciones y argumentaciones (pág. 28). También se presentan lineamientos generales que deben seguir todos los reactivos, y los lineamientos para cada componente de este tipo de ítem (pág. 30), los cuales se muestran enseguida en el cuadro 1.9 Además, se ofrecen ejemplos que ilustran la aplicación de esos lineamientos.

34

Cuadro 1.9

Por su parte, el cuadro 1.10 presenta el apartado con los lineamientos para los multirreactivos (págs. 67-69). En dicho apartado también se incluye un ejemplo de aplicación, el cual no se muestra en el cuadro.

Cuadro 1. 10

Alineación a los referentes

35

Las pruebas ENLACE para educación media superior

Suponemos que el documento de lineamientos se proporciona a los participantes en los talleres para capacitar a los elaboradores de ítems. El Manual Técnico de ENLACE Media Superior 20112012 solo menciona que En estos talleres los especialistas aprenden a elaborar reactivos de opción múltiple. Cada reactivo debe contar con una base y cuatro opciones de respuesta, una es la respuesta correcta y las otras tres son distractores. Adicionalmente se informa a los asistentes de la historia y objetivos del Centro y, sobre todo, de las particularidades de la prueba ENLACE MS; esto es importante para que los ítems correspondan con el propósito, estructura y modelo taxonómico de la evaluación (pág. 46). Respecto a la duración de la capacitación a los elaboradores de ítems, en una de las notas informativas que nos fueron proporcionadas sobre los talleres de elaboración de reactivos que se impartieron en 2013, se menciona que la duración de cada taller fue de tres horas y que se impartió en una sesión. La revisión de la documentación mencionada nos permite afirmar que el documento de lineamientos para la construcción de reactivos de opción múltiple describe y da ejemplos de todos los tipos de reactivos que tienen las pruebas que desarrolla el CENEVAL , y que también indica cómo clasificarlos y justificarlos. Sin embargo, estos aspectos no hacen referencia a la prueba ENLACE - MS , por lo que no se aportan evidencias sobre la relevancia de las respuestas de los examinados para el dominio pretendido por dicha prueba. Además, considerando lo que se especifica al respecto en la literatura especializada (véase por ejemplo Haladyna, 2004), los lineamientos que aparecen en el documento (cuadros 1.9 y 1.10) resultan muy generales, incompletos y poco explícitos para orientar el desarrollo de ítems efectivos. Da la impresión que fueron extraídos de un manual genérico de redacción de ítems. tt El

manual usa tablas o modelos de especificaciones precisas como guía para homogeneizar diseño de los tipos de ítems y hay documento o formato donde los diseñadores de reactivos hagan la captura y la modificación.

En la documentación disponible no pudimos encontrar una guía o formato que oriente el diseño de los dos tipos de ítems que contiene la prueba operativa de 2014 (opción múltiple y multiítem de base común). Tanto el manual técnico 2011-2012, como el documento de lineamientos antes mencionado, hacen una breve referencia al uso de la plataforma informática denominada Sistema de Administración de Bancos de Exámenes y Reactivos (SABER ), para la elaboración y organización de reactivos, y para la elaboración de los cuadernillos de examen que se aplican a los examinados. En el portal del CENEVAL (http://www.cENEVAL .edu.mx/cENEVAL-web/content. do?page=5682), se aclara que el sistema “permite capturar los reactivos y realizar los ajustes necesarios derivados de los procesos de validación, revisión de estilo y revisión técnica. El sistema registra todas las actividades que se realizan con los reactivos, y los datos de quién y cuándo las efectuaron llevando un control estricto de los cambios”. No obstante, no sabemos cuáles elementos se incluyen en la pantalla que permite la captura de los ítems por parte de quienes los elaboran. tt El

manual fue desarrollado para la prueba y considera sus particularidades; no es aceptable uno genérico o tomado de otro sistema de evaluación.

36

Como ya se mencionó, los lineamientos para la construcción de reactivos correspondientes a 2011 y 2013 son de naturaleza genérica y el CENEVAL los emplea como guías para la elaboración de los ítems en todas sus pruebas. Reflejan normativas usuales que pueden encontrarse en manuales de medición en general o de diseño de reactivos en particular, y se supone que se entregan a los diseñadores y revisores de ítems. Sin embargo, no contienen referencias específicas para el diseño de los reactivos de ENLACE - MS , y no se percibe una especificación suficiente que relacione el planteamiento de esas normas y recomendaciones, de manera particular con los elementos de la planeación de la prueba que hemos comentado en las secciones anteriores.

7. Los reactivos son diseñados por un comité seleccionado teniendo en cuenta la especialización académica, laboral y su representatividad respecto a la diversidad del país, y estuvo coordinado por una persona calificada

Las características de la composición de comités que aquí utilizamos para valorar el cumplimiento de este criterio son las mismas que mencionamos para los casos de las pruebas ENLACE Básica y E XCALE . Comentamos que el perfil de los elaboradores de ítems ha sido bien documentado por expertos en medición, como Bormuth, Guttman, Hively, Tiemann, Markle, Williams, Roid y Haladyna, quienes sostienen que, en conjunto, este grupo de especialistas debe ser competente en la disciplina a la que se refiere el contenido curricular cuyo dominio se evalúa en la operación del currículo en las escuelas y las aulas, en lingüística y teoría cognitiva, para cuidar que el leguaje en el ítem no incremente la complejidad pretendida en los ítems; debe, representar a grupos que potencialmente pueden ser ofendidos o penalizados injustamente por los ítems. En el grupo han de participar también especialistas en medición y evaluación educativas quienes coordinan y facilitan los trabajos. tt El

comité fue formado específicamente para realizar su labor, considerando todos los elementos característicos del tipo de prueba a diseñar

En cuanto al perfil de los elaboradores de los ítems de la prueba ENLACE - MS en la tabla B3, denominada “Comité Académico de elaboración y validación de reactivos”, incluida en el anexo B del Manual Técnico ENLACE Media Superior 2011-2012, se proporciona el nombre y la institución de adscripción de casi 150 personas que han participado en la elaboración o validación de ítems, pero no se hace referencia a su especialización académica, laboral o a su representatividad respecto a la diversidad del país. Tampoco se indica quiénes de ellos elaboraron los ítems, quiénes los validaron; o bien, en su caso, quiénes elaboraron unos ítems y validaron otros. Por ello, no puede decirse si este grupo de especialistas cubre con el perfil general de necesidades que comentamos en el párrafo anterior. La única referencia que pudimos encontrar sobre el perfil de los integrantes de ese comité, aparece en otra sección del manual (pág. 46), donde se afirma que a “los talleres de ENLACE - MS asistieron docentes y especialistas en la enseñanza de las asignaturas afines a los campos disciplinares básicos, de acuerdo con las líneas establecidas por la RIEMS . El requisito principal fue que los profesores contaran con experiencia en el aula y, de ser posible, en la implementación de la Reforma”, y que en “estos talleres los especialistas aprenden a elaborar reactivos de opción múltiple”. tt La

capacitación de redactores incluyó procesos metodológicos y referencias a taxonomías o sistemas de clasificación cognitiva usados.

Alineación a los referentes

37

Las pruebas ENLACE para educación media superior

Cuando valoramos la prueba ENLACE - MS desde la perspectiva del segundo criterio, comentamos que las tablas que se muestran en los cuadros 1.7 y 1.8 tienen componentes que las hacen funcionar, a la vez, como especificaciones de la prueba y como especificaciones para producir los ítems. También comentamos que, aunque no se informa al respecto, suponemos que dichas tablas se entregan a los elaboradores cuando reciben la capacitación de 3 horas a la que hemos hecho referencia. De hecho, no pudimos encontrar información que permitiera aclarar si las personas que elaboraron los ítems fueron capacitadas juntas o trabajaron de manera conjunta bajo la coordinación especialistas en medición y evaluación que facilitaran su trabajo. Más bien hay indicios tales como su amplio número, la breve duración de su capacitación, el hecho de mantener activa todo el año la elaboración de reactivos o el carácter genérico de los lineamientos para la elaboración de ítems que fueron utilizados, y de que lo hicieron de manera relativamente independiente. Lo que sí es seguro, es que se contó con un sistema de clasificación cognitiva que orientara el desarrollo de los ítems. Las evidencias más claras de ello son las secciones de las tablas que aparecen en los cuadros 1.7 y 1.8, donde aparece la taxonomía que se utilizó, así como las secciones de las tablas que nos fueron proporcionadas posteriormente donde se identifican, para cada ítem de la prueba, el nivel de complejidad y el proceso cognitivo que fueron especificados para su diseño. No obstante, no se sabe cómo o cuándo recibieron dicha información los elaboradores de ítems.

CONTROL DE LA CALIDAD DE LOS ÍTEMS Como también señalamos en los casos de ENLACE Básica y E XCALE, la validación de ítems mediante los juicios que formulan expertos es una etapa clave del desarrollo de pruebas para evaluar el aprendizaje que ha sido bien documentada en la literatura especializada por autores como Hambleton (1993), Nitko (1994), Popham (1980), Jornet y Suárez, (1990) y Solano-Flores et al. (2000, 2001 y 2002), quienes mencionan que los miembros del comité que realiza la validación de los ítems deben tener con un perfil general semejante al de quienes desarrollan los ítems, y que en conjunto deben representar al conocimiento disciplinario, el currículo y su operación en las aulas y escuelas, la lingüística, la teoría cognoscitiva y la psicometría, así como a los grupos socioculturales que potencialmente pueden verse afectados por el tratamiento verbal que se dio a los ítems en el examen. En esta etapa, los especialistas deben analizar el alineamiento de cada ítem desarrollado contra la especificación que lo produjo, así como la correspondencia de ambos componentes con el plan general de evaluación, particularmente con la tabla de especificaciones del examen y la representación del universo de medida de la prueba, y en general con el currículo cuyo análisis sirvió de base para el desarrollo del instrumento. Además, deben identificar y corregir posibles errores conceptuales, fallas al cumplir los lineamientos de redacción técnica, sesgo y ofensa, complejidad cognitiva innecesaria y falta de representatividad curricular, entre otros problemas que pueden presentar los ítems. En esencia, se trata de un comité similar pero independiente del anterior, que examina tanto la documentación que permitió elaborar los ítems, como a los propios ítems con la finalidad de liberarlos de posibles errores sistemáticos.

38

8. Existe un manual o guía para el análisis de reactivos que señala los criterios de aceptación, revisión y modificación.

Ya hemos comentado en los casos de ENLACE Básica y E XCALE, que la capacitación del grupo de jueces que evalúa los ítems requiere disponer de un manual que incluya protocolos y criterios de trabajo para revisar aspectos técnicos de orden conceptual y procedimental sobre validación de ítems, como son los tipos de evidencias relacionadas con el proceso de validación de ítems y los métodos que pueden emplearse para obtener tales evidencias; la estructura del formato de evaluación que emplearán; los lineamientos normativos a que deberán ajustarse y los procedimientos específicos que utilizarán para llevar a cabo la evaluación. De este modo, los subcriterios a considerar en este caso son: tt Presenta tt El

estructura con funciones representadas en el comité evaluador. manual describe procedimientos/criterios para revisar ítems por jueceo.

Este criterio ha sido valorado en función de las informaciones aportadas por CENEVAL en los manuales técnicos de ENLACE - MS , así como de la documentación adicional de carácter interno que nos proporcionó la DGEP. Al respecto, hay que destacar que si bien en los manuales técnicos publicados no se presenta una descripción pormenorizada acerca de los procesos metodológicos utilizados para la revisión de ítems, sí que se muestra una descripción genérica acerca del proceso de revisión por jueceo. Este proceso se alinea, según se indica, con los lineamientos que se derivan de los estándares desarrollados en por el Consejo Asesor Externo del CENEVAL (Martínez Rizo et. al, 2000). Se indica en cada caso, a qué estándar concreto se atiende en la revisión. Asimismo, aquí mencionaremos como referencias más detalladas para todo el proceso que se siguió para la validación de reactivos, tres textos adicionales que nos fueron proporcionados: a) el documento interno confidencial denominado “ENLACE Media Superior. Procedimiento de Validación de Textos y Reactivos 2011-2013”; b) una presentación que se utilizó como material de apoyo en el Taller de Validación de Reactivos; y c) el documento denominado “Lineamientos para la Validación de Textos ENLACE Media Superior”. El primer documento, señala en su primera página que el proceso de validación de textos y reactivos se “apega a los lineamientos técnicos de la Metodología CENEVAL , especificados en el Prontuario de Normas Técnicas y Estándares, Volumen I: Diseño y Construcción”, y que de acuerdo con dichos lineamientos “el objetivo de la validación es ‘verificar mediante un proceso de jueceo externo que el reactivo mida los conocimientos y habilidades que se pretende medir, que su contenido sea vigente y relevante, esté libre de sesgos y presente un lenguaje apropiado para la población sustentante’”, y que para ello los comités académicos de validación “se aseguran de que los estímulos estén apegados a los contenidos definidos en el perfil referencial, el marco conceptual y las definiciones operacionales de las áreas del examen y las especificaciones de la prueba”. En cuanto al proceso que siguieron los miembros del comité que validó los ítems, el segundo de los documentos mencionados, que fue utilizado como material de apoyo en el Taller de validación de reactivos, presenta el procedimiento general y las funciones que desempeñaron los miembros del comité validador, además de los criterios que utilizó el comité para validar los ítems y ejemplos de 2 de los 5 tipos de dictamen formulados. Alineación a los referentes

39

Las pruebas ENLACE para educación media superior

Por su parte, el tercer documento referido contiene lineamientos para la validación de textos apelativos, descriptivos, argumentativos y narrativos que se utilizan en la evaluación de los campos disciplinares de Comunicación, Ciencias Sociales y Ciencias Experimentales. La estructura de las funciones del comité, los criterios utilizados y los tipos de dictamen que formulan son similares a los anteriores. En consecuencia, aunque no se dan detalles sobre dónde o cuándo reciben los miembros de los comités la documentación completa con los productos de la planeación de la prueba que fueron previamente elaborados, puede decirse que los comités de validación de los ítems de ENLACE - MS contaron con la documentación mínima necesaria que guiara la formulación de sus juicios sobre los ítems, la cual incluyó una descripción de las actividades a realizar y los criterios para revisar, aceptar o modificar los ítems de la prueba y los textos incluidos en ellos.

9. Hay un comité de revisión calificado para aplicar lo que define el manual.

Otro factor clave para trabajar en pro de la validez de los reactivos y la prueba, es la cualificación de los integrantes de los comités de revisión. La cualificación se apoya al menos en tres factores: • profesional (dependiendo de la tarea a realizar, deberían ser especialistas en la disciplina, el currículo, profesorado frente a grupo —con experiencia y formación evaluativa—, lingüistas…); • diversidad geográfica (como garantía para representar la diversidad de situaciones socioculturales, económicas y escolares de México); y • diversidad en cuanto a modalidad educativa en que realizan su trabajo —en el caso de profesorado frente a grupo— (como garantía para representar adecuadamente los factores característicos que pueden influir o darse en cada modalidad de la educación media superior). Los criterios de selección de revisores deberían contemplar mínimamente los factores mencionados. En cuanto a los subcriterios a considerar en este caso: tt Se

utilizaron criterios de selección de jueces con un perfil académico y laboral preciso y con representatividad de la diversidad del país.

En el documento denominado “Procedimiento de Validación de Textos y Reactivos 2011-2013”, que nos fue proporcionado por la DGEP, se indica que los “Comités de Validación Externa se conforman con especialistas expertos en cuatro de los campos disciplinares de Matemáticas, Comunicación (Comprensión lectora), Ciencias Experimentales y Ciencias Sociales” (pág. 1), y que “los especialistas deben contar con un grado superior en el dominio de los contenidos temáticos, y con experiencia en los procesos de planificación curricular, evaluación o enseñanza de las asignaturas afines a los campos disciplinares básicos y las directrices establecidas por la Reforma” (pág. 1). Además, se indica que “cada mesa de validación se conforma por dos o tres especialistas del mismo campo disciplinar y un representante del CENEVAL que funge como moderador” (pág. 2). 40

No obstante, ni en dicho documento, ni en el anexo B del Manual Técnico ENLACE Media Superior 2011-2012 donde aparecen el nombre y lugar de trabajo de los participantes en dichos comités, no se hace referencia a su especialización académica o laboral, ni a su representatividad en cuanto a la diversidad del país o con respecto a las modalidades de educación media superior existentes. La única información que pudimos identificar al respecto está contenida en dos documentos adicionales que se nos entregaron: a) el denominado “Características de los comités académicos”, donde se establece en la página 4 que los miembros del Comité Académico de Validación de Reactivos “deben tener un grado mínimo de estudio de licenciatura, tener experiencia docente y/o de investigación en cada una de las áreas de la prueba ENLACE - MS (Comunicación, Matemáticas, Ciencias Experimentales y Ciencias Sociales)”, y donde además se señalan como criterios de selección que “deben provenir de diferentes instituciones y, de ser posible, de diferentes entidades en las que se aplica el examen”, así como que deben participar “en un proceso de capacitación impartido por personal autorizado del CENEVAL”; y b) las actas o notas informativas más recientes que nos fueron proporcionadas sobre algunas sesiones de validación de ítems (véase por ejemplo el cuadro 1.11), en las cuales se identifica el área de especialidad de los participantes. Cuadro 1.11

Por otra parte, y considerando el número de participantes en los comités, es difícil suponer la representatividad de la diversidad nacional o la modalidad educativa. tt El

comité de revisión está formado por jueces diferentes al de escritura.

Cuando se consideró el cumplimiento del primer subcriterio del criterio 7, se dijo que en la tabla B3 del anexo B del Manual Técnico ENLACE Media Superior 2011-2012, aparecen los nombres y adscripción institucional de casi 150 personas que colaboraron en el Comité Académico de elaboración y validación de reactivos, y se indicó que dicha tabla no contiene información que haga posible distinguir entre quienes han participado en la elaboración de los ítems y quienes han colaborado en la validación de ítems; o bien, en su caso, que permita identificar a quienes participaron en la elaboración de unos ítems y posteriormente en la validación de otros, dado Alineación a los referentes

41

Las pruebas ENLACE para educación media superior

que ya tendrían una capacitación previa que les permitiría participar también como validadores de ítems. En todo caso, hay múltiples referencias y detalles particulares, en los manuales técnicos y en la documentación adicional que nos fue entregada por la DGEP, que nos permiten afirmar que los comités de revisión fueron externos y actuaron de manera independiente respecto a los comités que construyeron los ítems de la prueba. tt Se

detalla el procedimiento que se siguió para capacitar a los evaluadores.

Cuando en el criterio anterior comentamos los materiales utilizados para capacitar a los evaluadores de los ítems, mencionamos tres documentos que en conjunto detallan el procedimiento a seguir para llevar a cabo la validación de ítems, y que también dejan ver detalles particulares sobre la manera en que se realizó la capacitación de los evaluadores: el documento “ENLACE Media Superior. Procedimiento de Validación de Textos y Reactivos 2011-2013”, una presentación que se utilizó como material de apoyo en el Taller de Validación de Reactivos; y el documento denominado “Lineamientos para la Validación de Textos ENLACE - MS”. Además, también nos fue entregada otra presentación que fue utilizada en la capacitación de los evaluadores y que tiene por título “Instalación del Comité de Validación de la prueba ENLACE Media Superior 2010”. Este documento incluye información sobre los aspectos de contenido que abarcó la capacitación: el contexto institucional, la evaluación, el MCC y los mecanismos de gestión de la RIEB, el proceso de diseño y construcción de la prueba ENLACE - MS 2010, y el procedimiento de validación del perfil referencial de la prueba, el cual incluyó la revisión de las competencias a evaluar, la definición del campo disciplinar, los contenidos generales y específicos, el modelo taxonómico utilizado, y las especificaciones.

10. El sistema de revisión lógica de cada ítem incluye análisis de:

tt Calidad

técnica: formulación clara, adecuación al marco de prueba. ítem-contenido o ítem-objetivo (subdominio). tt Posibles fuentes de sesgo: género, diversidad cultural, entre otras. tt Concordancia de juicio para selección de ítems o procedimientos para estimar la confiabilidad de los juicios de los evaluadores. tt Congruencia

El análisis lógico de los ítems es un grupo de procedimientos que permiten asegurar la validez de una prueba. Su propósito es detectar y eliminar posibles errores sistemáticos en los ítems, antes de proceder a su pilotaje. Estos procedimientos para la revisión de reactivos incluyen aproximaciones tanto analíticas como sintéticas. Para llevar a cabo la revisión lógica de los ítems, es necesario que los revisores cuenten con criterios específicos que orienten su atención al revisar los reactivos, entre ellos: a) los que permiten valorar la calidad técnica del ítem (como la formulación de la base del ítem, existencia de respuesta correcta y calidad de distractores, entre otros); b) los que hacen posible observar la adecuación del ítem a la unidad del dominio curricular que pretende medir (por ejemplo observar la relación ítem-especificación-contenido curricular a evaluar), y c) los que permiten detectar elementos socioculturales y lingüísticos que puedan constituir posibles fuentes de funcionamiento diferencial de ítems (DIF, por sus siglas en inglés), o bien que puedan considerarse sesgos indeseables en las pruebas que afectan a la justicia y equidad de la evaluación. 42

Los criterios de revisión externa utilizados se describen en los documentos referidos, y de manera concreta en la presentación que se utilizó como material de apoyo en el Taller de Validación de Reactivos y el documento denominado “Lineamientos para la Validación de Textos ENLACE Media Superior”. Respecto a los subcriterios, se trabajó, según se indica, fundamentalmente sobre la calidad técnica de los reactivos (su formulación, características de los textos por utilizar, entre otras propiedades de los ítems), el proceso cognitivo que evalúa el ítem y la ausencia de sesgos socioculturales. Sin embargo, no se utilizó un procedimiento cuantitativo de juicio independiente, sino que se procedió según un sistema de deliberación en el comité hasta que se llegó a un consenso acerca de la categorización o dictamen que correspondió a cada reactivo. Las evidencias aportadas, como en los casos anteriores, son descriptivas respecto a la metodología, no pudiendo observar este comité otras particulares o específicas sobre alguno de los procesos de trabajo llevados a cabo.

11. Se cuida la alineación de la prueba en general.

En una prueba de referencia criterial como ENLACE - MS , su alineamiento al currículo y la representatividad de los ítems que la integran respecto al mismo, constituyen los criterios fundamentales para asegurar evidencias de validez relacionadas con el contenido; de ahí que también sean los referentes principales para orientar su construcción, así como en este caso su valoración. En esencia, el alineamiento se refiere tanto a la correspondencia como a la articulación entre los productos de su planeación y desarrollo. En consecuencia, se busca identificar primero el ajuste estricto de los ítems respecto a las especificaciones que los produjeron y después la correspondencia y armonización de ambos componentes con los contenidos curriculares cuyo dominio se juzgó importante evaluar. Lo anterior hace posible contar con evidencias que permitan hacer inferencias válidas acerca del nivel de dominio que tienen los examinados sobre el currículo. Pasamos ahora a comentar las valoraciones respecto a este criterio. tt Tras

analizar ítems del piloto y desechar los que no cumplan criterios, se verifica que el contenido de las pruebas corresponda al dominio y los niveles de demanda cognitiva planeados. tt Se cuida alineación ítems-test-currículo, ítems-test-estándar-interpretación y, de ser posible, ítems-test-enseñanza e ítems-test-evaluación en aula. Algunos de los puntos incluidos en ambos subcriterios ya los comentamos en apartados anteriores. Ahora queremos destacar que el alineamiento general del instrumento, con respecto al currículo de la RIEMS , es probablemente uno de los elementos que más pueden afectar la validez de la prueba ENLACE - MS . Téngase en cuenta que el hecho de que el MCC de referencia se haya establecido por consenso con representantes de instituciones de EMS , no asegura que ciertamente sea igualmente representativo de la enorme multiplicidad de currículos que se dan en este nivel educativo.

Alineación a los referentes

43

Las pruebas ENLACE para educación media superior

Es más, ahondando en el problema, entendemos que hay preguntas fundamentales que no pueden responderse con la metodología utilizada en el desarrollo de la prueba. Por ejemplo: • ¿El Dominio Curricular que representa la prueba es realmente común para todas las instituciones educativas que imparten EMS? • ¿Qué distancia existe entre el Dominio Curricular consensuado como referencia y el implementado en las instituciones educativas? ¿Esta distancia se ha valorado, aunque sea de manera muestral, para extraer algún indicio empírico acerca de ello? • ¿Se tuvieron en cuenta los modos de enseñanza más habituales para orientar el formato evaluativo? ¿Hay algún estudio acerca de los modos de enseñanza en las instituciones que imparten EMS y su distancia respecto al modo en que se evalúa con la prueba? • ¿Se tuvo en cuenta el modo en que se evalúa en las instituciones de EMS para el diseño de la prueba? ¿Existe distancia entre los modos de evaluación en el aula y el modo en que se evalúa en la prueba? Obviamente no disponemos de información al respecto, por lo que las diferencias interinstitucionales pueden estar influidas por diversos factores de invalidez que no han sido controlados. Ello lo entendemos como una debilidad evidente, pero que no es responsabilidad última de los diseñadores de la prueba. En cualquier caso, también queremos señalar que la evaluación, en general, y la medición —diseño de instrumentos estandarizados—, en particular, no pueden suplir una carencia de gestión. No se puede pretender que existan unos contenidos mínimos o competencias básicas de referencia clara en las pruebas, con una multiplicidad organizacional en los currículos marcada por una inexplicable libertad de acción. Cuando se desea asegurar el derecho a la educación, los mínimos nacionales deben estar claramente establecidos como garantía de que no se den excesivas desigualdades. Ante este panorama, únicamente queremos llamar la atención a las autoridades competentes acerca de ello: la evaluación no puede inventar lo que no existe. Hay que abordar de manera decidida la planificación de la EMS . Entonces, podremos ahondar con mayor claridad en la validez de las pruebas. Hasta el momento, lo que se está aportando es “descubrir” un universo de medida que puede considerarse infinito, cambiante e inexplorado.

44

2

Aspectos técnicos

La prueba ENLACE - MS es desarrollada por el CENEVAL desde el año 2007 por encargo de la Secretaría de Educación Pública. Se puede clasificar a la documentación en la que se basa en dos conjuntos de fuentes: el primero organiza la información en el manual técnico de la prueba, del cual se cuenta con dos ediciones. El segundo conjunto se conforma de documentos complementarios propios de la producción de las pruebas en los diferentes años y en fuentes diversas de tipo informal o que están relacionadas más directamente con documentos internos del CENEVAL y que se encuentran en su página web; son de propósito general y no asociados específicamente con las pruebas ENLACE - MS . En el caso particular de esta prueba, se cuenta con dos manuales técnicos: la primera edición hace referencia a los años 2008 a 2010, y la segunda edición se enfoca a los años 2011 y 2012, sin contarse con una versión disponible para las aplicaciones de 2013 y 2014. El contenido de las dos ediciones del manual técnico es básicamente el mismo, con la salvedad de que algunos elementos del manual 2008 no se incluyeron en la nueva versión (en lugar de actualizarse) y en otros casos se actualizan algunos datos sin contar con un marco de referencia. No hay un acuerdo pleno entre los revisores de este trabajo sobre la forma de catalogar a los manuales técnicos de ENLACE -MS . No pueden compararse contra los manuales técnicos de ENLACE B, cuyas primeras dos ediciones indican aspectos por desarrollar, faltantes o por mejorar, que a partir de la tercera edición evolucionó hasta convertirse en un informe anual de la metodología disponible y de los resultados. No pueden compararse tampoco con el manual técnico de EXCALE que solo se ha editado en una ocasión y que estaba enfocado a definir las características de diseño, conceptual y de desarrollo de las pruebas construidas por el INEE , pero que en lugar de actualizarse dio lugar a documentos complementarios con informes de resultados o investigaciones. Los manuales técnicos de ENLACE - MS , en cambio, presentan los elementos esenciales de acuerdo con lo que denominan “metodología CENEVAL” que, a su vez, parcialmente tienen como base un documento general denominado “Manual Técnico” publicado por el mismo CENEVAL en el año 2000. En algunos puntos se incluye información técnica pero en otros queda a nivel de divulgación de la citada “metodología” y no de las especificaciones o consideraciones técnicas propias de la prueba ENLACE . Por otra parte, los documentos complementarios (investigaciones, proyectos de análisis, informes internos) son muy escasos. Es de suponer que las bases de datos contienen información valiosa para investigadores educativos, así como para las autoridades de la Secretaría de Educación Pública o para los directivos y docentes de cada plantel, pero no se cuenta con evidencias de su uso. A diferencia de la cantidad de publicaciones y documentos sobre E XCALE que tiene el INEE , el proyecto ENLACE - MS tiene una baja productividad en publicaciones, semejante a la de ENLACE - B. Se identifican fortalezas y debilidades del proyecto, haciéndose énfasis en los aspectos a mejorar o modificar. 45

Las pruebas ENLACE para educación media superior

C ALIDAD DE LAS PRUEBAS 1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran usualmente en la medida en que sean aplicables.

tt Se

describe el procedimiento seguido para el análisis de validez de criterio, al menos en una de sus formas (predictiva, concurrente, discriminante, etcétera.) y se reportan los valores obtenidos en los estudios de validez de criterio.

No se presentan evidencias de análisis de la validez de criterio, por lo que tampoco se cuenta con resultados de este tipo de estudios, con excepción de los resultados de unas aplicaciones combinadas con preguntas de las pruebas ENLACE de bachillerato. Estos resultados integran una evidencia poco aceptable y hasta cierto punto contradictoria, ya que en principio son producto de la medición de competencias que no están basadas en el currículo (salvo la referencia a algunas de las competencias disciplinares básicas), pero que se espera que permitan reportar el valor agregado del proceso de aprendizaje dentro del ambiente escolar en media superior, como una evidencia de validez de criterio. Estas evidencias parecen confusas: si se parte de la medición de un constructo independiente del currículo, parece poco apropiado emitir conclusiones sobre la contribución de la escuela al desarrollo de estas competencias, al igual que hace poner en duda el origen y la interpretación de los cambios ocurridos en el ciclo escolar como posible de ser medida por estas pruebas, habida cuenta que se aplican al final del bachillerato. tt Hay

evidencia documental del análisis de la validez de escala de la prueba y su pertinencia en relación con el constructo y el modelo del perfil a evaluar.

La documentación proporcionada incluye amplia información acerca de los marcos de referencia conceptuales de las pruebas en las que se presenta información detallada de los procesos y contenidos evaluados. Esta documentación esta complementada con un análisis de pruebas nacionales e internacionales con propósitos afines a las pruebas de ENLACE - MS . Los componentes de la prueba están clasificados en dos dimensiones: una de contenido, y otra de proceso. Es de hacer notar que en los marcos de referencia solo describen los elementos que serán evaluados en las pruebas, pero no se encontró información acerca de las proporciones que deberán representar cada uno de estos contenidos y procesos en la prueba final, por lo que se asume que todos estarán representados de manera relativamente proporcional. Como no es necesario reportar los resultados por contenido o proceso, se afirma que la prueba incluye una muestra representativa de preguntas que cubren los contenidos y procesos a medir. Sin embargo, no es claro el proceso de selección de las preguntas específicas, pero sí se indica que en la prueba final los contenidos y procesos están todos representados, teniendo algunos de ellos un poco más de énfasis o ponderación que otros. No se cuenta con elementos numéricos detallados sobre la distribución de los ítems en la escala, teniéndose disponible solamente la media de dificultad en porcentaje de aciertos, pero no hay más valores descriptivos generales que permitan juzgar la similitud de la escala métrica entre pruebas. En los manuales técnicos se cita que para el diseño de los ítems las dificultades 46

en modelo clásico deben distribuirse entre 20% y 80% de dificultad, pero no queda clara la justificación, lo cual contrasta con la documentación de ENLACE Básica, donde se explica la racionalidad de esta distribución que no solamente es para fines de diseño sino para la revisión de la prueba una vez realizada su aplicación. Esto no aparece explicado o justificado de la misma manera en ENLACE - MS . tt Se

presenta documentación que muestra cómo se realizó el proceso para analizar la validez de constructo de la prueba y se presentan los resultados.

La validación del constructo se lleva a cabo a partir de los análisis de contenido de las pruebas, la comparación con otras pruebas nacionales e internacionales, y en parte con la validación de las preguntas y la prueba por medio de los análisis de confiabilidad y de Teoría de Respuesta del Ítem (TRI ). Estos últimos proveen evidencia que las preguntas miden un constructo en común. Aparte de esto, no se presenta más documentación o evidencias de la validez de constructo.

2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar las pruebas, definiendo equivalencia y periodicidad.

tt Se

indica el procedimiento seguido para construir las pruebas a partir de las especificaciones y del banco de ítems.

En el MT 2011 se señala el esquema de producción de las pruebas combinando ítems de los bloques del pre-test, pero no se tiene información específica de la forma de utilizar el sistema informático ni la base de datos del banco. El ensamble descrito en el MT 2011 marca la distribución de reactivos por cada bloque en los cuales se incluyen ítems calibrados en el pre-test. Con esta construcción se tienen varias versiones que siguen la tabla de la estructura de la prueba en número de ítems combinando dificultades semejantes entre las pruebas. En el MT 2011 se cita la existencia del software SABER , sobre la plataforma llamada BRAE (Banco de reactivos para asesores externos) desarrollada por el CENEVAL , para automatizar la construcción de las versiones. No hay detalles del software, pero puede suponerse que toma en cuenta la clasificación temática y por nivel para garantizar la equivalencia de contenido, así como para construir el instrumento tomando en cuenta la dificultad de los ítems calibrados previamente. tt Se

reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en el tiempo o según sedes o localidades.

En el MT 2011 se detalla el proceso de ensamble de las pruebas piloto para tener instrumentos similares en cada año. Los bloques de contenido se distribuyen matricialmente en los cuadernillos, balanceando el orden de presentación, así como los textos, para lo cual se construyen instrumentos que tienen de 26 a 30 reactivos en cada sesión. Para la prueba operativa se hace una descripción menos detallada. En este caso se comenta que se comparan las curvas características de las pruebas para que sean similares entre años, pero no se especifica la forma de comparar dicha similitud ni la manera en que el software interviene en la construcción de las versiones.

Aspectos técnicos

47

Las pruebas ENLACE para educación media superior

La versión solo tiene vigencia para el año de aplicación, porque se distribuye entre los planteles aplicados. tt Se

cuenta con metodología de diseño para obtener versiones equivalentes y se reportan los valores de diseño y experimentales que demuestren dicha equivalencia. No es aceptable reportar los resultados de la prueba sin evidencias de equivalencia entre versiones o formas.

Para la construcción de las versiones de ENLACE - MS se deben cumplir las especificaciones dadas en la tabla denominada “estructura de la prueba”, donde se indica el número de ítems por cada área y las competencias y niveles de conocimiento. En esta fase se tiene la certeza de que las versiones son equivalentes en cuanto a contenido y nivel de complejidad. En el MT se describe esta metodología de forma general y se incluyen esquemas, pero no fue factible corroborar el procedimiento porque no se cuenta con los inventarios de los bancos ni las bases de datos, en consecuencia no es posible verificar las equivalencias ni disponer de un elemento objetivo de comparación entre las pruebas. Los informes de equiparación se manejan como un proceso especial que requiere de estudios adicionales, pero no se cuenta con un estudio en este sentido. En una segunda fase se pide que la dificultad de las versiones sea similar, para lo cual se utilizan los valores de calibración obtenidos en los bloques del pre-test y se pide que las dificultades de los ítems en modelo clásico fluctúen de 20% a 80% (en el MT no se indica que los ítems se distribuyan de manera uniforme, pero podría suponerse que esa es la regla de construcción). Al momento de calificar se hace el escalamiento de resultados combinando los valores de calibración previa con la operación de trasladar la media al valor 0 y la desviación estándar a 1. Por el conjunto de operaciones descritas hay elementos que no se reportan, como es el valor medio de la escala (ya que fue centrada por el programa) y se reportan en un anexo del MT 2008 los valores medios de dificultad, en porcentaje de aciertos (como “esquema general de ensamble del pre-test”). tt La

periodicidad de aplicación se justifica con criterios teórico-metodológicos o logísticos sustantivos, distinguiéndolos de criterios políticos o de opinión.

El diseño de ENLACE - MS sigue de cerca el enfoque de la RIEMS , pero se establece una estructura en función de la interpretación específica que incluye solo algunas de las competencias básicas. No se plantea en forma explícita la periodicidad, pero es de suponerse que a partir de esta premisa, la vigencia de la prueba depende de las especificaciones de la RIEMS y de los cambios que se planteen por el Sistema Nacional de Bachillerato, así como por alguna nueva consideración del Consejo Técnico o del propio CENEVAL . tt Se

especifica y justifica el marco metodológico que integra en forma coherente los procesos y métodos que guían el desarrollo de la prueba.

Según la documentación presentada, para el desarrollo de las pruebas se utiliza lo que denominan la “metodología CENEVAL”, que aunque no pretende ser algo único u original, es una serie de pasos y procesos generalmente aceptados y disponibles en la literatura técnica adaptados por el CENEVAL para la elaboración de una prueba. De acuerdo a la “metodología CENEVAL”, se llevan a cabo diversos procesos integrados y sistematizados que incluyen las siguientes fases: diseño, delimitación del objeto de medida, construcción, verificación, ensamble, aplicación, calificación, emisión de resultados, mantenimiento del examen y del material complementa48

rio. Estos principios son los que guían el desarrollo de una prueba y según la documentación proporcionada, estos fueron los pasos que se siguieron en el desarrollo de las pruebas de ENLACE - MS . Fuera de estas consideraciones, la documentación no está disponible por haber sido considerado por el CENEVAL como una metodología “confidencial”. tt Se

especifica y justifica el modelo psicométrico usado.

Se justifica la utilización del modelo de tres parámetros considerando que es “uno de los más recomendables cuando las muestras son grandes y se requiere que los resultados se distribuyan a lo largo de la escala de puntuaciones”. Aunque ésta representa una justificación que puede calificarse punto menos que modesta respecto del uso de este modelo, no se presenta más fundamentación del modelo psicométrico utilizado. El modelo de TRI que se utiliza es consistente con el modelo utilizado en otras pruebas ENLACE y es el modelo que actualmente varios autores, sin que sea una opinión unánime, consideran como recomendable para analizar el tipo de resultados que se obtienen con este tipo de pruebas, y hacer el tipo de reporte en escala común, tal y como se pretende hacer con estas pruebas. En particular es un modelo que permite obtener información de las preguntas que componen una prueba, antes que se haga la aplicación operativa, y con base en esta información armar un conjunto de preguntas que cubran el continuo de conocimiento o destrezas que se quieren medir, al tiempo que se pueden optimizar la medición alrededor de los puntos de corte en la distribución. Para conocer la calidad estadística de los reactivos que integran el pre-test de ENLACE - MS , se hace su análisis con base en dos modelos: Teoría Clásica (TC) y TRI . De esta forma se cuenta con información suficiente para calibrar los reactivos y seleccionar los más adecuados para integrar las pruebas. Los análisis de los reactivos se llevan a cabo mediante el programa Iteman (TC) y Bilog- MG 3.0 (TRI ); el primero permite analizar las opciones de respuesta y el segundo obtener los parámetros de TC, TRI y las curvas características de los reactivos. Considerando la cantidad de alumnos, la calibración para el piloteo de reactivos se hace con el modelo de dos o de tres parámetros de la TRI ; mientras que los análisis de los reactivos que integran el pre-test y la prueba operativa se realizan con el modelo de tres parámetros. tt Hay

manuales técnicos que orientan de manera detallada todos los procesos involucrados en el desarrollo de la prueba.

Los MT 2008 y 2011 detallan los procesos involucrados en el desarrollo de la prueba. Estos procesos también se detallan en materiales que se han elaborado para la interpretación de los resultados. Por ejemplo, los manuales técnicos de las pruebas ENLACE - MS contienen información detallada de los procesos que se siguieron para desarrollar la prueba, desde la definición del constructo que se quiere medir, los distintos grupos de expertos que fueron convocados para trabajar en el desarrollo de la prueba, al igual que los pasos seguidos a fin de evaluar la calidad de las preguntas, y en general de la prueba. En varias partes se hace referencia a un documento en el que se describe lo que denominan “metodología CENEVAL”. Aunque este documento no fue proporcionado para esta revisión (se obtiene de la página Web del CENEVAL ), los puntos descritos como provenientes de este documento dan una idea bastante clara de los procesos y pasos seguidos a fin de desarrollar las pruebas ENLACE - MS que, como ya se ha dicho anteriormente, son pasos generalmente aceptados por diversas agencias evaluadoras para diseñar pruebas. Aspectos técnicos

49

Las pruebas ENLACE para educación media superior

3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para el análisis psicométrico.

tt Se

presentan los procedimientos psicométricos utilizados para determinar sesgo, funcionamiento diferencial e impacto adverso de la prueba.

No se encontraron estudios ni referencias para estos aspectos. El estudio del impacto positivo de la prueba como ganancia educativa sí es analizado y se considera su efecto en los puntos de corte y las descripciones de los desempeños académicos. No hay estudios sobre funcionamiento diferencial de las pruebas ante grupos específicos, ni se menciona la posibilidad de que sea un tema de investigación a futuro. Una búsqueda detallada en los MT 2008 y 2011 no revela interés en el tema. De hecho se indica en el MT 2008, sección 6.2 “Usos y difusión de resultados” que se deben evitar las comparaciones entre alumnos y entre escuelas, lo cual tiene una justificación para que los usuarios no establezcan “rankings” inconvenientes, pero no la tiene en el sentido de que debieron haberse explorado las diferencias socioeconómicas, culturales, por género, entre otras. El uso del cuestionario de contexto indica que las variables que mejor predicen el desempeño son las del capital cultural y económico en el dominio familiar y la motivación sobre recursos no cognitivos, esta afirmación no se respalda por un reporte específico a este respecto. Tampoco hay evidencias de que se tengan estudios de sesgo respecto de la prueba en su diseño, porque el único dato disponible es la media de dificultad, pero no se tiene la distribución de los ítems que permita determinar medidas de sesgo. tt Se

describen los análisis efectuados para detectar influencias de factores diversos en la calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la ansiedad, etcétera.

Si bien se aplican los distintos componentes de las pruebas siguiendo un esquema de rotación que permite estudiar efectos de posición y fatiga, no se cuenta con evidencias de estudios sobre ninguno de estos aspectos. Lo que se plantea son normativas de aplicación y administración de las pruebas con el objeto de reducir o eliminar las diferencias en las respuestas de los estudiantes que pudieran adjudicarse a defectos en las condiciones de aplicación. La aplicación se lleva a cabo en dos días, en sesiones de 50 minutos y un descanso de 10 minutos, pero no hay una consideración respecto de la fatiga o de la conveniencia de la duración y tampoco una justificación empírica o técnica. Existe una nota en el MT 2008 que señala, con la información proporcionada por los aplicadores, que puede pensarse en reducir a 45 minutos el tiempo de aplicación (sin dar de nuevo una evidencia de esta reducción).

4. Se ofrece información sobre la confiabilidad de las pruebas.

50

tt Se

describen los procedimientos usados para calcular la confiabilidad de las subescalas y versiones de la prueba. En particular se reportan los resultados del cálculo de consistencia interna de la prueba y sus subescalas.

El cálculo de alfa de Cronbach lo realiza Iteman y se obtiene una confiabilidad empírica con la varianza procedente de Bilog. El MT incluye las dos fórmulas asociadas con estos parámetros para mostrar que se obtienen datos muy semejantes, del orden de 0.83 a 0.87. Estos valores son del orden de magnitud esperado en función del número de ítems y de la dispersión de respuestas de los estudiantes. Solo se consideran dos variables para el reporte: Comunicación (comprensión lectora) y Matemáticas. De hecho solo se habla de una escala para las habilidades de los sustentantes que se iguala año con año, dejando sobreentendido que hay una escala para Comunicación y otra para Matemáticas. En principio, por la forma en que está realizado el diseño, se esperaría que cada variable definiera una subescala pero no se tiene evidencia en este sentido, porque no se reporta ninguna escala ítem-medida (en particular por utilizarse el modelo de tres parámetros de la TRI ). La conformación de las subescalas debe estar disponible al término de la corrida de los programas utilizados, siendo una información útil para contar con una evidencia de la calidad de la prueba y por ser de aplicación en proyectos de investigación. Debe hacerse notar que parte de la información útil para revisar el modelo de la escala se presenta en una edición del MT y no en el otro, lo cual no representa necesariamente una actualización de los datos. En el MT 2011 se presentan de forma gráfica las curvas características de las prueba en Comprensión lectora y Matemáticas (págs. 58 y 59), como especificaciones estadísticas de ensamble. A partir de estas curvas se puede obtener la relación aciertos-medida para definir la escala. Estas curvas no se observan en el MT 2008 pero, en cambio, en el Anexo VI del MT 2008 se presenta un estudio sobre la validación de los puntos de corte en las pruebas de ambas áreas (Gaviria, 2008), con base en la función de información de la TRI . Un ejemplo de las corridas de los programas podría ser útil para completar esta información, pero es una documentación no disponible. Se reporta la confiabilidad de la prueba calculada de dos maneras. La primera se realiza con el uso del coeficiente de consistencia interna alfa de Cronbach. La segunda, presenta con base en el estimado de confiabilidad basado en el modelo de la TRI con el programa utilizado para calificar los resultados. Aparte de estos estimados que dan una información general de la confiabilidad de la prueba, también se presentan en el MT 2008 las curvas de información de la prueba, al igual que de las preguntas individuales, dando una idea de la confiabilidad de la prueba en los distintos niveles de desempeño en la escala que se genera con base en las respuestas de los alumnos. No se cuenta con este mismo detalle en el MT 2011. tt Se

dispone de resultados de correlación con aplicaciones repetidas.

En principio podría considerarse que este apartado no es procedente en este caso, ya que la prueba se aplica solo una vez al año y las pruebas se distribuyen entre los participantes. Sin embargo, debe recordarse y tomarse en cuenta que el proceso se entrelaza año tras año, a través del diseño y aplicación de un pre-test con preguntas operativas y se establecen sus valores de Aspectos técnicos

51

Las pruebas ENLACE para educación media superior

calibración en el año en el que se hace el pre-test; estos valores de calibración son los que se usan para calificar las pruebas operativas. Sería útil y necesario presentar información respecto a la comparabilidad de los resultados obtenidos con las preguntas en estas dos instancias de aplicación, al igual que ofrecer evidencias que apoyen el uso de los parámetros del pre-test en la prueba operativa. Es posible que el cambio de contexto y circunstancias en las que se realizan las dos aplicaciones pueda cambiar las propiedades de las preguntas, por lo que sería prudente verificar la transferibilidad de las calibraciones. tt Hay

un reporte con valores de separación del modelo logístico empleado.

Los valores de separación del modelo logístico a los que se refiere este encabezado no fueron calculados en la situación de calibración especifica de esta prueba, bien sea porque el software de la TRI utilizado (Bilog), no brinda esta información o porque no se consideró pertinente solicitarla, quedándose solamente a nivel del modelo de alfa de Cronbach por cada área evaluada. Lo más cercano a este enfoque es el reporte relacionado con la validación de los puntos de corte en el que se presenta su incertidumbre y se establecen bandas de confiabilidad alrededor de los mismos. tt Se

reporta la metodología para el cálculo del error de diseño de la prueba y sus subescalas y se reportan los resultados obtenidos en las aplicaciones.

Como no se reportan los resultados por partes o secciones, los valores del error de medida de la prueba y de las secciones no están disponibles. En la sección de validación de los puntos de corte se muestran las curvas de información de las preguntas al igual que la función de la información de la prueba en general. Es importante hacer notar también que el reporte de los resultados para los alumnos se hace con base en la clasificación en uno de cuatro niveles posibles. Aunque empíricamente sería posible presentar los resultados individuales con base en la probabilidad de estar en cada uno de los niveles, tomando en consideración el intervalo de confianza de cada punto de corte, el cual está en función del error de medida, pero se observa este tipo de cálculos no se hacen más allá de reportes teóricos. tt Se

presenta la metodología usada para análisis de funcionamiento diferencial y de sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de estudios hechos para determinar posibles sesgos.

No se presentó este tipo de información. Aunque puede suponerse al leer los manuales técnicos que este análisis pudo haberse dado durante el proceso de validación e identificación de la población focal, no se proporcionó información sistemática al respecto.

C ALIDAD DE LOS ÍTEMS Y BANCOS DE REACTIVOS 5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el cuidado de su calidad.

52

tt Se

cuenta con un documento que describe el modelo de calibración de reactivos y los criterios para su aceptación, revisión y modificación.

Los MT 2008 y 2011 hacen una breve referencia a la TC y al modelo de tres parámetros, cuya interpretación es conocida por los especialistas en psicometría, indicándose los valores de aceptación que son similares a los generalmente aceptados. En principio los cálculos para la calibración de los ítems se hacen con el análisis con modelo clásico (usando el software Iteman) y con modelo de la TRI de tres parámetros (con el programa Bilog). Para las calibraciones se utiliza un modelo muestral controlado que se toma dentro de la aplicación censal. En el MT 2011 (pág. 19) se indica que esta muestra sirve como punto de partida para la estimación de los parámetros de los reactivos, para los procesos de equiparación y calificación y para llevar a cabo diversas investigaciones de interés para la SEMS . En el mismo MT 2011 se aclara que los estudios piloto se realizan en planteles del Distrito Federal y del Estado de México por razones de accesibilidad; se trata por lo tanto de un esquema similar al implementado por la SEP para ENLACE Básica. Para las pruebas operativas se proponen como criterios para eliminar reactivos a) que la correlación punto biserial sea negativa y b) que la medida logística sea superior a 5.0 en las unidades proporcionadas por el software Bilog. Este valor de +5.0 es contradictorio con otras partes de la información que se restringen al intervalo de −3.0 a +3.0 o en el caso del intervalo de dificultades en modelo clásico de 20% a 80%. De manera conjunta se calibran los reactivos del pre-test con los de la prueba operativa del año anterior, fijando los parámetros de los reactivos de ésta última, y los parámetros del pre-test que se obtuvieron en la primera fase de equiparación, se fijan para calibrar la siguiente prueba operativa, lo cual se ilustra con el esquema tomado de la información proporcionada sobre ENLACE MEDIA SUPERIOR .

Reactivo 11

Reactivo 12

Reactivo 13

Reactivo 14

Reactivo 15

Reactivo 16

Reactivo 17

Reactivo 18

Reactivo 19

Reactivo 20

Reactivo 21

Reactivo 22

Reactivo 23

Reactivo 24

Reactivo 25

Reactivo 26

Reactivo 27

Sujeto 2 Sujeto 7 Sujeto 4 Sujeto 10 Sujeto 8 Sujeto 5 Sujeto 1 Sujeto 9 Sujeto 6 Sujeto 3 Sujeto 11 Sujeto 12 Sujeto 13 Sujeto 14 Sujeto 15 Sujeto 16 Sujeto 17 Sujeto 18 Sujeto 19 Sujeto 20

Reactivo 10

Cuadro 2.1

0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1

0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 1

0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 1 1

0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 1 1 1

0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 1 1 1

0 0 0 0 0 1 0 0 1 1 0 0 0 0 1 1 1 0 1 1

0 0 0 0 0 0 1 0 1 1 0 0 0 1 0 1 1 1 0 1

0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 1 1 1

0 0 0 0 1 1 0 1 1 1 0 0 1 0 1 0 1 1 1 0

0 0 0

0 0 0

0 0 0 0 0 0

0 0 0

0 1 1 0 0 0

0 0 0

1 1 1 0 0 0

0 1 1

1 1 1

Aspectos técnicos

53

Las pruebas ENLACE para educación media superior

La habilidad de los sustentantes se estima con el programa y se les califica con la puntuación de corte establecida en 2008. tt Se

explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificultad, discriminación, ajuste [fit], distractores, dimensiones, etcétera).

Por tratarse de una prueba censal, ENLACEMS tiene dentro de sus propósitos la emisión de resultados individuales de todos los estudiantes. Esta prueba tiene una cobertura superior a 90% de los estudiantes. Se utiliza una versión denominada pre-test diseñada con un modelo matricial para cubrir temas específicos, con el objetivo de informar acerca de áreas curriculares en muestras controladas de estudiantes, así como equiparar entre pruebas y calibrar ítems que se utilizarán en el siguiente año. El cálculo de los parámetros psicométricos no se explica detalladamente, sino que se deja al software (Iteman y Bilog) y solo se incluye la fórmula de la TRI de tres parámetros como información complementaria, asumiendo que el resto del procedimiento de cálculo es de dominio público. El MT asume que el cálculo de frecuencias de respuestas se realiza con modelo clásico y el del ítem con la TRI .

6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.

Se cuenta con una normativa para revisar, corregir y desechar reactivos en función de los resultados de la calibración, tomando en cuenta un conjunto de varios parámetros y evidencias. La principal normativa se asocia con la validación por especialistas en dos vertientes: la primera es la validación de contenido y de estilo con base en el conocimiento que tienen los especialistas del currículo. La segunda es una corrección que utiliza los resultados estadísticos de la calibración para modificar los distractores que no funcionan en la población objetivo. Junto con ello se depuran los materiales de capacitación a los elaboradores. Los criterios estadísticos son definidos exclusivamente como se indicó en el criterio 5: se descartan los ítems cuya correlación punto biserial es negativa (en una referencia adicional del MT se plantea 0.2 y son 24 los que sí lo hacen; para Matemáticas este resultado es peor, porque 22 reactivos no pasan el criterio y solo 18 sí lo hacen. Se trata de una cantidad muy baja de ítems que podrían aprobarse tan solo por este criterio. Podría decirse que el manual técnico solo está presentando un ejemplo de los ítems y que solo tiene el propósito de mostrar algunos reactivos y sus calibraciones, para dar una idea del contenido del banco; sin embargo, se tendrían dos problemas: a) si el ejemplo es representativo de la calidad del banco, entonces queda en tela de juicio por contener pocos ítems aceptables con este criterio, b) en cambio, si el ejemplo no es representativo, entonces queda sin disponerse de información fidedigna del banco y puede concluirse que no se quiso dar la mejor impresión acerca de la calidad de la prueba, lo cual tampoco es un buen respaldo documental. Durante la revisión se comentó que los valores medios de la media y de la correlación punto biserial son deficientes, por las siguientes razones: a) Para la media. En el caso de Comprensión lectora, si se considera la subprueba completa, se tiene un valor centrado (54.99%) para todos los ítems, pero si se eliminan los ítems con rpbis inferior a 0.2, la prueba queda con sesgo izquierdo (61.7%). Para Matemáticas se tiene una prueba difícil (38.65%), pero sube este valor cuando se eliminan los ítems con rpbis inferior a 0.2, quedando casi centrada (48.75%). b) Para la correlación punto-biserial, en el caso de Comprensión lectora la media queda en 0.24 y para Matemáticas en 0.19. Una vez que se quitan los ítems con valores de rpbis inferiores a 0.2, las medias de la correlación punto-biserial, suben a 0.32 y 0.30 respectivamente. Dado que el criterio es que se tengan correlaciones punto-biserial por arriba de 0.2, los promedios no tienen necesariamente que ser muy elevados (inclusive podrían estar esos promedios cercanos a 0.2 y serían aceptables), pero parecen poco pertinentes por tratarse de una prueba de alcance nacional como esta. tt Es

posible revisar los inventarios del banco de reactivos, debidamente clasificados y con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o que haya reactivos sin calibración.

No se satisface este criterio, porque no se cuenta con los inventarios ni con las bases de datos, por ser material considerado por el CENEVAL como confidencial. No hay muestra de ítems configurados de acuerdo con las especificaciones. No obstante, se entregaron las pruebas operativas para revisión, lo cual se presenta en la sección de calidad cultural de este reporte. tt Se

cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el banco o en las versiones, forma de almacenamiento en medio informático o físico y forma de actualización para uso posterior.

El MT señala que no se pueden conservar los bancos de ítems porque las pruebas operativas se distribuyen entre las instituciones educativas; esta práctica tiene como consecuencia que la prueba tenga vigencia máxima de un año, haciendo que el banco sea volátil, porque una vez Aspectos técnicos

55

Las pruebas ENLACE para educación media superior

usada la prueba hay que diseñar nuevos ítems. No se cuenta con otra definición de las políticas para la gestión de los bancos de ítems y su permanencia en el tiempo. Lo que sí se vislumbra es que puede haber cambios debidos a los avances en el MCC de la RIEMS . No se cuenta con información completa del sistema informático utilizado, pero puede pensarse que para controlar el almacenamiento en el sistema informático del CENEVAL se requiere hacer la validación con regularidad, por lo que puede suponerse que la revisión se hace en fechas cercanas a la aplicación.

C ALIFICACIÓN Y NIVELES DE DESEMPEÑO 7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que responden las pruebas.

tt Está

disponible el documento que explica la forma en que se asignó calificación a estudiantes (normativa, criterial u otra).

La calificación se realiza con el software Bilog con el modelo de tres parámetros de la TRI . Se emiten los reportes a partir de las puntuaciones en términos de la medida theta, traducida en categorías cualitativas. El modelo de tres parámetros de la TRI asigna diferente resultado a dos personas que tienen el mismo número de aciertos pero contestan diferentes ítems. Por esta razón la curva característica de la prueba no se relaciona con el número de aciertos y la medida logística, a diferencia de lo que ocurre con el modelo de Rasch utilizado en la prueba E XCALE . La prueba se diseña y califica con referencia a un criterio. El establecimiento de puntos de corte y niveles de desempeño lo hacen especialistas con el método bookmark. Los puntos de corte son definidos por jueces y se validan en forma empírica con ayuda de la curva característica para obtener los valores que se deben emplear para asignar calificaciones y niveles de desempeño. Un punto específico a mejorar sobre puntos de corte es no proponer valores con excesiva precisión (seis decimales), porque son cifras que no pueden ser alcanzadas por el instrumento a partir del número de ítems, ni del error de medida. Finalmente, debe citarse una heterogeneidad de los manuales técnicos: en el MT 2008 se describe la metodología para la revisión técnica de los puntos de corte, pero no vuelve a aparecer en el MT 2011, dejándose solamente una presentación (en Power Point) que se hizo al Consejo Técnico sobre los valores que definen los rangos de habilidad utilizados en Comunicación y Matemáticas. Para completar la estimación de las medidas de los estudiantes se realizó un estudio de ganancia. De acuerdo con este estudio, se indica que hay una estabilidad en el desempeño de los alumnos para el campo de Comunicación (Comprensión Lectora) y una tendencia monótonamente creciente para Matemáticas. Este estudio de ganancia es el único referido para determinar si las diferencias entre años eran debidas a los estudiantes o al diseño de la prueba, por lo que la asignación de las calificaciones considera esta estabilidad temporal longitudinal y se asigna la puntuación final con base en ella. Este estudio también tenía el propósito de revisar y justificar los puntos de corte o los cambios requeridos por modificaciones en los resultados a lo largo del tiempo. 56

Figura 2.1

Cuadro 2.2 Nivel de Dominio

Comunicación/Lectora

Matemáticas

Puntos de corte (habilidad)

Insuficiente

Menores o iguales que −0.916000

Elemental

−0.915999 a 0.096000

Bueno

0.096001 a 1.455000

Excelente

Mayores o iguales que 1.455001

Nivel de Dominio

Puntos de corte (habilidad)

Insuficiente

Menores o iguales que −0.053000

Elemental

−0.052999 a 1.176000

Bueno

1.176001 a 2.018000

Excelente

Mayores o iguales que 2.018001

tt Se

cuenta con la explicación del diseño de la escala de la prueba y la forma de calcular los puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección por azar, entre otros posibles criterios.

No se asigna ninguna penalización ni corrección por azar. Como se trabaja con el modelo de tres parámetros, la calificación depende del conjunto de ítems contestados (puntuación no invariante), donde se hace intervenir el parámetro de pseudo-adivinación. No hay una formulación para definir un escalamiento sistemático del tipo corrimiento de la media y coeficiente multiplicativo para la desviación estándar; es de notarse que en el MT 2008 se plantea una Aspectos técnicos

57

Las pruebas ENLACE para educación media superior

transformación afín por escalamiento de la desviación estándar (parámetro multiplicativo) y corrimiento de la media (parámetro aditivo), aunque no se indican los parámetros utilizados en el año de reporte. Este procedimiento deja de presentarse en el MT 2011. En otra parte de la información proporcionada se señala que no puede utilizarse anclaje con los ítems de años anteriores, pero de hecho se están utilizando los ítems del pre-test y en el MT 2011 se aclara que se fijan las medidas obtenidas en el año anterior, lo cual es un esquema evidente de anclaje. Por otra parte se deja al programa BILOG la equiparación en una media 0 y desviación estándar 1, correspondiente a una estandarización corrida al centro en 0, pero no necesariamente con un escalamiento por igualación de formas. Este esquema se plantea como de equiparación por población común y no por ítems comunes. tt Se

explica el procedimiento para obtener la calificación global como combinación de diversos instrumentos o partes de la prueba. No es aceptable la asignación global como promedio de promedios.

Se entrega calificación por cada área. La base de datos contiene los puntajes logísticos de la persona con formato de un entero y seis decimales. En cambio, no se entrega una calificación global de la persona. El proceso de equiparación se efectúa por cada una de las dos áreas (Comunicación y Matemáticas) y se determina un error de equiparación con un modelo bootstrap, simulando 100 muestras aleatorias con reemplazo.

8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación de resultados de las pruebas

tt Existe

el marco teórico-metodológico basado en currículo que justifica la organización en niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con el procedimiento de asignación del valor del punto de corte en la escala.

El marco metodológico está basado en la RIEMS . Se parte del punto de que no existe un currículo único en la educación media superior. La RIEMS intenta reunir en el MCC la diversidad curricular al señalar destrezas y competencias genéricas que se desarrollan durante la estancia de los estudiantes en las instituciones educativas, además de competencias disciplinares básicas y extendidas con una mayor carga de contenido, y competencias cognitivas. Entonces los niveles de desempeño son establecidos con base en competencias genéricas y transversales, que se supone se desarrollan a lo largo del proceso educativo y en todas las materias que se enseñan en la educación media superior. Con base en el MCC, el proyecto de ENLACE MEDIA SUPERIOR se enfoca a las competencias disciplinares básicas, porque se espera que los alumnos deban razonar matemáticamente, y no simplemente responder ciertos tipos de problemas mediante la repetición de procedimientos establecidos. Esto implica que puedan llevar las aplicaciones de esta disciplina más allá del salón de clases. Esto es lo que se define como habilidades o competencias matemáticas. Como competencias comunicacionales, con énfasis específicamente en la Comprensión lectora, se entiende la capacidad de los estudiantes de comunicarse efectivamente en el español y en lo 58

esencial en una segunda lengua en diversos contextos, mediante el uso de distintos medios e instrumentos. Además, están orientadas a la reflexión sobre la naturaleza del lenguaje y a su uso como herramienta del pensamiento lógico. Si bien este es el marco teórico que sustenta los contenidos de la prueba, se definen cuatro niveles de desempeño con el fin en mantener consistencia con las otras pruebas ENLACE . Estos niveles se denominan: insuficiente, elemental, bueno y excelente. No se encuentra justificación teórica en cuanto a la cantidad de niveles, o a la validez de la clasificación en los mismos. Un punto que no queda claro, y que despierta cierta preocupación respecto al constructo que se mide y su interpretación, es el que se refiere a un estudio emprendido para atender los cambios de especificaciones de las pruebas entre 2010 y 2011, para lo cual se comparó la pertinencia de los puntos de corte de las pruebas de 2008 a 2010 y que se aplicaron de la misma manera en las de 2011 a 2012. Entonces, si se cambiaron las especificaciones de las pruebas, se asume que éstas miden algo distinto, por lo que en nuestra opinión se deben establecer puntos de corte nuevos con base en el nuevo constructo que se está midiendo y se deben descartar los puntos de corte utilizados en pruebas anteriores; sin embargo, no hay evidencia de que se haya realizado una nueva definición de ellos. El hecho que las proporciones por nivel se mantengan relativamente iguales no es criterio suficiente o necesario para ser aceptado como validación de los puntos de corte. A menos que las pruebas midan un mismo constructo, estas comparaciones no deben hacerse, ni tampoco utilizar os mismos puntos de corte. tt Se

dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para determinar los niveles de desempeño o estándares.

El procedimiento para establecer los puntos de corte es un procedimiento criterial denominado de marcador (o bookmark) en el que, en términos resumidos, se le pide a los jueces describir niveles de desempeño, y luego identificar, con base en el conjunto de preguntas ordenadas por nivel de dificultad, la pregunta que separa a los grupos de acuerdo con un criterio que consideren aceptable para marcar diferencias cualitativas en el desempeño de los estudiantes. Este criterio es generalmente la primera pregunta que se espera respondan de manera correcta 67% o más de los alumnos del nivel correspondiente. El procedimiento bookmark es uno entre varios métodos que se encuentran bien descritos en la literatura técnica sobre evaluación, y se cuenta con suficiente investigación acerca de sus ventajas y desventajas. Es de hacer notar que aunque este procedimiento es fundamentalmente un procedimiento criterial por jueceo para determinar los puntos de corte, siempre debe ir acompañado de una verificación empírica en referencia a la población a fin de asegurar que los puntos de corte seleccionados son útiles para describir a la población evaluada y son representativos de cambios cualitativos en la distribución de medidas en la escala. Por esto es que se presenta un estudio de su idoneidad con base en la distribución de la dificultad de las preguntas, la posibilidad de adivinación, la separación de los grupos, y la discriminación en los puntos de corte. tt Los

estándares desarrollados a partir de comités de jueces, cuentan con el análisis del dominio, curricular u otro, y/o tienen en cuenta consecuencias empíricas de la identificación de puntajes de corte.

Debe hacerse notar que en la documentación proporcionada se presenta poca información al respecto, se alude al hecho de que los estándares y definiciones de niveles de competencias Aspectos técnicos

59

Las pruebas ENLACE para educación media superior

son desarrollados por un panel de jueces encargados de determinar los puntos de corte en la distribución. A estos jueces se les encarga revisar el dominio curricular en términos de las definiciones de las competencias establecidas por la RIEMS y como resultado de esta revisión se procede a desarrollar los descriptores de nivel. Se da por sentado que las consecuencias empíricas son tomadas en cuenta dado a que, una vez establecidos los puntos de corte, se verifican las proporciones de alumnos clasificados en cada nivel a fin de asegurarse de que los puntos dividan a los estudiantes en grupos que puedan ser interpretados y distinguibles, asumiendo que las proporciones de estudiantes en cada nivel son razonablemente aceptables por los jueces que intervinieron en el análisis. tt Los

puntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se demuestra experimentalmente su ubicación y se reporta el intervalo de confianza correspondiente.

En la documentación disponible (Anexo VI del MT 2008) se presenta un estudio en el que se presenta la ubicación e intervalo de confianza de los puntos de corte. El análisis no se repite en todos los años ni se refiere en los dos manuales técnicos. tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan

bien en relación con contenido de prueba. No se presenta evidencia al respecto, salvo de la definición de los puntos de corte como se indicó en el criterio anterior. tt Se

cuenta con la metodología y evidencia del proceso realizado para describir el significado de los niveles de desempeño o del conjunto de competencias por nivel en términos de los puntos de corte.

Se presenta la interpretación genérica de los niveles en un reporte técnico, al igual que en un segundo documento que describe el procedimiento para establecer los puntos de corte (conduciendo a una tabla que da los valores numéricos). Como se indicó previamente, para alcanzar este fin se utilizó el procedimiento de marcador (o bookmark) con el cual se establecieron los puntos de corte. Ahora bien, en la documentación se encuentran algunas inconsistencias que se deben señalar. Una de ellas se presenta en la descripción del procedimiento. Se dice que “se preguntó a los jueces ¿los alumnos de nivel “insuficiente” pueden responder a este reactivo?”, tomando como reactivo marcador el que era respondido por 2/3 de los alumnos del nivel. Como el nivel insuficiente es el más bajo, se debió hacer esta pregunta respecto a los alumnos del nivel “elemental”, “bueno” y “superior.” Los alumnos “insuficientes” son los que no alcanzan el nivel “elemental”. Una segunda inconsistencia es la descripción del nivel “insuficiente”, dado que éste es el nivel que por definición no alcanza lo elemental, su descripción debiese ser con base en lo que “no puede hacer,” y no con base en lo que “puede hacer”, tal y como se hace, lo cual es incompatible con el nivel que se estudia en la población focal. Se tiene el documento que detalla los desempeños por nivel para las competencias y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los resultados de las pruebas.

60

Las descripciones de los niveles de competencia se presenta en varios de los documentos disponibles, y en la Guía para el Docente se presentan ejemplos de preguntas que están clasificadas en cada uno de los niveles de desempeño. En cada caso se indica también la denominada “fortaleza” que corresponde con la descripción de la competencia movilizada por el estudiante al responder correctamente al ítem. tt Los

integrantes de los comités encargados de definir los niveles de desempeño son seleccionados por sus perfiles académicos y/o laborales y por su representatividad dentro de la diversidad cultural del país; dichos integrantes pasan por un proceso de capacitación orientado al manejo de la metodología a utilizar.

Según el manual técnico se establecen dos comités de puntos de corte que están integrados por especialistas en los contenidos evaluados que cuentan con experiencia en el nivel educativo al que se dirige el examen y proceden de diferentes instituciones. La función principal de este comité es el establecimiento de las puntuaciones que separan cada uno de los niveles y las definiciones de los niveles de dominio de acuerdo con los resultados obtenidos en el proceso. Según lo presentado en la documentación técnica, los miembros del comité son capacitados en el procedimiento para establecer los puntos de corte. Durante esta capacitación el coordinador de la actividad presenta a los especialistas el marco institucional del CENEVAL , los aspectos básicos relacionados con la evaluación educativa y los procesos y fases de la “metodología CENEVAL” para construir una prueba. Se ofrece además información básica sobre las características generales de las pruebas, propósito, población objetivo, contenidos evaluados, alcances y limitaciones, tiempo para la aplicación de la prueba, forma de aplicación y estructura del examen. No se dispone de los formatos y elementos discutidos durante los análisis que realizaron los miembros del comité.

CONCLUSIONES Los criterios técnicos analizados para las pruebas ENLACE - MS indican algunas fortalezas que no solamente son esperadas y deseables en una prueba de alcance nacional sino que son más que exigibles, por las consecuencias que tienen las decisiones y usos que se realizan con los resultados, tanto en lo que corresponde de forma individual para cada estudiante como en los diversos niveles de agregación (plantel, estatal, regional y nacional). Dentro de ellas se tienen los mismos puntos positivos que se destacaron en ENLACE - B, atendiendo al esfuerzo de aplicación que incluye la logística de distribución, seguridad, lectura, calificación y emisión de reportes. La justificación documental es el primer punto que debe mejorarse, para contar con elementos de juicio completos y certeros de apoyo a cualquier lector o investigador interesado en estas pruebas; a este respecto, en el capítulo anterior se comentó que sus dos manuales técnicos son de contenido y diseño heterogéneos, al incluir en ocasiones elementos técnicos muy puntuales, aspectos de divulgación para el lector lego y otros tópicos que explican la metodología seguida pero de manera superficial y no asociada directamente con este proyecto. Otros puntos débiles fueron indicados en los criterios relativos a los referentes, principalmente con respecto al marco teórico y a la definición de las competencias que, en principio, están acoAspectos técnicos

61

Las pruebas ENLACE para educación media superior

tadas en el marco curricular común de la RIEMS , pero quedaron limitadas en el diseño a unos cuantos puntos de las competencias disciplinares básicas en dos áreas muy genéricas (Comprensión lectora y Matemáticas), como ya se apuntó en el capítulo respectivo. Como consecuencia de esta definición del perfil del estudiante, se tienen limitaciones en el desarrollo de los puntos técnicos de validez de constructo, de criterio y de escala, que no se justifican suficientemente. La mezcla indiscriminada de modelo clásico y de TRI es un elemento importante que debe corregirse, con el objeto de dejar explícitos los puntos que se tratan con cada una de dichas teorías. Debe insistirse que no se trata de que un proyecto contenga solamente uno de los modelos, ya que se sabe que pueden combinarse de manera apropiada en forma ecléctica para los fines propios de la medición o de la emisión de reportes. El problema es que se combinan erróneamente los parámetros y la definición de los intervalos de aceptación de los ítems o de la prueba. Dentro de los puntos señalados en este capítulo está el criterio de rechazo de ítems cuando la medida logística es superior a +5, cuando en otra parte la prueba se acepta en intervalos de −3 a +3 y en otro sitio se afirma que el diseño y la revisión solo aceptan ítems de 20% a 80% de dificultad en modelo clásico (que corresponde con un intervalo logístico de −1.38 a +1.38). No está clara la aceptación por criterio de ajuste al modelo (fit) y en cambio se utiliza la correlación punto biserial como posible criterio de revisión. No se dispone de datos métricos de las subescalas (Comprensión lectora y Matemáticas), ni del error de medida general de ellas, salvo una media general en porcentaje de aciertos para cada subescala, lo cual puede fundamentarse en el hecho de que la TRI solo produce medidas de cada persona dependientes del conjunto de reactivos, pero no se enfoca a producir el error de medida general de la prueba. Si se admite este argumento, entonces no es aceptable que falte la validación del error en los puntos de corte de todas las pruebas (solo se tienen en algunas), los cuales son obligatorios en la TRI una vez determinada la función de información. Respecto de los puntos de corte, los manuales técnicos no siempre reportan el dato (cuando se reporta es con un abuso en el número de decimales, simulando una precisión inexistente), con una posible argumentación con base en una cierta consistencia observada en las diversas aplicaciones. Esto, a su vez, conduce a una incongruencia debido a que dichos puntos debieron haberse revisado en el momento de cambios en las pruebas en 2011, en lugar de optar por mantenerlos constantes. La carencia de estudios de diversas fuentes de sesgo, de funcionamiento diferencial de los ítems o de funcionamiento diferencial por grupos de personas, no apoya a la revisión de las pruebas e impacta lo que se afirma en los capítulos relativos a la influencia de factores culturales, así como a las consecuencias que puede tener esta prueba. La falta de evidencias sobre los bancos de ítems, y el no disponer de sus inventarios considerando la clasificación temática, la complejidad y los valores métricos, no permite juzgar acerca de su calidad. Igualmente se dispone de muy escasa información sobre los sistemas informáticos de almacenamiento de los ítems y de la generación de pruebas.

62

3

Atención a la diversidad

Este documento reporta la revisión de la prueba ENLACE - MS desde la perspectiva de validez cultural. La validez cultural se define como el grado en que el diseño, el proceso de desarrollo y el contenido de una prueba toman en consideración la forma en que factores culturales, lingüísticos y socioeconómicos no relacionados con los constructos de interés influyen en la manera en que los estudiantes interpretan el contenido de los ítems y la forma en que responden a ellos (Solano-Flores y Nelson-Barber, 2001). Enfoques convencionales en el tratamiento de la diversidad cultural y lingüística en evaluación del aprovechamiento escolar se basan en examinar las características de los ítems una vez que un instrumento está a punto de alcanzar su fase final de desarrollo. Tal es el caso de los análisis de sesgo o de las revisiones de sensibilidad que, desde la perspectiva de validez cultural, son necesarios pero insuficientes para asegurar una evaluación justa y válida en una sociedad multicultural. A diferencia de tales enfoques convencionales, los enfoques basados en el concepto de validez cultural se ocupan de examinar cómo la metodología empleada para desarrollar las pruebas toma en cuenta la diversidad cultural y lingüística de la población objetivo. El desarrollo de un marco muestral poblacional que considere los principales sectores socioeconómicos, étnicos y lingüísticos de la población estudiantil y la inclusión de muestras representativas de esos segmentos poblacionales en el piloteo de pruebas son ejemplos sencillos y claros de las acciones que pueden tomarse en el desarrollo de una prueba con el fin de asegurar la validez cultural de ese instrumento. Para analizar la validez cultural de las pruebas ENLACE - MS , los autores de este informe revisaron la documentación proporcionada por el CENEVAL y la SEP sobre dichas pruebas y efectuaron el microanálisis de una muestra de los reactivos de Comunicación (Comprensión lectora) y Matemáticas seleccionada aleatoriamente. El microanálisis de reactivos se define como la evaluación integrada de los aspectos gramaticales, pragmáticos (contextuales) y semióticos que influyen en la probabilidad de que los alumnos entiendan los reactivos como se espera que los entiendan (Solano-Flores y Trumbull, 2003). Como resultado de este análisis, a menudo emergen cuestiones de contenido o aspectos técnicos de la estructura del ítem, que no pueden ser detectados con los procedimientos convencionales de revisión de ítems. La documentación analizada incluyó principalmente los manuales técnicos de las pruebas, los cuestionarios de contexto, las pruebas operativas, los documentos de especificaciones y los reportes de estudios especiales comisionados para analizar distintos aspectos técnicos de ENLACE - MS . Debido a que esa prueba y algunos de sus documentos técnicos de apoyo son renovados en su totalidad cada año, en la revisión efectuada por los autores se dio prioridad a la versión de la prueba y a la documentación más reciente.

63

Las pruebas ENLACE para educación media superior

La prueba ENLACE - MS tiene una aplicación anual y contiene un total de 60 reactivos de Matemáticas y 50 reactivos de Comunicación que se administran en secciones alternas. En el caso de Comunicación, están organizados como grupos de reactivos que se presentan al estudiante después de y en relación con un pasaje literario. Cada pasaje literario corresponde a una de cuatro formas de comunicación (por ejemplo, argumentativa o apelativa). La muestra aleatoria de reactivos microanalizados estuvo conformada por 15 reactivos pertenecientes a las cuatro secciones de Comunicación y 20 pertenecientes a las dos secciones de Matemáticas. En la evaluación de ENLACE - MS se tomaron en consideración doce criterios de validez cultural: Marco conceptual de la prueba; Especificación de las poblaciones; Estrategia para considerar diversidad cultural, lingüística y socioeconómica; Especificación de ítems; Profesionales involucrados en el desarrollo de los ítems; Representación de poblaciones diversas en las muestras de estudiantes piloto; Validación cognitivo-cultural; Revisión, Análisis de sesgo; Estudios de generalizabilidad; Tiempos y calendarios; y Mecanismos de corrección. Este reporte está organizado en secciones de acuerdo con tales criterios. 1. El marco conceptual de la prueba toma en consideración cómo la efectividad en el aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia sociocultural del estudiante y su familiaridad con la lengua y la variedad dialectal en que se administran las pruebas.

Las pruebas ENLACE - MS están organizadas de acuerdo con una estructura general que combina niveles de dominio y tipos de proceso cognitivo. En el caso de Comunicación, los tipos de proceso cognitivo son: extracción, interpretación (desarrollo de la comprensión, desarrollo de la interpretación), reflexión y evaluación (de la forma, del contenido). En el caso de Matemáticas, los tipos de proceso cognitivo son: reproducción, conexión, y reflexión (CENEVAL , 2012). La organización de las dos áreas de contenido por tipo de proceso cognitivo permite el desarrollo de una matriz de muestreo para la generación sistemática de reactivos. Desafortunadamente, la documentación disponible no presenta una discusión detallada de las bases conceptuales y teóricas de los tipos de conocimiento considerados. En ausencia de tal discusión, los aspectos epistemológicos relacionados con el lenguaje y con el pensamiento matemático no están tratados con profundidad. En otras palabras, aunque existe una conceptualización de los contenidos evaluados, no existe un documento formal que proporcione un marco conceptual de la prueba ni de cómo diversos aspectos lingüísticos y culturales influyen en la comunicación o en el pensamiento matemático.

2. Como parte del desarrollo de la prueba, se establecen las características diversas de la población objetivo, que consideran la diversidad cultural y lingüística del país, y los múltiples contextos y escenarios culturales y ambientales.

El cuestionario de contexto para estudiantes de ENLACE - MS incluye una pregunta que también aparece en el cuestionario de contexto empleado en ENLACE - B, sobre la condición lingüística 64

de los padres (si su lengua es diferente del español). Sin embargo, el cuestionario no recaba información sobre la lengua específica de los padres, cuando ésta no es el español. Adicionalmente, el cuestionario no incluye preguntas sobre la primera lengua de los propios estudiantes. Se infiere implícitamente que un alumno de educación media superior es monolingüe en español. El cuestionario no permite obtener información sobre el grado de bilingüismo que los alumnos en este nivel pueden tener. Tal limitación contrasta con las preguntas sobre el dominio del idioma inglés incluidas en el cuestionario en relación con las competencias comunicativas que presentan los estudiantes de media superior en relación con el uso de nuevas tecnologías. La importancia que puede tener el dominio de dos o más idiomas para los estudiantes mexicanos se limita al uso del inglés como herramienta para acceder a herramientas informáticas y no también como una habilidad cognitiva que favorece un mejor desempeño escolar. El mismo cuestionario recaba información sobre las condiciones socioeconómicas de los estudiantes. Se les pregunta sobre su estado civil, su condición laboral, su trayectoria escolar previa, los ingresos de sus familias, y el acceso a bienes y a nuevas tecnologías. También se indaga sobre su experiencia en el ámbito escolar, la relación con profesores y compañeros, y sus expectativas para el futuro. Sin embargo, no se obtiene información sobre la trayectoria escolar de los padres o sobre la estructura familiar (Prueba ENLACE Cuestionario para alumnos de Educación Media Superior 2013). Los cuestionarios para profesores y directivos contienen preguntas sobre la modalidad del plantel (existen un gran número de modelos para la educación media superior en México), el tamaño de la localidad y las actividades preponderantes en esa localidad. Las variables tratadas consideran la ubicación de los planteles en zonas rurales, urbanas, o semiurbanas, y el tipo de perfil laboral de las familias de los estudiantes (por ejemplo, primaria, rural; secundaria, de manufactura; terciara, de comercio y servicios). Aunque existen preguntas sobre el perfil académico de los docentes, el cuestionario no incluye otras sobre dominio de lenguas extranjeras (véase Prueba ENLACE Cuestionario para directivos de Educación Media Superior 2012; Prueba ENLACE Cuestionario para profesores de Educación Media Superior 2012). La información sobre el perfil de los estudiantes, la modalidad educativa y el tamaño de la localidad permitieron que en dos estudios sobre ganancia educativa se pudieran efectuar análisis desagregados por esos factores (Informa Ganancia Educativa 2010-2013 MS , CENEVAL ; Resultados para Preparatoria ENLACE 2009, IFIE). Dicha información es muy útil para el desarrollo de políticas educativas inclusivas. Desgraciadamente, la organización del cuestionario no refleja la existencia de un diseño a priori del instrumento que considere la diversidad sociodemográfica del país. Entre los resultados de los dos estudios aludidos es particularmente de interés el hecho de que, aunque se analizan diferentes procesos de enseñanza-aprendizaje, no se consideran variables relacionadas con diversidad cultural o género que en muchos sistemas de pruebas se toman en consideración. La validez cultural no incluye aspectos de discapacidad; sin embargo, ésta es una forma de diversidad poblacional. Desde esta perspectiva, cabe mencionar que, aunque la evaluación no se enfocó a la discapacidad, los documentos analizados no consideran a la población con discapacidades. Aunque el manual técnico establece que no se contempla la aplicación de ENLACE - MS Atención a la diversidad cultural

65

Las pruebas ENLACE para educación media superior

a estudiantes discapacitados o que no sean usuarios de lenguas diferentes del español, debe tenerse en cuenta que la mayoría de los sistemas de evaluación abordan de una u otra manera los retos de evaluar válidamente a las poblaciones con discapacidades.

A continuación se presenta el análisis realizado en 2009 con los resultados sobre habilidad lectora y Matemáticas de ENLACE - MS realizados por IFIE . A pesar de que en la sección introductoria se menciona región y tamaño de localidad, tales variables no se consideran al analizar los resultados de los alumnos, les res compara simplemente términos de ¿ aCquienes uál fuese el ultado de...? /en Diferenc ia los es promedios tudiante-preparatoria de calificación al nivel de plantel.

R es ultados E NL AC E 2009

Habilidad lec tora

Habilidad Matemátic

3.3

2.4 76

Índice

72

71

8.2 Excelente

5

4.9

13

-3.2 34 37

-4.0

-20

0

Diferencia Estudiantepreparatoria

40

60

80

-3.1 36 39

Elemental

Estudiante

100

-20

Estudiante

10 14 0

20

40

Índice: insuficiente: 50, elemental: 65, bueno: 80, excelente: 100.

En la investigación realizada en 2013 por CENEVAL se presentan los resultados sobre ganancia educativa a nivel global, comparando el desempeño de la misma cohorte generacional en tercero de secundaria (2010) y en tercero de media superior (2013). Después se reanalizan los resultados por tipo de habilidad (lectura y Matemáticas) y por modalidad educativa, así como por entidad federativa. Sin embargo, los análisis sobre modalidad educativa y región no consideran la información contextual relevante para el subsistema indígena, a pesar de que se colecta en los cuestionarios de contexto. Esta omisión sorprende porque el reporte muestra que la mayor ganancia educativa se encuentra en bachilleratos técnicos agropecuarios y otros tipos de modalidades tecnológicas y en entidades con altos porcentajes de población indígena como Chiapas. Estos estudiantes siguen, en promedio, por debajo del promedio de alumnos provenientes de entidades con poca presencia indígena y con mayores proporciones de población urbana. 66

Diferencia preparator

Preparato

-3.2 Insuficiente

10 20

44 43

Bueno

Preparatoria 6

5 1.4

47 48

Insuficiente

9

Excelente

-0.9 Bueno

Elemental

73

Índice

60

80

y Matemáticas, a nivel nacional, de la cohorte de alumnos que respondió la prueba

ENLACE 3° de Secundaria en el 2010 y la prueba ENLACE MS en 2013. Como se

aprecia en las gráficas, la media de las puntuaciones incrementó notablemente (línea

verde) lo que refleja una mejora general en el desempeño de los estudiantes y permite

afirmar la existencia de una

ganancia educativa en las dos áreas que evalúa de la

prueba.

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

Figura 3. Ganancia Educativa nacional ENLACE

Figura 4. Ganancia Educativa nacional ENLACE

3°

3°

de

Secundaria/Español

vs.

ENLACE

de

Secundaria/Matemáticas

vs.

ENLACE

MS/Matemáticas. DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES

MS/Comprensión Lectora.

DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

(CENEVAL 2013:18-19)

3.5.1 Comentarios a los resultados por subsistema Los resultados del estudio permiten afirmar que, en general, existe ganancia educativa 18 en los alumnos sin importar el subsistema en el que cursaron la educación media superior. Los resultados del estudio y de los comparativos por subsistema muestran muchas y diferentes tendencias ya que en algunos casos las medias de desempeño son mejores en los subsistemas en contraste con el Resto de la población; en otros, las medias de los subsistemas son menores al Resto de la Población; y en ocasiones son iguales en el 2010 pero diferentes en 2013 y a la inversa.

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

Es importante destacar los resultados de los alumnos que pertenecen a los subsistemas del CEDART, DGB, IPN y de escuelas particulares ya que son quienes presentan una media de desempeño mayor que el Resto de la población tanto en Español/Comprensión Lectora como en Matemáticas. 3.6.1 Comentarios a los resultados por entidad federativa

Los resultados del permiten que, un en menor general, existe ganancia educativa paradelos Los subsistemas en estudio donde en el 2013 afirmar se encuentra porcentaje de alumnos por debajo la alumnos importar la en la la población, que se encuentra la escuela dondeencursaron susComprensión estudios de media desin desempeño delentidad Resto de en contraste con el 2010 el área de media superior. Lectora, son CECyTE y CEMSAD ya que porcentaje disminuye un 3.4% y 3.7% respectivamente. En el área de Matemáticas destacan los subsistemas de DGETA, CECyTE y DGETI con una disminución de Los resultados del estudio y de los comparativos por entidad muestran diferentes tendencias al observar 4.2%, 5.7% y 8.5% respectivamente. el crecimiento en la ganancia educativa y el comportamiento de las entidades federativas en contraste (CENEVAL 2013:78) con porcentaje alumnos que encuentran por debajo de la media Resto dede la alumnos poblaciónque en Por el otra parte, losde subsistemas en se donde se presenta un incremento en eldel porcentaje

las que evalúan pruebas. en dos 2013áreas se encuentran porlasdebajo de la media de desempeño del Resto de la población en contraste con 2010, en el área de Comprensión lectora, son los alumnos que cursaron sus estudios en las Cabe destacar los resultados de los alumnos que cursaron la educación media superior en los estados universidades autónomas, en instituciones particulares y en el IPN con 5.1%, 5.2% y 15.3% de Aguascalientes, Distrito Federal, Durango, Jalisco y Querétaro ya que la media de desempeño de los respectivamente. En el área de Matemáticas resaltan los resultados de los alumnos que pertenecen a alumnos es mayor al Resto de la población tanto en Español/Comprensión Lectora como en los subsistemas de CEMSAD, PREFECO, Telebachilleratos, y CEDART con 6.2%, 6.2%, 10.3% y Matemáticas. En el otro extremo se encuentran los alumnos que cursaron el nivel medio superior en las 14.9% respectivamente. entidades de Chiapas, Guerrero y Tabasco en donde la media del desempeño es menor que la del

19

Resto de la población. (CENEVAL 2013:138)a las entidades federativas en donde en el 2013 se encuentra un menor porcentaje de En lo referente

alumnos por debajo de la media de desempeño del Resto de la población, en comparación con el 2010, destacan los estados de Baja California y Michoacán en donde el porcentaje de alumnos en Comprensión lectora disminuye 12.9 y 15.1%, y en Matemáticas 17.4% y 22% respectivamente. En contraste se encuentra el Distrito Federal, Tlaxcala, Quintana Roo y Aguascalientes en donde el porcentaje de alumnos que se encuentran por debajo de la media de desempeño del Resto de la

Atención a la diversidad cultural

67

Las pruebas ENLACE para educación media superior

La investigación sobre ganancia educativa debería incluir variables de contexto más allá de las mencionadas. Ello permitiría evaluar si los alumnos egresados de media superior que vienen de comunidades indígenas o rurales se desempeñan mejor o peor que otros estudiantes de su misma cohorte, lo que permitiría determinar la influencia de factores como ocupación o escolaridad de los padres.

3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideración la diversidad, cultural, lingüística y socioeconómica del estudiantado mexicano.

En la información revisada sobre ENLACE - MS se explicitan los criterios para la selección de los reactivos que se aplicarán en los pre-tests, pero no se hace mención al diseño de la muestra poblacional a la que se aplican. En consecuencia, resulta difícil saber si en el proceso de desarrollo de la prueba se considera la diversidad lingüística y cultural de México. Según datos del censo realizado en 2010 (INEGI , 2010), precisamente el grupo poblacional entre los 15 y los 20 años de edad es el más numeroso entre los hablantes de lengua indígena a nivel nacional. En información que los documentos examinados proporcionan sobre la estructura de las pruebas y su administración, como es el caso de la nota técnica que se reproduce a continuación, hace falta un perfil de los estudiantes a quienes se les aplican las pruebas:

Con este objetivo, a lo largo de tres años el pre-test se ha dividido en 8 formas que presentan los reactivos necesarios para conformar pruebas operativas de hasta 220 reactivos: 50 para Comunicación (Comprensión lectora), 60 de Matemáticas, 50 para Humanidades y Ciencias Sociales, y 60 de Ciencias Experimentales. Además, el diseño del pre-test incluye una fracción de reactivos adicionales con la finalidad de asegurar que todos los reactivos de la siguiente prueba Operativa tengan parámetros adecuados. Cada forma del pre-test cuenta con entre 30 y 32 reactivos que pueden ser contestados en una sola sesión e intercalan el orden de presentación de los campos disciplinares mediante una técnica de contrabalanceo (Figura 1).

Diseño de ensamble del Pre-test aplicado de 2010 a 2012

68

Diseño de ensamble del pre-test para la aplicación 20131 Como los reactivos utilizados en la aplicación 2010 y 2011 son diferentes a los de 2012, una forma de colocarlos en la misma escala es aplicándolos en un mismo periodo, por ello para la aplicación de 2013, el ensamble del pre-test fue sujeto a modificaciones. Aunque el orden de presentación de los contenidos sigue siendo el mismo, el número de formas de pre-test se duplicará para incluir los reactivos nuevos de Comunicación (Comprensión lectora) y Matemáticas que servirán para conformar la prueba Operativa de 2014, y dos conjuntos diferentes de reactivos de Humanidades y Ciencias Sociales, y otros dos de Ciencias Experimentales. Se contará con un total de 16 formas, 8 de ellas incluirán los reactivos de Ciencias que se presentaron en el pre-test aplicado en 2011 mientras que las otras 8 incluirán los reactivos de Ciencias que se utilizaron en 2012.

Figura 2 Diseño de ensamble del Pre-test para la aplicación 2013

La modificación del ensamble del pre-test en 2013 permitirá colocar los reactivos de Humanidades y Ciencias Sociales y de Ciencias Experimentales en la misma escala, y adicionalmente permitirá realizar estudios comparativos del desempeño de los alumnos que contestaron los campos disciplinares de Ciencias a lo largo de los años. 1

Este ajuste en el ensamble se determinó después de conocer el dictamen del Consejo Técnico (sesión del 15 de noviembre) en cuanto a mantener la aplicación operativa de en los dos campos disciplinares: Comunicación (Comprensión lectora) y Matemáticas.

(Nota Técnica ENL ACE Media Superior, 2013)

Atención a la diversidad cultural

69

Las pruebas ENLACE para educación media superior

En el Manual para docentes y directivos ENLACE Media superior 2014 realizado por CENEVAL (pág. 12) se especifica lo siguiente:

Población objetivo La prueba está dirigida a los alumnos de la República Mexicana inscritos en los planteles que manifiesten interés en participar y apoyar en la aplicación de la prueba. Los estudiantes deben cursar su último ciclo de bachillerato (cuatrimestre, semestre, año, etcétera) en modalidad escolarizada, en los diferentes tipos de bachillerato (general, tecnológico y bivalente). Las instituciones pueden ser tanto de sostenimiento público como privado. Debido a sus características técnicas, la prueba no está considerada para aplicarse a alumnos con necesidades especiales o con una lengua diferente al español.

El análisis referido en el documento correspondiente no considera tipo y grado de bilingüismo. Como ya se mencionó, una premisa parece ser que los alumnos de este nivel educativo son plenamente competentes en español (sin mencionar si ésta es o no su lengua materna) y que las pruebas no requieren algún tipo de consideración de las características socioculturales de los estudiantes. Lo anterior contrasta con la información que se recaba en el cuestionario de contexto, tanto para alumnos como para profesores y directivos, en relación con tópicos como condición lingüística de los hogares, tipo de ocupación, ingresos, tamaño de localidad y trayectoria educativa de los estudiantes.

4. Los documentos que establecen los tipos y formatos de los ítems dan lineamientos para asegurar que la información gráfica y contextual incluida en los ítems sea familiar para la mayoría del estudiantado y reflejen una amplia variedad de contextos culturales.

La estructura de ENLACE - MS establece un número de reactivos por cada proceso cognitivo y su cruce con cada tipo de habilidad, tanto para Comunicación como para Matemáticas. Sin embargo, los documentos revisados (por ejemplo, CENEVAL , 2012) no proporcionan una tipología de los ítems y tampoco ofrecen descripciones detalladas de su estructura. Una causa de esta limitación parece ser la manera en la que se entiende lo que es un conjunto de especificaciones de ítems. Por ejemplo, en el documento de la Dirección de Programas Específicos, Dirección de Programas para la Administración Pública de CENEVAL (véase archivo electrónico, ENLACE - MS especificaciones RIEMS .pdf), las especificaciones de los ítems se presentan en tablas como las siguientes:

Tal nivel de especificación es insuficiente, pues no se consideran las características estructurales de los ítems. 70

La comparación de las pruebas aplicadas en los distintos años escolares permitió corroborar que, a pesar de que no existe la formalización abstracta de las estructuras y características de los distintos tipos ítems, cada ítem de un año determinado tiene otro paralelo en la pruebas de otros años. Dicho de otra manera, cada reactivo funciona como el templete de otro reactivo para el año siguiente (véase, Prueba ENLACE , 2012, 2013, 2014). Tal correspondencia permite una constancia en la complejidad de los reactivos a lo largo del tiempo. A pesar de tal correspondencia, y debido a la falta de un documento riguroso de especificaciones de los reactivos, no existe el nivel de precisión suficiente para que los desarrolladores de pruebas puedan tener un control firme de las características textuales, gráficas y contextuales de los ítems. Por ejemplo, no se proporcionan especificaciones sobre la manera en que los temas de los pasajes usados como materiales de estímulo para los reactivos de Comunicación han de reflejar una amplia variedad de contextos culturales. O cuando menos, no se encontró evidencia de un procedimiento sistemático para muestrear las distintas temáticas de los materiales de estímulo. Una limitación relacionada con esta problemática es que no parece haber reactivos ancla que permitan la realización de comparaciones del desempeño de los estudiantes a lo largo de los años. El uso de reactivos ancla es práctica estándar y debiera realizarse rutinariamente. En el Manual Técnico ENLACE Media Superior (CENEVAL 2014) se argumenta que no es posible usar reactivos ancla debido a que la SEP requiere que el contenido de la prueba se haga público anualmente. Sin embargo, no hay razón aparente que impida que haya reactivos ancla que se apliquen año con año y que sean excluidos del conjunto de reactivos que se hacen públicos. Los microanálisis realizados como parte de esta evaluación (ver anexo I) no reflejan que los autores de los reactivos hayan considerado la pertinencia de las temáticas de los textos utilizados para evaluar el área de Comunicación. Los contenidos usados como pasajes son significativos (es decir, presentan situaciones que son familiares) para estudiantes del medio urbano y, en un caso, solo para aquellos prevenientes de clases medias altas. La misma observación se aplica a algunos de los reactivos de Matemáticas, que no parecen reflejar la realidad de la mayoría de los estudiantes de México ni consideran las posibles variaciones en los registros del español por región. 5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en contenido incluyen a especialistas en el área de cultura (antropólogos, lingüistas) y maestros de minorías culturales y lingüísticas y de escuelas rurales y nivel socioeconómico bajo.

Aunque en algunos documentos aparecen largas listas de los participantes en el desarrollo de las pruebas, tales listas tienen la función de dar crédito a los participantes pero no documentan el proceso. Más específicamente, los documentos no proporcionan información detallada acerca de las especialidades de los profesionales que participaron en dicho proceso, ni de su contribución profesional o el tiempo (por ejemplo, número de horas) que le dedicaron. Tampoco se encontró evidencia de que en el proceso de desarrollo de la prueba hayan participado especialistas en disciplinas como la lingüística y la antropología. 6. Las muestras de estudiantes con los que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeconómicas del país.

Atención a la diversidad cultural

71

Las pruebas ENLACE para educación media superior

La revisión de la documentación disponible reveló que no hay evidencia de que las pruebas se hayan piloteado con muestras representativas de grupos culturales, lingüísticos y socioeconómicos diversos. Esta limitación está relacionada con la falta de un marco muestral poblacional adecuado que considere los principales grupos socioeconómicos, étnicos y lingüísticos del país. En la información disponible solo se incluyen referencias generales a la modalidad educativa y al tamaño de localidad. Como ya mencionamos anteriormente, a pesar de que en los cuestionarios de contexto se incluye información sobre la condición lingüística de la familia y su perfil ocupacional, tal información no se retoma en relación con el diseño del pre-test o con la configuración de las muestras de estudiantes. A continuación reproducimos la información contenida en el manual técnico más reciente:

8.1 Diseño muestral El diseño muestral que se utiliza en la aplicación de ENLACE - MS permite contar con los datos de un subconjunto representativo de la población que se somete a la prueba operativa, el cuestionario de contexto y, mediante un esquema matricial, al pre-test. Las condiciones de seguridad y la logística son responsabilidad de evaluadores con experiencia que trabajan para la DGEP -SEP (estándar 13.10). Los datos de la muestra se utilizan, por un lado, para realizar los estudios relacionados con variables de contraste y, por otro, para los análisis estadísticos necesarios en la equiparación de las pruebas de un año a otro, definir los puntos de corte y llevar a cabo diversas investigaciones de interés para la SEMS. En 2011 la muestra a la que se aplicó la prueba operativa y el cuestionario de contexto estuvo conformada por 262 087 alumnos inscritos en 2,081 escuelas seleccionadas. Para 2012, se contó con la participación de 294 116 alumnos de 2,072 planteles. Por su parte, la muestra del pre-test de 2011 se conformó por 139 476 alumnos y la del 2012 por 136 572. Para el diseño muestral y las posteriores interpretaciones de los resultados, es importante considerar los niveles de desagregación en los que se trabajaron los resultados de ENLACE - MS . En la Tabla 11 se pueden observar dichos niveles, y en el Anexo C se describe con detalle el procedimiento para calcular el tamaño de la muestra.

Manual técnico ENL ACE Media Superior CENEVAL 2014: 64-65

72

8.2 Diseño de equiparación Desde sus inicios en 2008, la prueba ENLACE - MS tiene contemplado el uso del método de equiparación horizontal para colocar en las misma escala las pruebas año con año. Este método implica realizar procedimientos empíricos para establecer una relación estadística entre los puntajes de dos versiones de una prueba. Dicha relación puede utilizarse para expresar los puntajes de una prueba en términos de los puntajes de otra, para de esa manera, garantizar que se califica con base en la misma escala (estándar 4.13). La equiparación requiere de un diseño de recolección de datos y de una regla para transformar los puntajes de una versión a los puntajes de otra. En relación con el primer aspecto, lo usual en los exámenes estandarizados es que cada aplicación operativa incluya reactivos ancla que permitan mantener las escalas mediante los procesos de equiparación y calificación de los instrumentos (Downing y Haladyna, 2006). Como se ha venido señalando, en el caso de la prueba ENLACE - MS no es posible incluir reactivos ancla en las versiones operativas puesto que, por cuestiones de transparencia, la SEP solicita que cada año se hagan públicos. Para lograr que las escalas de año con año sean equiparables, se recurre a un diseño de recolección de datos que consiste en aplicar dos pruebas en el mismo periodo: la prueba operativa y el pre-test. Ambas pruebas siguen las mismas condiciones de diseño y construcción, es decir, que además de regirse por la metodología del CENEVAL , que implica apegarse a las normas y estándares institucionales, utilizan la misma estructura y especificaciones para la elaboración de reactivos. Lo anterior busca garantizar que los reactivos midan lo mismo. Debido a que en un año los alumnos que contestan las pruebas operativa y pre-test son los mismos, es posible situar los parámetros de los reactivos de ambas pruebas en la misma métrica y como los reactivos que integran el pre-test conforman la operativa del año siguiente, ambas pruebas comparten reactivos que constituyen los insumos para colocar en una escala común los puntajes de los alumnos que contestan las pruebas en los diferentes años. El diseño que permite equiparar las pruebas operativas de uno y otro año mediante la aplicación del pre-test se puede ver gráficamente en la Figura 6.

Figura 6. Esquema de aplicación para la equiparación de la prueba Ä½ÃÝ͘ŶůĂĮŐƵƌĂƐĞƉƵĞĚĞĂƉƌĞĐŝĂƌƋƵĞĞŶƵŶŵŝƐŵŽƉĞƌŝŽĚŽĚĞĂƉůŝĐĂĐŝſŶƐĞĂĚŵŝŶŝƐƚƌĂůĂƉƌƵĞďĂŽƉĞƌĂƟǀĂũƵŶƚŽĐŽŶĞůƉƌĞƚĞƐƚ͘ĂĚĂ ŝŶƚĞŐƌĂŶƚĞĚĞůĂŵƵĞƐƚƌĂĐŽŶƚĞƐƚĂůĂƉƌƵĞďĂŽƉĞƌĂƟǀĂǇƵŶĂĚĞůĂƐĨŽƌŵĂƐĚĞůƉƌĞƚĞƐƚ͘>ĂƐŇĞĐŚĂƐƋƵĞ ƐĂůĞŶĚĞůŽƐĐƵĂĚĞƌŶŝůůŽƐŝŶĚŝĐĂŶƋƵĞůŽƐƌĞĂĐƟǀŽƐƋƵĞůŽƐĐŽŶĨŽƌŵĂŶƐĞƵƟůŝǌĂŶƉĂƌĂŝŶƚĞŐƌĂƌůĂƉƌƵĞďĂ ŽƉĞƌĂƟǀĂĚĞůƐŝŐƵŝĞŶƚĞĂŹŽ

Manual técnico ENL ACE Media Superior CENEVAL 2014: 66-67 8.2.1 Procedimiento de equiparación

3DUDUHDOL]DUODHTXLSDUDFLyQHQWUHODVYHUVLRQHVGHXQDxR\RWURHVQHFHVDULRXWLOL]DUORV datos de la prueba operativa del año anterior, los del pretest y los de la prueba operativa del DxRTXHVHGHVHDHTXLSDUDU/DHTXLSDUDFLyQVHUHDOL]DSDUDFDGDXQDGHODViUHDVTXHHYDO~D ODSUXHEDHVGHFLUVHHTXLSDUDHOiUHDGH&RPXQLFDFLyQ&RPSUHQVLyQ/HFWRUD \OXHJRGH

Atención a la diversidad cultural

73

Las pruebas ENLACE para educación media superior

Debe decirse, sin embargo, que el Manual para Docentes y Directivos (CENEVAL , 2014), establece claramente que “(d)ebido a sus características técnicas, la prueba no está considerada para aplicarse a alumnos con necesidades especiales o con una lengua diferente al español.” (pág. 12). Aunque establece una forma de discernir a qué estudiantes no se les debe aplicar la prueba, tal aseveración requiere de una mayor elaboración.

7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si estudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan de igual manera el contenido de muestras representativas de los ítems de la prueba.

No se encontró evidencia de que se efectúen sistemáticamente entrevistas cognitivas con el propósito de aportar evidencia de validez cognitiva. Debe anotarse aquí que el uso de entrevistas cognitivas como forma de validación, existe como práctica en el desarrollo de pruebas desde hace más de dos décadas. La información recabada es parte de la evidencia de validez de una prueba que no necesariamente tienen que ver con cultura. Mucho menos se encontró evidencia de que se efectúen entrevistas cognitivo-culturales que examinen la manera en que las interpretaciones de los estudiantes de los reactivos están influidas por factores lingüísticos y culturales. La importancia de las entrevistas cognitivo-culturales no se debe subestimar. Cada vez existe más evidencia de que los procedimientos tradicionales de validación no son sensibles a los aspectos lingüísticos y culturales que influyen en la forma en que los estudiantes pueden interpretar los ítems de una prueba.

8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural, lingüístico y socioeconómico en muestras representativas de los ítems de la prueba.

La documentación revisada no proporciona información detallada del proceso de desarrollo y revisión de los ítems. Por ejemplo, no se presenta información sobre los procesos que los revisores siguen para codificar o evaluar las características de los ítems. Tampoco se encontró documentación de un procedimiento sistemático en el desarrollo de pruebas que especifique información como el procedimiento de revisión o el número de iteraciones de revisión. La mayoría de los sistemas de pruebas en el mundo tienen documentos que norman tales actividades. Tampoco se identificó evidencia de que se consideren distintos tipos de revisión de aspectos tales como contenido, estilo, cuestiones lingüísticas o posibles fuentes de sesgo cultural. No se argumenta aquí que tales actividades no se efectúen, lo que se señala es que no hay documentación de que se efectúan sistemáticamente, de acuerdo con procedimientos formales establecidos. La información concerniente a los procesos de revisión de ítems se menciona superficialmente en los diversos documentos disponibles, pero no de manera integrada en un solo documento.

74

9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel socioeconómico bajo y de zonas rurales.

No se encontró alguna indicación de que se hayan efectuado los análisis apropiados para examinar el funcionamiento diferencial de los ítems en distintos grupos poblacionales definidos por factores étnicos, culturales, socioeconómicos o de género. Los estudios técnicos comisionados se ocupan principalmente de equiparamiento. Esta limitación es importante. El análisis de sesgo es una pieza importante en la calidad del desarrollo de pruebas a gran escala. Como se dijo anteriormente, es necesario pero no suficiente como actividad relevante a la validez cultural; sin embargo es indispensable en cualquier sistema de pruebas. Estos estudios se conducen de manera rutinaria en cualquier sistema de evaluación. Cabe mencionar que con frecuencia, la cantidad de ítems de una prueba hace imposible realizar estudios de sesgo (por ejemplo, basados en el análisis DIF ) con todos los ítems de una prueba. Sin embargo, se acostumbra examinar muestras de ítems (por ejemplo, por área o subárea de contenido) y de poblaciones (por ejemplo, por tipo de etnicidad). Este tipo de trabajo sistemático de análisis de sesgo no se refleja en los documentos examinados. Con base en los microanálisis realizados, resulta evidente la importancia de considerar en el futuro análisis de sesgo que incluyan no solo factores culturales y de diversidad lingüística, sino también factores regionales y socioeconómicos.

10. Se efectúan análisis de generalizabilidad para determinar la solidez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y nivel socioeconómico.

No se encontró evidencia alguna de que se hayan efectuado estudios de generalizabilidad para examinar confiabilidad y validez con respecto a lengua, o para comparar la generalizabilidad de las medidas de desempeño académico entre distintos grupos culturales, lingüísticos y socioeconómicos. Los sistemas evaluativos no efectúan estudios de generalizabilidad como parte de sus procedimientos rutinarios. Sin embargo, la importancia de tales estudios para un país con alta diversidad lingüística y cultural como México radica en el hecho de que permiten identificar la proporción de error de medida que puede atribuirse a facetas (factores) asociados a esa diversidad. Realizar tales estudios permitiría determinar cómo la magnitud de ese error de medida puede minimizarse mediante el ajuste de los tamaños de las muestras de los distintos tipos de ítems incluidos en las pruebas.

Atención a la diversidad cultural

75

Las pruebas ENLACE para educación media superior

11. Los tiempos y calendarios para realizar las actividades que tienen como objetivo tomar en consideración la diversidad cultural, lingüística y socioeconómica son razonables y factibles.

No se encontró evidencia en los manuales técnicos ni en el manual para profesores y directivos de que se prevea la necesidad de ajustar tiempos o calendarios de aplicación de las pruebas en función de la geografía o las condiciones climáticas de las diferentes regiones del país. Tal omisión puede afectar el cumplimiento puntual de ciertas actividades para estudiantes minoritarios o que viven en zonas rurales o remotas.

Debido a sus características técnicas, la prueba no está considerada para aplicarse a alumnos con necesidades especiales o con una lengua diferente al español. Manual para docentes y directivos ENLACE - MS 2014, CENEVAL : 12

En el estudio sobre ganancia educativa 2010-2013 (CENEVAL 2013), mencionado anteriormente, se menciona que no se incluye información sobre el estado de Oaxaca. Sin embargo, el estudio no aclara las razones por las que no se aplicaron las pruebas en dicha entidad, que concentra al 23% de los hablantes de lengua indígena de México según datos del INEGI (2010).

Es importante señalar el caso particular del estado de Oaxaca en donde la cantidad de alumnos que se integró al estudio de ganancia educativa no alcanza 1% de población; cabe destacar el estado apenas cuenta con el 0.06 de representatividad nacional, esto debido a que en 2010 no aplicó la prueba de ENLACE 3° Secundaria (se cuenta apenas con la información de 349 alumnos). Al comparar sus resultados se observa que para el área de Comprensión lectora, en 2010 su media se ubicó por encima de la media del resto de la población, y en 2013 se ubicó por debajo. Esta tendencia provocó que la proporción de alumnos por debajo de la media del resto de la población aumentara en 4 puntos porcentuales. Informe Ganancia Educativa 2010-2013 CENEVAL : 138-139.

12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en la información obtenida con la validación cognitivo-cultural, la revisión, los análisis de sesgo y los estudios de generalizabilidad.

La documentación revisada no reveló que exista un procedimiento para detectar y corregir fallas en los instrumentos, tales como la eliminación de ítems con sesgo. Ninguno de los documentos disponibles o los reportes de las investigaciones realizadas considera estrategias y mecanismos de corrección de sesgo por factores como el género, la edad, los antecedentes escolares, la condición lingüística del hogar o el perfil laboral del estudiante y su familia. Tal omisión resalta debido a que los cuestionarios de contexto recaban información sobre tales factores. 76

En los documentos analizados tampoco se menciona algún tipo de mecanismo de corrección de sesgo que considere la modalidad educativa o la región o el tamaño de la localidad en que se ubica un plantel determinado en el que se apliquen las pruebas. Como lo muestra el microanálisis de los reactivos seleccionados aleatoriamente, se identificaron diversas fuentes potenciales de sesgo lingüístico y cultural en esos reactivos. Esas fuentes de sesgo podrían identificarse y corregirse con un mecanismo formal de revisión y de corrección de sesgo potencial. Cabe mencionar que, aunque hay algunos reactivos de matemáticas en los que el microanálisis no reveló la existencia de características lingüísticas que indebidamente pongan en desventaja a grupos minoritarios, esos son reactivos con poco texto y reactivos que evalúan niveles de conocimiento declarativo básico.

Atención a la diversidad cultural

77

4

Aspectos relativos a las aplicaciones

Como se ha reiterado a lo largo del informe, la validez de toda evaluación estandarizada de la educación y particularmente, la de sus resultados, está estrechamente vinculada con la calidad de la aplicación de los instrumentos, sus procesos previos y posteriores. Las aplicaciones censales con control a cargo del personal de la escuela y reporte individual de resultados, como ENLACE - MS , conllevan importantes retos para los líderes del proyecto, principalmente relacionados con lograr la mayor uniformidad posible en la implementación de los estándares previstos, tanto para el pre-test como para la prueba operativa. Aunque ENLACE - MS haya sido concebida como de bajo impacto, el diagnóstico que brinda al estudiante en términos de sus fortalezas y debilidades en el desarrollo de competencias disciplinares básicas reviste de gran relevancia. Igualmente, la posibilidad de retroalimentar a maestros, planteles educativos y padres de familia y proporcionar elementos que contribuyan a la mejora del sistema educativo mexicano, depende en gran medida de la calidad de la aplicación. En este capítulo se desarrollan los mismos grupos de criterios con los que se analizaron ENLACE y E XCALE, ya que se consideran factores críticos para el éxito de todo proyecto de evaluación. Los grupos de criterios que se trabajarán son: Antes de la aplicación • Selección de la muestra • Planeación de las aplicaciones • Selección y capacitación del personal de aplicación Durante la aplicación • Minimización de carga, motivación, no respuesta y fraude • Procedimientos para el control de calidad de las aplicaciones Después de la aplicación • Preparación del procesamiento de datos • Procesamiento y verificación de datos • Notificación de irregularidades Para la valoración de los criterios, se utilizó información de diferente naturaleza. En primer lugar se revisaron los documentos electrónicos proporcionados por la Dirección General de Evaluación de Políticas (DGEP) al Instituto Nacional para la Evaluación de la Educación (INEE); también se revisaron los documentos disponibles en la página web de ENLACE - MS (http:// www.enlace.sep.gob.mx/ms/). Posteriormente se condujo una entrevista a profundidad en una entidad federativa sobre el proceso de aplicaciones. Esta entrevista proporcionó información y documentación valiosa para complementar la valoración de los criterios, también fue un insumo importante para el diseño de un cuestionario en línea dirigido a los responsables de las Áreas 78

Estatales de Evaluación de todas las entidades federativas. El cuestionario en línea fue respondido en 25 entidades federativas,1 por un total de 31 informantes.2 La información recuperada se incorporó también en la valoración de los criterios. Finalmente, es importante mencionar que después de un primer análisis de la información disponible para cada uno de los criterios, se hizo una solicitud adicional de información a la DGEP, que proporcionó documentación adicional y respuestas específicas a las solicitudes planteadas (DGEP, 2014b).

CRITERIOS DE VALIDEZ ANTES DE LA APLICACIÓN Selección de muestra

1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral.

El Coordinador Operativo (Titular del Área Estatal de Evaluación (AEE) responsable de diseñar la Estrategia de Aplicación en su respectiva jurisdicción) tiene a su cargo la remisión de las bases de datos a la DGEP, por ello, la confiabilidad del listado de escuelas dependerá de la precisión de la información que cada Estado provea y de los procesos de validación de la base de datos de cada Área Estatal de Evaluación y de la DGEP. Es importante mencionar que la conformación de esta base de datos es un desafío importante para cada una de las entidades federativas, pues no existe una base de datos nacional que integre la información de los estudiantes de todos los subsistemas y que se actualice de manera regular, considerando la dinámica propia de los estudiantes de este nivel educativo (en particular movilidad y deserción). Esta circunstancia implica que para cada aplicación, las AEE solicitan a cada subsistema la información de los futuros sustentantes, para después integrar una sola base de datos y remitirla a la DGEP. Aunque después la base de datos es revisada por la propia DGEP y las observaciones son atendidas por las entidades3 y sus subsistemas correspondientes, al momento de la aplicación se presentan imprevistos relacionados con la deserción de alumnos o su movilidad entre escuelas. Un indicador que puede ayudar a emitir un juicio sobre la precisión y actualización de las bases de datos son la incidencias o irregularidades ocurridas al momento de la aplicación, tales como errores en el nombre de los alumnos, la Clave Única de Registro de Población (CURP), la institución y municipio en que se encuentra, alumnos no registrados, entre otros. Esta información 1

El listado de entidades federativas que dieron respuesta al cuestionario se encuentra en el Anexo 4.1.

2

En algunas entidades más de un informante respondió el cuestionario.

3

El proceso de validación que hace la DGEP incluye contrastar la base de datos recibida por las entidades federativas con respecto a la base de datos del formato 911; a través de este proceso se identifican, por ejemplo, instituciones educativas que no hay reportado alumnos en el grado a evaluar; esto puede deberse, según la entrevista a profundidad realizada en una entidad federativa, a escuelas que hayan dejado de ofertar servicios educativos, o grupos que no se hayan abierto.

Aspectos relativos a las aplicaciones

79

Las pruebas ENLACE para educación media superior

puede recabarse en las actas de entrega, recepción e irregularidades. Aunque no se tuvo información a nivel nacional sobre las irregularidades que se presentaron, en el Estado de México se encontró que, en la aplicación censal de 2014, 380 escuelas de 1 197 reportaron incidencias, de las cuales las siguientes pueden estar relacionadas con la precisión y actualización de las bases de datos: ocho escuelas reportaron nombre incorrecto de alumnos; cinco, error en nombre la institución o municipio; cinco escuelas reportaron CURP incorrecto de los alumnos; cuatro, nombre incompleto; cuatro reportaron alumnos no registrados en la lista (IEEEM , 2014b). A diferencia de ENLACE - B, en ENLACE - MS , de acuerdo con la información provista en http:// enlace.sep.gob.mx/ms/aplicacion/, no se aprecian cambios en las tendencias en el censo de escuelas y estudiantes a lo largo de siete aplicaciones, a partir de lo cual se comprueba que el comportamiento de la población sujeto de esta evaluación es bastante predecible y por ello las previsiones que pueden hacerse acerca de la aplicación son más confiables. Dada la escala de la aplicación, no se anticipan inconvenientes mayores para conformar un censo o marco muestral técnicamente válido para la aplicación de ENLACE - MS .

2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos se definirán con base en argumentos teóricos defendibles.

ENLACE - MS contempla dos aplicaciones que se llevan a cabo simultáneamente, una censal y

otra con una muestra controlada. La primera es llamada versión operativa y la segunda pre-test o de investigación. La versión operativa ha sido aplicada desde 2008 a todos los estudiantes que cursan el último grado de educación media superior en “instituciones educativas de carácter público, federal y estatal, en los planteles particulares con reconocimiento de validez oficial otorgado por la SEP o por las entidades federativas, en instituciones de carácter autónomo que lo soliciten y en escuelas particulares incorporadas” (CENEVAL , 2013, pág. 61). Por ser ésta una aplicación censal no cuenta con un diseño muestral. El pre-test es aplicado a una muestra representativa de la población (CENEVAL , 2013, pág. 61). En el Manual Técnico de las aplicaciones 2011 y 2012 se señala que la muestra pretende atender estos propósitos: a) aplicar la prueba operativa con un control riguroso, de manera que se obtenga información confiable sobre los valores psicométricos de los reactivos que se usarán para calificación (CENEVAL , 2013, pág. 102); b) realizar la equiparación con la prueba operativa, y así mantener los puntajes de los alumnos en la misma escala año con año; c) aplicar cuestionarios de contexto para obtener información sobre las características de los alumnos4; y d) realizar estudios experimentales (CENEVAL , 2013, pág. 101). De acuerdo con lo anterior, en esta muestra, además de aplicarse la versión operativa, los sustentantes responden un cuadernillo con reactivos a ser incluidos en el año siguiente, un cuestionario de contexto, y pruebas experimentales. El cuadernillo es aplicado de manera matricial, para que los alumnos respondan solo una parte de los reactivos. La cantidad de reactivos y formas ensambladas es uno de los insumos para el cálculo del tamaño de la muestra.

4

Dentro de estas características se encuentra: edad, situación laboral, hábitos de estudio, contexto socioeconómico, escolaridad de los padres (CENEVAL , 2013, p. 101).

80

Los dominios de la muestra controlada, desde 2010 son: nacional; nacional por modalidad de los Centros de Trabajo (bachillerato general; bachillerato técnico; bachillerato tecnológico); nacional por sostenimiento; y, nacional por nivel de urbanidad. En las aplicaciones de 2008 y 2009, se contemplaban dominios adicionales a nivel estatal,5 sin embargo fueron suprimidos en las aplicaciones posteriores, debido a la dificultad para conformar muestras representativas y por lo tanto de contar con información confiable (CENEVAL , 2012, 2013). Se considera que la revisión y modificación de los dominios muestrales fue una decisión acertada, ya que en la estratificación incluye a las entidades, y por lo tanto toma en cuenta la distribución de los alumnos de acuerdo con la modalidad de bachillerato, el tipo de sostenimiento y nivel de urbanidad, en cada entidad federativa, pero se mantienen solo los dominios, sobre los cuales se pueden realizar inferencias generalizables de manera confiable. En los Manuales Técnicos (2008-2010 y 2011-2012) se señala que el muestreo de las aplicaciones fue aleatorio simple estratificado unietápico. Las fórmulas utilizadas para el tamaño de la muestra determinaron la cantidad de alumnos necesarios para la estimación de todos los reactivos de la prueba (este cálculo estuvo precedido por la cantidad de alumnos necesarios para la estimación de cada reactivo de la prueba, considerando un error máximo de muestreo de 5%, un nivel de confianza de 95% y una tasa de no respuesta de 5%). Posteriormente la muestra de alumnos se distribuyó entre los diferentes estratos de manera proporcional a la cantidad de alumnos por cada estrato, el total de alumnos en cada modalidad de bachillerato y el total de alumnos en cada entidad. Finalmente, se hizo una selección de escuelas de forma proporcional a la cantidad de alumnos, de tal manera que las escuelas con mayor matrícula tienen más probabilidad de ser seleccionadas. La descripción anterior deja ver que en este diseño se seleccionan dos tipos de unidades: escuelas (macro) y alumnos (micro). Sin embargo solo se determina el tamaño muestral de los alumnos; el de las escuelas, depende de la distribución de los alumnos en cada estrato y del tamaño de la matrícula. Este procedimiento no corresponde a un muestreo aleatorio simple, y no considera “la naturaleza anidada de las unidades en la población” (Gaviria Soto y Castro Morera, 2005, pág. 79), es decir, la distribución de unidades micro dentro de las macro. Esto parece requerir que la fórmula para calcular el tamaño de la muestra incluya algún ajuste para respetar la selección por conglomerados que se ha efectuado, lo que además, incrementará el tamaño de muestra de las unidades micro y las macro. Es importante también que se aclaren algunas imprecisiones sobre el diseño muestral. De acuerdo con la información descrita en el Manual Técnico 2011-2012 (CENEVAL , 2013, pág. 63), se entiende que todos los alumnos seleccionados en la muestra responderán tres instrumentos: a) la prueba operativa de ENLACE - MS; b) La Forma n del pre-test; y c) un cuestionario de contexto (ver Figura 5). Esta comprensión coincide con las fórmulas que se describen en el Anexo C del mismo manual, pues el tamaño de la muestra depende de la cantidad de reactivos que tenga la versión pre-test, el número de cuadernillos o formas en las que se encuentren ensamblados, y el número de apariciones en los cuadernillos (CENEVAL , 2013, págs. 105–106). De hecho, en la Tabla C1 del mismo anexo se presenta la muestra de escuelas y alumnos resultante para las aplicaciones 2011 y 2012 (2 081 y 2 072 escuelas; 262 087 y 294 116 alumnos, respectivamente). Sin embargo, en el octavo apartado del Manual Técnico se mencionan dos muestras: una para la aplicación de la prueba operativa y cuestionario de contexto, y otra para el pre-test:

5

Estatal; estatal por modalidad de los Centros de Trabajo; estatal por tipo de sostenimiento; estatal por nivel de urbanidad.

Aspectos relativos a las aplicaciones

81

Las pruebas ENLACE para educación media superior

“En 2011 la muestra a la que se aplicó la prueba operativa y el cuestionario de contexto estuvo conformada por 262,087 alumnos inscritos en 2,081 escuelas seleccionadas. Para 2012, se contó con la participación de 294,116 alumnos de 2,072 planteles. Por su parte, la muestra del pre-test de 2011 se conformó por 139,476 alumnos y la del 2012 por 136,572.” (CENEVAL , 2013, pág. 65). El tamaño de muestra de la prueba operativa señalado en la cita es justamente el que se describe en el Anexo, derivado de la aplicación de las fórmulas en las que se incluye información sobre los reactivos y cuadernillos de la versión pre-test. Por otro lado, el tamaño de muestra del pre-test señalado en la cita no se explica en ninguno de los documentos.

3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planificó.

De acuerdo con los manuales para los diversos roles de la aplicación, “las hojas de respuestas están diseñadas ex profeso e impresas con los datos generales de la escuela y personalizadas con los nombres de los alumnos” con lo cual se asegura el cumplimiento de la normativa prevista durante la operación de campo. De otra parte, en el Formato para el Control de la Aplicación en el Aula, los aplicadores registran la asistencia de cada alumno en cada sesión, de manera que se cuenta con información suficiente para verificar que los evaluados coinciden con la población objetivo del proyecto. Adicionalmente, en las condiciones de aplicación se explicita que “Solo los alumnos sustentantes, el Aplicador y un Padre de familia supervisor podrán permanecer en el aula, y nadie deberá salir de ésta durante la aplicación” con lo cual se coadyuva el esfuerzo de cumplir con el este criterio de validez. Cabe señalar que si durante la aplicación se presentan alumnos que no fueron incluidos en las listas de registro de sustentantes, se hace una anotación en el acta de irregularidades, pero estos alumnos no presentan la prueba. Se considera que esta condición también contribuye a cumplir con este criterio de validez. tt En

aplicaciones muestrales el manual precisa los pasos para seleccionar la muestra, si se manejarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar escuelas de reemplazo si las hay y los porcentajes aceptables de exclusiones y no respuesta.

Para el caso de la aplicación en las escuelas seleccionadas para la muestra controlada por la DGEP, el respectivo asesor comisionado por dicha entidad será el responsable de la organización

y coordinación de dicha aplicación, aunque las AEE están a cargo de notificar a las escuelas seleccionadas que formarán parte de dicha aplicación. Dentro de la documentación provista se encontraron las previsiones de orden general acerca del muestreo. No se precisa cómo se lleva a cabo la aplicación en cada plantel, aunque se infiere que en cada escuela seleccionada se hace una aplicación a aulas intactas. No se da información sobre escuelas de reemplazo y porcentajes aceptables de exclusiones y no respuesta.

82

tt En

aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace en ese caso.

La participación de las instituciones educativas y de los alumnos es voluntaria, por ello no se establece un porcentaje admisible de faltantes con respecto a ambos tipos de unidades. No obstante lo anterior, cuando la cantidad de alumnos que presentan la prueba es inferior a 80% de los programados, en los reportes de los resultados de la escuela (cartel) se incluye la siguiente nota: “En esta escuela la diferencia entre los alumnos programados a evaluar y los alumnos que presentaron la prueba es mayor al 20 por ciento”. Aunque se añade una anotación al respecto en los reportes por escuela, no son claras las implicaciones para el análisis e interpretación de resultados. Sería conveniente que estas implicaciones se hicieran explícitas, y que se promovieran análisis adicionales sobre las características de los alumnos sustentantes y las razones por las que no presentaron la prueba el resto de los alumnos.

4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes aceptables.

En los manuales no se encontró información sobre los márgenes aceptables de muestra obtenida con respecto a la planificada. Los márgenes previstos al igual que los reemplazos de escuelas en la muestra deben especificarse. tt Se

documentan en detalle los pasos para la selección de la muestra.

Los pasos para la selección de la muestra están indicados en los Manuales Técnicos (CENEVAL , 2012, 2013). El procedimiento de selección de las escuelas de la muestra solo se precisa en el Manual Técnico 2011-2012. Como se señaló en el criterio 2, es necesario aclarar el origen de los tamaños de muestra diferentes para la prueba operativa controlada y el pre-test que se enuncian a lo largo del documento, también es necesario revisar el diseño muestral aplicado, pues dado que primero se seleccionan escuelas y posteriormente alumnos, parece más conveniente utilizar un diseño por conglomerados que considere la naturaleza anidada de estas unidades. Es necesario proveer información adicional sobre la distribución de la muestra en los estratos y dominios. En el Manual Técnico 2008-2010 se describe solo el cálculo del tamaño de la muestra de alumnos, y la fórmula empleada para distribuir a los alumnos en los diferentes estratos (CENEVAL , 2012, págs. 106–108). También se da información sobre la cantidad de escuelas y alumnos seleccionados para la aplicación muestral (CENEVAL , 2012, pág. 110), pero no se señala cómo fueron seleccionadas las escuelas y alumnos, tampoco cómo se distribuyeron finalmente entre los estratos y dominios. tt Hay

una verificación de la muestra por una instancia externa.

Los responsables del diseño de las muestras y la selección de las escuelas de las diferentes aplicaciones han variado, como se ve en la siguiente tabla; sin embargo, solo se alude a un proceso Aspectos relativos a las aplicaciones

83

Las pruebas ENLACE para educación media superior

de validación del diseño muestral en la aplicación del 2009, en la que el INEE validó la selección de las escuelas hecha por el CENEVAL . Aunque por parte de la SEP se pide a quien diseña la muestra que asegure su calidad (DGEP, 2014b), convendría que de manera sistemática se contemplara la validación del diseño muestral y la selección de las diferentes unidades (micro y macro unidades) por una instancia distinta a quien se responsabilice por el diseño. Cuadro 4.1 Año de aplicación

Responsable de diseño muestral

Responsable de validación

2008

INEE

No se precisa

2009

Se utilizó el mismo diseño muestral de 2008, pero CENEVAL hizo la selección de escuelas.

INEE

2010

Investigaciones Sociales, Políticas y de Opinión Pública, S.A. de C.V. ( INVESPOP ).

No se precisa

2011 2012

tt Hay

Se utilizó el mismo diseño muestral que en 2010. DGEP -SEP estuvo a cargo de la selección de escuelas.

Se utilizó el mismo diseño muestral que en 2010. INVESPOP verificó pertinencia del diseño y seleccionó la muestra.

No se precisa No se precisa

encuesta o sistema de aseguramiento de la calidad de la muestra.

En los documentos entregados no se encontró información específica sobre el aseguramiento de la calidad de la muestra. Se identificaron algunos procedimientos relacionados con este subcriterio en el “Manual para el Coordinador de la Aplicación”, la “Guía para el Aplicador”, y el “Manual para el Coordinador Regional”. En específico, se pide que el aplicador verifique que se entrega la cantidad de materiales (exámenes y hojas de respuesta) destinada al grupo que atenderán, además de registrar la asistencia de los alumnos a cada una de las sesiones en el Formato para el Control de la Aplicación en Aula. Se pide también que completen los datos solicitados en el Formato para el Control de la Aplicación en el Aula, y los cotejen con los materiales entregados a cada alumno.

Planeación de las aplicaciones

5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales que aseguren comparabilidad de los datos.

tt Hay

manuales de aplicación, probados en campo, que precisen las actividades a desarrollar por cada participante; se describen las variaciones aceptables.

Hay manuales impresos para cada participante, cuya estructura y contenido incorporan prácticas generalmente aceptadas para este tipo de aplicaciones. Los roles están claramente delimitados e incluyen previsiones apropiadas para cada caso. 84

tt Hay

un cronograma detallado de todos los pasos del proceso.

La línea de tiempo en la que transcurre el proyecto se presenta de manera general en la documentación provista, lo cual es suficiente para los actores principales del proceso. No obstante, para poder retroalimentar internamente el proceso de planeación de las aplicaciones, convendría disponer de información más detallada. Es importante mencionar que en el cuestionario en línea se preguntó a los responsables de las AEE sobre la precisión del cronograma de actividades, la gran mayoría de los informantes (29

de 31, de 25 entidades federativas) afirmaron que el cronograma detalló con precisión todos los pasos del proceso a seguir. El resto de los informantes señaló desconocer el programa de actividades. tt Se

identifica a personal de las escuelas que tendrán que ver con la aplicación (directores, maestros) para contar con su cooperación.

A diferencia de ENLACE - B, en ENLACE - MS , se contrata personal externo para coordinar la aplicación en cada una de las escuelas (coordinadores de aplicación) y aplicadores para cada grupo. Los coordinadores de aplicación son seleccionados por el coordinador operativo, en el caso de la aplicación censal, o por el asesor de la DGEP, para la muestra controlada. Los directores de cada uno de los planteles son considerados como “corresponsables de que la aplicación se apegue a la normatividad” (SEP, 2014, pág. 3). Los directores son notificados con antelación, por el coordinador operativo, conjuntamente con los enlaces colaborativos y coordinadores regionales y coordinadores de aplicación para asegurar su disponibilidad. Adicionalmente, el respectivo asesor de la DGEP responde por la selección de los coordinadores de aplicación para la muestra controlada externamente. En el Manual para Docentes y Directivos de la aplicación 2014 se señala que “[l]a logística de distribución y aplicación de la prueba está a cargo de la DGEP -SEP ” (pág. 29), y se especifica que para la aplicación 2014 se recurriría de manera excepcional a directores y docentes “para repartir los materiales de aplicación y recolectar hojas de respuesta” (pág. 29), pero esta función de los docentes y directores no se menciona en otros manuales (CENEVAL , 2014).6 Las funciones de cada rol en la aplicación se especifican en los respectivos manuales, que están disponibles en formato impreso y para descarga de la página de la SEP. Para valorar el cumplimiento de este criterio, sería conveniente contar con el reporte de las escuelas que no fueron notificadas sobre la aplicación. Aunque no se proporcionó un reporte nacional donde se clasifiquen las incidencias, se encontró que el seguimiento diseñado por Estado de México a 81 planteles que participaron en la aplicación 2014 (de un total de 1 376), solo cuatro planteles afirmaron no haber sido notificados oportunamente sobre la aplicación.7 6

A través del cuestionario en línea se encontró que la mayoría de las entidades que lo respondieron no recurrieron a los directores para realizar estas funciones, y solo en tres casos los docentes participaron en la repartición de materiales y recolección de hojas de respuesta.

7

La muestra seleccionada por la entidad para hacer el monitoreo de la aplicación, incluyó planteles educativos federales, estatales y autónomos, de sostenimiento público y privado, de los diferentes subsistemas y modalidades de educación media superior. Se visitaron planteles de 26 municipios (de un total de 125), y el mayor número de escuelas se encontró en el municipio de Toluca.

Aspectos relativos a las aplicaciones

85

Las pruebas ENLACE para educación media superior

En el reporte de incidencias de otras entidades, se advierte que la falta de notificación no es un fenómeno extendido, por ejemplo, en Quintana Roo nueve escuelas, de un total de 151 que participaron la aplicación no fueron notificadas; en Oaxaca y Chihuahua solo una escuela no fue notificada, de un total de 663 y 333 escuelas, respectivamente. tt Se

fijan requisitos de confidencialidad-seguridad de material y respuestas.

De acuerdo con el Protocolo de Seguridad de los Materiales de Evaluación provisto, “El Coordinador de Aplicación será el responsable de trasladar a la escuela asignada la(s) caja(s) con los materiales de aplicación cerradas y selladas con su etiqueta de seguridad.” Igualmente, se vincula de manera activa a los padres de familia como supervisores, a efectos de validar que todos los alumnos presenten las pruebas en las mismas condiciones. Adicionalmente, los observadores externos verifican el cumplimiento de las normas durante la aplicación. Con lo anterior se cuenta con previsiones suficientes para el manejo de los materiales de la aplicación operativa. No obstante lo anterior, para el caso del pre-test y teniendo en cuenta la escala de dicho componente del proyecto, podría considerarse una operación logística independiente de distribución y recolección de materiales que asegure su llegada el día de la aplicación a cada escuela, de manera que se minimicen los riesgos para la integridad de los materiales. Esto tiene un impacto financiero, pero convendría por mayor seguridad de los ítems a ser aplicados en un futuro. En cuanto al retorno de los materiales, el proceso se documenta mediante un acta, que es remitida vía correo electrónico a la DGEP. Para aprovechar de mejor manera esta información y controlar y cualificar este proceso, es conveniente que dicha práctica migre hacia formatos para lectura óptica o escáner, que alimenten bases de datos y eliminen la digitación. tt Hay

procedimientos de aseguramiento de la calidad de la aplicación.

En los diversos manuales se incorporan procedimientos para aseguramiento de la calidad de la aplicación. Para medir el nivel de apego a los procedimientos y formular recomendaciones, se requeriría contar con informes consolidados de aplicación en los que se expliciten las principales desviaciones y el tratamiento dado, de manera que en cada ciclo se aproveche sistemáticamente la experiencia adquirida en las aplicaciones previas. En el cuestionario en línea, se solicitó a las entidades que añadieran los reportes de la aplicación. Se encontró que cada entidad define la manera de sistematizar las incidencias en el proceso, y por lo general la captura inicial de incidencias se hace de manera abierta, para posteriormente llevar a cabo la clasificación. La DGEP proporciona un formato general para reportar el proceso de aplicación (ver anexo 4.2), sin embargo, en este formato también se reporta de manera abierta la problemática de la aplicación. Convendría que se definieran las categorías más relevantes de incidencias que se busca prevenir, para que éstas formen parte de un seguimiento preciso por parte de las entidades.

86

Selección y capacitación del personal de aplicación

6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolección de datos, en todos los niveles.

tt Hay

criterios para reclutar y entrenar aplicadores y apoyos.

Dentro de las funciones del coordinador regional está “Reclutar, seleccionar y capacitar a Coordinadores de Aplicación y Aplicadores”. No se encontraron previsiones de aplicación general acerca del perfil del personal. La DGEP, durante los preparativos para la aplicación, sugiere al coordinador operativo de la entidad federativa, que los coordinadores y los aplicadores cumplan, cuando menos, con lo siguiente: a) Poseer el bachillerato terminado. b) Experiencia en la conducción de grupos y en la aplicación de instrumentos de evaluación. c) Disponer de tiempo para recibir la capacitación y durante el periodo de aplicación. d) Edad mínima de 18 años. e) No tener relación laboral con el gobierno federal, estatal y/o municipal. f) Capacidad de organización y facilidad de palabra. g) Que conozca las zonas donde se encuentran los centros educativos. Cada entidad elabora una Estrategia Operativa para la aplicación. Conforme al “Instructivo para la elaboración, ejercicio y comprobación del gasto operativo” (DGEP, 2014a), se indica que la Estrategia Operativa debe incluir dentro de uno de sus apartados la descripción del perfil que se solicitará para los coordinadores de aplicación y aplicadores. Sin embargo, el perfil de los aplicadores puede variar entre entidades. Por ejemplo, en la Estrategia Operativa para la aplicación de ENLACE - MS 2014 del Estado de México, el octavo apartado define el perfil deseable de los coordinadores de aplicación y aplicadores, en éste se encuentran las siguientes características: “[t]ener una edad mínima de 21 años; comprobar estudios universitarios o equivalentes; no laborar en la escuela que se le asigne; de preferencia, tener experiencia en la conducción de grupo y en la aplicación de instrumentos de evaluación; disponer de tiempo para ser capacitado en días previos a la aplicación de los instrumentos de evaluación; y, disponer de tiempo para los días de la aplicación” (IEEEM , 2014a, pág. 13). En el Estado de México se señalaron solo los dos últimos rasgos como indispensables. Por otro lado, en Tamaulipas la Estrategia Operativa solo define el perfil del Coordinador de Aplicación que comprende: a) preparación mínima de educación media superior, pasante de licenciatura de UPN o Normal, profesionistas sin empleo y docentes jubilados; b) capacidad de sugerir cambios; c) iniciativa para proponer opciones de trabajo y plantear soluciones a los problemas que se presenten durante el desarrollo; d) capacidad para organizar equipos de trabajo; actitud de respeto, compañerismo y responsabilidad. Teniendo en cuenta lo anterior, se requiere estandarizar los criterios de selección del personal para todos los roles y asegurar su cumplimiento mediante monitoreo externo. tt Se

recluta y capacita a suficiente personal de reemplazo.

No se encontró información explícita sobre el particular, aunque a través de la información recuperada en el cuestionario en línea se encontró que algunas entidades sí recurren al reclutaAspectos relativos a las aplicaciones

87

Las pruebas ENLACE para educación media superior

miento y capacitación de personal de reemplazo tanto para coordinadores de aplicación como aplicadores. Las entidades que no lo llevan a cabo señalan que se debe a dos razones: una de ellas es que el reclutamiento y capacitación de personal de reemplazo no está considerado dentro del gasto operativo, y, por otro lado, la experiencia que han tenido en aplicaciones previas les ha mostrado que no es un rubro esencial. A partir de lo anterior, parece necesario que se estandarice la tasa de personal de reemplazo por cada rol y asegurar que se aplique. tt La

capacitación incluye oportunidad de practicar con los instrumentos.

No se encontraron previsiones sobre el particular, sin embargo en los manuales se apunta que las cajas con los instrumentos solo serán abiertas en cada una de las escuelas durante el día de la aplicación, por lo que se asume que no hay oportunidades de practicar con los instrumentos originales, lo cual es apropiado. No obstante lo anterior, las carátulas deben ser conocidas con antelación por parte del personal de aplicación, a efectos de facilitar sus labores. En el cuestionario en línea se preguntó si los coordinadores regionales, coordinadores de aplicación y aplicadores tuvieron oportunidad de practicar con los instrumentos de aplicaciones anteriores, carátulas y hojas de respuestas. Se encontró que estas prácticas se implementan en la mayoría de las entidades. Quienes reportan no hacerlo, señalan que esto se debe principalmente al arribo tardío de los materiales de capacitación en su entidad y la falta de materiales diseñados específicamente para la práctica. En una entidad señalaron que a pesar de que no cuentan con este tipo de materiales, recurren a mostrar una imagen en presentaciones electrónicas elaboradas para la capacitación. Es necesario que estos procesos se estandaricen de tal manera que el desempeño de cada una de las figuras no se vea influenciado por las variaciones en los procesos de capacitación definidos en cada entidad. tt La

formación de capacitadores y/o el entrenamiento del personal que asegurará la calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma que se asegure su adecuado funcionamiento.

El coordinador operativo, con el apoyo del coordinador regional dispone lo pertinente para la implementación del proyecto. En cada entidad se define la manera en la cual se realiza la capacitación de los coordinadores de aplicación y aplicadores, de acuerdo con sus necesidades. Las principales orientaciones que brinda la DGEP en este proceso son, por un lado, que los documentos normativos y operativos constituyan el eje de la capacitación (DGEP, 2014b)8 y por otro, que todo el personal que participe en la aplicación sea capacitado con anterioridad. En el cuestionario en línea se preguntó por la duración de la capacitación a coordinadores de aplicación y aplicadores. Por lo general, la capacitación de estas figuras dura entre dos y cuatro 8

Los documentos normativos y operativos comprenden: Guía para el Aplicador; Guía para Padres; Normas operativas; Manual para el Coordinador de Aplicación y; Manual Coordinador Regional.

88

horas, pero hubo entidades que reportaron que la capacitación duró una hora, mientras en otras se impartió hasta en siete horas. Estas variaciones, y otras relacionadas con las actividades en que se involucre a los participantes en cada una de las entidades podrían llevar a diferencias importantes en la manera en la cual se llevan a cabo los procesos. El uso de la tecnología podría apoyar de manera importante esta etapa del proyecto, propendiendo por su mayor estandarización. tt Se

llevan registros de las sesiones de entrenamiento de aplicadores.

No se encontró información sobre el particular. A efectos de proponer mejoras, se requiere disponer de una tipificación de las dudas recurrentes, con el propósito de enriquecer el proyecto con un listado de preguntas frecuentes con respuestas adecuadas y de aplicación general. tt Se

monitorean las actividades en campo por personal de la instancia central y/o externo, y se registran problemas detectados.

La DGEP designa un monitor por entidad federativa con funciones de seguimiento, atención y solución de problemas antes, durante y después de la aplicación. En desarrollo de sus actividades, el monitor compila información general acerca de los materiales, preparativos, número de escuelas participantes, razones para no aplicación y demás novedades que se presentan en la entidad federativa asignada. Sin embargo, las escuelas en las cuales se concentra el trabajo de este monitor son las que pertenecen a la muestra controlada. El monitoreo específico de las actividades en campo, habría que efectuarlo en una muestra aleatoria de escuelas no avisada de antemano, durante la aplicación, a efectos de establecer el apego a los procedimientos, detectar desviaciones y proponer mejoras para siguientes ciclos. Por otro lado, en cada entidad existe el rol de supervisor de las aplicaciones, ejercido por los padres de familia, a quienes en la guía respectiva se les informa acerca de sus funciones y de su deber de comunicar toda irregularidad al director de la escuela o al coordinador de la aplicación. Adicionalmente, los observadores externos velan por el cumplimiento de las normas. En la aplicación se requiere que por escuela se complete el “Acta de Entrega, Recepción e Irregularidades”. En esta acta se registra el material que se recibió y el que se utilizó; se agrega un recuadro donde se registran las irregularidades ocurridas en la escuela y se pide que se añada la forma en que se resolvieron. Si bien se considera que ésta es una manera de monitorear la aplicación, puede ser insuficiente y no asegurar que los aspectos que interese que se de seguimiento sean observados. Es importante mencionar que en las entidades pueden decidir realizar sus propios procesos de monitoreo. Tal es el caso del Estado de México en donde se define una muestra de escuelas que será visitada y los aspectos a los que se dará seguimiento. En la aplicación de 2014 estos aspectos fueron: notificación oportuna sobre la aplicación; recepción completa de materiales de aplicación; suficiencia de tiempo para organizar actividades de aplicación; disponibilidad de espacio seguro para resguardo de materiales; claridad sobre procedimientos a seguir; convocatoria a padres de familia como supervisores del proceso de aplicación en aula; participación de observadores externos; respeto a calendario de aplicación; adecuación del ambiente externo para la aplicación. También se añade un espacio para que se describan otras irregularidades presentadas.

Aspectos relativos a las aplicaciones

89

Las pruebas ENLACE para educación media superior

Teniendo en cuenta lo anterior, se hace necesario conocer un compilado de los reportes de los supervisores y observadores externos, a efectos de analizarlos y formular recomendaciones. tt Se

hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo.

No hay información al respecto. Es fundamental conocer el resultado de estos ejercicios, para formular planes de mejora, incluyendo aportes de todos los roles de la aplicación.

Análisis del cumplimiento de los criterios de validez antes de la aplicación Se encontró información suficiente para fundamentar la valoración de la mayoría de los criterios y subcriterios. Las únicas excepciones estuvieron relacionadas con los procedimientos de selección de la muestra controlada, los registros de las sesiones de entrenamiento, y ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo. De manera general, en la valoración de estos criterios se hicieron evidentes algunas necesidades con respecto a la muestra controlada: revisar y precisar la manera en la cual se define el diseño muestral y el tamaño de la muestra; precisar los márgenes aceptables entre la muestra programada y obtenida; la validación del diseño y selección de la muestra por una instancia externa; la documentación y actualización de los procedimientos. Con respecto a la planeación de las aplicaciones, una de las áreas de mejora que se encuentra es la estandarización del perfil requerido para reclutar al personal que participa en la aplicación; de procedimientos de capacitación; y de seguimiento a la notificación de las escuelas y la aplicación en campo.

CRITERIOS DE VALIDEZ DURANTE LA APLICACIÓN Minimización de carga, motivación, no respuesta y fraude

7. Se fijan límites realistas sobre la carga de responder pruebas y cuestionarios de contexto para que no sea excesiva tomando en cuenta los sujetos.

tt Se

utilizan los resultados de la aplicación piloto para revisar que los estimados de carga sean realistas y aceptables.

A través del pre-test se obtiene toda la información estadística requerida para la aplicación operativa que se llevará a cabo el año siguiente. tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscan-

do minimizar la carga para los sujetos. 90

Los procedimientos que deben seguir lo alumnos son simples y se encuentran apropiadamente estandarizados. tt En

los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden obtener de otras fuentes.

Se indaga por las características personales de los alumnos y de su entorno escolar y familiar que solo pueden ser obtenidos a partir de la aplicación de este instrumento. Sin embargo, la extensión del instrumento podría representar una carga para los alumnos; la aplicación del 2013 comprendió 134 reactivos. Es fundamental analizar la pertinencia de este instrumento y el uso dado a la información recolectada. tt Se

agenda la aplicación en horarios convenientes para los sujetos.

La aplicación se lleva a cabo durante la jornada escolar y se anuncia a todos los actores del proceso con antelación suficiente y por diversos medios. La última aplicación de la prueba coincidió con la entrega de documentación de aspirantes de ingreso al Instituto Politécnico Nacional, lo cual representó un inconveniente para que aquellos alumnos interesados en ingresar a dicha institución presentaran la prueba. Aunque desde la DGEP negociaron con el IPN que quienes presentaran la prueba podrían entregar en contraturno o en días posteriores la documentación, hubo alumnos que prefirieron no asistir los días de la aplicación. De esto no se tiene una documentación específica; se obtuvo la información a través de las entidades.

8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.

Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del estudio y cómo se utilizarán sus datos. En las guías y manuales provistos se informa a los diversos actores del proceso que “ENLACE ofrece información específica a padres de familia, estudiantes, maestros, directivos, autoridades educativas y sociedad en general para mejorar la calidad de la educación, promoviendo la transparencia y rendición de cuentas. Proporciona un diagnóstico académico del estudiante a nivel individual. Está alineada al marco curricular común, en particular a las competencias disciplinares básicas de los campos de Comunicación (Comprensión lectora) y Matemáticas.” Adicionalmente, informa acerca de las limitaciones del proyecto así “No permite derivar conclusiones sobre el sistema de Educación Media Superior, los subsistemas, las escuelas, los docentes ni sobre el desempeño de las entidades federativas.” Los alcances y limitaciones del proyecto están claramente establecidos y se comunican consistente y ampliamente.

Aspectos relativos a las aplicaciones

91

Las pruebas ENLACE para educación media superior

9. Se desarrollan procedimientos para lidiar con la no-respuesta o el rechazo a responder a la prueba y se entrena al personal de aplicación para seguirlos.

La guía del aplicador incluye el siguiente texto para ser leído a los alumnos al inicio de la sesión: “ES IMPORTANTE COMENTARLES QUE LOS RESULTADOS DE LAS PRUEBAS NO AFECTARÁN SUS CALIFICACIONES; SIN EMBARGO, POR SER UNA EVALUACIÓN DE RELEVANCIA NACIONAL, LES PIDO QUE PONGAN TODA SU ATENCIÓN EN CADA PREGUNTA Y TRATEN DE HACER SU MEJOR ESFUERZO.”

De esta manera se considera satisfecho este criterio.

10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude y se entrena al personal de aplicación para seguirlos.

En los siguientes documentos se precisa el propósito de la prueba ENLACE - MS como un diagnóstico individual de los alumnos de este nivel educativo y, la importancia de no permitir la copia: Protocolo de Seguridad de los Materiales de Evaluación; Manual para el Coordinador Regional; Manual para el Coordinador de Aplicación; Guía para el Aplicador; Guía para Padres. No se proporciona información a los aplicadores sobre comportamientos de los estudiantes que pueden indicar que se está dando la copia; o las medidas que deben tomar ante el incumplimiento de esta normatividad. No se aplican algoritmos de detección de fraude. Si bien la prueba está catalogada como de bajo impacto, es altamente recomendable que se detecte técnicamente el impacto de eventuales conductas inapropiadas sobre la aplicación y el procesamiento de los resultados.

Procedimientos de control de calidad en las aplicaciones

11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.

tt Se recluta y entrena a monitores que lleven a cabo actividades de control externo de calidad,

observando la recolección de datos en un subconjunto de los sitios. El proyecto tiene prevista la participación de observadores externos, a quienes se invita a verificar el cumplimiento de las normas durante el proceso de aplicación. No hay un proceso previo de entrenamiento, aunque en los manuales se sugiere que los directores se reúnan con los padres de familia y observadores externos una semana antes de la aplicación. De acuerdo con la información recolectada en el cuestionario en línea, solo en cinco entidades federativas (de las 25 que respondieron el cuestionario) participaron observadores externos. Dos de estas entidades señalaron que hubo observadores externos en la mayoría de las escuelas (90% o más); en las otras tres entidades, no contaron con registro. Finalmente, es importante 92

señalar que solo en una de las cinco entidades se implementó un proceso de capacitación para estas figuras. En algunas entidades federativas, las AEE contemplan la realización de procesos de monitoreo. En algunos casos el personal que funge como monitor forma parte de dichas áreas. Conviene que se estandarice el proceso de reclutamiento y capacitación de observadores externos, de tal manera que se pueda dar seguimiento a aspectos comunes de la aplicación para recuperar información que contribuya a la mejora de los procesos. tt Si

no es viable se hacen entrevistas presenciales o por teléfono de control de calidad con aplicadores y demás personal involucrado en la aplicación.

Junto con los responsables directos de la aplicación, los supervisores y observadores externos controlan la calidad de la aplicación. tt Se

hace revisión de control de calidad en una muestra aleatoria de los datos recolectados para asegurar llenado completo y correcto.

No se encontró información sobre el particular en la documentación provista. tt Se

resumen los resultados de cada etapa de aplicación para monitorear el estatus de las actividades y para identificar y corregir causas de problemas de calidad.

No se encontró evidencia explícita acerca de la identificación de la causa de los problemas de calidad ni de la estrategia abordada para superarlos.

Análisis del cumplimiento de los criterios de validez durante la aplicación Se encontró información suficiente para valorar la mayoría de los criterios y subcriterios relacionados con esta etapa del proceso de aplicaciones. La única excepción fue con respecto a los procedimientos de revisión de la información recolectada en campo para asegurar que haya sido registrada adecuadamente. Se observa como una fortaleza la definición de procedimientos simples para el personal que participa en la aplicación de la prueba; también con respecto a la motivación de alumnos para responderla y al manejo de la no respuesta. A través de la valoración de estos criterios se hizo evidente que existe suficiente información para generar indicadores acerca de la aplicación que podría ser aprovechada para sistematizar, monitorear y elevar la calidad de la implementación en ciclos posteriores. No obstante, no se encontró un listado de las situaciones típicas que se presentan ni el tratamiento dado a ellas. Por otro lado, se halló que la participación de algunas figuras tiene grandes variaciones entre entidades, en particular los observadores externos. Es importante avanzar en la definición de su perfil y funciones, de tal manera que puedan estandarizarse y llevar a un seguimiento similar en las entidades del país.

Aspectos relativos a las aplicaciones

93

Las pruebas ENLACE para educación media superior

Es fundamental seguir avanzando en la estandarización de los procesos asociados a la aplicación.

CRITERIOS DE VALIDEZ DESPUÉS DE LA APLICACIÓN Preparación del procesamiento de los datos

12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según normas internacionales: cómo introducir los datos; asignar identificadores a alumnos-maestros-escuelas; variables a incluir, códigos válidos, de datos faltantes o respuestas no aplicables; formato de datos, estructura de archivos, limpieza, entre otros.

En los Manuales Técnicos y otros documentos proporcionados no se incluye información sobre el procesamiento de datos. En el Manual Técnico 2008-2010 se precisa que la lectura y calificación es responsabilidad de la DGEP -SEP, la que a su vez, entrega la base de datos a CENEVAL para la validación de los resultados (CENEVAL , 2012, pág. 53). Se revisó un documento proporcionado por la DGEP, relacionado con el procedimiento de lectura óptica. En él se detalla la secuencia de etapas que comprende este proceso, las actividades dentro de cada etapa y sus responsables. Sin embargo, no se definen normas relacionadas con la creación y cuidado de archivos. Por otro lado, la última actualización de estos documentos fue en el año 2005, cuando aún no se realizaban aplicaciones de ENLACE ; aunque por las comunicaciones sostenidas con la DGEP se entiende que son de aplicabilidad para esta evaluación, convendría que fueran actualizados y complementados con normas que lleven al cumplimiento de este criterio.

13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos aceptados y que comprende la importancia de recolectar y capturar la información con el cuidado necesario para que los análisis se hagan sobre información de la mejor calidad posible.

El manejo de las bases de datos está a cargo de las áreas de Integración de la información, Lectura óptica y Calificación (DGEP, 2014b). En el área de integración de la información se adelanta la gestión de datos requerida para cálculo de presupuesto, impresión de materiales y logística. El área de lectura óptica se divide a su vez en tres subáreas: Recepción, Lectura óptica y Validación. El personal de recepción tiene a su cargo recibir el material aplicado y organizar las hojas de respuestas, actas y formatos utilizados. El personal de lectura óptica genera los archivos con las respuestas de los alumnos. El área de validación confronta los archivos de la lectura contra los de impresión de materiales y verifica las novedades que se hayan podido presentar, con apoyo de la imagen de las hojas de respuestas y software específico. 94

El personal de calificación es el responsable de llevar a cabo la calibración de los reactivos así como de la calificación propiamente. Igualmente, genera las bases de datos para la publicación de resultados de alumnos y escuelas, así como los reportes y estadísticas relacionadas. De acuerdo con la información provista, el personal involucrado en el manejo de bases de datos cuenta con perfiles técnicos y experiencia acordes a los requerimientos. En relación con el entrenamiento que recibe el personal de estas áreas, la información proporcionada por la DGEP precisó solo la relacionada con la que es impartida por los proveedores de servicios informáticos para la lectura óptica (DGEP, 2014b). Este tipo de capacitación admite que el personal de la DGEP desarrolle las aplicaciones que permitan la integración de bases de datos. Convendría que el perfil profesional y la capacitación necesaria para el personal de estas áreas fuera incluida en documentación oficial.

14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicación. Se asegura que:

No se encontró documentación oficial que describa los procedimientos para maximizar la calidad de las bases de datos. Sin embargo, en la información provista por la DGEP se precisó que la calibración y calificación se llevan a cabo paralela e independientemente en DGEP y CENEVAL . Este procedimiento permite que se detecten diferencias, se verifiquen y corrijan, bien sea en el dato propiamente o en el software utilizado (DGEP, 2014b). tt La

estructura de los datos se apegue a la de los instrumentos.

En los Manuales Técnicos y otra documentación proporcionada no se encuentran registrados los procedimientos que permitan verificar que la estructura de la base de datos se apegue a los instrumentos. En la comunicación establecida con la DGEP se confirmó la realización de esta verificación, pero no fue provista documentación oficial adicional. Es conveniente que estos procesos se documenten de tal manera que se promueva su utilización en las diferentes aplicaciones, se valore de manera continua su adecuación y suficiencia y se promueva su complementación y mejora. tt Los

datos tengan suficientes redundancias para permitir el control de calidad.

En los documentos proporcionados no se incluye información con respecto a este subcriterio. Las bases tengan identificadores únicos consistentes para que los alumnos y escuelas y, en su caso, maestros o directores, puedan relacionarse. En las guías y manuales para el Coordinador Regional, Coordinador de Aplicación y el Aplicador, se señala que cada hoja de respuesta tiene un folio único para los alumnos, y se pide que el aplicador, en primera instancia verifique que el folio que está registrado en el Formato para el Control de la Aplicación en el Aula coincida con el que se encuentra en los materiales entrega-

Aspectos relativos a las aplicaciones

95

Las pruebas ENLACE para educación media superior

dos a los alumnos, ya que las hojas de respuesta se encuentran prellenadas con la información de los alumnos y sus escuelas. Existen procesos técnicos preestablecidos y redundantes para asegurar la unicidad de los folios. Las hojas de respuestas se remiten personalizadas en la gran mayoría de casos. Para las escuelas de las que no se dispone de información de sus alumnos, se asigna la cantidad de hojas de respuestas correspondiente a la matrícula existente y luego de la aplicación, la autoridad educativa local envía la información faltante. tt Se

lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar que se cumplan con los puntos anteriores.

No se proporcionó información al respecto. tt Se

documenten todas las actividades de preparación de los datos.

Se cuenta con procesos y procedimientos preestablecidos para la preparación de los datos, de acuerdo con la norma técnica aplicable.

Procesamiento y verificación de los datos

15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del procesamiento y verificación de los datos son confiables.

En nota técnica de CENEVAL a DGEP se describen los procedimientos de análisis de reactivos que se implementan en las pruebas piloto, pre-test y operativa para verificar su calidad psicométrica, así como el cumplimientos de los lineamientos técnicos institucionales y de contenido. tt Durante

la lectura de los datos se hacen dobles verificaciones en forma sistemática para garantizar la confiabilidad del proceso.

Los Manuales Técnicos y otros documentos proporcionados no incluyen información con respecto a la lectura de los datos y las verificaciones para garantizar la confiabilidad de este proceso. tt En

caso de que la lectura de datos se haga en forma descentralizada se asegura que se cumplan los estándares en todos los sitios.

La lectura se hace centralmente por la DGEP, y después se entrega al CENEVAL para su validación. tt Se revisa que la estructura de las bases se apegue a la acordada, las variables en rangos válidos y los identificadores sean únicos e íntegros. Los documentos entregados no especifican los procedimientos de validación y limpieza de las bases de datos. tt Se

96

contrastan archivos de datos con instrumentos y cuestionarios.

Los documentos entregados no incluyen información al respecto. tt Se

calculan estadísticas analíticas para cada ítem.

En los manuales técnicos se precisa que antes de realizar el procedimiento de equiparación se depuran las bases de datos y se hace una calibración libre de reactivos. Lo anterior incluye la estimación de los estadísticos de cada reactivo para identificar aquellos con características psicométricas inadecuadas. (CENEVAL , 2013, pág. 67). tt Se

calculan estadísticas descriptivas para todas las variables para revisar que no haya valores extremos o faltantes; si hay se reportan para revisión.

Los documentos entregados no especifican los procedimientos de validación y limpieza de las bases de datos. tt Se

documentan todos los pasos del proceso.

Los Manuales Técnicos no reportan información sobre el procesamiento de los datos.

Notificación de irregularidades

16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser aprobada y documentada.

Existen formatos para el reporte de anomalías, pero no se conoce un documento que las consolide y permita cualificar el proceso.

Análisis del cumplimiento de los criterios de validez después de la aplicación. Aunque se encontró información suficiente para valorar la mayoría de los criterios y subcriterios relacionados con esta etapa del proceso de aplicaciones, su revisión mostró que ésta no ha sido sistematizada y registrada en documentación oficial. Justamente la sistematización y documentación de procedimientos relacionados con la preparación de los datos y su manejo, de tal manera que se maximice la calidad, es una de las áreas de oportunidad más importantes que se encontraron. Esto también parece ser necesario con respecto a la documentación de las características profesionales y de capacitación que debe tener el personal que maneja la información.

CONCLUSIONES GENERALES En la valoración de estos criterios se identificaron fortalezas relacionadas con la definición de procedimientos para la aplicación en campo. Las áreas de oportunidad más importantes que se Aspectos relativos a las aplicaciones

97

Las pruebas ENLACE para educación media superior

reconocen son la precisión de algunos procedimientos, su estandarización y documentación. Esto fue principalmente evidente con respecto al reclutamiento y capacitación del personal que participa en la aplicación. También parece ser necesario con respecto a la preparación de los datos y su manejo antes de que se proceda al análisis y reporte de la información. Por otro lado, parece necesario generar procedimientos y herramientas estandarizadas para dar seguimiento a los procedimientos previos, durante y posteriores a la aplicación en campo. Si bien, cada entidad federativa diseña su propia estrategia operativa, a partir de su situación particular, la DGEP expide el “Instructivo para la elaboración, ejercicio y comprobación del gasto operativo” (DGEP, 2014a), en el que se establece que las entidades deben enviar sus estrategias operativas, incluyendo las previsiones del caso sobre personal, capacitación, remuneración y asuntos conexos. Esta información podría aprovecharse para generar estrategias operativas estandarizadas, implementables en tipologías de estados con características afines, de forma que además de controlar los costos, la experiencia adquirida apoye la construcción de conocimiento en la materia, independientemente del responsable del momento. Lo anterior apoyaría a elevar la calidad de las aplicaciones. Se recomienda la incorporación de algoritmos de detección de fraude, aunque la prueba sea de bajo impacto, a efectos de asegurar técnicamente la calidad de la medición, toda vez que sus resultados son puestos al servicio de la comunidad educativa y debe enfatizarse en la transparencia. Para los casos en los que se detecte fraude, podría estudiarse la aplicación de una medida administrativa como la no publicación de resultados para una escuela específica.

98

5

Validez de usos y consecuencias

OBJETIVO Y MARCO CONCEPTUAL En este apartado se presentan los resultados de un análisis detallado de la evidencia disponible relativa a los usos y consecuencias de la prueba ENLACE - MS (Evaluación Nacional de Logro Académico en Centros Escolares de Educación Media Superior). Este aspecto se enfoca en la evidencia de que se dan usos apropiados y previstos a los resultados de la prueba, que estos usos están teniendo los efectos y consecuencias previstas, y que por el contrario no se están dando usos inapropiados y que conlleven consecuencias negativas. La noción de validez relativa a usos y consecuencias de las pruebas (con frecuencia denominada validez consecuencial) combina un amplio rango de consideraciones teóricas, psicométricas, y prácticas, y su aplicación en casos particulares es un tema en constante evolución que se discute activamente en la literatura especializada (Lissitz, 2009). En este trabajo se conceptualiza la validez consecuencial de manera amplia, y no ceñida a un modelo de medición particular. Esto se refleja en el convenio de ejecución entre INEE y UAA que incluye en este apartado la forma en que se difunden los resultados de las pruebas, los análisis de factores asociados y el uso que se hace de dichos resultados, así como las consecuencias que ha traído consigo su utilización en el sistema educativo mexicano.1 Dado que este estudio se conceptualiza primordialmente desde la perspectiva de la política educativa, se considera que el uso de la prueba determina directamente su significado y consecuencias (Welner, 2013), sin importar necesariamente si esto corresponde a la definición especifica de validez dentro de algún modelo conceptual o psicométrico. Sin embargo, es importante diferenciar la evaluación del uso de un instrumento en el contexto de una política educativa que se busca aquí, de la evaluación general del impacto social de esta política en un sentido amplio, que un estudio de validez no pretende abordar.

CRITERIOS DE VALORACIÓN Los criterios de valoración que se proponen se basan en los estándares de AERA , APA y NCME (1999) que ofrecen los lineamientos profesionales más ampliamente establecidos a nivel internacional. Adicionalmente se incluyen elementos de los estándares del Educational Testing Service (2000) que además de la calidad de la prueba atienden lo relativo a equidad y consecuencias (Standards for Quality and Fairness); y los del Centro Nacional de Evaluación para la Educación 1

El “análisis de factores asociados” se entiende aquí como un monitoreo de patrones y tendencias a nivel sistémico para propósitos de investigación, o toma de decisiones sobre programas o políticas—a diferencia de análisis a nivel del individuo que pertenecen al tema de validez de constructo.

99

Las pruebas ENLACE para educación media superior

Superior de México (CENEVAL , 2000) que además tocan lo relativo a comunicación de resultados y capacidad de interpretación. Finalmente se incluye una publicación reciente del Banco Mundial que considera factores que inciden en distintos tipos de usos (Kellaghan, Greaney y Scott Murray, 2009). De estas tres fuentes se sintetizaron una serie de criterios que se engloban en cuatro aspectos de validez de uso y consecuencias, a saber: 1) Soporte para interpretaciones, usos y consecuencias previstas; 2) Acceso equitativo y capacidad de interpretación y uso; 3) Comunicación que facilite la buena interpretación de los resultados, y 4) Interpretaciones, usos y consecuencias imprevistas. En la elaboración de este reporte se definieron inicialmente 16 criterios específicos que luego se redujeron a 11 para eliminar redundancias y alinear las distintas fuentes de evidencia más directamente a los criterios.

Tabla 5.1 Criterios de valoración: validez relativa a usos y consecuencias A. Soporte para interpretaciones, usos y consecuencias previstas 1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico. 2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba.

B. Acceso equitativo y capacidad de interpretación y uso 3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes involucradas sin discriminación. 4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación y utilización de los resultados.

C. Comunicación que facilite la buena interpretación de los resultados 5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación deseable (o correcta) de los resultados. 6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general. 7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil y características de la población de referencia. 8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigma.

D. Interpretaciones, usos y consecuencias imprevistas 9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables). 10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas, o inadecuadas/negativas). 11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y detalle adecuado. Si estos usos persisten, se informa a los usuarios y se intenta tomar acciones correctivas. Fuente: Adaptado de AERA /APA / NCME (1999), ETS (2000), CENEVAL (2000)

Es importante señalar que aunque estos criterios reflejan aspectos concretos de calidad técnica de la prueba, a diferencia de aspectos psicométricos u operativos, estos no se pueden evaluar directamente en términos cuantitativos o procedimentales exactos. Por el contrario, la evaluación de criterios aquí requiere juicios de grado basados en evidencia teórica y empírica, que se refieren a características que no necesariamente son observables de manera directa y confiable, y que ocurren en el contexto complejo de un sistema de pruebas de gran alcance que se usa para propósitos específicos. Es evidente, por ejemplo, que el grado de escrutinio técnico necesario es mayor en el caso de una prueba de alto impacto que implica consecuencias serias para los sujetos implicados, que en una prueba diagnóstica sin consecuencias (AERA , APA , NCME , 1999). 100

Igualmente compleja es la evaluación de usos o consecuencias no propuestas fuera del control del desarrollador. En el contexto de una prueba nacional del tipo y alcance de ENLACE - MS , el organismo desarrollador responsable de satisfacer los criterios de calidad que se delinean es el sistema educativo federal en conjunto, no solo el CENEVAL como institución encargada de los aspectos técnicos de desarrollo de la prueba. Las acciones de otros actores del sistema educativo tales como asociaciones civiles, prensa, o incluso gobiernos estatales, se consideran y evalúan como externos al órgano desarrollador. En todos los casos, la asignación de responsabilidad es de perspectiva amplia y descriptiva, y considera parámetros realistas referidos al contexto nacional y experiencias en otros sistemas a nivel internacional (Cizek, Bowen y Church, 2010; Nichols y Williams, 2009). Por último, como en los otros capítulos de este reporte el análisis que se presenta aquí trata de distinguir entre aspectos básicos o primarios considerados como mínimos o indispensables en cualquier sistema de medición educativa de esta dimensión, y aspectos que se consideran adicionales o ideales, que representan objetivos de calidad que se deben buscar, pero no son indispensables para una operación mínimamente apropiada (dentro de ciertos parámetros y contexto).

TIPOS DE USOS DE LA PRUEBA La prueba ENLACE - MS busca generar información sobre las capacidades para la vida de los egresados de educación media superior, apoyando la retroalimentación individual para padres, maestros y escuelas, y la mejora del sistema educativo (Manual ENLACE - MS , pág.18). Para el análisis de la prueba ENLACE - MS es importante destacar que esta es de carácter voluntario para las escuelas. Según el manual para docentes y directivos, “la prueba está dirigida a los alumnos de la República Mexicana inscritos en los planteles que manifiestan interés en participar y apoyar en la aplicación de la prueba” (pág. 12). Se trata de una prueba diagnóstica, objetiva, estandarizada, y de bajo impacto (pág. 14) para los estudiantes, dado que no influye directamente la trayectoria escolar de los sustentantes. La tabla V.2 sintetiza los usos y objetivos previstos por los diseñadores de la prueba ENLACE - MS en el manual técnico 2011-12, el manual para docentes y directivos (publicado en 2014), y la página web de la prueba (www.enlace.sep. gob.mx/ms/). La tabla resume usos y consecuencias que involucran a tres usuarios primarios: 1) alumnos y padres de familia, 2) docentes y directores, 3) autoridades educativas y organismos evaluadores (pág. 14). Una precisión necesaria se refiere a la clasificación de usos como adecuados o previstos: nuestro reporte no pretende ofrecer un juicio cualitativo sobre el valor teórico de los diversos usos propuestos y posibles de ENLACE - MS , o si estos son adecuados o deseables en un sentido social más amplio. La distinción es necesaria por motivos técnicos y prácticos, al permitir delinear responsabilidades para desarrolladores y usuarios de la prueba. En primera instancia los desarrolladores son responsables principalmente de aquellos usos que ellos mismos han propuesto para la prueba (y, como se verá más adelante, también en cierto grado por la prevención, detección y corrección de usos que injustificados o inadecuados). Finalmente es importante mencionar que una prueba puede ser “bajo impacto” (pág. 14) para los estudiantes y al mismo tiempo serlo de alto impacto o consecuencias para docentes, esValidez de usos y consecuencias

101

Las pruebas ENLACE para educación media superior

cuelas, municipios o estados, y sistemas o subsistemas educativos, según los tipos de usos y consecuencias reales que se asocien en la práctica a los resultados agregados. En el caso de ENLACE - MS , el manual técnico sugiere que la prueba se usa primordialmente con enfoque diagnóstico. Sin embargo los oficiales presentes en la reunión de este comité señalaron que la prueba es una herramienta importante para influir en la política educativa del país, específicamente al permitirles “mandar mensajes focalizados a los subsistemas” (Hernández, reunión Junio 6, 2014). Similarmente, la evidencia en este reporte sugiere que aunque los estados no utilizan los resultados de la prueba ENLACE - MS como parte de sistemas formales de rendición de cuentas a nivel alumno, docente, o escuela, en algunos casos si se están desarrollando mecanismos de uso de los resultados de mayor consecuencia a nivel estatal (véase criterios A1 y A2).

Tabla 5.2 Usos y consecuencias previstos de ENLACE -MS . Alumnos y padres de familia +G enerar información diagnóstica para cada alumno (pág. 27) +O frecer a los estudiantes retroalimentación personalizada (pág. 30) +A poyar las estrategias de estudio, y secuencias didácticas individuales (pág. 74)

Docentes y directivos + P roveer información útil para el plantel y los profesores (pág. 27) + Identificar áreas de oportunidad para la planificación e instrucción en aula (pág. 30) +C onocer contenidos y procesos que provocan errores en el alumnado (pág. 74) +A poyar planificación de campañas y actividades internas (pág. 85) +O frecer línea de base para comparar resultados de aplicaciones posteriores y establecer el efecto de acciones educativas (pág. 86)

Investigadores educativos +R ealizar investigaciones sobre los factores asociados al logro (pág. 86)

Autoridades educativas +C aracterizar el nivel de logro de planteles y entidades federativas (pág. 86) + P roveer elementos que contribuyan a la mejora del sistema educativo (pág. 27) + F omentar la rendición de cuentas del sistema educativo a la sociedad (pág.17) Fuente: Manual técnico ENL ACE Media Superior 2011-2012 (CENEVAL , 2013)

F UENTES DE EVIDENCIA Y ANÁLISIS Los 11 criterios de valoración que se presentan en la tabla 5.1 proveen el marco conceptual para el análisis de los aspectos teóricos, psicométricos, y prácticos de ENLACE - MS , sus usos previstos e imprevistos, y las consecuencias que se derivan de estos. Evaluar el grado en que una prueba se usa en las formas previstas y produce resultados esperados requiere colectar y sintetizar información y evidencia de diverso tipo (cuantitativo y cualitativo), origen (CENEVAL , SEP, INEE , prensa, entrevistas, observación directa, y otros), y granularidad (de nivel individual, o agregados por aula, escuela o estado). Esta variedad de información normalmente no está disponible en forma sintética en ningún documento o base de datos, y su análisis va más allá del uso de modelos psicométricos avanzados. Este estudio busca ofrecer una síntesis cualitativa que refleje la cantidad y calidad de evidencia disponible de varias fuentes, respecto a los criterios de valoración propuestos. Dada la naturaleza de las preguntas de investigación, y las limitaciones en la cantidad y calidad de información 102

disponible que documenta usos y consecuencias de ENLACE - MS , se buscó profundizar el análisis con información proporcionada por actores involucrados directamente en el uso de resultados de la prueba, además de revisar la documentación, manuales, reportes, y otros materiales y estudios especiales disponibles. En particular, el equipo de investigación de la UAA recogió información adicional de cuatro fuentes: • Información de usos y consecuencias a nivel estatal, con una encuesta de actores involucrados en la administración y uso de las pruebas ENLACE - MS en 20 estados de la republica • Entrevistas con autoridades y personal clave involucrado en el diseño de mecanismos, programas y políticas basadas en las pruebas ENLACE - MS , en una muestra de cuatro subsistemas educativos nacionales, y cuatro estados seleccionados para representar un rango de niveles de logro (tres de estos no se incluyen en la muestra de 20 que cubre la encuesta); • Literatura especializada que da cuenta de investigaciones/evaluaciones de programas o políticas en base de los datos de ENLACE - MS; • Revisión de cobertura en prensa, y organismos de la sociedad civil. La tabla 5.3 sintetiza las fuentes de información que sirven de base para los análisis y consideraciones siguientes, organizadas según los criterios de valoración ofrecidos en la tabla 5.1.

Tabla 5.3 Fuentes y tipos de evidencia empleadas por criterio de valoración. Criterio

Tipo de evidencia

A. Interpretaciones, usos y consecuencias previstas 1. Evidencia y respaldo 2. Monitoreo

t t t t

anual Técnico ENLACE -MS 2013 M Estudios especiales y literatura especializada* Encuesta y entrevista con personal de entidades Estadísticas de uso de portales de resultados

B. Acceso equitativo, y capacidad de interpretación y uso 3. Reporte / acceso a resultados 4. Capacitación y apoyo

t t t t

anual Técnico ENLACE -MS 2013 M Documentos de apoyo (presentaciones y talleres de actualización de resultados) Manual para docentes y directivos 2014 Encuesta y entrevista con personal de entidades

C. Comunicación que facilite la buena interpretación de los resultados 5. 6. 7. 8.

Reportes informativos Lenguaje adecuado Marco de referencia Limitaciones / errores comunes

t t t

anual Técnico ENLACE -MS 2013 M Reportes de resultados para grupos de usuarios en página SEP /ENLACE -MS (30/7/2014) Otros contenidos, datos, y documentos en página web SEP /ENLACE -MS (30/7/2014)

D. Interpretaciones, usos y consecuencias imprevistas 9. Advertir sobre usos inapropiados 10. Documentar esos usos 11. Acciones respecto a ellos

t t t t

anual Técnico ENLACE -MS 2013 M Estudios Especiales y Literatura Especializada* Encuesta y entrevista con personal de entidades Cobertura de medios y ONG

* Ver tabla A en Apéndice y Referencias

Validez de usos y consecuencias

103

Las pruebas ENLACE para educación media superior

REVISIÓN DE LA EVIDENCIA DISPONIBLE POR CRITERIO DE VALORACIÓN A. Soporte para interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalden los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico.2

El manual técnico 2013 y el manual para docentes y directivos 2014 detallan los propósitos, usos, y audiencias previstas de la prueba ENLACE - MS . Estos manuales hacen mención repetida de los objetivos que busca la prueba, y las consecuencias benéficas que se esperan para los diversos actores (alumnos, maestros, directores, autoridades). Sin embargo, los manuales y materiales que los acompañan, así como otros disponibles en el portal web, no describen los usos específicos previstos con cada tipo de usuario. Los argumentos de uso y consecuencias esperadas se describen en términos generales y un tanto superficiales, y no se sustentan directa o indirectamente en argumentos lógicos o evidencia teórica o empírica. Declaraciones frecuentes de corte general (por ejemplo: “se busca proveer información útil”) no ofrecen una base concreta para entender cómo se deben y no se deben usar los resultados de la prueba en la práctica. Si se revisa la totalidad de materiales y documentos disponibles es posible entrever con mayor claridad a qué tipo de usos particulares se refieren estas afirmaciones generales. En el resto de este reporte tomamos como base nuestra lectura sintética de los materiales, según se resume en la Tabla 5.2. Sin embargo, una primera limitación importante a notar es la falta de una sección en el manual que condense, explicite y fundamente el modelo lógico de la prueba ENLACE - MS y los usos y consecuencias esperados con cada grupo de usuario y que sirva de guía para usuarios y evaluadores. Por ejemplo, el manual para docentes y directivos propone que los cuatro niveles de dominio que se utilizan ofrecen información “muy útil para conocer las tareas y contenidos que el estudiante domina y, revisando los niveles superiores, aquellos en los que debe mejorar” (pág. 46). Aunque es difícil disputar una afirmación de corte tan general, es importante notar que el órgano desarrollador debe ofrecer evidencia concreta para respaldar cada uso y beneficio propuesto. Este tipo de uso pedagógico es uno de los más prominentes en ENLACE - MS , que se dice pretende informar la práctica docente mediante el análisis y diagnóstico de fortalezas y debilidades de los alumnos. Sin embargo, la documentación no especifica el modelo lógico y los mecanismos concretos de uso, y nuevamente ofrece solo afirmaciones generales (por ejemplo: puede informar programas de tutoría a nivel aula y escuela) que dificultan evaluar su valor formativo o diagnóstico para estudiantes, padres, o docentes. Más aún, en la práctica este tipo de uso pedagógico se enfrenta a dos limitaciones importantes. La primera es función del diseño del sistema de consulta de resultados, que no provee información al nivel del aula sino de la escuela, por lo que un docente tendría que consultar los resultados individuales de cada uno de sus alumnos y condensarlos en un diagnóstico del grupo. La segunda es función del diseño mismo de una prueba de egreso, que por diseño es de valor limitado para la intervención pedagógica, puesto que los sustentantes no siguen en la escuela para 2

Este criterio se refiere a los usos y consecuencias previstas de la prueba ENL ACE - MS que se describen en el Manual Técnico 2013 y materiales que lo acompañan, y que se sintetizan en la Tabla 5.2. Para análisis de reportes específicos de resultados dirigidos a distintos tipos de usuarios ver análisis de criterios 5 a 8.

104

recibir esta intervención el año siguiente. Por tanto, un docente que pretenda utilizar la prueba ENLACE - MS se enfrentaría a un proceso relativamente arduo de colección de información, para generar manualmente reportes para cada una de sus aulas con precisión y validez inciertos, sobre grupos de estudiantes distintos a los que deberá enfocar su trabajo el siguiente año. El reporte automatizado a nivel de la escuela que ofrece el sistema de consulta es aún de menor relevancia para informar la práctica docente, puesto que ni siquiera refleja el aprendizaje de los estudiantes con que trabajo cada docente sino el agregado de todos los alumnos en la escuela. En la práctica todo lo anterior limita los usos pedagógicos posibles a acciones prescriptivas generales como por ejemplo el uso de secuencias didácticas para desarrollar las competencias que mide la prueba, y el uso de ejercicios tipo ENLACE - MS para la evaluación de aula. Existe incluso una cierta confusión en el manual del docente en cuanto de los usos específicos que se esperan, ya sea para apoyar la práctica docente a futuro, o la reflexión del estudiante en el presente. El manual en cierta forma deja al maestro y al alumno la tarea de discernir el valor y la relevancia de los resultados: Asimismo, se sugiere al docente que aproveche las sesiones de meta-aprendizaje para hacer énfasis en los propósitos y alcances de la prueba; los estudiantes deben comprender el valor que tendrá para ellos recibir sus resultados cuando hayan terminado la EMS si los aprovechan como fuente para conocer sus áreas fuertes y las de oportunidad. (Manual para docentes, pág. 45) Otras acciones recomendadas incluyen reuniones al interior de cada escuela para fortalecer los procesos de enseñanza y su aplicación al mundo real (http://enlace.sep.gob.mx/ms/ docs/2009/Dr.Alfonso_Aguilar.ppt) y otras de tipo aún más general cómo la promoción de la lectura (pág. 48). El manual y materiales que lo acompañan no presenta evidencia psicométrica que sustente la fiabilidad del uso diagnóstico basado en subpuntajes ya sea a nivel individual o agregado a nivel de aula. Este tipo de uso diagnostico requiere evidencia de la calidad de la información esto usualmente implicaría calcular, reportar, y promover el uso adecuado de un indicador de precisión escalado ( error estándar) en cada área y nivel de agregación. En cambio, el manual técnico ofrece solo coeficientes de confiabilidad alfa para puntajes globales a nivel de alumno. Es importante notar que estos coeficientes no reflejan la precisión de los puntajes que se propone utilizar (subpuntajes por área agregados a nivel aula o escuela), si no la proporción teórica de varianza del error en puntajes globales desagregados al nivel del alumno. Estos coeficientes por tanto son de poca o nula relevancia para informar el grado de adecuación de los usos propuestos. La alta confiabilidad de un puntaje global no garantiza la confiabilidad de todos los subpuntajes generados (Brennan, 2005; Haberman, 2008), mientras que la baja confiabilidad de un subpuntaje a nivel individual no significa que el promedio por aula no es confiable (Brennan, 1995). Finalmente, un índice de confiabilidad relativamente alto a cualquier nivel agregación no garantiza un error estándar e intervalos de confianza que justifiquen las interpretaciones y diferenciaciones prácticas que se pretenden (Crocker y Algina, 2004). Finalmente, el manual no explora en detalle el valor de ENLACE - MS como instrumento para establecer una línea base para comparar aplicaciones posteriores y establecer el efecto de programas y políticas. Aunque el escalamiento y equiparación cuidadosos a través de los años permiten el seguimiento de tendencias en los niveles más altos de agregación, el uso a nivel de programas o escuelas individuales presenta complicaciones metodológicas importantes(no se Validez de usos y consecuencias

105

Las pruebas ENLACE para educación media superior

trata de datos longitudinales de una misma cohorte, sino de datos transversales de cohortes sucesivas de estudiantes). El manual no presenta ejemplos concretos de usos evaluativos que se consideran pertinentes o justificados, ni ofrece ninguna reflexión o evidencia que permita contextualizar o evaluar el uso general propuesto. En este sentido, es importante también notar que desde la perspectiva de la autoridad, según se detalla en la documentación disponible, y se afirmó en la reunión de junio de 2014), un objetivo de la prueba implícito en el propósito más general de “rendir cuentas a la sociedad” es el de comparar escuelas y sistemas de distinto tipo (considerada importante dada la amplia variedad de planes de estudio existentes antes e incluso después de la última reforma). Aunado a la falta de información sobre la precisión de los puntajes que se discutió anteriormente, la falta de información sobre los mecanismos y procedimientos de comparación propuestos con base en los resultados de la prueba (entre alumnos y aulas, pero en teoría primordialmente entre escuelas y subsistemas) genera por lo menos dudas sobre la adecuación de este tipo de usos. Por un lado se invita al uso diagnóstico de los resultados por parte de docentes y directivos para conocer fortalezas y debilidades de alumnos y escuelas, y se reportan tablas por ejemplo, de resultados de una escuela comparando con los resultados de otras escuelas de su estado, municipio y localidad con similares características. Por otra parte, se prohíbe explícitamente “hacer comparaciones entre alumnos, entre escuelas o entre subsistemas”, y sigue el texto, “los únicos comparativos que pueden ser de utilidad son los que haga cada entidad con ella misma año con año” (pág. 15). No se aclara que no son las comparaciones en sí, sino interpretaciones y conclusiones holísticas sobre la calidad escolar o docente que se deben evitar. En esta línea parece dudosa también la recomendación de hacer únicamente comparaciones año con año, dadas las complicaciones metodológicas descritas anteriormente. Las comparaciones descriptivas se deben permitir si se pretende un uso formativo por docentes y escuelas. Responder a preguntas como “¿Qué hizo la escuela A este año para alcanzar mejores resultados que la escuela B, aun cuando la primera trabaja en un contexto menos favorable que la segunda?” o “¿Por qué este pequeño grupo de alumnos tuvo resultados más bajos que el promedio de mis estudiantes?” es fundamental para el uso diagnostico propuesto pero implica por necesidad una comparación de resultados. Se debe también enfatizar que si el sistema de reporte entrega resultados que invitan una comparación (por ejemplo, si se pueden bajar los resultados de todas las escuelas de un municipio y localidad en una tabla juntos, o si se reportan resultados por estado, donde en una misma lámina se muestran los resultados de todos los estados) entonces resulta poco convincente decir al mismo tiempo en los manuales que no se pueden usar los resultados para hacer comparaciones: por ejemplo, en el manual para docentes y directivos dice que no se deben “hacer comparaciones entre estados […] Los datos por entidad son importantes solo para conocer la distribución de los estudiantes […] y así comparar con los resultados que el mismo estado obtenga año con año” (pág. 44). El uso diagnóstico de los puntajes por parte del maestro también se basa en supuestos sobre la sensibilidad instruccional (instructional sensitivity) de la prueba, es decir, el grado en que esta es capaz de reflejar diferencias en la calidad (o incluso cantidad) de enseñanza a que está expuesto un estudiante en un periodo determinado. De forma más general, este supuesto está implícito en la idea de influenciar el aprendizaje a través de mejoras en la práctica docente que es parte fundamental del modelo lógico de ENLACE - MS . Sin embargo, en el manual técnico no se ofrecen argumentos explícitos, ni evidencia que justifique el supuesto de que la prueba es sensible a (capaz de reflejar) variaciones en la práctica docente. Lo que es más, en el manual 106

para docentes y directivos se indica que la “sensibilidad a la instrucción” de la prueba ENLACE MS es “media/baja” (pág. 13), lo que en principio presenta un problema fundamental para los usos pedagógicos previstos por parte de los docentes. A nivel de estudiante, llama la atención que la prueba se aplica en abril del último grado de educación media superior, y se reporta no antes de junio del mismo año. Esto significa que los estudiantes conocen sus resultados cuando ya han terminado su trayectoria escolar y están por empezar una nueva etapa de su vida, una que involucra un grado mucho mayor de especialización, ya sea en educación superior o en el campo laboral. Resulta poco convincente entonces afirmar que los resultados de la prueba motivarán al estudiante a “buscar por sí mismo herramientas que le ayuden a mejorar sus habilidades.” (pág. 14, manual para docentes y directivos). Un modelo lógico subyacente basado en la responsabilidad individual y acciones de mejora basados en información diagnóstica presupone en principio que la información llega al sustentante en tiempo y oportunidad, y con i recursos y pautas de retroalimentación adecuadas que le permitan emprender ese esfuerzo. En contraste, los resultados de la prueba por un lado se entregan cuando los sustentantes han concluido su educación, con información muy limitada para el sustentante (el manual de la prueba establece que “ENLACE - MS no distribuye guías para el sustentante, ya que se busca desterrar las prácticas de preparación para los procesos evaluativos que dejan de lado la formación constante y las actividades de autoaprendizaje para la resolución de problemas, congruentes con el enfoque por competencias”). Como resultado, el uso más extendido de la prueba a nivel del alumno es precisamente el contrario: se han extendido sistemas que buscan expresamente practicar la resolución de ítems “tipo ENLACE” para mejorar los resultados en la prueba. En síntesis, nuestro análisis de la documentación revela fundamentalmente una falta de alineamiento entre los usos propuestos de la prueba ENLACE - MS y los cuerpos de evidencia teórica y empírica que el organismo desarrollador ofrece para sustentar estos usos.

2. Se documenta y evalúa el grado en que se producen los usos y consecuencias previstas y/o deseables de la prueba.

Una primera conclusión que se deriva de la sección anterior (y de la Tabla 5.2) es que la prueba ENLACE - MS busca primordialmente cumplir objetivos de tipo informativo y diagnóstico, con un enfoque particular en los alumnos y sus familias por un lado, y docentes y directivos por otro. En lo que respecta a las autoridades educativas, el manual especifica también usos de ENLACE - MS de corte descriptivo e informativo, sin consecuencias directas para maestros, planteles, o subsistemas educativos; el único uso sumativo que se menciona es el fomentar la rendición de cuentas a la sociedad. Finalmente, el manual menciona a los investigadores como grupo de usuarios, para que “detecten factores (económicos, sociales, de infraestructura, de enseñanza aprendizaje, entre otros) asociados al nivel de logro de las distintas muestras de población” (pág. 86). Para evaluar este criterio buscamos evidencia de desarrollo de mecanismos e iniciativas que se encaminen a y faciliten el monitoreo y la investigación de los usos y consecuencias previstas de ENLACE - MS . Tal esfuerzo trasciende a investigadores, instituciones u organismos particulares, y se concibe de forma más amplia como un área de corresponsabilidad y oportunidad para colaboración entre desarrolladores de pruebas e investigadores. La documentación disponible refleja algunos esfuerzos aislados de seguimiento de los usos de la prueba, pero no un sisteValidez de usos y consecuencias

107

Las pruebas ENLACE para educación media superior

ma de monitoreo sistemático. En este sentido, a manera de documentación se nos hizo llegar únicamente un breve documento de tipo informal e interno producido por la coordinación de asesores de la SEP, detallando usos que se dan a ENLACE - MS al interior la propia secretaria a nivel nacional. Aunque el criterio por lo tanto parece no cumplirse en principio, para nuestro reporte investigamos de manera más general los usos que dan a la prueba los usuarios previstos, sintetizando evidencia de todas las fuentes disponibles, así como información recabada especialmente para este proyecto (ver Tabla 5.3) con el propósito de informar el trabajo que el INEE lleve a cabo a futuro en el desarrollo de la siguiente generación de pruebas nacionales. El análisis que sigue distingue entre cinco tipos principales de usuarios objetivo, a saber alumnos y padres, docentes y directores, autoridades, investigadores, y sociedad civil.

Padres y alumnos El modelo lógico implícito en la prueba ENLACE - MS incluye la participación de hijos y padres de familia en los esfuerzos de mejora educativa como actores que se involucran directamente en el aprendizaje de los estudiantes, y en la labor de los maestros y escuelas. Como evidencia de uso para este grupo se consultaron los manuales y documentación disponible, estadísticas de acceso al sistema de consultas, y entrevistas con autoridades estatales y de subsistemas. El papel de la familias que se describe en el manual técnico incluye por un lado, que los padres participen en comisiones de observación de la aplicación de la prueba (pág. 63), y por otro que estos y sus hijos utilicen la información útil que se dice genera la prueba para realizar un diagnóstico individual de fortalezas y debilidades que contribuya a su mejora individual y por consiguiente a la del sistema educativo. Sin embargo es notoria la falta de detalle y especificidad en cuanto a los usos esperados por parte de estudiantes y padres en toda la documentación que acompaña a ENLACE - MS . El portal internet no ofrece ningún material de apoyo para padres interesados en utilizar los resultados de su hijos/as; como documento informal de apoyo se ofrece solo una breve presentación de Power point desarrollada por un organismo externo (Suma por la Educación, ver http://enlace.sep.gob.mx/ms/docs/2009/Lic.Francisco_Lopez.ppt) que se limita a repetir el lenguaje del manual técnico, y por lo demás agrega solo exhortos vagos y lugares comunes varios acerca de la importancia de la evaluación en general, y la labor de los padres para “orientar el trabajo escolar de los hijos” en particular. Los cuadros 5.1 y 5.2 muestran respectivamente los reportes por alumno y escuela que genera el sistema de consultas en Internet, sobre el desempeño en Comprensión Lectora y Matemáticas, tanto a nivel de puntajes globales como por ítem. Es importante considerar la naturaleza de la información que contiene el reporte y el procedimiento implícito requerido de un alumno que pretendiera reflexionar sobre esta información para focalizar esfuerzos para la mejora individual. Para ello el alumno tendría primero, que valorar su rendimiento absoluto global referido a los cuatro niveles o bandas de aprovechamiento: Insuficiente, Elemental, Bueno y Excelente. El estudiante hipotético que se presenta en el cuadro 5.1 es informado de que tiene desempeño excelente en Comprensión lectora, lo que significa que: Estableces relaciones entre elementos de información presentados de distinta manera a lo largo del texto (imágenes, tablas, glosario). Identificas el sentido de enunciados connotativos y retomas elementos implícitos de una narración para inferir posibles motivos y acciones de los personajes. Reconoces la frase que sintetiza el texto. Relacionas el contenido con información externa para realizar inferencias, establecer hipótesis e identificar premisas,

108

conclusiones o soluciones. Evalúas la pertinencia de recursos como citas y tablas, además de la estructura en que se organiza un texto para lograr su propósito comunicativo.

Cuadro 5.1 Reporte de resultados por alumno (Lectura y Matemáticas)

Validez de usos y consecuencias

109

Las pruebas ENLACE para educación media superior

Cuadro 5.1 (cont.) Reporte de resultados por alumno

110

Cuadro 5.1 (cont.) Reporte de resultados por alumno

Validez de usos y consecuencias

111

Las pruebas ENLACE para educación media superior

Al mismo estudiante se informa, sobre su Excelente desempeño en Matemáticas: Realizas diferentes procedimientos matemáticos y los integras para resolver problemas de la vida real, tales como conversiones, ecuaciones, análisis de gráficas y tablas, entre otros. Efectúas conversiones y estimaciones para resolver problemas reales. Identificas la gráfica de una recta a partir de condiciones dadas. Utilizas el teorema de Pitágoras para solucionar problemas geométricos. Resuelves problemas de mayor complejidad que implican el manejo de figuras, tanto planas como tridimensionales, y las propiedades geométricas de figuras incompletas. Puedes realizar cálculos a partir de dos funciones lineales o cuadráticas que se muestran de manera independiente y mediante distintas representaciones (numéricas, textuales, gráficas, entre otras). En el otro extremo, un estudiante hipotético con rendimiento insuficiente en Comprensión Lectora recibe la siguiente retroalimentación: Ubicas elementos informativos como datos, hechos, citas, términos, explicaciones y acciones presentadas de manera explícita en textos argumentativos, expositivos y apelativos. Haces uso del contexto en que se presenta una palabra para identificar su significado. Relacionas párrafos de un cuento o de una carta formal para reconocer el vínculo entre el contenido y la intención comunicativa del autor. Y uno con rendimiento insuficiente en Matemáticas: “res capaz de resolver problemas simples donde la tarea se presenta directamente. Efectúas operaciones básicas con números enteros. Ejecutas operaciones aritméticas con signos de agrupación. Encuentras equivalencias entre fracciones simples. Resuelves problemas que requieren identificar figuras planas y tridimensionales, así como las partes que las conforman. Localizas puntos en un plano y/o determinas sus coordenadas. Encuentras relaciones gráficas o algebraicas sencillas entre dos variables y realizas cálculos con base en ello. Como siguiente paso el estudiante interesado en usar los resultados que ofrece el sistema puede recibir retroalimentación al nivel de cada ítem específico en la prueba. El cuadro 5.2 muestra el tipo de información que ofrecen estos reportes, indicando al alumno que sus repuestas incorrectas a los ítems 33 y 75 de Matemáticas sugieren las siguientes debilidades: “El alumno no logra calcular la cardinalidad de un subconjunto para resolver un problema de la vida cotidiana que involucra razones/relaciones en una población” “El alumno no logra resolver un problema de la vida cotidiana que implique generar dos ecuaciones de la forma ax+by=c y calcular el valor de una incógnita” y respuestas incorrectas a los ítems 102 y 103 de lectura por su parte indican: “El alumno no logra identificar una acepción de una palabra utilizada por el autor” “El alumno no logra identificar el propósito de la tabla que se incluye en un texto”

112

Cuadro 5.2 Retroalimentación por ítem (Matemáticas)

Validez de usos y consecuencias

113

Las pruebas ENLACE para educación media superior

Cuadro 5.1 (cont.) Retroalimentación por ítem (Comunicación)

114

Es importante notar que los reportes no ofrecen ninguna información o soporte adicional a los alumnos o padres, ni contextualizan la retroalimentación que se ofrece en términos de habilidades específicas a desarrollar en la vida cotidiana, o menos aún, acciones y direcciones concretas en que pueden orientarse los esfuerzos de mejora. La retroalimentación que se ofrece es de tipo genérico y superficial, y no parece ofrecer una base robusta para informar esfuerzos de mejora individual por parte del alumno en función de su nivel de desempeño, o a nivel de aula por parte del docente al diagnosticar los niveles de aprendizaje que demuestran los alumnos en la prueba (esto último sin considerar que los reportes no se refieren únicamente a los alumnos de cada maestro, si no a la escuela en general). Como última fuente de información el alumno podría consultar los resultados agregados que le indican el porcentaje de alumnos que obtuvo puntajes en cada banda de desempeño en su escuela, su estado, y a nivel nacional (ver cuadro 5.3). El sistema ofrece también un reporte detallado sobre el desempeño de los alumnos de un plantel en cada ítem individual. El reporte se presenta en el panel final del cuadro 5.3. Los resultados por ítem reflejan el porcentaje de alumnos de la escuela que respondieron incorrectamente a cada pregunta. Los ítems se presentan organizados por tema y se diferencia aquellos que fueron respondidos incorrectamente por menos de 40% de los estudiantes, entre 40% y 60%, y 60% o más. Sin embargo, ni la documentación de la prueba, ni el reporte mismo ofrecen un argumento que sustente la utilidad de este tipo de informe, o la manera prevista de uso por parte de alumnos, padres, o docentes. Es interesante notar que este sistema no hace distinción alguna entre dos ítems hipotéticos que respondió correctamente 60% y 100% de los alumnos, aunque estos parecen reflejar realidades distintas en el aula. En cambio, dos ítems con porcentajes de 40% y 60% se clasifican como diametralmente diferentes (dos categorías aparte) aunque estos podrían corresponder a realidades pedagógicas no muy distantes. Por lo tanto, se puede cuestionar la base sustantiva y pedagógica para la organización de estos reportes por ítem a nivel de la escuela, y la usencia de un modelo de uso de los resultados robusto y adecuadamente sustentado. Finalmente, la información recolectada por medio de encuestas y entrevistas a autoridades estatales, y de subsistemas educativos refleja esfuerzos limitados para fomentar los usos previstos de resultados por padres y alumnos. Los resultados de la encuesta (ver anexo 5.1) indican que solo 40% de los estados realiza algún esfuerzo sistemático en este sentido, y de estos solo en la mitad de los casos se reporta que el acceso a la información es universal y alcanza 100% de las familias. Además solo dos de 20 estados (10%) indicaron que informar a los alumnos sobre sus fortalezas y debilidades es un uso prioritario de la prueba en la entidad, y ningún estado menciona como un uso importante orientar a los padres. Por su parte, ninguno de los cuatro estados donde se realizaron entrevistas con las autoridades responsables (tres de los cuales no están incluidos en la muestra de 20 de la encuesta) indica que se entreguen resultados individuales a los padres, o se promueva su uso a nivel individual. Anecdóticamente se sabe que muchos estados entregan resultados agregados por escuela o estado a los padres; por ejemplo en el Estado de México se informa a los padres antes de la aplicación de ENLACE - MS sobre el desempeño de los alumnos evaluados el año anterior, y “las metas establecidas en función de esos resultados” además de sensibilizarlos a “la importancia de su participación en el aprendizaje de sus hijos.” En Veracruz se promueve que los padres organicen círculos de lectura para mejorar los resultados en la prueba (y el nivel de lectura en general). Independientemente del posible valor de esfuerzos de este tipo para la mejora educativa, para efectos de este reporte estos usos no parecen alinearse con el objetivo propuesto de informar a los padres sobre las fortalezas y debilidades del aprendizaje de sus hijos. De los subsistemas educativos, solo Bachilleres reporto que se informa a los padres de los resultados generales del plantel que atienden

Cuadro 5.3 Reporte (Lectura)

Validez de usos y consecuencias

115

Las pruebas ENLACE para educación media superior

sus hijos. Ninguno de los sistemas reportó esfuerzos sistemáticos de mejora que involucren entregar información individual a los padres.

Cuadro 5.3 Reporte de resultados por escuela (Lectura)

116

Cuadro 5.3 (cont.) Reporte de resultados por escuela (Matemáticas)

Cuadro 5.3 (cont.) Reporte de resultados por escuela (Ítems)

Validez de usos y consecuencias

117

Las pruebas ENLACE para educación media superior

Cuadro 5.3 (cont.) Reporte de resultados por escuela (Ítems)

La cuadro 5.3 presenta estadísticas de consulta de resultados individuales y de escuelas en el portal de internet de ENLACE MS , desagregadas por estado. El proceso de colectar estas estadísticas fue revelador por dos motivos: primero, el desarrollador no ha dado seguimiento a las estadísticas históricas de acceso y uso por parte de los diversos usuarios de la prueba, por lo que solo fue posible conseguir estadísticas para la aplicación más reciente (2014); la falta de datos básicos sobre usos de los que puede colectarse información con gran facilidad refleja una falta de atención general al cuidado de los usos y consecuencias de la prueba. Segundo y más importante: las estadísticas disponibles son reveladoras en cuanto reflejan un uso mínimo por parte de quienes son, en teoría, el grupo más importante de usuarios objetivo: del millón de estudiantes que sustentó la prueba en abril de 2014 (1 028 956 según datos de la SEP) solo el 5 por ciento (aproximadamente 54 mil) habían consultado sus resultados en el portal ENLACE - MS al inicio del siguiente ciclo escolar. Las estadísticas sugieren en cambio que el uso más extendido de los resultados ocurre al nivel de la escuela. Casi la totalidad de los planteles del país donde se administró ENLACE - MS (14 027 de 14 125) había ya consultado sus resultados al inicio del siguiente ciclo escolar. Estas tasas de uso evidencian la falta de alineamiento entre los objetivos expresos de la prueba y los tipos de usos que se dan a esta en la práctica.

118

Cuadro 5.3 Consultas de ENLACE -MS Escuela y Alumno en los Estados

Entidad

Número de Consultas Por Escuela (C.C.T.)

Por Alumno (FOLIO )

Aguascalientes

96

278

Baja California

507

2 630

Baja California Sur

94

203

Campeche

78

567

Chiapas

345

724

Chihuahua

175

1 343

Coahuila

322

1 516

Colima

186

393

Distrito Federal

775

4 200

Durango

189

626

Edo. de México

2 389

6 564

Guanajuato

676

1 755

Guerrero

263

1 148

Hidalgo

266

1 882

Jalisco

846

3 532

Michoacán

330

1 939

Morelos

232

849

Nayarit

238

454

Nuevo León

277

2 507

Oaxaca

366

2 095

Puebla

1 193

2 420

Querétaro

163

2 024

Quintana Roo

143

1 035

San Luis Potosí

469

490

Sinaloa

218

3 646

Sonora

207

754

Tabasco

91

697

Tamaulipas

279

2 175

Tlaxcala

497

278

Veracruz

1 604

3 273

Yucatán

154

722

Zacatecas

359

1 229

14 027

53 948

Totales

Los resultados de la encuesta indican por último que la consecuencia más común del uso de ENLACE - MS en los estados, es el motivar a los estudiantes a trabajar más fuerte (75%), así como la generación de dinámicas de competencia entre alumnos (50%). Por otro lado, 35% de los estados reporta desmotivación entre los alumnos, y 20% ansiedad y estrés elevados.

Validez de usos y consecuencias

119

Las pruebas ENLACE para educación media superior

Docentes y Directores El modelo lógico de mejora de ENLACE - MS ubica explícitamente al maestro como actor principal, al uso que hace este de los resultados para mejorar su práctica docente, como el mecanismo central de impacto, y a la escuela como el contexto próximo clave donde se promueve y facilita este esfuerzo de mejora. El desarrollo un manual específico para docentes corrobora el carácter prioritario de este uso para los desarrolladores. El manual técnico resume así el valor de la prueba para escuelas y docentes: La posibilidad de revisar los resultados por escuela representa una ganancia para las mismas y para los docentes, porque cada pregunta se acompaña del porcentaje de estudiantes que la contestó correctamente, y se menciona la fortaleza o debilidad que los datos evidencian. De este modo, se pueden conocer los contenidos y procesos que provocan más errores en el alumnado y mejorar la práctica educativa. Las autoridades del sistema federal presentes en la reunión de junio de este comité señalaron que el uso de ENLACE - MS por los maestros para mejorar las competencias representa la mayor promesa pero también el mayor reto de la prueba. Las entrevistas con autoridades estatales y de subsistemas también reflejan una variedad de esfuerzos dirigidos a docentes y directores, tanto de corte formativo como de mayor impacto. Por ejemplo, en la Dirección General de Bachillerato (DGB) se utilizan los resultados como factor para emitir un juicio valorativo cuantitativo sobre el desempeño del director como gestor del centro escolar (junto a otros indicadores.) La DGB también realiza reuniones donde pide a los centros escolares que presenten, implementen, y en su caso, modifiquen estrategias de mejora basados en sus resultados. Por su parte la DGETI convoca reuniones en cada estado para presentar y discutir resultados a nivel nacional y estatal, y ofrece resultados a los directores por plantel y por grupo, para informar la mejora. Es importante notar que tanto la DGB como la DGETI describen el uso diagnóstico de pre-tests o ejercicios piloto con variaciones de versiones liberadas de la prueba que se aplican al inicio del año escolar o en quinto semestre para identificar a los alumnos con problemas. Este tipo de esfuerzo eventualmente se extendió por indicación de la Subsecretaría de Educación Media Superior y en principio parece perseguir el tipo de uso diagnóstico de la prueba al que alude el manual, pero es importante notar que en realidad no es un uso propuesto, sino uno paralelo que es difícil evaluar con base en los criterios empíricos establecidos en este reporte(no se conocen el tipo de adaptaciones o variaciones que se hace a las versiones liberadas, las condiciones de aplicación, las características psicométricas de los ítems y los puntajes resultantes, entre otros). Igualmente difícil es evaluar las consecuencias de esfuerzos de tutoría dirigidos a alumnos con problemas derivados de estos ejercicios. Los manuales técnicos y del docente prescriben esfuerzos de mejora amplios enfocados al desarrollo de competencias en general, no solo a incrementar los puntajes en la prueba ENLACE . Sin embargo, en la práctica los procesos que se describen se ajustan más al segundo objetivo que al primero. Según describen autoridades estatales y de subsistemas, los ejercicios piloto informan materiales y esfuerzos para remediar deficiencias que involucran a maestros, alumnos, e incluso padres de familia a quienes se pide intervenir para ayudar a mejorar el rendimiento de sus hijos. Las entrevistas describen esfuerzos y talleres focalizados en la resolución de ejercicios de exámenes anteriores y que en algunos casos se identifican específicamente como entrenamiento dirigido a la “resolución de ítems tipo ENLACE”. Algunos estados/sistemas aplican un segundo piloto (denominado retest) a mediados de sexto semestre y los resultados pueden llevar a un segundo taller de refuerzo. 120

En el estado de Veracruz y el sistema de Bachilleres se describe un sistema de semaforización que consiste en un análisis por ítem en Español y Matemáticas, con referencia a los resultados de ENLACE , seguimiento a través del tiempo, y énfasis en los ítems que muestran mayor proporción de errores. El análisis se presenta como un semáforo a cada plantel en un dossier con información detallada para su trabajo en academia para adecuar el trabajo docente(en Veracruz se realiza una semaforización para cada subsistema, y cada uno de estos es responsable de desagregar los resultados por plantel). Este tipo de usos, por ejemplo, academias de matemáticas, se ajustan más al diagnóstico formativo de bajo impacto que describen los manuales, aunque enfrentan todavía el problema de relevancia al no permitir todos los estados y subsistemas un diagnóstico fino a nivel de aula. Es aparente que existe gran variabilidad en el grado de desarrollo, adecuación, y eventualmente éxito de estos esfuerzos entre los estados y subsistemas; lo que representa un llamado a realizar una evaluación más rigurosa y detallada de implementación e impacto. Los resultados de la encuesta con autoridades reflejan esfuerzos generalizados que involucran a los docentes en el uso de los resultados de ENLACE - MS . Nótese que 60% de los estados reporta entregar resultados a los docentes en forma individual, 8 lo hacen en persona y 4 por medio de impresos. Otros 7 estados reportan acceso a los resultados por medio de Internet, aunque este parece ser por medio del sistema de consulta nacional que ofrece la SEP. Por otro lado, 70% reporta usar los resultados para informar el trabajo y autoevaluación escolar, 50% indica usarlos prioritariamente para orientar la intervención pedagógica, y 45% para orientar la capacitación de profesores (en ningún caso se usa para propósitos de evaluación docente). La información de la encuesta es interesante también en cuanto apunta a conflictos y contradicciones importantes en la operación y consecuencias de la prueba: así, 19 de 20 estados (95%) señalan que el uso de la prueba representa un apoyo para el docente al diagnosticar las necesidades de sus estudiantes, y 80% indica que esta motiva a los maestros a mejorar su trabajo. Por ultimo 65% de estados indica que los maestros se centran excesivamente en los contenidos y formatos de la prueba.

Autoridades Aunque de carácter voluntario, la participación en la prueba ENLACE - MS se ha incrementado considerablemente desde su introducción, y en la actualidad la mayoría de las preparatorias del país administra la prueba; esto incluye más de 90% de preparatorias públicas, y cerca de 15 mil privadas. Según afirmaron las autoridades de SEP presentes en la reunión de junio “ENLACE - MS es un principio de identidad que permite que muy diversos tipos de instituciones se comparen en una base común, al punto que las instituciones lo reconocen como un faro”. En esta sección del reporte se considera (además de la documentación, entrevistas y encuestas) información proporcionada por la SEMS que refleja el tipo de esfuerzos emprendidos a nivel nacional (“Acciones Emprendidas por los Subsistemas Federal y Federal Descentralizado”). Estos usos incluyen algunos que ya se mencionaron en secciones anteriores referidas a alumnos, docentes y planteles, como la difusión de resultados en Internet y la publicación en “espacios concurridos y lugares visibles”; reuniones de discusión de resultados y planes de aprovechamiento de la información que arroja la evaluación; talleres de elaboración de reactivos tipo ENLACE para docentes; difusión del manual Técnico y del Docente; análisis de resultados del plantel para identificar factores de incidencia y áreas de oportunidad. Se realizan ensayos y Validez de usos y consecuencias

121

Las pruebas ENLACE para educación media superior

aplicaciones piloto para identificar alumnos en riesgo; y se implementan estrategias dirigidas específicamente a preparar a los alumnos para la prueba. Las reuniones para padres en particular buscan su colaboración para sensibilizar a los alumnos sobre la importancia de la prueba, lo cual apunta a un escalamiento de facto de las consecuencias formales o informales que se asocian a esta. Además se realizan acciones como concursos académicos con pruebas anteriores; selección de alumnos destacados como monitores académicos para apoyar a otros de bajo desempeño; se integran reactivos de ENLACE en la enseñanza y evaluación en aula; se elaboran de materiales didácticos; y se implementan programas de apoyo a la lectura. Por último, se han extendido los programas PROFORDEMS y PROFORDIR de formación de docentes y directivos con énfasis en competencias en lectura y matemáticas, y se ha implementado el programa Síguele (Sistema de Alerta Temprana) en todos los planteles federales centralizados y descentralizados, y en 25 sistemas estatales. Este programa incluye por un lado, tutorías para jóvenes de bajo rendimiento apoyadas por una creciente red nacional de tutores formados específicamente para ello, y por otro, un programa más amplio de fomento a la lectura, que busca desarrollar lectores autónomos apoyando la lectura como actividad básica y cotidiana en todos los planteles, mediante el rediseño de bibliotecas, adquisición de acervo, uso de tecnologías, y creación de círculos literarios. Todo lo anterior refleja un esfuerzo muy extenso e importante dirigido a la mejora de competencias en lectura y matemáticas, que a todas luces parece deseable en un sistema educativo en modernización; sin embargo, no es clara la relación de cada esfuerzo con los resultados y usos específicos de la prueba ENLACE - MS , o cuáles esfuerzos podrían existir con una prueba de diseño diferente o incluso en ausencia de una prueba de este tipo. En general es importante notar que aunque la documentación y las autoridades entrevistadas se refieren a la importancia de privilegiar el uso diagnóstico y formativo de la prueba, y evitar usos indebidos como incentivos o rankings, la evidencia en su conjunto sugiere que en la práctica este tipo de usos se han ido extendiendo a través del sistema. El manual mismo ya prevé que los planteles con alto rendimiento promocionen sus resultados (mediante el uso de carteles por ejemplo), lo que de facto propone una comparación cuantitativa directa y no contextualizada. En el mismo sentido, las entrevistas con autoridades estatales y de los subsistemas educativos sugieren que se están extendiendo los esfuerzos de ordenamiento o rankeo con consecuencias moderadas a altas (Guanajuato, DGETI ). Las autoridades de subsistemas sugieren que los resultados de ENLACE - MS se utilizan para posicionar a los planteles al interior de los subsistemas (por ejemplo los colegios de bachilleres realizan un ordenamiento o rankeo de planteles al interior de cada estado), y a los subsistemas dentro de una gama de oferta educativa. Desde la SEMS se promueve el establecimiento de acciones mínimas necesarias para afrontar la Prueba en años subsecuentes, que nuevamente parece reflejar consecuencias más focalizadas y tal vez mayor impacto de lo previsto. En lo que respecta a consecuencias directas para planteles, se sabe que algunos estados han comenzado a dar reconocimientos e incluso incentivos importantes a las escuelas de alto rendimiento (Durango o Guanajuato) o a aquellas que reflejen mejora significativa (Veracruz). Por otra parte es interesante notar que las respuestas de los funcionarios a la encuesta no reflejan el mismo énfasis en usos de alto impacto. Un porcentaje menor de estados reporta hacer llegar resultados a autoridades municipales (10%), coordinadores regionales (20%), y supervisores de escuela (15%). Sin embargo una mayoría de estados (70%) indica utilizar los resultados a nivel del sistema educativo para analizar tendencias y factores asociados, y otro tanto lo usa para fomentar procesos de autoevaluación y mejora en las escuelas como ya se indicó anteriormente.

122

Es interesante notar que aunque solamente cuatro estados (20%) reportan utilizar los resultados de ENLACE - MS para evaluar políticas y programas educativos (y dos asocian los resultados a la evaluación de planteles educativos), 17 (85%) indicaron que una consecuencia del uso de la prueba ha sido una mejor valoración de la calidad de los programas. El patrón parece claro en el sentido de que las comparaciones y usos de mediano y alto impacto, aunque expresamente señaladas como inapropiadas en el Manual Técnico, en la práctica se están extendiendo en todos los estados. En concreto podría verse como signo preocupante que aunque los 20 estados encuestados indicaron que la prueba ha resultado en esfuerzos de análisis y mejora de la enseñanza, 19 de ellos (95%) indicó a la vez haber implementado medidas dirigidas a aumentar los puntajes de la prueba (95%), y 75% operacionaliza estos esfuerzos específicamente en forma de medidas para preparar a los alumnos en las escuelas (75%). El panorama general, por tanto, sugiere un cambio en el contexto de uso y evaluación de la prueba y tiene implicaciones directas para las propiedades y requerimientos técnicos de la misma: por ejemplo, los reportes de resultados no consideran el porcentaje de alumnos presentes en cada escuela/estado/subsistema el día de la aplicación, lo que podría representar una limitación importante al hacer comparaciones en estos niveles si no se proporciona evidencia que garantice niveles comparables de asistencia y descarte la posibilidad de procesos de eliminación de estudiantes débiles al interior de las escuelas. Igualmente, no se utilizan algoritmos de copia y detección de fraude, pero estos se hacen necesarios con una prueba de mayor impacto. Por último y como se indicaba ya en las secciones anteriores, existe evidencia que hace temer que se están extendiendo prácticas cuestionables de enseñanza enfocada a reactivos y contenidos de la prueba, y no a competencias y conocimientos más amplios.

Investigadores El manual técnico identifica como prioritario que además de difundir los resultados a alumnos, padres, directores, docentes y autoridades, la información se haga llegar también “a otros evaluadores, de modo que se contribuya a la difusión del instrumento y la adecuada interpretación de sus resultados.” El informar y facilitar la generación de conocimiento por medio de análisis de “factores asociados” es un objetivo explícito de ENLACE - MS (y de cualquier prueba de gran escala de características similares) que a la fecha no se ha cumplido por la falta de mecanismos y condiciones para facilitar y promover el acceso a la información. Este uso presupone acceso a información y resultados al nivel del estudiante y la escuela, así como un reporte detallado de las variables e información adicional contextual disponible (por ejemplo, información del cuestionario de contexto del alumno y director). El uso por parte de la comunidad académica es de vital importancia en el caso de una prueba de la escala y alcance de ENLACE ; el análisis riguroso de los datos ofrece generar información y conocimientos importantes acerca del aprovechamiento de los estudiantes y los factores que se asocian a este. Sin embargo, en la práctica el manual asigna a los investigadores un papel secundario y ofrece recursos limitados de uso, limitando la producción y publicación de estudios. Lo anterior explica el número tan limitado de estudios publicados o disponibles que utilizan los resultados de la prueba. El cuadro 5.5 lista un pequeño número de estudios (algunos proporcionados para este reporte por los desarrolladores, y otros encontrados en una búsqueda en los sistemas google y google scholar.) Estos incluyen tres artículos publicados en revistas especializadas, tres reportes de investigación de organismos nacionales e internacionales, y dos reportes desarrollados internamente por CENEVAL . Aunque con toda certeza existirán algunos Validez de usos y consecuencias

123

Las pruebas ENLACE para educación media superior

ejemplos adicionales no detectados en esta búsqueda, y otros que se encuentren en proceso de desarrollo o publicación (se incluye uno en el recuadro), el resultado es indicación clara de que el número de estudios académicos y publicaciones científicas sobre —o utilizando las bases de datos de— la prueba ENLACE - MS es en general muy reducido. Parece importante por tanto fortalecer los canales para promover el uso de esta información por parte de los investigadores. Se evidencia entonces un escaso vínculo de colaboración con el mundo académico, lo que limita el desarrollo de esfuerzos conjuntos que requiere el cumplimiento de este criterio a mediano plazo, y que puedan informar las prácticas y políticas educativas como se pretende. Por el momento, el portal internet no ofrece acceso a las bases de datos primarias de ENLACE - MS , ni información para investigadores interesados en utilizarlas para estudios e investigaciones académicas, evaluación de las propiedades psicométricas de la prueba, evaluación de impacto de programas y politicas, u otros. Solo se pone a disponibilidad de los investigadores un archivo de Excel con agregados por escuela de resultados globales. Este tipo de agregado generalmente no es de mucha utilidad para la investigación empírica rigurosa, que requiere datos a nivel de estudiantes e ítems individuales.

Cuadro 5.5 Estudios que usan la base de datos de EXCALE

1

Avitabile and De Hoyos (2014) "The heterogenous effects of information about returns to schooling on student learning: Evidence from a randomized controlled trial in Mexico", The World Bank, Washington DC .

2

CENEVAL (2013), Informe Ganancia Educativa 2010-2013 ENLACE -MS .

3

CENEVAL (2012) Evaluación de indicios de competencias disciplinares básicas de ciencias sociales y ciencias experimentales. Estudio exploratorio de desempeño y análisis de indicadores de competencia de ENLACE -MS .

4

Contreras Roldan, S., y Backhoff Escudero, E. (2014) Tendencias en el aprendizaje de la educación media en México: Una Comparación entre ENLACE , EXCALE y PISA . Revista Nexos, Octubre 2014.

5

De Hoyos, Espino y García (2012) "Determinantes del logro Escolar en México: Primeros Resultados Utilizando la Prueba ENLACE Media Superior", El Trimestre Económico, Fondo de Cultura Económica, vol. (316), páginas 783-811, octubre.

6

De Hoyos, Attanasio y Meghir (2015, en preparación) Impacto del programa de Becas EMS sobre el abandono escolar.

7

Estrada, y Gignoux (2014) Benefits to elite schools and the formation of expected returns to education: Evidence from Mexico City, Paris School of Economics, Wk.Paper #2014-06.

8

Mancera, Priede, y Serna (2012) El desempeño de los becarios del Programa Oportunidades en la prueba ENLACE : cambios entre 2008 y 2011 en educación básica y media superior. Reporte al programa oportunidades.

9

ENLACE de la Educación Media Superior Tecnológica Mexicana. Revista Iberoamericana sobre Calidad,

Martínez, Soto, Silva y Velasco (2013) Efectos de la Infraestructura Básica en los Resultados de la Prueba Eficacia y Cambio en Educación, 11(4), 93-107. 10

Rubio y Farías (2013) Efectos escolares en las escuelas de nivel medio superior de la Ciudad de México. Un estudio de valor agregado. El Trimestre Económico, Fondo de Cultura Económica, vol. 0(318), p 371-399.

Es notoria también la falta de trabajos comparativos o complementarios que usen datos de ENLACE - MS en conjunto con los de las otras pruebas nacionales que se aplican en este nivel. Parece clara la necesidad de promover este tipo de estudios y comparaciones para analizar en mayor detalle los patrones de cambio en los resultados en indicadores derivados de ENLACE MS . Tal comparación podría ofrecer evidencia de validez y alineamiento o, por el contrario, de patrones de inflación de puntajes, preparación para la prueba, que puedan indicar áreas donde se requiere refinar la administración y operación del sistema. Se pudo encontrar únicamente un estudio muy reciente de este tipo, realizado al interior del INEE que compara ENLACE con 124

E XCALE y PISA (Contreras y Backhoff, 2014). La evidencia de este estudio apunta claramente a una inflación de los puntajes de ENLACE - MS , lo que no debería sorprender a la luz de los esfuerzos extendidos y abiertos de la autoridad y los sistemas por mejorar los resultados de los alumnos en la prueba. Entre otros estudios existentes, el informe de ganancia educativa merece mención especial por la importancia y visibilidad que ha adquirido entre las autoridades federales y estatales, (y por extensión la prensa y el público en general). Este estudio reporta el grado de desarrollo de las competencias de los alumnos durante el bachillerato y permite la comparación de tasas de crecimiento entre estados, sostenimiento, nivel de marginación, subsistemas entre otros. Tanto las autoridades de la SEMS como las estatales refieren que los resultados de este estudio se analizan con cuidado y se utilizan para informar esfuerzos de mejora. Esto refleja la utilidad y valor de la información que se deriva de estudios de metodología rigurosa, aunque en este caso no se trata de la prueba ENLACE - MS operativa, sino de una aplicación muestral controlada paralela. Aun así es importante notar que el informe se puede mejorar considerablemente desde el punto de vista técnico, para presentar un análisis más cuidadoso y sistemático de las tendencias observadas, y fortalecer la interpretación de las comparaciones que se ofrecen identificando su grado de precisión estadística. Además es notoria la ausencia de análisis más finos y detallados que utilicen la información de los cuestionarios de contexto del alumno y la escuela para comparar los resultados entre grupos de alumnos, salones, y escuelas de perfiles, características, y contextos diferentes y extraer así información para el diseño e implementación de esfuerzos de mejora. En cambio, la evidencia anecdótica que se tiene, y los señalamientos de las mismas autoridades presentes en la reunión de junio de este comité sugieren que el estudio de ganancia educativa se utiliza desde el punto de vista de la autoridad más como herramienta de motivación o presión hacia estados y subsistemas (un uso que específicamente proscribe el Manual Técnico), que como conducto para la generación de conocimiento (un uso que explícitamente se señala como prioritario). Por último, los resultados de la encuesta y las entrevistas con autoridades estatales confirman que estas no consideran el análisis de los datos por parte de especialistas e investigadores como prioritaria, ni en ningún caso la promueven al interior de sus sistemas. En cambio, 70% de los estados indicaron usar ENLACE - MS para “analizar tendencias y factores asociados”. Sin embargo, estos esfuerzos y análisis se limitan al monitoreo simple de tendencias y comparaciones gruesas como las que ofrece el estudio de ganancia educativa.

Prensa Finalmente, se realizó una revisión sistemática de notas de prensa aparecidas en tres diarios de circulación nacional desde el año 2011 a la fecha, para detectar artículos relacionados directamente con las características, resultados o usos de la prueba ENLACE - MS . Esta búsqueda produjo una cuarentena de artículos que se consideraron relevantes para su inclusión en este reporte. Este número es menor que el de la prueba ENLACE de educación básica, lo que se explica si se considera el impacto más extenso y directo de aquella en la evaluación docente y de escuelas. En cambio, el número es considerablemente mayor que el de la prueba E XCALE, lo que también se explica dado el bajo impacto y nivel de uso que se reportaba en el informe correspondiente a esa prueba.

Validez de usos y consecuencias

125

Las pruebas ENLACE para educación media superior

Los artículos y notas recabados referidos a ENLACE - MS se pueden clasificar en tres grupos principales: El primero incluye la mayoría de los artículos y se enfoca al reporte de los resultados de la prueba. Entre estos se pueden distinguir aquellos buscan detallar bajos niveles de logro, y exhibir el mal estado, tendencias negativas, o incluso el fracaso del sistema educativo nacional o estatal (19 artículos); otro grupo (tres) realiza comparaciones entre estados o subsistemas educativos (por ejemplo entre escuelas públicas y privadas); el tercer grupo (seis) se enfoca a reportar esfuerzos exitosos de mejora, identificar escuelas de alto rendimiento, y otros ejemplos de excelencia. Otro grupo considerable de artículos (nueve) busca analizar o criticar el sistema de pruebas ENLACE - MS en su conjunto, incluyendo sus contenidos, características operativas y de aplicación, valor relativa al costo y beneficios obtenidos por alumnos, docentes, escuelas o la sociedad en general (incluyendo notas que reflejan opiniones y críticas directas de expertos). El último grupo (cuatro) incluye editoriales y artículos de opinión de expertos que abordan la prueba desde una perspectiva amplia y enfocada a retos y dilemas de la política educativa. Por último, un grupo minoritario pero significativo de respondentes en la encuesta de autoridades reportó problemas al interior de sus estados, por lo que llamaron injerencia y campañas de la prensa, organismos y personas de la sociedad civil, quienes han irrumpido en debates sobre políticas educativas con diversos intereses y grados de conocimiento de la realidad educativa.

B. Acceso equitativo y capacidad de interpretación y uso

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes involucradas sin discriminación.

La participación voluntaria de escuelas en la prueba ENLACE - MS ha aumentado considerablemente en los últimos años, de 11 mil en 2008 a cerca de 14 mil en 2013. Igualmente el número de alumnos evaluados se incrementó de 808 mil a más de un millón en ese mismo periodo. A pesar de esta alta tasa de participación, no parece existir un plan claro y consistente de difusión de resultados a las familias y estudiantes participantes. Originalmente la documentación de la prueba proponía entregar a cada familia un diagnostico impreso de los contenidos a reforzar con sus hijos (y afirmaba que México era el único país de Latinoamérica en hacerlo). Sin embargo el sistema actual no parece contemplar este tipo de distribución universal de resultados impresos; se realiza en cambio un diagnóstico inicial basado en versiones modificadas de años anteriores que se administran al interior de cada escuela. Con base en estos resultados se promueven reuniones de información y sensibilización con padres de familia, en preparación para la aplicación operativa al final del ciclo escolar. En cuanto a los resultados de la aplicación anual operativa, los manuales no especifican los plazos en que se reportarán los resultados de ENLACE - MS . La documentación alude a la importancia de entregar resultados oportunamente pero no establece un plazo o fecha específica. La página web solo menciona las fechas de aplicación 2014 (1-3 abril, 2014). Existe un número de teléfono de asistencia, pero no se especifican periodos y horarios de atención. Asimismo, las entrevistas con estados y subsistemas tampoco refieren esfuerzos de difusión universal impresa en esos niveles; a reserva de que existiera evidencia contradictoria de estados no entrevistados 126

en este reporte, el mecanismo principal de difusión de resultados de ENLACE - MS para padres y alumnos es el portal internet de la prueba (http://enlace.sep.gob.mx/ms/). Esto implica que la consulta de resultados requiere acceso a Internet ya sea en casa o dentro del plantel escolar, (además del número de folio o CURP del estudiante) lo que en el contexto mexicano puede limitar grandemente el alcance y utilidad de la información. Esto parece sugerir que no se considera prioritaria la difusión universal y oportuna de resultados de la prueba operativa a los egresados o sus familias. La función informativa a nivel individual se aborda con las pruebas diagnósticas aplicadas al inicio del año, y la prueba operativa se orienta más específicamente a informar a las autoridades, a las escuelas y en menor medida, a los docentes. La documentación disponible no ofrece lineamientos u otra información de apoyo para facilitar la interpretación y uso de los resultados por parte de los padres, —a excepción de la breve y limitada presentación que se describió en la sección anterior—. Sin embargo, es posible que los esfuerzos de sensibilización al interior de las escuelas provean información suficiente para permitir a los padres interpretar los reportes finales de resultados. Los padres también pueden acceder a resultados por escuela si conocen la Clave del Centro de Trabajo (CCT ), o alternativamente mediante “Otros criterios de consulta” seleccionando la entidad, municipio, y localidad de interés y especificando el “nombre de la escuela” como criterio de ordenamiento. En cuanto a la difusión para docentes y escuelas, como se observó anteriormente, el manual del docente ofrece orientación muy limitada sobre usos particulares a implementar en el aula, y el sistema de consultas no ofrece al docente resultados desagregados por aula. La documentación disponible y las entrevistas realizadas para este reporte refieren amplios esfuerzos de difusión y uso de los resultados a nivel de la escuela (y en algunos casos el aula). Por tanto las reuniones de escuela y academias disciplinares parecen constituir el mecanismo más importante de uso para docentes y directores. Finalmente, el manual técnico 2013 ofrece a las escuelas la posibilidad de solicitar carteles impresos dirigidos a la comunidad educativa del plantel (pág. 73); no se prescriben usos o se ofrecen lineamientos de interpretación de la información pero se deduce que se busca que las escuelas de alto rendimiento puedan promocionar sus buenos resultados. Este tipo de uso se puede considerar legítimo, pero en principio también parece contrario en espíritu a la meta de evitar interpretaciones descontextualizadas, y usos no formativos de la prueba.

4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación y utilización de los resultados.

La documentación facilitada por CENEVAL y SEMS para este reporte detalla el amplio esfuerzo realizado para apoyar el uso adecuado y efectivo de los resultados de ENLACE - MS . Este incluye iniciativas de tipo muy diverso a todos los niveles del sistema. Entre las más importantes se puede mencionar a nivel de sistema, la realización de visitas promocionales y foros anuales de interpretación de resultados en los estados; la conformación del Comité de Difusión de la Prueba ENLACE - MS; la realización de seminarios y talleres de uso y difusión de resultados con especialistas; y por último las reuniones estatales anuales para analizar e interpretar resultados, y derivar planes de mejora a nivel de subsistemas educativos. En cuanto a la utilización de resultados por individuos, el esfuerzo comprende primero imprimir folletos informativos para padres y dar difusión amplia al manual del docente. En segunda instancia y con mayor importancia, la Validez de usos y consecuencias

127

Las pruebas ENLACE para educación media superior

aplicación de pruebas PreENLACE es la pieza central que busca permitir a maestros y alumnos diagnosticar fortalezas y debilidades e informar sus esfuerzos de mejora y la práctica educativa en general. A nivel más amplio, el sistema educativo apoya programas de equipamiento de bibliotecas y capacitación docente que buscan la mejora de competencias reflejadas en los resultados de ENLACE . Sin minimizar el éxito que representa la simple implementación de esfuerzos de esta escala y profundidad, los análisis que se presentan en otras secciones de este reporte también generan cuestionamientos validos sobre las características y mecanismos específicas de algunos de estos esfuerzos, y su alineamiento con los objetivos y el diseño de la prueba (para mayor detalle consultar criterios 1 al 3 y 5 a 8). Es por tanto importante distinguir entre el uso propiamente dicho de la prueba y la ejecución de programas de apoyo y desarrollo implementados por la autoridad educativa (por ejemplo programas de tutoría y desarrollo profesional, o programas de fomento como Síguele). Estos programas podrían (y seguramente deberían) existir independientemente de la presencia, características, y usos de una prueba específica.

C. Comunicación que facilite la buena interpretación de los resultados

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación correcta de los resultados.

Los esfuerzos de comunicación de resultados de la prueba ENLACE - MS se rigen por un Comité de Difusión que se formó precisamente para este propósito. En su introducción, el manual técnico 2013 identifica explícitamente tres grupos de usuarios de resultados de ENLACE - MS: a) alumnos y sus padres; b) docentes y directivos de escuelas; c) autoridades educativas a nivel estatal y nacional. Este análisis por tanto se refiere al grado en que los reportes de resultados facilitan la adecuada interpretación de los resultados por estos grupos de usuarios, sin necesidad de recurrir a información adicional disponible en el manual técnico u otras fuentes. El portal de la SEP (http://www.enlace.sep.gob.mx/) ofrece para su descarga diferentes informes de resultados a nivel del alumno, escuela, entidad, y país. Los resultados nacionales y de entidad se entregan en presentaciones descargables. Además, los datos a nivel escuela de todas los planteles del país, o de cada estado por separado, están también disponibles para el público (uno a la vez). Los reportes de resultados que genera la página web no describen las características de la prueba, no aclaran lo que ésta mide y no puede medir, ni las decisiones que se pueden basar en los resultados. Tampoco se presentan usos propuestos de los resultados, ni se incluye información y sugerencias explícitas para minimizar la incidencia de interpretaciones equivocadas o usos inapropiados de los resultados. Se debe notar que esta información sí se ofrece de forma repetida en los manuales, folletos, y otros documentos informativos tanto impresos como en la página web. Sin embargo, el manual técnico establece que los informes deben contener ese tipo de información (pág. 75), y esto no se da en la práctica.

128

Informes de resultados a nivel alumna/alumno Estos se dirigen explícitamente a padres y estudiantes y tienen el propósito principal de dar a conocer los temas que requieren reforzamiento, para mejorar así las competencias del estudiante en las áreas testeadas. Los estudiantes y padres pueden acceder a la información a través de la página web de la SEP, opción “Resultados por alumno ENLACE - MS 2013” ingresando el número de folio o CURP. Se ofrecen los resultados de cada alumna/alumno, en comparación con los alcanzados por alumnos del estado y del país en escuelas con el mismo sostenimiento, modalidad y grado de marginación. Además, se entregan descripciones de los niveles de desempeño. Se pueden consultar todas las preguntas de la prueba con la respuesta elegida por el estudiante, la opción correcta, y lo que significa en términos de habilidades. Los manuales presentan esta tarea de revisar los reactivos con su respuesta correcta como el principal objetivo del reporte individual, para que el sustentante pueda autodirigir su proceso de aprendizaje (Manual para docente y directivos, 2014, pág. 46; Manual técnico 2013, pág. 75). Sin embargo, se debe pinchar en cada pregunta por separado y no existe una opción de impresión que contenga todos los reactivos con sus respuestas correctas y habilidades correspondientes. En un futuro se podría pensar en un formato que facilite la consulta e incentive este tipo de usos a nivel individual. Por otro lado, es destacable que la interpretación y uso de la información recibida para la mejora individual parece dejarse en gran medida al estudiante mismo, incluso en el sentido de diagnosticar las áreas y acciones necesarias de mejora (el reporte por alumno sugiere “Te recomendamos revisar los demás niveles para que conozcas los aspectos que debes mejorar”).

Informes de resultados para docentes y directivos a nivel escuela Los reportes por escuela incluyen solo resultados numéricos en formato tabla, sin texto adicional que facilite la interpretación y contextualización (con excepción del texto que describe los cuatro niveles de desempeño por asignatura), ni información sobre propósitos, y recomendaciones de uso. A través de la página web de la SEP los docentes y directivos pueden consultar los resultados detallados a nivel de cada pregunta de la prueba, además de tener acceso a las pruebas completas. Esta información está disponible a través de “ENLACE - MS”, “Resultados 2013 por Escuela”, ingresando el CCT de la escuela. De nuevo, no hay información textual adicional que ayude la correcta interpretación, excepto las descripciones generales de los niveles de desempeño. Además de los informes sobre el desempeño de cada escuela, la página web permite acceso público a una base de datos que contiene los resultados a nivel plantel de cualquier estado, municipio, y localidad, ordenado por nombre de la escuela, o bien por niveles de desempeño. Esta base no se acompaña con ningún documento que permita interpretar y contextualizar los resultados, o conocer las características técnicas de los indicadores y comparaciones que se deriven. Ni los reportes ni la página web ofrecen ejemplos o apoyo adicional para la interpretación correcta de los resultados. Por ejemplo, no se dan ejemplos para ilustrar una interpretación concreta y adecuada del nivel de logro alcanzado a nivel alumno en la asignatura de matemática, ni para la comparación que se sugiere entre resultado de un alumno específico y grupo, escuela, entidad y país. Se evidencia la falta de videos, animaciones, y otros elementos gráficos atractivos y eficientes que podrían ser efectivos para ofrecer ejemplos de buenas prácticas en el uso de resultados. En el caso de los reportes a los que acceda el docente, estos también podrían incluir

Validez de usos y consecuencias

129

Las pruebas ENLACE para educación media superior

síntesis cualitativas y estudios de caso que puedan justificar y representar adecuadamente los usos de la prueba.

6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general.

Como en el caso de los criterios anteriores, este se refiere a la manera en que los resultados de ENLACE - MS se comunican a una audiencia amplia de usuarios, incluyendo a padres y docentes de aula, por medio de los reportes y materiales correspondientes. Los informes de resultados por lo general evitan el uso de texto; los resultados se comunican utilizando tablas principalmente. Los niveles de desempeño de la prueba se describen de manera general y usando un lenguaje que se puede asumir es accesible para maestros y personas familiarizadas con el ámbito educativo. En otras secciones se cuestionó si los usos implementados son efectivos o adecuados, y se podría sugerir una combinación de formatos de comunicación para facilitar la adecuada interpretación de los resultados. Sin embargo, para efectos de evaluar este criterio los textos disponibles utilizan un lenguaje de nivel técnico bajo y parecen adecuados para este tipo de lector. Esta valoración difiere por completo cuando se refiere a la interpretación y uso de los resultados por parte de alumnos y padres de familia. Persiste la duda de si la mayoría de los padres puede manejar adecuadamente el portal Internet para acceder a la información disponible a nivel estudiante y escuela, e interpretarla correctamente para sacar conclusiones concretas y útiles sobre el desempeño de su hijo. Este grupo de usuarios se enfrenta a un texto que, por el contrario, es rico en jerga y pobre en descripción, y que es predecible resultara inexpugnable para muchos. Así, un padre cuyo hijo alcance el nivel tres de logro (bueno) en Lectura recibe la siguiente retroalimentación: Identificas enunciados que sintetizan apartados de un texto. Seleccionas y distingues elementos de información explícitos a lo largo de un artículo de divulgación científica, con base en un criterio específico (causa-efecto, comparación-contraste, concepto-ejemplo, problema-solución). Interpretas el significado de una figura retórica. Vinculas información que aparece en distintas partes del texto para reconocer el tema o asunto central. Reconoces la función de recursos discursivos (opiniones, explicaciones que apoyan argumentos y descripciones) y elementos estructurales para inferir cuestiones implícitas, como la postura del autor, un contraargumento, el responsable de solucionar el problema planteado en una carta, entre otros. Como se mencionó anteriormente es dudoso que el alumno o sus padres puedan interpretar y usar correctamente esta información para establecer acciones de mejora. En suma, el llamado a que se hace al alumno (“Te recomendamos revisar los demás niveles para que conozcas los aspectos que debes mejorar”) elude la responsabilidad del desarrollador y parece inadecuada o por lo menos insuficiente.

7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil y características de la población de referencia.

130

Dado que ENLACE - MS es una prueba voluntaria es relevante describir la población de referencia a la hora de conocer el desempeño de escuelas de un estado específico, al entregar información de comparación a escuelas, y también al entregar resultados para facilitar la comparación a nivel individual. Los informes de resultados entregan información breve respecto de los marcos de referencia (niveles de desempeño) para interpretar los resultados ENLACE - MS . El informe a nivel escuela solo entrega resultados de comparación a nivel entidad y nacional de escuelas con las mismas características (sostenimiento, modalidad y grado de marginación) pero no describe la población de referencia en términos de otras características relevantes. Se ofrece en cambio documentación adicional bastante detallada que describe los marcos de referencia de cada prueba; esta no se concibe desde la perspectiva de informar a los usuarios (estudiantes, docentes, directores) y parece más bien presentar el marco conceptual y de política que guía el desarrollo de la prueba para investigadores, evaluadores, y tomadores de decisiones. Por lo tanto se trata de apéndices del manual técnico más que de documentos que ayuden a la interpretación de los resultados por los usuarios.

8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigma.

Las autoridades federales y desarrolladores de la prueba refieren un énfasis en las políticas de difusión y uso dirigido a mantener el enfoque en usos diagnósticos de la prueba, y evitado expresamente usos considerados indebidos, como ordenamientos o rankings, asignación de incentivos, etcétera. Estos esfuerzos se reflejan primero en los manuales técnicos y del docente y otra documentación que los acompaña. Estos detallan los alcances y limitaciones de la prueba y explícitamente identifican los usos permitidos o correctos (por ejemplo, diagnóstico de fortalezas y debilidades a nivel de alumnos y escuelas) y advierten contra usos no justificados o incorrectos (como comparaciones entre escuelas o subsistemas). En los informes de resultados para alumnos y escuelas se comunican los resultados en referencia al marco criterial base por un lado, y por otro, en comparación con los resultados de alumnos y escuelas del mismo estado, grado de marginación, modalidad y sostenimiento. No se entrega información para otros subgrupos que podrían resultar relevantes, por ejemplo, por sexo, pertenencia a grupos indígenas, o nivel socioeconómico dentro de las escuelas. Como se mencionó anteriormente, tampoco se justifica o discute la selección de estas variables para formar los subgrupos dentro de los que se reporta a las escuelas. Tampoco se ofrecen a los alumnos ejemplos de errores comunes de interpretación a evitar; peor aún, no se ofrece este tipo de ejemplos a los docentes, aunque en principio parecen muy útiles para evitar que se tomen decisiones injustificadas en el aula. La página web ofrece algunos contenidos (por ejemplo, sobre las características de la prueba, y preguntas frecuentes) que aclaran algunas interpretaciones incorrectas y errores comunes, o comentan limitaciones de los datos. También se insiste en ser cauto respecto de las conclusiones que se pueden sacar con base en los datos sobre la calidad educativa. Sin embargo, no hay ninguna mención de estos temas en los informes mismos; No se aclara porque sería

Validez de usos y consecuencias

131

Las pruebas ENLACE para educación media superior

inadecuada una comparación entre estados o subsistemas con una prueba de corte censal y criterial, por ejemplo.

D. Interpretaciones, usos y consecuencias imprevistas

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables)

Como se mencionó en secciones anteriores, los resultados de la encuesta y el grueso de la evidencia disponible sugiere que se están incrementando el uso de la prueba ENLACE - MS para propósitos que no se prevén o incluso expresamente se proscriben en el manual técnico. La información en el cuadro 5.6 presenta puntos que se reiteran en el manual técnico 2013 en las páginas 74, 78, 84, 85 y en el manual para los docentes y directivos. Por ejemplo, dice que “el personal del CENEVAL también hace énfasis en los alcances y limitaciones de la prueba, en todos los comités que se organizan durante el desarrollo y mantenimiento de la prueba, pidiendo a los participantes que socialicen la información para evitar malos usos de los datos y garantizar la validez de las interpretaciones de la misma evaluación (estándar 5.10).” (pág. 74)

Cuadro 5.6 Usos indebidos de ENLACE -MS

El diseño y propósitos de la prueba ENLACE - MS se limitan a la emisión de un diagnostico general para el sustentante, por lo que es inadecuado derivar conclusiones acerca de la EMS , los subsistemas, las escuelas o el desempeño de las entidades federativas. Es importante hacer hincapié en los alcances y limitaciones de la prueba ya que utilizar los resultados de la evaluación para fines contrarios ocasionaría interpretaciones carentes de validez (estándar 1.1). La prueba ENLACE - MS no sirve para hacer comparaciones entre alumnos, entre escuelas o entre subsistemas; solo responde a los propósitos para los que fue creada (proporcionar un diagnóstico individual, elementos que contribuyan a la mejora del sistema educativo y retroalimentación para maestros, planteles y padres de familia). Las decisiones que se tomen a partir de los resultados deben considerar cuidadosamente el contexto de la evaluación y las condiciones de cada escuela, por lo que no es válido sacar conclusiones sobre el mejor o peor subsistema, plantel o plantilla docente. Fuente: Manual Técnico, 2013, pág. 30-31

El manual para docentes y directivos hace mención del entrenamiento de preguntas ENLACE MS como un uso no deseado (pág. 45). También se menciona la autopromoción de la escuela usando los resultados de la prueba como un uso no adecuado, “porque la valoración de escuelas requiere de la suma de más y diferentes metodologías de medición. El hecho de que sea posible consultar los resultados de cada escuela no implica que deban compararse entre ellos, tanto porque cada centro tiene sus condiciones particulares en cuanto a número de alumnos, tipo de sostenimiento, modalidad, etcétera, como porque los resultados positivos o negativos 132

pueden deberse a multitud de variables que no están relacionadas con la calidad del plantel en sí” (pág. 85). Sin embargo, existe en la página web la posibilidad de hacer una consulta para el “ordenamiento de escuelas por nivel de dominio”. Por ejemplo, para un municipio o una localidad se da una lista de las escuelas con sus respectivos resultados, en forma de una tabla simple, con información adicional sobre el turno, sostenimiento, modalidad y grado de marginación, pero sin haberlas controlado. Esta tabla permite la comparación entre las escuelas de una misma localidad o municipio sin haber controlado por la influencia de variables de contexto. O sea, se permite justamente la comparación que en el manual técnico 2013 se había explícitamente prohibido (ver pág. 75).

10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/ positivas, o inadecuadas/negativas).

Como se mencionó anteriormente a nivel nacional se dan una gran variedad de usos a los resultados de la prueba ENLACE . Sin embargo, hasta donde tenemos conocimiento, no se realiza un monitoreo sistemático de usos o consecuencias previstas o imprevistas, ni se busca sistemáticamente evidencia para evaluar el grado en que usos y/o consecuencias podrían ser inadecuadas o perniciosas. La evidencia disponible sugiere, en cambio, que algunos de los usos que expresamente se identifican como inapropiados en la documentación de la prueba se están extendiendo en los estados, subsistemas, y escuelas, a medida que la prueba adquiere mayor visibilidad y se promueven indirectamente usos de mayor impacto en los estados. Más aún, en algunos casos los esfuerzos y prácticas implementadas, incluso a nivel federal, parecerían contravenir directamente los lineamientos de uso establecidos en los manuales de la prueba. Concretamente se pueden mencionar dos ejemplos de uso que se promueven abiertamente y contrastan con el espíritu o incluso la letra del manual técnico de ENLACE - MS: uno concierne a la promoción y comparación de escuelas, y el otro a las prácticas de enseñanza enfocadas a los contenidos de la prueba. La iniciativa para proporcionar carteles impresos a las escuelas que los soliciten para que difundan y promocionen sus resultados a su comunidad parece directamente contraria en espíritu a la llamada explícita en el manual técnico a evitar la autopromoción de las escuelas, porque esta generalmente va en detrimento de una valoración y comparación contextualizada de escuelas y sistemas. Asimismo, los grandes esfuerzos desarrollados para ofrecer tutoría y otro tipo de asistencia e intervención orientada a remediar las deficiencias detectadas en los alumnos en las pruebas PreENLACE , parecen contravenir en principio los llamados del manual para evitar rutinas de preparación, práctica, o enseñanza enfocada a incrementar los resultados de la prueba. La documentación de la prueba alude con frecuencia a la importancia de privilegiar los usos más amplios y formativos. En la práctica, sin embargo, el grueso de la evidencia de entrevistas con autoridades e incluso los documentos impresos consultados sugieren que es precisamente este tipo de uso (uno mucho más delimitado y dirigido específicamente a mejorar los puntajes de la prueba) el que se está extendiendo más rápidamente, de la mano de políticas o inercias de promoción y uso de resultados de mayor impacto directo o indirecto para escuelas y subsistemas. En las entrevistas en algunos casos se alude —y en otros expresamente se acepta— que Validez de usos y consecuencias

133

Las pruebas ENLACE para educación media superior

se enfocan los esfuerzos en practicar ítems de ENLACE para mejorar el rendimiento en la prueba. Asimismo, la SEMS promueve expresamente mecanismos de uso como el sensibilizar a los padres y alumnos sobre la importancia de la prueba, talleres para alumnos sobre resolución de reactivos tipo ENLACE , detección y tutoría a alumnos con bajo desempeño en la prueba PreENLACE y otros varios que, en el mejor de los casos, no parecen contribuir a los objetivos de la prueba, o incluso pueden estar en oposición directa a estos.

11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar acciones correctivas.

Evidentemente no se espera que el equipo técnico encargado del diseño psicométrico y de contenidos de la prueba pueda corregir usos inapropiados que están lejos de su alcance o conocimiento, o que involucran actores políticamente poderosos, y en ausencia de recursos materiales y humanos, herramientas legales, y voluntad política para tomar medidas correctivas. Sin embargo, es importante recordar que el actor responsable se define en este estudio de forma más amplia. En concreto, la SEP y la SEMS controlan en gran medida tanto el desarrollo como el uso de la prueba y por tanto tienen un gran alcance en teoría para establecer y promover usos adecuados y consistentes con los esperados, y monitorear, limitar y corregir los que no lo sean. La evidencia disponible apunta a la necesidad de un esfuerzo de reflexión importante que considere los usos previstos y deseables de la prueba y los contraste con los usos que se extienden en la práctica en las escuelas, e incluso los que el sistema está promoviendo directa o indirectamente con sus diversas iniciativas y políticas.

CONCLUSIÓN Este capítulo presenta un análisis de la documentación disponible de la prueba ENLACE - MS , así como materiales adicionales proporcionados por la autoridad educativa (SEP) y el organismo desarrollador de la prueba (CENEVAL ), y por ultimo encuestas y entrevistas con autoridades estales que constituyen el mecanismo principal de uso de los resultados. El análisis muestra patrones contradictorios y en algunos casos preocupantes de uso de la prueba en relación con sus objetivos y diseño. En primera instancia encontramos que la documentación se limita a detallar el proceso de desarrollo de la prueba (por ejemplo generación, revisión y piloteo de ítems, especificaciones) pero no refleja un esfuerzo paralelo por ofrecer fundamento teórico, lógico, o práctico para los usos propuestos. La documentación disponible acusa una gran falta de claridad y especificidad en cuanto al marco teórico de la prueba, y sobre todo en relación con los objetivos que esta persigue, y los mecanismos de uso que se proponen para lograr estos objetivos. Es aparente la falta de alineamiento entre el modelo lógico y objetivos de la prueba por una parte, y su diseño, implementación y uso dentro del sistema educativo, por la otra. Falta soporte lógico para los usos propuestos de tipo formativo a nivel del estudiante individual y su familia, dado que esta prueba se aplica al final de la educación media superior, cuando los alumnos ya poco pueden hacer para mejorar sus conocimientos y habilidades: un alumno que buque utilizar los resultados, se enfrenta además a la falta casi total de soporte que le permitiera informar reflexiones y esfuerzos de mejora. Al nivel de los docentes, la documentación acusa una falta 134

casi completa de información sustantiva y técnica que fundamente y guíe los usos formativos a nivel de aula y escuelas que se proponen. Por otro lado los mecanismos de comunicación de resultados impiden por definición tales usos, ya que la información se hace llegar a los docentes al inicio del año escolar siguiente y agregada al nivel de la escuela, con lo que no es posible conocer el desempeño último de los alumnos que estuvieron bajo su supervisión. En síntesis, el escenario que se presenta en esta sección hace difícil imaginar que la retroalimentación que ofrece el sistema pueda en efecto derivar en procesos significativos de reflexión y mejora a nivel de estudiantes, familias, o docentes individuales. Por lo tanto no sorprenden las estadísticas de acceso y otras evidencias empíricas reflejan un bajísimo interés de quienes en teoría son los usuarios principales de la prueba. Aunque no son sorpresivos, los resultados si apuntan a un problema estructural en el diseño de la prueba. El usuario/autoridad (SEP) y el desarrollador deben considerar la fundamentación misma del modelo lógico de ENLACE - MS en lo que respecta al uso por parte de alumnos y docentes puesto que parece evidente que los supuestos de uso más que desalineados, están fundamentalmente en contraposición con la realidad operativa de una prueba cuyos resultados se conocen cuando los estudiantes ya han finalizado sus estudios, y que no llegan a 95% de los usuarios. Se encontró también una falta casi total de seguimiento sistemático de usos y sobre todo de las consecuencias de la prueba. En la práctica, la información sugiere que se están extendiendo a gran velocidad usos que se basan en la comparación de resultados a nivel de las escuelas y subsistemas educativos. La evidencia que se recabó en este estudio por medio de la encuesta y entrevistas con autoridades estatales ofrece evidencia amplia de usos no previstos para los que no hay justificación técnica o que expresamente se identifican como perniciosos en el manual, como lo son las comparaciones de alto impacto, las dinámicas de competencia, y la preparación de alumnos dirigida a aumentar los puntajes de la prueba. En algunos casos, las medidas y programas que están promoviendo e implementando los sistemas educativos —tanto federal como estatales— contravienen directamente el espíritu y la letra del manual técnico. Al mismo tiempo es de lamentar que se haya dado poca o nula atención a promover usos que también se consideran de alta prioridad, y que en principio no solo están completamente justificados sino que se pueden promover fácilmente, como el análisis detallado de las bases de datos con miras a mejorar el entendimiento de factores asociados al logro al nivel del estudiante, el aula, la escuela y el sistema. Parece importante y prioritario implementar medidas para incrementar la producción de estudios técnicamente sofisticados que empleen los resultados de la prueba.

Validez de usos y consecuencias

135

Conclusiones

Las principales conclusiones del informe se sintetizan en los apartados siguientes, que corresponden a los del informe mismo.

ALINEACIÓN DE LAS PRUEBAS CON SUS REFERENTES Se contó con documentación que da cuenta de lo que se hizo para precisar un marco teórico para la prueba ENLACE - MS , con la dificultad que implicó el partir de una gran variedad de planes de estudio y luego la transición al Marco Curricular Común definido para la RIEMS . El resultado, en consecuencia, no tiene la claridad y precisión deseables y presenta ambigüedades que ayudan a definir con claridad el constructo a evaluar. Esto impacta el diseño de la estructura de la prueba, el desarrollo de las especificaciones de ítems y la elaboración de los mismos. La información recibida inicialmente sobre un análisis que precise subdominios, contenidos, competencias y niveles de demanda cognitiva a cubrir, se reducía a tablas muy generales, por lo que se solicitó información más específica. Los documentos adicionales recibidos incluyen aspectos de las subáreas de las dos áreas evaluadas, y en algunos casos información más detallada pero no sistemática sobre contenidos,. No se observa una verdadera estructuración del dominio de contenido, más allá de enunciados simples a manera de objetivos de aprendizaje. Respecto del perfil y la conformación de los comités de especialistas a cargo del análisis curricular y la estructuración del dominio del contenido a evaluar, se menciona al Comité Académico Diseñador como responsable de dichas tareas, y la participación del Consejo Técnico. Las funciones generales y diversas de este último y el perfil de sus integrantes, sin embargo, hacen poco probable que haya funcionado como un comité técnico que validara los análisis curriculares y la estructuración del dominio a evaluar en la prueba. Al parecer, el Comité Académico Diseñador hizo tanto el análisis curricular y la estructuración del dominio del contenido que se evalúa, como el diseño de las especificaciones para producir los ítems, y el Comité Académico Validador de Especificaciones no solo validó las especificaciones de ítems, sino también el análisis curricular y la correspondiente estructuración del dominio del contenido a evaluar que fueron realizados. Por otra parte, además del reducido número de integrantes de los comités académicos validadores de especificaciones y de su falta de representatividad —ya que pertenecen solo a pocas instituciones de la Ciudad de México— esta forma de proceder no es la que se sugiere en la literatura especializada en cuanto a las prácticas que son necesarias para efectuar el análisis curricular y la detección y estructuración del contenido a evaluar.

136

Respecto a la forma en que se definieron las especificaciones de la prueba, si bien el manual técnico de 2008-2010 de ENLACE - MS establece su importancia, ni en la información inicial ni en la recibida después se encontró un documento de especificaciones adecuadas para producir los ítems. Los elementos encontrados son demasiado generales e inconsistentes y están incorporados a la tabla de especificaciones del examen, por lo que no corresponden con lo que se detalla en la literatura especializada para dichas especificaciones como elementos necesarios para propiciar y asegurar la producción de ítems válidos, equivalentes y efectivos. En cuanto a la determinación de la importancia relativa de contenidos o el análisis de las unidades del dominio curricular y su densidad diferencial, no se observó en la documentación disponible el uso de algún procedimiento específico o criterio para determinar cuáles contenidos constituyen blancos curriculares de primer orden o para ponderar la densidad diferencial de los contenidos para decidir lo que es importante evaluar. Existen elementos que ilustran que los constructores de la prueba fueron conscientes de esos aspectos; sin embargo, los procedimientos o criterios utilizados para decidir en cada situación no fueron explicitados. Respecto a los procedimientos o criterios para asegurar la representatividad de los ítems y subescalas de la prueba respecto al dominio definido y sus subdominios, el manual aclara que ENLACE - MS se enfoca solo a algunos aspectos del MCC y no a todos, en particular aquellos que los grupos de expertos consideraron representativos de las competencias básicas de dos campos disciplinares, lo que fue validado por un comité académico y luego aprobado por el Consejo Técnico, con el criterio de asegurar que la prueba incluyera una muestra representativa de lo que todo bachiller debe dominar de esas subáreas del MCC. Para ello los reactivos de la prueba cubren toda la gama de procesos cognitivos que se indican en su estructura, por lo que evalúan contenidos que exigen un desarrollo básico, intermedio y avanzado de competencias básicas. En cuanto a la complejidad cognitiva efectivamente cubierta por la prueba respecto de la planeada, se hicieron dos estudios para tener evidencias respecto a la alineación y niveles de demanda cognitiva de la prueba en relación con el perfil referencial. Un estudio se basó en estrategias de análisis de contenido, basadas en juicios de comités de expertos, y otro en entrevistas cognitivas con alumnos. Respecto a la prueba de habilidad lectora, el estudio basado en juicios de comités de profesores experimentados y otros especialistas, encontró bastante similitud entre la distribución de los ítems por proceso cognitivo según lo establecieron los responsables de la prueba y la distribución que se derivó de los juicios del comité del estudio especial, lo que puede interpretarse como evidencia de validez de contenido y de constructo. En el caso de la habilidad matemática se observa una distribución de los ítems similar solamente en las categorías de Reproducción y Conexión, pero no en la mayoría de los ítems de la categoría de Reflexión. En el estudio basado en entrevistas cognitivas, en la documentación del marco referencial de ENLACE - MS se identificaron 15 niveles de complejidad cognitiva en la prueba de habilidad lec-

tora y nueve en la de Matemáticas. En habilidad lectora, de 18 reactivos analizados tres están sobreestimados en cuanto al nivel de complejidad que se plantea en las especificaciones; uno está sobresimplificado y dos no evalúan el proceso cognitivo que deberían evaluar. En Matemáticas solo dos de los 18 reactivos analizados fueron congruentes con la estructura teórica declarada en el marco de referencia de la prueba.

Conclusiones y recomendaciones

137

Las pruebas ENLACE para educación media superior

En cuanto a la elaboración de ítems y el manual que se utilizó para ello, la documentación revisada muestra que el documento de referencia describe y da ejemplos de todos los tipos de reactivos que tienen las pruebas e indica cómo clasificarlos y justificarlos. No parece, sin embargo, que el manual haya sido desarrollado especialmente para ENLACE - MS para tener en cuenta sus particularidades, sino que parece un manual genérico o tomado de otro sistema de evaluación, lo cual no es aceptable tratándose de una prueba de alcance nacional y con propósitos y especificaciones muy particulares que deben ser destacadas de manera precisa a los usuarios. Los lineamientos que aparecen en el documento resultan generales, incompletos y poco explícitos para orientar el desarrollo de ítems efectivos. Por otra parte, hay razón para temer que la capacitación ofrecida a los responsables de elaborar ítems es insuficiente; se señala que en 2013 la duración de los talleres con ese propósito fue de solo tres horas, en una sesión. La documentación revisada no deja claro el perfil de los elaboradores de ítems, ni si fueron distintos de los revisores; pero es seguro que se contó con un sistema de clasificación cognitiva para orientar el desarrollo de los ítems, aunque no se sabe cómo o cuándo recibieron dicha información los elaboradores de ítems. En cuanto al análisis de los ítems elaborados, y los criterios para su aceptación, revisión o modificación, se trata de tareas a cargo de comités ad hoc y, aunque no se dan detalles sobre dónde o cuándo reciben la documentación completa con los productos de la planeación de la prueba previamente elaborados, puede decirse que los comités de validación contaron con la información necesaria que guiara la formulación de sus juicios sobre los ítems. En conjunto, puede afirmarse que los procedimientos de revisión de ítems son realizados por comités diferentes de los responsables de su elaboración, y que cuentan con un perfil razonable y con información suficiente. Las evidencias aportadas, sin embargo, son muy generales, no pudiendo apreciarse en detalle la forma específica en que se desarrollaron los diversos pasos de estos procesos.

A SPECTOS TÉCNICOS Los criterios analizados con respecto a la prueba ENLACE - MS indican fortalezas esperables, que incluso deben considerarse indispensables en una prueba de alcance nacional, y que coinciden con aspectos positivos señalados ya en un informe anterior para el caso de ENLACE - B. Entre los puntos a mejorar que se identificaron, el primero se refiere a la documentación de los aspectos relevantes de la prueba, necesaria para contar con elementos de juicio completos y certeros de apoyo a cualquier persona interesada. En este sentido debe decirse que el contenido y el diseño de los dos manuales técnicos que se han producido para ENLACE - MS es muy heterogéneo, ya que en ocasiones incluye elementos técnicos muy puntuales, aspectos de divulgación apropiados para un lector no especializado y otros puntos que explican la metodología seguida de manera superficial. Las limitaciones señaladas en el apartado relativo a alineación a los referentes, respecto al marco teórico y a la definición de las competencias, ocasionan dificultades en el desarrollo de

138

los puntos técnicos de validez de constructo, de criterio y de escala, que no se justifican suficientemente. La mezcla indiscriminada de modelo clásico y de TRI es un punto importante a corregir. No es criticable manejar solo uno u otro de estos modelos, ni tampoco emplearlos conjuntamente de manera apropiada. El problema es que se combinan en forma incorrecta los parámetros y la definición de los intervalos de aceptación de los ítems o de la prueba. No hay datos métricos de las subescalas (Comprensión lectora y Matemáticas), ni del error de medida general de ellas, salvo una media general en porcentaje de aciertos para cada subescala; esto puede fundamentarse en el hecho de que la TRI solo produce medidas de cada persona dependientes del conjunto de reactivos, pero no se enfoca a producir el error de medida general de la prueba. Si se acepta este argumento, entonces no es aceptable que falte la validación del error en los puntos de corte de todas las pruebas (solo se tienen en algunas), los cuales son obligatorios en la TRI una vez determinada la función de información. Respecto a puntos de corte, los manuales no siempre reportan el dato y cuando lo hacen se reporta una precisión no comprobable con elementos objetivos, lo cual no aporta un sustento sólido para garantizar la equivalencia o equiparación de las pruebas aplicadas en un mismo año ni a través del tiempo. Los puntos de corte debieron revisarse en 2011 al cambiar las pruebas, y no mantenerlos constantes. La carencia de estudios de fuentes de sesgo, funcionamiento diferencial de ítems o funcionamiento diferencial por grupos de personas, no apoya a la revisión de las pruebas e impacta lo que se afirma en los capítulos relativos a la influencia de factores culturales, así como a las consecuencias que puede tener esta prueba. La falta de evidencias sobre bancos de ítems, y el no disponer de sus inventarios no permiten juzgar acerca de su calidad. Hay poca información sobre los sistemas informáticos de almacenamiento de los ítems y de la generación de pruebas. Sin desconocer otros elementos positivos, las deficiencias señaladas incluyen aspectos relevantes que parece indispensable corregir en una prueba del alcance de ENLACE - MS .

ATENCIÓN A LA DIVERSIDAD Las deficiencias detectadas en cuanto a los criterios de este grupo incluyen que, aunque se encuentra una conceptualización de los contenidos evaluados, no se considera la posible influencia en los resultados de los aspectos lingüísticos o culturales. La información sobre perfil de los estudiantes, modalidad educativa y tamaño de la localidad permite hacer análisis que consideren esos factores, pero la organización de la pruebas no refleja un diseño que considere expresamente la diversidad del país. En el desarrollo de la prueba no se considera tipo y grado de bilingüismo de los estudiantes, a los que se trata como si todos fueran plenamente competentes en español, sin tomar en cuenta si esta es o no su lengua materna.

Conclusiones y recomendaciones

139

Las pruebas ENLACE para educación media superior

Las especificaciones para desarrollar ítems no tienen la precisión suficiente para que puedan controlarse bien sus características gráficas, textuales y contextuales y no se encontró evidencia de que en el desarrollo de la prueba hayan participado especialistas en disciplinas como la lingüística y la antropología. Tampoco hay evidencia de que el pilotaje de las pruebas se haga con muestras representativas de grupos culturales, lingüísticos y socioeconómicos diversos, ni de que se hagan entrevistas para aportar evidencia de validez cognitiva en general o entrevistas cognitivo-culturales que analicen si la forma en que los estudiantes interpretan los ítems está influida por factores lingüísticos y culturales. En el desarrollo de las pruebas no parecen hacerse revisiones de aspectos como contenido, estilo, aspectos lingüísticos y posibles fuentes de sesgo cultural. No se encontró indicación de que se hayan efectuado los análisis apropiados para examinar el funcionamiento diferencial de los ítems, en grupos poblacionales definidos por factores étnicos, culturales, socioeconómicos o de género. Con base en los microanálisis realizados, resulta evidente la importancia de considerar en el futuro análisis de sesgo que incluyan no solo factores culturales y de diversidad lingüística, sino también factores regionales y socioeconómicos. No parecen haberse efectuado estudios de generalizabilidad para examinar confiabilidad y validez con respecto a lengua, o para comparar el desempeño de distintos grupos culturales, lingüísticos y socioeconómicos. Tampoco se encontró evidencia de que se prevea la necesidad de ajustar tiempos o calendarios de aplicación de las pruebas en función de la geografía o las condiciones climáticas de las diferentes regiones del país. No parece haber procedimientos para eliminar ítems con sesgo, ni estrategias y mecanismos de corrección de sesgo por factores como el género, la edad, los antecedentes escolares, la condición lingüística del hogar o el perfil laboral del estudiante y su familia, aunque los cuestionarios de contexto recaban información sobre tales factores. El microanálisis permitió identificar fuentes potenciales de sesgo lingüístico y cultural en algunos de los reactivos analizados. Esas fuentes de sesgo podrían reconocerse y corregirse con un mecanismo formal de revisión y de corrección de sesgo potencial. Para terminar, y en forma similar a lo señalado en relación con las pruebas que se revisaron anteriormente, a pesar de la presencia de elementos positivos en las pruebas ENLACE - MS los aspectos culturales y lingüísticos no se atienden de manera suficiente y sistemática. Se reitera que hay conciencia de que la gran diversidad cultural y lingüística de la población mexicana y las limitaciones de recursos hacen prácticamente imposible incluir en los estudios piloto muestras de estudiantes pertenecientes a todos los grupos étnicos y lingüísticos del país. Se subraya que, con mayor énfasis aún que en lo relativo a educación básica, la atención adecuada de la diversidad lingüística en pruebas para educación media superior no debe entenderse como recomendar que se traduzcan a lenguas indígenas, no solo porque eso es largo, costoso y difícil de implementar correctamente, sino porque en este nivel educativo la lengua de instrucción es, masivamente, el español.

140

APLICACIONES En la valoración de los criterios de este apartado se identificaron fortalezas relacionadas con la definición de procedimientos para la aplicación en campo. Las áreas de oportunidad más importantes que se reconocen, son la precisión de algunos procedimientos, su estandarización y documentación, en especial en lo relativo al reclutamiento y capacitación del personal de aplicación, así como respecto a la preparación de los datos y su manejo antes de que se proceda al análisis y reporte de la información. Se juzga necesario que se desarrollen herramientas estandarizadas, con el soporte técnico apropiado a la escala del proyecto, para dar seguimiento a los procedimientos que tienen lugar antes, durante y después de la aplicación. El “Instructivo para la elaboración, ejercicio y comprobación del gasto operativo” que la SEP envía a las entidades federativas se podría aprovechar para generar estrategias operativas estandarizadas de forma que, además de controlar los costos, la experiencia adquirida apoye la construcción de conocimiento en la materia. Lo anterior apoyaría a elevar la calidad de las aplicaciones. También se considera necesaria la incorporación de algoritmos de detección de fraude, aunque la prueba sea de bajo impacto, para asegurar la calidad de la medición, toda vez que sus resultados son puestos al servicio de la comunidad educativa y debe enfatizarse la transparencia. Para los casos en los que se detecte fraude, podría estudiarse la aplicación de una medida administrativa como la no publicación de resultados para una escuela específica que esté involucrada. Conviene también reconsiderar la extensión del cuestionario de contexto para alumnos, ya que podría implicar una carga excesiva. Igualmente, es fundamental analizar el uso dado a la información recolectada a través de este instrumento.

USOS Y CONSECUENCIAS El análisis de los criterios relacionados con este apartado identificó patrones contradictorios, y en algunos casos preocupantes, del uso de la prueba en relación con sus objetivos y diseño. La documentación de la prueba se enfoca principalmente a detallar el proceso de desarrollo de esta y de los ítems que la componen, pero no refleja un esfuerzo por ofrecer fundamento teórico, lógico, o empírico para los usos propuestos. El marco de la prueba es poco claro y específico, sobre todo en cuanto a objetivos y mecanismos de uso de resultados que se proponen para alcanzarlos. En particular, la documentación de ENLACE - MS acusa una falta casi completa de información y evidencia que fundamente y guíe la variedad de usos formativos que se proponen, tanto al nivel de aula y escuela (por parte de docentes y directivos), como para estudiantes y sus familias en lo individual. En realidad, el diseño mismo de la prueba, y la forma en que se comunican sus resultados impiden de entrada tales usos, ya que se ofrece a los docentes al inicio del año escolar siguiente y en forma agregada al nivel de la escuela, con lo que no es posible conocer el desempeño último de los alumnos que estuvieron bajo su supervisión. Por otro lado los resultados se hacen llegar a los estudiantes cuando estos ya han finalizado sus estudios de bachillerato.

Conclusiones y recomendaciones

141

Las pruebas ENLACE para educación media superior

En síntesis, es difícil imaginar que la retroalimentación que se ofrece pueda en efecto generar procesos significativos de reflexión y mejora por parte de alumnos, familias, docentes, o directores. Las estadísticas de acceso y otras evidencias reflejan el bajo interés de quienes en teoría son los usuarios principales de las pruebas, lo que refuerza la teoría de un problema estructural en su diseño. Se encontró también una falta de seguimiento sistemático de usos y consecuencias de la prueba. La información recabada sugiere que, contrario a lo que establece el manual, se están extendiendo usos que se basan en la comparación de resultados al nivel de las escuelas y subsistemas educativos. La encuesta y las entrevistas con autoridades estatales ofrecen evidencia de usos no previstos para los que no hay justificación técnica o que expresamente se identifican como perniciosos, como comparaciones de alto impacto, dinámicas de competencia, y esfuerzos extensos y sistemáticos de preparación de alumnos dirigidos a aumentar los puntajes de la prueba. En estos casos las medidas y programas que se están promoviendo contravienen directamente no solo el espíritu, sino la letra misma del manual técnico. En cambio se ha dado poca o nula atención a promover usos que además de ser justificados, serian comparativamente muy fáciles de implementar, como el análisis de bases de datos para profundizar el entendimiento de factores asociados al logro. Se encontró un número muy reducido de estudios publicados que avancen una agenda de investigación en este sentido. Por último, y contrastando con las preocupaciones anteriores, la información recabada muestra gran interés por parte de autoridades federales y estatales en usar los resultados de la prueba para informar y motivar esfuerzos importantes de mejora educativa. Se percibe además un creciente interés por parte de los subsistemas educativos que permea las practicas escolares y está alcanzando incluso a los padres de familia, a quienes se involucra en los esfuerzos de mejora que emanan de ENLACE - MS (incluyendo preparación para la prueba). Estos procesos muestran el creciente interés social en la mejora de la calidad y resultados que produce el sistema educativos, y en ese sentido se podrían considerar como valiosos en sí mismos. Sin embargo, como se menciona en este apartado, el seguimiento de usos y consecuencias es importante para asegurar que no se den procesos poco productivos o incluso perniciosos de uso de los datos de la prueba.

CONSIDERACIONES FINALES Para terminar, se reitera que las apreciaciones hechas se basan en la información disponible y en los tiempos comprometidos. Es posible que haya información adicional o que la revisión haya sido insuficiente. Los señalamientos deberán ser analizados por las instancias competentes, para corroborarlos o corregirlos. Como se ha señalado en la introducción, los análisis y los juicios que se retoman en forma sintética en estas conclusiones se refieren siempre al objeto de estudio, y no pueden entenderse como apreciaciones sobre las personas involucradas en el desarrollo de las pruebas, su aplicación y el procesamiento de resultados. Las limitaciones de las pruebas pueden deberse a circunstancias diversas, incluyendo la complejidad misma de la tarea y los tiempos en que debió realizarse, y pudieron haberse producido 142

pese a los mejores esfuerzos por parte de sus autores. Con esta salvedad, si las limitaciones que se detectaron y se señalan en este documento son reales, las circunstancias que puedan explicarlas no deben impedir que se señalen con claridad. A esta consideración debe añadirse que, como en otras pruebas, la información sobre su desarrollo, aplicación, y uso de sus resultados, no es siempre completa ni fácilmente accesible. Una documentación completa, detallada, y asequible, es condición necesaria para apoyar esfuerzos de mejora continua en el desarrollo de sistemas de evaluación. En el caso de ENLACE - MS , el acceso a elementos importantes de la documentación necesaria se dificultó por las prácticas de manejo de información por parte de la instancia contratada por la SEP para el desarrollo de esta prueba. En algunos casos los lineamientos de este organismo, con el argumento de salvaguardar la seguridad de la misma, no permitían acceso a la información técnica necesaria para un análisis detallado de la prueba. A nuestro juicio, este tipo de argumentos es erróneo, y claramente incompatible con las prácticas generalmente aceptadas por las instancias especializadas más reconocidas internacionalmente. Estas normas establecen por un lado, el riguroso control y salvaguarda de datos de tipo personal o individual que pudiesen revelar la identidad de estudiantes, maestros, o incluso instituciones específicas; pero al mismo tiempo las normas profesionales establecen claramente criterios de amplia transparencia en lo que respecta a la información técnica de la prueba.

Conclusiones y recomendaciones

143

Las pruebas ENLACE para educación media superior

Referencias bibliográficas1 American Educational Research Association, American Psychological Association y National Council on Measurement in Education (1999). Standards for educational and psychological testing. Washington: Autores. Barriga, Rebeca (2005). Estudios sobre el habla infantil en los años escolares: Un solecito grandotote. México: El Colegio de México. Basterra, M. Rosario, Trumbull, E., y Solano, G. (eds.) (2011). Cultural Validity in Assessment: Addressing Linguistic & Cultural Diversity. Nueva York: Routledge. Bertely, María, Dietz, Gunther, y Díaz Tepepa, María Guadalupe (2013). Estado del conocimiento: educación y multiculturalismo. México: Consejo Mexicano de Investigación Educativa. Bond, T.G., y Fox, C.M. (2001). Applying the Rasch Model: Funda mental Measurement in the Humans Sciences. Erlbaum: Laurence Erlbaum Associates, pp. 4-8. Brennan, R.L. (1995). The conventional wisdom about group mean scores. Journal of Educational Measurement in the Human Sciences, 14, pp. 385-396. (2005). Some Test Theory for the Reliability of Individual Profiles (Research Report 12). Iowa: Center for Advanced Studies in Measurement and Assessment-University of Iowa. (2001). An Essay on the History and Future of Reliability from the Perspective of Replication. Journal of Educational Measurement, 38(4), pp. 295-317. Campbell, D.T. (1975). Cap. 1 Assessing the Impact of Planned Social Change. En Lyons, G. (ed.). Social Research and Public Policies: The Dartmouth/OECD Conference (pp. 3-45). Hanover: The Public Affairs Center-Dartmouth College. CENEVAL (2012a). Manual técnico ENLACE Media Superior 2008-2010. México: Centro Nacional de Evaluación para la Educación Superior. (2012b). Nota técnica ENLACE Media Superior. México: Centro Nacional de Evaluación para la Educación Superior. (2013a). Manual técnico ENLACE Media Superior 2011-2012. México: Centro Nacional de Evaluación para la Educación Superior. (2013b). Informe ganancia educativa 2010-2013 ENLACE-MS. México: Centro Nacional de Evaluación para la Educación Superior. (2014). Manual para docentes y directivos. ENLACE Media Superior 2014. México: Centro Nacional de Evaluación para la Educación Superior. Centro Nacional de Evaluación para la Educación Superior (2000). Estándares de calidad para instrumentos de evaluación educativa. México: Autor. Cizek, G., Bowen, D., y Church, K. (2010, mayo). Sources of Validity Evidence for Educational and Psychological Tests: A Follow-up Study. Ponencia en la reunión anual del National Council on Measurement in Education, Denver. Crocker, L., y Algina, J. (2004). Introduction to Classical and Modern Test Theory (2a. ed.). Nueva York: Hott, Rinehart, and Winston. Cronbach, Lee J. (1971). Test Validation. En Thorndike, R.L. (ed.). Educational Measurement (pp. 443-507). Washington: American Council on Education. (1988). Five Perspectives on Validity Argument. En Wainer, H., y Braun, H. (eds.), Test Validity (pp. 3-17). Princeton: Institute for Educational Achievement.

1

144

Este listado de referencias bibliográficas no incluye todas las que se citan en el texto.

Crooks, T.J., Kane, M.T., y Cohen, A.S. (1996). Threats to the Valid Use of Assessments. Assessment in Education, 3(3): pp. 265-285. Dawis, R.V. (1987). Scale Construction. Journal of Counseling Psychology, 34(4), pp. 481-489. DGEP. Dirección General de Evaluación de Políticas (2014a). Instructivo para la elaboración, ejercicio y

comprobación del gasto operativo. México: Autor. (2014b). Respuesta a información solicitada por el INEE . Educational Testing Service (2000). Standards for Quality and Fairness. Princeton: Autor. Feldt, Leonard S., y Brennan, R.L. (1989). Reliability. En Linn, R.L. (ed.). Educational Measurement (pp. 105146). Nueva York: American Council on Education / Macmillan. Gaviria Soto, J.L., y Castro Morera, M. (2005). Modelos jerárquicos lineales. Madrid: La Muralla. Haberman, S.J. (2008). When Can Subscores Have Value? Journal of Educational and Behavioral Statistics, 33, pp. 204-229. Haertel, Edward H. (2006). Reliability. En Brennan, R.L. (ed.). Educational Measurement (pp. 65-110). Westport: American Council on Education / Praeger. IEEEM . Instituto de Evaluación Educativa del Estado de México (2014a). Estrategia operativa para la aplica-

ción de ENLACE Media Superior 2014 de Estado de México. (2014b). Monitoreo de ENLACE Media Superior 2014. IFIE . Instituto de Fomento e Investigación Educativa (2009). Resultados para Preparatoria ENLACE 2009. INEGI . Instituto Nacional de Estadística y Geografía (2010). XIII Censo de población y vivienda.

Johnson, J.A. (2004). The Impact of Item Characteristics on Item and Scale Validity. Multivariate Behavioral Research, 39(2), pp. 273-302. Kane, Michael T. (2006). Validation. En Brennan, R.L. (ed.) Educational Measurement (4a. ed., pp. 17-64). Westport: American Council on Education / Praeger. (2013). Validating the Interpretations and Uses of Test Scores. Journal of Educational Measurement, 50(1), pp. 1-73. Ley General de Derechos Lingüísticos de los Pueblos Indígenas. Linacre J.M. (2006). A User’s Guide to Winsteps. Recuperado de: winsteps.com Lissitz, R. (ed.) (2009). The Concept of Validity. Charlotte: Information Age Publishing. Messick, Samuel (1989). Validity. En Linn, R.L. (ed.). Educational Measurement (3a. ed., pp. 13-103). Nueva York: American Council on Education / Macmillan. (1998). Test Validity: A Matter of Consequence. Social Indicators Research, 45(1-3), pp. 35-44. Moss, Pamela A. (2008). A Critical Review of the Validity Research Agenda of the NBPTS at the End of Its First Decade. En Ingvarson, L., y Hattie, J. (eds.), Assessing teachers for professional certification: the first decade of the NBPTS (pp. 257-312). Oxford: Elsevier. Nichols, P., y Williams, N. (2009). Consequences of Test Score Use as Validity Evidence: Roles & Responsibilities. Educational Measurement: Issues & Practice, 28(1), pp. 3-9. Rojas, Angélica (2006). Entre la banca, la casa y la banqueta. Socialización y matemáticas entre los niños otomíes que viven en la ZMG (tesis de doctorado). Centro de Investigaciones y Estudios Superiores en Antropología Social, Guadalajara, México. Santiago, P., McGregor, I., Nusche, D., Rabela, P., y Toledo, D. (2012). OECD Reviews of Evaluation & Assessment in Education Mexico 2012, OECD. Recuperado de: http://dx.doi.org/10.1787/97892641726473-en SEP. Secretaría de Educación Pública (2014). Manual para el coordinador regional. ENLACE 2014. Educación

Media Superior. México: Autor. Sireci, Stephen G. (2013). Agreeing on Validity Arguments. Journal of Educational Measurement, 50(1), pp. 99-104. Solano-Flores, G. (2011). Assessing the Cultural Validity of Assessment Practices: An Introduction. En Basterra, M.R., Trumbull, E., y Solano-Flores, G. (eds.). Cultural Validity in Assessment: Addressing Linguistic and Cultural Diversity (pp. 3-21). Nueva York: Routledge. Referencias bibliográficas

145

Las pruebas ENLACE para educación media superior

, y Nelson-Barber, S. (2001). On the Cultural Validity of Science Assessments. Journal of Research in Science Teaching, 38(5), pp. 553-573. , y Trumbull, E. (2003). Examining Llanguage in Context: The Need for New Research and Practice Paradigms in the Testing of English-Language Learners. Educational Researcher, 32(2), pp. 3-13. Stanley, Julian C. (1971). Reliability. En Thorndike, R.L., (ed.), Educational Measurement (pp. 356-442). Washington: American Council on Education. Thorndike, R.L. (1951). Reliability. En Lindquist, E.F., (ed.), Educational Measurement (pp. 560-620). Washington: American Council on Education. Tristán, L.A., y Vidal, R. (2007). Linear Model to Assess the Scale’s Validity of a Test. Ponencia en la conferencia anual de la AERA , Chicago. Disponible en: ERIC: ED 501232 Welner, K. (2013). Consequential Validity and the Transformation of Tests from Measurement Tools to Policy Tools. Teachers College Record, 115(9). Wright, B.D., y Stone, M.H. (2004). Making Measures. Chicago: The Phaneron Press, pp. 35-39. Documentos DESC _ ALUM _EMS_13.

Dirección de Programas Específicos, Dirección de Programas para la Administración Pública- ENLACE Media Superior RIEMS . ENLACE EDUCACIÓN MEDIA SUPERIOR . Cuestionario para directores 2014. ENLACE MEDIA SUPERIOR 2011. Preguntas y codificación del cuestionario del director de la escuela. ENLACE MEDIA SUPERIOR 2013. Preguntas y codificación del cuestionario de Docentes de la escuela. ENLACE .14_OP - MS EMS_2014.pdf

Prueba ENLACE Educación Media Superior 2012. Prueba ENLACE Educación Media Superior 2013. Prueba ENLACE Educación Media Superior 2013. Cuestionario para alumnos. ENLACE Alumnos 2013. Prueba ENLACE Educación Media Superior 2014.

146

Anexos El material complementario de este informe se agrupa en siete anexos. En el documento que se entrega ahora sólo se incluye el primero. En octubre se entregaron los demás, en forma impresa o en archivos magnéticos. 1. Criterios y subcriterios de evaluación. 2. Informe de estudios especiales de comités de expertos y entrevistas cognitivas sobre reactivos de ENLACE - MS . • Reporte técnico. • Anexos primer estudio. • Anexos segundo estudio. 3. Micronálisis de una muestra de reactivos de ENLACE - MS . • Comunicación. • Matemáticas. 4. Información de entidades sobre aplicaciones. 5. Resultados de encuesta de autoridades estatales sobre usos y consecuencias. 6. Material de entrevistas con autoridades estatales y federales sobre usos y consecuencias. • Bases de datos de encuestas en línea sobre aplicación y usos. • Entrevistas a entidades y subsistemas federales. 7. Revisión de prensa.

Anexo 1. Criterios y subcriterios de evaluación SOBRE LA ALINEACIÓN A LOS REFERENTES Análisis del currículo cuyo dominio se evalúa 1. Se cuenta con un documento que revisa la teoría del contenido curricular y es el marco teórico que orienta el desarrollo de la prueba. tt El documento incluye un análisis de las áreas del currículo que evaluará la prueba donde se precisan los subdominios y contenidos, así como competencias y niveles de demanda cognitiva que se deberán cubrir.

Alineación de la prueba con el currículo 2. Se presentan evidencias de cómo se definieron las especificaciones de la prueba en términos de objetivos, competencias u otros referentes curriculares. tt Se presentan las estructuras del dominio curricular completo del que se muestrea el contenido de la prueba, y del dominio curricular evaluado. 3. Se explica el procedimiento usado para determinar la importancia relativa de los contenidos que se decidió evaluar, o se incluye un análisis de las unidades del dominio curricular y su densidad diferencial. tt Se

justifican técnicamente ajustes a la ponderación de ítems y subescalas. Anexo técnico

147

justifica metodológicamente el tamaño de la prueba y sus partes (número de ítems) cumpliendo la ponderación indicada en la tablas de especificaciones. Si hay alguna justificación administrativa, ésta se debe definir claramente. 4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios y el dominio curricular definidos. tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de la representación de ítems y subescalas respecto a los subdominios evaluados y el dominio curricular completo. 5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido. tt Se utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de los ítems en relación con lo establecido en el currículo. tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad cognitiva real corresponda a la esperada.

Las pruebas ENLACE para educación media superior

tt Se

Especificación, generación y escritura de ítems 6. Existe un manual o guía de redacción o diseño de reactivos en el que se especifica y justifica la manera de formularlos. El manual: tt Describe y da ejemplos de todos los tipos de reactivo que tendrá la prueba indicando cómo clasificarlos y justificarlos de acuerdo con la relevancia de las respuestas para el dominio pretendido. tt Usa tablas o modelos de especificación precisos para homogeneizar el diseño de los tipos de ítems, y ofrece un formato o documento donde los diseñadores de reactivos hagan la captura y la modificación. tt Fue desarrollado especialmente para la prueba con sus particularidades; no es aceptable un manual genérico o tomado de otro sistema de evaluación. 7. Los ítems son diseñados por un comité coordinado por una persona calificada y seleccionado según la especialización académica, laboral y su representatividad respecto a la diversidad del país. tt El comité se formó específicamente para realizar su labor considerando todos los elementos característicos del tipo de prueba que se diseñaría. tt La capacitación del comité incluye procesos metodológicos y referencias a taxonomías o sistemas de clasificación cognitiva para especificar el dominio.

Control de la calidad de los ítems 8. Existe un manual o guía para el análisis de reactivos que señala los criterios de aceptación, revisión y modificación. tt Se presentan estructura y funciones representadas en el comité evaluador. tt El manual describe procedimientos y criterios para revisar ítems por jueceo. 9. Hay un comité de revisión calificado para aplicar lo que define el manual. tt Se utilizaron criterios de selección de jueces con un perfil académico y laboral preciso y con representatividad de la diversidad del país. tt El comité de revisión y el de escritura están formados por jueces diferentes. tt Se detalla el procedimiento que se siguió para capacitar a los evaluadores. 10. El sistema de revisión lógica de cada ítem incluye análisis de: tt Calidad técnica: claridad en la formulación, adecuación al marco de prueba. 148

tt Congruencia

ítem-contenido o ítem-objetivo (subdominio). fuentes de sesgo de cada reactivo: género, diversidad cultural. tt Concordancia del juicio para la selección de reactivos o procedimientos para estimar la confiabilidad de los juicios de los evaluadores. 11. Se cuida la alineación de la prueba en general. tt Se verifica que el contenido de las pruebas corresponda al dominio curricular en todos los aspectos y niveles de demanda cognitiva planeados. tt Se cuida la alineación de ítems y prueba con el currículo, los estándares de interpretación y, de ser posible, con la enseñanza y la evaluación en aula. tt Se dispone de una metodología para demostrar la validez de contenido (cualitativa y cuantitativa) de la prueba. tt Se muestran evidencias para fundamentar la validez del contenido. tt Posibles

A SPECTOS PSICOMÉTRICOS Calidad de las pruebas 1. En la medida en que sean aplicables, se documentan las evidencias relativas a los diversos tipos de validez que se consideran usualmente. tt Se describe el procedimiento seguido para el análisis de validez de criterio, al menos en una de sus formas (predictiva, concurrente, discriminante, etcétera), y se reportan los valores obtenidos en los estudios de validez de criterio. tt Hay evidencia documental del análisis de validez de escala y su pertinencia en relación con el constructo y el modelo del perfil a evaluar. tt Se presenta documentación que muestra cómo se realizó el proceso para analizar la validez del constructo, y se presentan los resultados. 2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar las pruebas, definiendo equivalencia y periodicidad. tt Se indica el procedimiento seguido para construir las pruebas a partir de las especificaciones y del banco de ítems. tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en el tiempo, o según sedes o localidades. tt Se cuenta con metodología para hacer versiones equivalentes y se reportan los valores de diseño y experimentales que la demuestren. No es aceptable reportar resultados sin evidencias de equivalencia entre versiones o formas. tt La periodicidad de aplicación se justifica con criterios teórico-metodológicos o logísticos sustantivos, distinguiéndolos de criterios políticos o de opinión. tt Se especifica y justifica el marco metodológico que integra en forma coherente los procesos y métodos que guían el desarrollo de la prueba. tt Se especifica y justifica el modelo psicométrico usado. tt Hay manuales técnicos que orientan de manera detallada todos los procesos involucrados en el desarrollo de la prueba. 3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para el análisis psicométrico. tt Se presentan los procedimientos psicométricos utilizados para determinar sesgo, funcionamiento diferencial e impacto adverso de la prueba.

Anexo técnico

149

describen los análisis efectuados para detectar la influencia de factores diversos en la calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la ansiedad, etcétera. 4. Se ofrece información sobre la confiabilidad de las pruebas. tt Se describen los procedimientos usados para calcular la confiabilidad de las subescalas y versiones de la prueba. En particular, se reportan resultados del cálculo de consistencia interna de la prueba y sus subescalas. tt Se dispone de resultados de correlación con aplicaciones repetidas. tt Hay un reporte con valores de separación del modelo logístico empleado. tt Se reporta la metodología para el cálculo del error de diseño de la prueba y sus subescalas, y se reportan los resultados obtenidos en las aplicaciones. tt Se presenta la metodología usada para análisis el del funcionamiento diferencial y de sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de estudios hechos para determinar posibles sesgos.

Las pruebas ENLACE para educación media superior

tt Se

Calidad de ítems y bancos de reactivos 5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el cuidado de su calidad. tt Se cuenta con un documento que describe el modelo de calibración de reactivos y los criterios para su aceptación, revisión y modificación. tt Se explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificultad, discriminación, ajuste [fit], distractores, dimensiones, etcétera). 6. Se ofrecen evidencias sobre la calidad de los bancos de ítems. tt Hay una normativa para revisar, corregir y desechar reactivos en función de los resultados de la calibración, considerando varios parámetros y evidencias. tt Es posible revisar los inventarios del banco de reactivos debidamente clasificados y con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o que haya reactivos sin calibración. tt Se cuenta con una normativa para el uso de los reactivos según su vigencia en el banco o en las versiones, forma de almacenamiento (en medio informático o físico) y forma de actualización para uso posterior.

Calificación y niveles de desempeño 7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que responden las pruebas. tt Está disponible el documento que explica la forma en que se asignó calificación a los estudiantes (normativa, criterial u otra). tt Se cuenta con la explicación del diseño de la escala de la prueba y la forma de calcular los puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección por azar, entre otros posibles criterios. tt Se explica el procedimiento para obtener la calificación global como combinación de diversos instrumentos o partes de la prueba. No es aceptable la asignación global como promedio de promedios. 8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación de resultados de las pruebas. 150

tt Existe

el marco teórico-metodológico basado en el currículo que justifica la organización en niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con el procedimiento de asignación del valor del punto de corte en la escala. tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para determinar los niveles de desempeño o estándares. tt Los estándares desarrollados a partir de comités de jueces cuentan con el análisis del dominio curricular o tienen en cuenta consecuencias empíricas de la identificación de puntajes de corte. tt Los puntos de corte se validan con un proceso de juicio o mixto (juicio-empírico); se demuestra experimentalmente su ubicación, y se reporta el intervalo de confianza correspondiente. tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan bien en relación con el contenido de la prueba. tt Se cuenta con la metodología y evidencia del proceso realizado para describir el significado de los niveles de desempeño o del conjunto de competencias por nivel en términos de los puntos de corte. tt Se tiene el documento que detalla los desempeños por nivel para las competencias y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los resultados de las pruebas. tt Los integrantes de los comités encargados de definir los niveles de desempeño se seleccionan por sus perfiles académicos o laborales, y por su representatividad dentro de la diversidad cultural del país; dichos integrantes pasan por un proceso de capacitación orientado al empleo de la metodología a utilizar.

ATENCIÓN A LA DIVERSIDAD 1. El marco conceptual de las pruebas toma en cuenta cómo la efectividad en el aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia sociocultural del estudiante y su familiaridad con la lengua y la variedad dialectal en que se administran aquéllas. 2. Como parte del desarrollo de la prueba, se establecen las características de la población objetivo que consideran la diversidad cultural y lingüística del país, y los múltiples contextos y escenarios culturales y ambientales. 3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideración la diversidad cultural, lingüística y socioeconómica del estudiantado mexicano. 4. Los documentos que definen tipos y formatos de ítems dan lineamientos para asegurar que la información gráfica y contextual sea familiar para la mayoría del estudiantado y refleje amplia variedad de contextos culturales. 5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en contenido incluyen a profesionales con especialidades en el área de cultura (antropólogos, lingüistas) y maestros de minorías culturales y lingüísticas, y de escuelas rurales y de nivel socioeconómico bajo. 6. Las muestras de estudiantes con que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeconómicas del país. Anexo técnico

151

Las pruebas ENLACE para educación media superior

7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si estudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan de igual manera el contenido de muestras representativas de los ítems de la prueba. 8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural, lingüístico y socioeconómico en muestras representativas de los ítems de la prueba. 9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel socioeconómico bajo y de comunidades rurales. 10. Se efectúan análisis de generalizabilidad, en los cuales se determina la solidez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y nivel socioeconómico. 11. Los tiempos y calendarios de las actividades que tienen como objetivo tomar en consideración la diversidad cultural, lingüística y socioeconómica son razonables y factibles. 12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en la información obtenida con la validación cognitivo-cultural, la revisión, los análisis de sesgo y los estudios de generalizabilidad.

APLICACIONES Selección de muestra 1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral. 2. Cuando sea posible, las muestras se diseñarán utilizando diseños sólidos; los estratos se definirán con base en argumentos teóricos defendibles. 3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planificó. tt En aplicaciones muestrales se precisan pasos para seleccionar la muestra; si se manejarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar escuelas de remplazo si las hay, y porcentajes aceptables de exclusiones y no respuesta. tt En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace en ese caso. 4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes aceptables. tt Se documentan en detalle los pasos para la selección de la muestra. tt Hay una verificación de la muestra por una instancia externa. tt Hay una encuesta o sistema de aseguramiento de la calidad de la muestra.

Planeación de las aplicaciones 5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales que aseguren comparabilidad de los datos. tt Hay manuales de aplicación, probados en campo, que precisan actividades a desarrollar por cada participante; se describen las variaciones aceptables. tt Hay un cronograma detallado de todos los pasos del proceso. 152

tt Se

identifica a personal de las escuelas que tendrán que ver con la aplicación (directores, maestros) para contar con su cooperación. tt Se fijan requisitos de confidencialidad-seguridad de material y respuestas. tt Se precisa la forma en que deberán documentarse todos los pasos de la aplicación y las incidencias que se puedan presentar. tt Hay procedimientos de aseguramiento de la calidad de la aplicación.

Selección y capacitación del personal de aplicación 6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolección de datos, en todos los niveles. tt Hay criterios para reclutar y entrenar aplicadores y personal de apoyo. tt Se recluta y capacita a suficiente personal de remplazo. tt La capacitación incluye oportunidad de practicar con los instrumentos. tt La formación de capacitadores o el entrenamiento del personal que asegurará la calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma que se asegure su adecuado funcionamiento. tt Se llevan registros de las sesiones de entrenamiento de aplicadores. tt Se monitorean las actividades en campo por personal de la instancia central o externo, y se registran problemas detectados. tt Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo.

Minimización de carga, motivación, no respuesta y fraude 7. Se fijan límites realistas de la carga de responder pruebas y cuestionarios de contexto para que no sea excesiva tomando en cuenta a los sujetos. tt Se utilizan los resultados de la aplicación piloto para revisar que los estimados de carga sean realistas y aceptables. tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscando minimizar la carga para los sujetos. tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden obtener de otras fuentes. tt Se agenda la aplicación en horarios convenientes para los sujetos. 8. Se busca motivar a sujetos para que no respondan preguntas a la ligera. tt Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del estudio y cómo se utilizarán sus datos. 9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder la prueba, y se entrena al personal de aplicación para ello. 10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude. y se entrena al personal de aplicación para seguirlos.

Procedimientos de control de calidad en las aplicaciones 11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.

Anexo técnico

153

recluta y entrena a monitores que lleven a cabo actividades de control de calidad, observando la recolección de datos en una muestra de sitios. tt Si no es viable, se hacen entrevistas de control de calidad presenciales o por teléfono con aplicadores y demás personal involucrado en la aplicación. tt Se hace revisión de control de calidad en una muestra aleatoria de los datos recolectados para asegurar un llenado completo y correcto. tt Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de las actividades y para identificar y corregir causas de problemas.

Las pruebas ENLACE para educación media superior

tt Se

Preparación del procesamiento de los datos 12. Hay manuales que detallan los aspectos que se cuidarán para crear archivos de datos según normas internacionales: cómo introducir los datos; asignación identificadores a alumnos-maestros-escuelas; variables que se incluirán; códigos válidos de datos faltantes o respuestas no aplicables; formato de datos; estructura de archivos; limpieza, entre otros. 13. Se cuenta con personal calificado para manipular los datos y se le entrena en todos los aspectos de su trabajo para asegurar que esté familiarizado con los procedimientos aceptados y que comprende la importancia de recolectar y capturar la información con el cuidado necesario con el fin de que los análisis posteriores se hagan sobre información de la mejor calidad posible. 14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicación. Se asegura que: tt La estructura de los datos se apegue a la de los instrumentos. tt Los datos tengan suficientes redundancias para permitir el control de calidad. tt Las bases tengan identificadores únicos consistentes para que alumnos, escuelas y, en su caso, maestros o directores puedan relacionarse. tt Se lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar que se cumplan los puntos anteriores. tt Se documenten todas las actividades de preparación de datos.

Procesamiento y verificación de los datos 15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del procesamiento y verificación de los datos son confiables tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemática para garantizar la confiabilidad del proceso. tt En caso de que la lectura de datos se haga en forma descentralizada, se asegura que se cumplan los estándares en todos los sitios. tt Se revisa que la estructura de bases de datos se apegue a la acordada, las variables estén en rangos válidos, y los identificadores sean únicos e íntegros. tt Se contrastan archivos de datos con instrumentos y cuestionarios. tt Se calculan estadísticas analíticas para cada ítem. tt Se calculan estadísticas descriptivas para todas las variables con el fin de revisar que no haya valores extremos o faltantes; si hay, se reportan su para revisión. tt Se documentan todos los pasos del proceso.

154

Notificación de irregularidades 16. La coordinación del estudio deberá ser notificada ante cualquier inconsistencia en los datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser aprobada y documentada.

USOS Y CONSECUENCIAS Soporte de interpretaciones, usos y consecuencias previstas 1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico. 2. Se documenta y evalúa el grado en que se producen las consecuencias previstas o deseables de la prueba.

Acceso equitativo y capacidad de interpretación y uso 3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes involucradas sin discriminación. 4. Se apoya a instituciones y usuarios con el fin de desarrollar en ellos la capacidad necesaria para la adecuada interpretación y utilización de los resultados.

Comunicación que facilite interpretación de resultados 5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación deseable (o correcta) de los resultados. 6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general. 7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describen el perfil y las características de la población de referencia. 8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigmas.

Interpretaciones, usos y consecuencias imprevistas 9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables). 10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/ positivas, o inadecuadas/negativas). 11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y detalle adecuado. Si persisten, se informa a los usuarios y se intenta tomar acciones correctivas. Anexo técnico

155

L AS PRUEBAS E XCALE PARA EDUCACIÓN BÁSICA UNA EVALUACIÓN PARA EL INSTITUTO NACIONAL PARA LA EVALUACIÓN DE LA EDUCACIÓN

En su formación se utilizaron las familias tipográficas: Frutiger Lt Std y Museo.