EXÁMENES APLICADOS Y TAREAS ASIGNADAS EN PRIMARIAS DE NUEVO LEÓN Felipe Martínez Rizo y Adriana Mercado Salas CONTENIDO

EXÁMENES APLICADOS Y TAREAS ASIGNADAS EN PRIMARIAS DE NUEVO LEÓN Felipe Martínez Rizo y Adriana Mercado Salas CONTENIDO Introducción 1. La literatura

Author: David Valenzuela Muñoz

3 downloads 27 Views 2MB Size

Report

DOWNLOAD PDF

Recommend Stories

MARTÍNEZ RIZO, FELIPE

MARTÍNEZ RIZO, FELIPE y Ma. ELENA ESCALERA (1989). Diagnóstico educativo de Aguascalientes, 1983. Reportes de Investigación de la UAA. Serie Investiga

Felipe Martínez Rizo. Universidad Autónoma de Aguascalientes

¿Es en verdad buena la eficiencia de su institución? En busca de alternativas equitativas de evaluación, a propósito de la propuesta de Alexander Asti

MANUAL DE TAREAS TAREAS DE CONTROLES EN BEBIDAS Y ALCOHOLES

MANUAL DE TAREAS TAREAS DE CONTROLES EN BEBIDAS Y ALCOHOLES El objetivo fundamental del inspector al realizar su tarea consiste en asegurar al consu

Informe Final Tareas de Carga y Descarga Mercado Modelo

Informe Final Tareas de Carga y Descarga Mercado Modelo Instituto Cuesta Duarte Junio 2015 1 Contenido RESUMEN EJECUTIVO .........................

PIES Y ZAPATOS Contenido: Proporcionalidad Autora: Adriana Rabino

Pilas primarias y secundarias

~len hr

en escuelas primarias

Autoevaluación de la calidad educativa en escuelas primarias Autoevaluación de la calidad educativa en escuelas primarias Edición 2011 Dirección e

COMITÉ EDITORIAL Felipe César Londoño López Adriana Gómez Alzate. COMPILACIÓN DE TEXTOS Felipe César Londoño López

1 COMITÉ EDITORIAL Felipe César Londoño López Adriana Gómez Alzate COMPILACIÓN DE TEXTOS Felipe César Londoño López Universidad de Caldas Facultad d

TAREAS Y PRODUCTOS COMUNICACIONALES

Story Transcript

EXÁMENES APLICADOS Y TAREAS ASIGNADAS EN PRIMARIAS DE NUEVO LEÓN Felipe Martínez Rizo y Adriana Mercado Salas

CONTENIDO Introducción 1. La literatura de estudios empíricos sobre prácticas de evaluación en aula 1.1. Los trabajos de Stiggins y colaboradores 1.2. El proyecto apoyado por el PREAL 1.3. Estudios mexicanos 1.3.1. El trabajo de Ismael Vidales Delgado y colaboradores 1.3.2. El estudio del Instituto Nacional para la Evaluación de la Educación 1.3.3. El diagnóstico de las prácticas de evaluación del PIE 10-2N 2. Metodología 2.1. El corpus de imágenes 2.2. El marco analítico 2.3. El análisis 3. Resultados 3.1. Referente curricular, instrucciones, calificación y retroalimentación 3.2. Tipo de preguntas utilizadas 3.3. Proceso implicado 3.4. Nivel de demanda cognitiva y autenticidad 3.5. Congruencia entre enseñanza y evaluación Conclusiones Referencias

Aguascalientes, febrero de 2013

Los cimientos de la estructura emergente de reforma y mejora educativa que estamos construyendo serán débiles como arena si decidimos permanecer mal informados sobre la naturaleza, el papel y la calidad de la evaluación en aula. Stiggins y Conklin, 1992: 4 Introducción Las evaluaciones del aprendizaje de los alumnos que se llevan a cabo en los niveles básicos del sistema educativo y, en particular, en primaria, se pueden clasificar en dos grupos: evaluaciones en gran escala, que consisten en pruebas estandarizadas que se aplican a todos los alumnos de ciertos grados o a muestras representativas de ellos, y evaluaciones en aula, que cada maestro aplica al grupo a su cargo, sea en la forma de exámenes parecidos a las pruebas de gran escala o, con mayor frecuencia, en la de ejercicios, tareas, observaciones, trabajos grupales y otras actividades menos formales, mediante las cuales se recoge información sobre el desempeño de los alumnos. Las pruebas en gran escala han llamado fuertemente la atención y se han vuelto referentes de primer orden para las políticas educativas, perdiendo de vista la prioridad que debería darse a las evaluaciones a cargo de cada maestro, llegando en ocasiones a favorecer prácticas que empobrecen el trabajo docente, al privilegiar los contenidos de las pruebas en gran escala y descuidar aspectos que éstas no suelen cubrir, como los relativos al desarrollo de habilidades cognitivas complejas y a aspectos no cognitivos del currículo. Un trabajo pionero sobre el tema que se presenta con amplitud en seguida, partió de una reflexión similar. En referencia a la situación de la evaluación educativa en Estados Unidos en la década de 1990 señala que, incluyendo pruebas nacionales, estatales y las que se aplican a nivel de distrito escolar, en ese país se gastaban (y ahora se gasta bastante más) miles de millones de dólares en pruebas estandarizadas en gran escala las cuales, pese a que son: …evaluaciones caras, muy visibles y políticamente importantes, sólo representan menos del uno por ciento del total de todas las que se hacen en el aula. El 99 por ciento restante consiste en evaluaciones realizadas por los maestros, momento a momento, día a día y semana a semana. De forma paradójica, virtualmente todos los recursos para evaluación a escala nacional, estatal y local se dedican a acciones de investigación y desarrollo de pruebas en gran escala. Este libro presenta programas de acción específicamente orientados a mejorar la calidad del 99 por ciento restante de evaluaciones que realmente conducen lo que los estudiantes aprenden. (Stiggins y Conklin, 1992, contraportada) La obra de la que se toma la cita anterior presenta los resultados de una década de esfuerzos de sus autores por entender mejor lo que pasa en las aulas en cuanto a evaluación, a partir de dos ideas que la investigación muestra cada vez con más claridad: por una parte, que las evaluaciones en aula influyen mucho más que las pruebas nacionales o estatales en lo que los estudiantes aprenden; y por otra que, además de principios básicos comunes, la realización adecuada de esas evaluaciones implica conocimientos y habilidades específicos muy complejos por parte de los maestros, más allá de ciertos principios generales que debe respetar toda buena medición y evaluación. En una forma parecida a la experiencia que tuvieron Stiggins y sus colaboradores, la línea de investigación de la que forma parte el proyecto cuyos resultados se reportan en este capítulo, ha transitado de trabajos más simples, que reflejan una visión relativamente ingenua, hacia acercamientos cada vez más complejos, que implican poner en juego estrategias de investigación diversificadas, dada la conciencia de que las evaluaciones a cargo del maestro permiten abordar mejor los aspectos más complejos del aprendizaje, atender su proceso de desarrollo y hacerlo de modo que la información obtenida sirva para ofrecer retroalimentación detallada y oportuna a cada estudiante y, a la vez, que para estudiar las prácticas respectivas no había que limitarse a explorar lo que los docentes mismos dicen hacer, que está marcado por comprensiones insuficientes sobre su labor y por lo socialmente deseable. 1

Así pues, y a partir del trabajo hecho en el Instituto Nacional para la Evaluación de la Educación entre 2003 y 2008, en 2009 se comenzó a desarrollar en el Departamento de Educación del Centro de Ciencias Sociales y Humanidades de la Universidad Autónoma de Aguascalientes una línea de investigación sobre evaluación en aula, con el proyecto El uso formativo de la evaluación para la mejora del aprendizaje. Estado del conocimiento y diagnóstico de prácticas de maestros de primaria de Nuevo León, cuya primera fase permitió recopilar y revisar una extensa bibliografía sobre evaluación formativa, que culminó en la elaboración de un estado del conocimiento muy completo y actualizado sobre el tema (Cfr. Martínez Rizo, 2012). La segunda fase consistió en un diagnóstico de las prácticas de evaluación de los maestros de una muestra representativa de primarias del estado de Nuevo León, con base en la información obtenida mediante los cuestionarios que se aplicaron a maestros y alumnos, así como en entrevistas hechas a los docentes (Cfr. Ruiz Cuéllar y Pérez Martínez, en prensa). La segunda fase del proyecto incluyó además la recolección de evidencias fotográficas de exámenes aplicados y tareas ordenadas por los maestros entrevistados, de cuyo análisis se esperaba captar aspectos de las prácticas de evaluación que cuestionarios y entrevistas no permiten detectar. Para ello se desarrolló un nuevo proyecto, Las evaluaciones de los maestros de primaria. Análisis de evidencias de sus prácticas, que se propuso complementar el diagnóstico de las prácticas de evaluación de maestros mexicanos de primaria derivado del proyecto anterior con tres objetivos particulares:  Sistematizar una metodología para analizar evidencias de evaluación a partir de la experiencia de un proyecto sobre la evaluación en las aulas de primaria de América Latina.  Analizar las evidencias fotográficas de las prácticas de evaluación de maestros de primaria de Nuevo León recopiladas en el 2011.  Organizar un banco de imágenes de las evidencias recopiladas y analizadas, que será puesto a disposición del público en una página web. Además de estos dos proyectos, entre 2009 y 2011, se llevaron a cabo tres proyectos más, en el marco de otras tantas tesis de la Maestría en Investigación Educativa, cuyos resultados se presentan en otros capítulos de esta obra. Los resultados que se presentan en seguida incluyen un resumen de trabajos empíricos revisados sobre prácticas de evaluación en aula, una explicación de la metodología, en especial del marco de análisis utilizado, y una síntesis de los hallazgos del análisis que se hizo de las imágenes sistematizadas. 1. La literatura de estudios empíricos sobre prácticas de evaluación en aula La preparación del estado del conocimiento sobre evaluación implicó la revisión de una extensa bibliografía sobre el tema, como ya se ha dicho. Esta revisión, sin embargo, se concentró en textos de carácter teórico y en estudios empíricos sobre el impacto de la evaluación formativa en el aprendizaje de los alumnos, pero no incluyó trabajos empíricos que exploraran en particular y en detalle las prácticas de evaluación de los docentes. Esta laguna se explica por la casi total ausencia de trabajos empíricos en la literatura, que se manifestó en la búsqueda realizada. La explicación de esta anomalía tiene que ver seguramente con la complejidad que caracteriza a la práctica docente misma, que ha llevado a que en muchos casos se prefiera no incluirla entre los aspectos directamente explorados en la investigación educativa. Uno de los efectos colaterales de la preocupación por los niveles de aprendizaje de los alumnos (a los que se suele aludir con expresiones como “la calidad de la educación”) que ha traído consigo la difusión de resultados de evaluaciones internacionales como las de la International Association for the Evaluation of Educational Achievement (IEA) y la Organización para la Cooperación y el 2

Desarrollo Económicos (TIMSS, PIRLS, PISA) es, precisamente, un renovado interés por el estudio de las prácticas docentes, muchas veces en relación con los esfuerzos por evaluar a los maestros en una forma que no se reduzca a la contabilidad de sus años de servicio y sus diplomas. Una presentación de trabajos recientes en este sentido puede encontrarse en el número especial de la revista Educational Assessment (Correnti y Martínez, 2012). Allí se señala que los intentos por estudiar adecuadamente la práctica docente se han repetido en varios momentos a lo largo de casi un siglo, y que la nueva generación de esfuerzos en esa dirección refleja lo insuficiente de los anteriores, lo que a su vez pone en evidencia la dificultad de la cuestión. La cita siguiente, tomada de ese trabajo, es elocuente: Los datos obtenidos en tales registros [sobre el ambiente del aula] son… selectivos e inconsistentes y, por lo general, no se pueden comparar con otros registros. Esto se debe a la tremenda complejidad de cualquier acto de conducta social, y al consiguiente registro de diferentes elementos de esos complejos actos en diferentes momentos.(Thomas, 1929, citado por Correnti y Martínez, 2012: 51) Es importante tener presente esta complejidad, porque se puede hipotizar que el escaso impacto de la evaluación sobre el aprendizaje que se ha observado en varios estudios se debe, al menos en parte, a que las prácticas de evaluación de los maestros no tienen realmente los rasgos básicos que implica un enfoque formativo, aunque los docentes afirmen lo contrario. Es clara la necesidad de contar con información de buena calidad sobre las prácticas docentes en general, y sobre las prácticas de evaluación en particular, en los estudios sobre el tema. La obra de Stiggins y Conklin a que se ha hecho alusión presenta ideas similares. El texto utilizado como epígrafe de estas páginas afirma que los cimientos de las reformas educativas serán débiles como arena si decidimos permanecer mal informados sobre la naturaleza, el papel y la calidad de la evaluación en aula (1992: 4). Los autores citados consideran que: Ninguna de las reformas educativas en boga (sea la educación basada en resultados, la reestructuración de las escuelas, la puesta en práctica de las teorías de enseñanza, o los programas especiales para jóvenes en riesgo, o cualquier otra innovación) ha sido evaluada adecuadamente, ni podrá serlo, si la evaluación no se hace en términos de la capacidad de la reforma de que se trate para ayudar a un mayor número de estudiantes a alcanzar metas de aprendizaje articuladas de manera más clara y evaluadas cuidadosamente. (Stiggins y Conklin, 1992: 3-4) Stiggins y colaboradores llegan a la conclusión sobre la necesidad de estudiar en profundidad las prácticas de evaluación en aula, después de señalar que algunos actores educativos son muy optimistas en cuanto al papel de la evaluación, considerando que en el futuro ésta será el referente básico de la enseñanza, gracias a formas de evaluación más avanzadas que se están desarrollando, pero advirtiendo que: …los optimistas cautelosos dicen que lo anterior sólo ocurrirá si los educadores, en todos los niveles, comprenden la diferencia entre evaluaciones sólidas y no sólidas (soundunsound), y si logran integrar evaluaciones sólidas de manera eficaz en el proceso de enseñanza. Y, como mostrarán los resultados de nuestras investigaciones, hay razón para pensar que ni los maestros ni los administradores –los que hacen que la escuela exista— consiguen cumplir tales estándares… El desafío que enfrentamos al comenzar nuestra línea de investigación era encontrar formas de ayudar a maestros y administradores. (Stiggins y Conklin, 1992: 3-4) Con una visión del tema que coincide con la anterior, y teniendo en cuenta las limitaciones de los trabajos previos, este nuevo proyecto de la línea sobre evaluación en aula comenzó con una

3

búsqueda adicional de textos que reportaran trabajos empíricos sobre prácticas de evaluación, y el resultado es el que se presenta a continuación. Se revisaron siete textos, como sigue:  El texto ya citado de Stiggins y Conklin (1992), que recoge trabajos realizados en el contexto del sistema educativo de los Estados Unidos, bajo la dirección de uno de los especialistas más reconocidos en evaluación formativa, y que, además de referencias de algunos trabajos anteriores, recoge los resultados de varios estudios específicamente enfocados al tema que nos ocupa, realizados a lo largo de una década, entre 1980 y 1990.  Tres textos derivados de una investigación sobre las prácticas de evaluación en las primarias de ocho países de América Latina, conducida en 2008 por sus autores y apoyada por el Programa de Reforma Educativa para América Latina, PREAL. (Loureiro, 2009; Picaroni, 2009; Ravela, Picaroni y Loureiro 2009)  Tres textos más, producto de otras tantas investigaciones realizadas en México. Una por estudiosos de Nuevo León (Vidales Delgado et al., 2005). Otra por investigadores del Instituto Nacional para la Evaluación de la Educación (INEE) con una muestra del sistema educativo nacional (García Medina et al., 2011). Y una más, el diagnóstico de las prácticas de evaluación de los maestros de primaria de Nuevo León, hecha con una muestra de ese estado, como parte del proyecto PIE 10-2N (Ruiz Cuéllar y Perez Martínez, en prensa). 1.1. Los trabajos de Stiggins y colaboradores La escasez de estudios rigurosos sobre la evaluación en aula llevó a Stiggins a emprender trabajos para llenar tan importante laguna. La obra titulada “En manos de los maestros” (Stiggins y Conklin, 1992) presenta los resultados del conjunto de trabajos dirigidos por Richard J. Stiggins, entre 1980 y 1990. Este libro muestra elocuentemente una síntesis de la progresiva utilización y evolución de acercamientos cada vez más elaborados por Stiggins y su equipo, los cuales se describen enseguida:.  Primeramente se llevó a cabo una revisión de los escasos antecedentes que pudieron identificar en la literatura. (Stiggins y Conklin, 1992, Cap. 2: 9-30)  En seguida se hizo un estudio empírico con dos partes: una encuesta en una muestra de 384 maestros que trabajaban en ocho distritos de distintas regiones (tres en el Este, tres en el Oeste y dos en el Noroeste) y medio urbano (5) y suburbano (3) de los Estados Unidos; y un diario que llevaron durante diez semanas 32 de los 228 docentes que respondieron la encuesta (12 de nivel primaria y 20 de media básica y superior). Con ambos acercamientos se recogió la versión que los docentes dieron de sus propias prácticas. Las limitaciones de este trabajo llevaron a desarrollar otros que permitieran obtener información que fuera más allá de lo que los propios maestros dicen hacer, e indagara lo que realmente hacen. (Stiggins y Conklin, 1992, Cap. 3: 31-52)  Para ello un tercer proyecto consistió en una observación participante del trabajo docente en tres aulas de sexto grado de primaria, durante 10 semanas del último trimestre del año escolar, de manera que se asegurara observar cada salón durante al menos 20 días, y que se incluyeran todos los días de la semana. (Stiggins y Conklin, 1992, Cap. 4: 53-77)  Dos estudios más se llevaron a cabo en ocho salones de planteles de educación media, observando en dos de ellos clases de matemáticas, en dos de lengua, dos de ciencias naturales y dos de estudios sociales. Inicialmente el propósito fue la construcción de un marco de análisis (con ocho dimensiones que incluían más de 400 rasgos particulares, cfr. infra) que sistematizara las dimensiones del complejo constructo que denota la expresión “prácticas de evaluación en aula”. (Stiggins y Conklin, 1992, Cap. 5: 79-98)

4

Luego el trabajo de observación continuó, usando el marco analítico, para hacer perfiles detallados de las actividades de evaluación que tenían lugar en las ocho aulas mencionadas. El Capítulo 6 de la obra de Stiggins y Conklin (1992: 99-131) contrasta los perfiles de una clase de historia y otra de economía avanzada; en el Capítulo 7 (Stiggins y Conklin, 1992: 132-152) se sintetizan las semejanzas y diferencias de los ocho perfiles estudiados. Los dos últimos trabajos reportados se enfocaron de manera precisa a explorar la calidad de unas prácticas de evaluación que, después de los trabajos previos, los autores llegaron a la conclusión de que tenían una especial relevancia.  Uno indagó el grado en que los maestros, en su trabajo diario, tratan de evaluar habilidades de alto nivel cognitivo, la forma en que lo hacen y la calidad de esas prácticas. Para ello se trabajó con 36 maestros voluntarios de primero de primaria al último grado de educación media (grados 1 a 12, con seis docentes de cada pareja de grados). Se recogieron de cuatro a seis ejemplos de evaluaciones aplicadas recientemente por los maestros (149 documentos en total), que se analizaron y se entrevistó a los maestros en relación con ellas, además de observar a cada participante durante un día. (Stiggins y Conklin, 1992, Cap.8: 154-167)  El otro trabajo exploró las prácticas de calificación de 15 maestros en cuatro áreas curriculares (4 de matemáticas, 4 de lengua, 5 de ciencias y 2 de estudios sociales), a partir del contenido de algunos textos sobre evaluación que se utilizan en muchos programas de formación de maestros, para contrastar sus recomendaciones con la práctica real de los docentes. (Stiggins y Conklin, 1992, Cap.8: 167-175) Los principales hallazgos se sintetizan en las páginas siguientes. La revisión de literatura con la que comenzaron los trabajos de Stiggins y colaboradores confirmó que el ambiente de investigación y desarrollo que prevalecía a principios de la década de 1980 estaba dominado por temas relativos a pruebas estandarizadas en gran escala a tal grado que: …uno puede especular que las prioridades de la evaluación en gran escala han dominado el campo tan completamente y durante tanto tiempo, que los académicos no han logrado ni siquiera percibir, o siquiera reconocer, que puede haber un conjunto distinto de prioridades relacionadas con otros usos de la evaluación, como la que tiene lugar en las aulas. (Stiggins y Conklin, 1992: 9) Los autores señalan que, pese a la capacidad desarrollada para hacer evaluaciones en gran escala de calidad, los especialistas no sabían cómo apoyar a los maestros a enfrentar las demandas de la medición del rendimiento de sus alumnos día a día, pese a que esto es una dimensión fundamental de la enseñanza. Citando a un estudioso destacado del creciente campo de la investigación sobre enseñanza, dicen que los mejores conocedores del mismo concluyen: En general, el tipo de pruebas que utilizamos no es congruente con las realidades de la enseñanza y, en muchos casos, es irrelevante para ella. (Shulman, 1980: 69, en Stiggins y Conklin, 1992: 11) La revisión de literatura de Stiggins y Conklin comprendió dos grupos de trabajos: los derivados de estudios sobre pruebas estandarizadas y los de trabajos de investigación sobre enseñanza (research on teaching). En ambos casos se concluye que prácticamente no se presta atención a las prácticas de evaluación del docente. Lo poco que se puede decir sobre la evaluación en aula a partir de estudios sobre pruebas (testing) es que los docentes dicen hacer muchas otras cosas, a las que ellos dan más importancia, como la observación de sus alumnos; que la evaluación es una parte importante de su trabajo; que sólo alrededor de una tercera parte de los maestros de primaria elaboran ellos mismos pruebas de tipo estandarizado para aplicar a sus alumnos, y que en educación media la proporción es más alta, alcanzando alrededor de 75 por ciento; y que los maestros dicen tener considerable dificultad para elaborar ese tipo de instrumentos (Stiggins y Conklin, 1992: 12-20). En un apartado posterior veremos lo que se encontró en cuanto a la evaluación de habilidades cognitivas complejas. 5

Según la encuesta respondida por 228 maestros de diferentes zonas de Estados Unidos, por una parte la proporción que informa no usar pruebas elaboradas por él o ella es de alrededor de un tercio (34%) en los primeros grados de primaria, y desciende hasta 11% al final de la enseñanza media, en tanto que los que dicen no usar pruebas elaboradas externamente, que al principio de la primaria son también alrededor de un tercio (34%), aumentan hasta ser algo más de la mitad (52%) al fin de la enseñanza media. Además, en todos los casos alrededor de la mitad (49-52%) dice sentirse cómodo al usar ese tipo de instrumentos, y de 9 a 14% considera que los domina perfectamente. Sin embargo, cerca de la mitad (42%) dijo sentir preocupación por la necesidad de mejoras sus propias pruebas, y otro 19% dijo no tener tiempo para desarrollarlas. Un 28% (uno de cada cuatro maestros) dijo no tener preocupaciones al respecto. (Stiggins y Conklin, 1992: 35-41) Por su parte, el análisis de diarios preparados por 32 profesores permitió analizar 290 actividades de evaluación y mostró que, en dos terceras partes de los casos, el propósito era asignar calificaciones o determinar si los alumnos dominaban ciertos contenidos, en 18% diagnosticar, y sólo en seis por ciento retroalimentar la enseñanza. Sólo en tres casos se buscaba evaluar habilidades de alta complejidad cognitiva. Sólo en 40% de los casos las evaluaciones consistieron en pruebas, con 24% hechas por el docente; el 60% restante consistía en observaciones del comportamiento de los alumnos o de sus trabajos. Pudo apreciarse además que, en general, los maestros se mostraban dispuestos a aceptar que sus evaluaciones tenían puntos débiles, pero no podían analizar en detalle en qué consistían esas debilidades. Se manifestó un amplio consenso en el sentido de que las pruebas externas en gran escala eran también muy limitadas y poco útiles para darles información relevante de tipo diagnóstico alineada con el currículo. (Stiggins y Conklin, 1992: 42-52) Los acercamientos cualitativos de los estudios siguientes pusieron en evidencia la gran complejidad de las prácticas de evaluación, que los trabajos anteriores no conseguían abarcar de manera suficiente, y llevaron al desarrollo del marco analítico que se presenta más adelante. Estos trabajos se hicieron en escuelas de educación media, y sus resultados son consistentes con los de los trabajos anteriores en los aspectos más gruesos captados en ellos, pero también aportaron elementos nuevos, en particular en lo relativo a los niveles de demanda cognitiva de las evaluaciones. En el capítulo 6 de la obra citada se describe de manera detallada como se obtuvo el perfil de un maestro que impartía clases de historia, en donde se encontró con respecto a los propósitos de la evaluación, el maestro considera de gran importancia que sirva para asignar calificaciones (60 puntos de 100 posibles); en segundo lugar aparece el propósito de controlar y motivar a los alumnos (20 puntos); y luego el comunicar las expectativas de logro (10 puntos), otros aspectos menos importantes para los cuales se usa la evaluación son para diagnóstico de necesidades individuales, grupales entre otras. (Stiggins y Conklin, 1992: 104) Otro aspecto considerado en la descripción de este perfil, que Stiggins y sus colaboradores desarrolaron, encontraron que el maestro considera que los exámenes que contienen los materiales curriculares son muy rutinarios y evalúan únicamente memoria. Esté maestro dice que los exámenes que elabora él mismo sí incluyen preguntas de todos los niveles de demanda cognitiva, pero el análisis de esos exámenes desarrollados por los maestros de la investigación muestra que casi todas sus preguntas se enfocan también sólo a memorización. (Stiggins y Conklin, 1992: 105-106 y 115) Los trabajos que este docente pone a hacer en clase también incluyen principalmente cuestiones de memorización (70% de los trabajos); un 20% implica hacer comparaciones y 10% la evaluación de textos. Están ausentes actividades que impliquen análisis o inferencias. Estas tendencias son todavía más marcadas cuando se trata de preguntas orales. (Stiggins y Conklin, 1992: 109) El maestro suele exponer un tema con hechos puntuales y después pregunta los mismos hechos en los exámenes. Las tareas se refieren también predominantemente a hechos específicos, sobre todo las que se hacen para preparar a los alumnos para un examen. (Stiggins y Conklin, 1992: 117)

6

En el siguiente capítulo del libro, Stiggins y sus colaboradores hacen un comparativo entre el profesor descrito anteriormente y otro más aplicando el mismo perfil de evaluación en diferentes ambientes de trabajo (asignaturas, grado, entre otros factores). Por lo que se refiere a la calidad de las evaluaciones hechas por los maestros, los exámenes y las tareas en general tenían un buen nivel, con una excepción notable: la evaluación de habilidades de alto nivel cognitivo, que en la mayoría de los casos tenía criterios de desempeño y procedimientos de calificación definidos en forma vaga. (Stiggins y Conklin, 1992: 141) Por otra parte las pruebas estandarizadas, simplemente por su formato, tienden a ser consideradas confiables por los maestros, que buscan imitarlas, en tanto que las evaluaciones basadas en observación del desempeño, y las basadas en preguntas de tipo ensayo son vistas como subjetivas y, por lo tanto, menos aceptables, por lo que su uso es mínimo. (Stiggins y Conklin, 1992: 142) Las actividades de evaluación ocupan buena parte del tiempo de clase. El docente promedio dice dedicar alrededor de una cuarta parte del tiempo de clase a ellas, ocupando el resto en exposición de temas (40%), instrucción individual (25%) y planeación (10%). (Stiggins y Conklin, 1992: 145) Por lo que se refiere a la retroalimentación que ofrecen a sus alumnos sobre los resultados de las evaluaciones, las tareas en su mayoría son marcadas por lo menos con un símbolo y los alumnos obtienen esta retroalimentación en tiempo oportuno. (Stiggins y Conklin, 1992: 143) La mayoría de los maestros consideran que la enseñanza y la evaluación son actividades separadas, sin una relación sistemática entre sí. La mayor parte no sabe cómo hacer buen uso de la evaluación durante el proceso de enseñanza para contrastarla, evaluarla y hacerla más efectiva y significativa. De hecho, antes de participar en investigaciones como las conducidas por este grupo, los maestros dijeron que pasaban poco tiempo reflexionando acerca de la naturaleza o calidad (validez, confiabilidad y valor comunicativo) de sus evaluaciones. (Stiggins y Conklin, 1992: 148 y 141) Por lo que se refiere a los trabajos enfocados precisamente al estudio de las prácticas de evaluación de habilidades de alto nivel cognitivo y su calificación, al reportar hallazgos relevantes de trabajos previos, Stiggins destaca que los maestros, cuando formulan ítems para los exámenes que elaboran, tienen dificultad para redactar preguntas que representen alta demanda cognitiva (Carter, 1984). Un dato concreto muestra la seriedad del problema: un análisis de cerca de 9000 preguntas elaboradas por los maestros para sus exámenes encontró que más del 90 por ciento se enfocaba únicamente al recuerdo de hechos puntuales (Fleming y Chambers, 1983). De manera general, según un estudio de Reynolds y Menard (1989) los maestros tienden a ignorar los niveles taxonómicos de Bloom en los exámenes escritos que elaboran. (Stiggins y Conklin, 1992: 154-155) Los resultados del trabajo de Stiggins et al. con 36 maestros mostraron, por su parte, que la proporción de preguntas de memorización fue de 56% en los primeros grados de primaria, y bajó a 41% en los últimos de enseñanza media, en tanto que las que implicaban inferencias subieron de 19% en el primer caso a 44% en el último. En cuanto a las preguntas orales dirigidas por los docentes a los alumnos, en los primeros grados de primaria el 70% correspondió a memorización y el 17% a inferencia, en tanto que en los últimos grados de enseñanza media las proporciones respectivas fueron 42% y 18%. (1992: 161 y 163) Los 15 maestros del último estudio reportado consideraron que el esfuerzo del alumno se debe tener en cuenta al calificar su trabajo, además de su desempeño efectivo, y la mitad manejó formas de calificación diferentes para alumnos considerados más o menos capaces, a pesar de que los textos recomiendan lo contrario. Nueve de los 15 profesores califican todos los trabajos de los alumnos, pese a que los textos recomiendan que muchos tengan un papel sólo formativo. Y en cuanto a la calidad de la forma de calificar, prácticamente no hubo evidencias de un cuidado sistemático al respecto por parte de los profesores; la forma de combinar resultados parciales y la de llegar a una puntuación numérica también fue muy arbitraria. (Stiggins y Conklin, 1992: 170-171) 7

1.2. El proyecto apoyado por el PREAL. “La evaluación de aprendizajes en las aulas de primarias de América Latina, enfoques y prácticas” El estudio de carácter exploratorio y descriptivo fue llevado a cabo por Pedro Ravela, Beatriz Picaroni y Graciela Loureiro del Instituto de Evaluación Educativa de la Universidad Católica de Uruguay en ocho países de América latina, incluyendo 80 escuelas y 160 maestros de 6° grado a los que se aplicó un cuestionario autoadministrado y una entrevista semi-estructurada en profundidad. Además de lo anterior se recogieron propuestas de evaluación y trabajos de estudiantes, en la forma de 4360 registros fotográficos. Además de lo anterior se realizó un análisis de los currículos nacionales de los ocho países que participaron en la investigación. Los resultados del estudio se han difundido en los tres textos revisados, los cuales se describen enseguida:  Beatriz Picaroni (2009). Este documento muestra los principales hallazgos en relación con los enfoques y discursos que los maestros tienen sobre la evaluación y su práctica, la retroalimentación que dan a los alumnos y la comunicación de las que realizar de estas evaluaciones con los padres de familia. El texto se organiza en cuatro apartados en donde se dan a conocer los siguientes temas respectivamente: las concepciones de los docentes sobre la evaluación, la toma de decisiones de calificación y aprobación o reprobación, los usos formativos de la evaluación (comunicación con los alumnos-retroalimentación) y la comunicación con las familias a partir de las evaluaciones.  Un documento más es el Boletín N°12, Observatorio Regional de políticas de evaluación educativa (Ravela, Picaroni y Loureiro 2009). Este documento da a conocer de forma sintética el estudio realizado, sus objetivos y metodología usada. También se da de forma breve algunos de los más importantes resultados.  Un tercer documento derivado de la investigación fue elaborado por Graciela Loureiro (2009) en donde realiza un análisis de las interrelaciones o congruencias que hay entre los currículos nacionales, lo que evalúan los maestros y lo que evalúan en los países con las pruebas externas estandarizadas. Los principales hallazgos se sintetizan a continuación. En cuanto al tipo de evaluaciones que realizan, muchos docentes manifiestan realizar una evaluación diagnóstica al inicio del año lectivo, fundamentalmente para tomar decisiones de planificación, así como una evaluación al final de cada bimestre. (Picaroni, 2009: 19) El discurso se centra en las funciones básicas de la evaluación (sumativa y formativa), pero de manera poco específica. Los docentes se limitan a caracterizar las evaluaciones de modo general y en algunos casos incurren en contradicciones a lo largo de la entrevista, situación que permite suponer la existencia de carencias en la solidez de los conceptos expresados. (Picaroni, 2009: 41) El instrumento más mencionado es la prueba objetiva o examen; es usado todos los meses, o en forma bimensual o trimestral, principalmente para calificar a los alumnos. Se utilizan instrumentos de aplicación diaria (tareas, ejercicios, hojas de trabajo, actividades escritas u orales) que conforman lo que se denomina “evaluación continua”. En la mayoría de los casos, se realizan en el cuaderno de clase o en forma oral, con apoyo del pizarrón. (Picaroni, 2009: 29-30) En el contexto educativo mexicano se valora la disposición y el compromiso de los alumnos, la puntualidad, el interés en las actividades realizadas, la disciplina y la limpieza de los trabajos. La mayoría de los docentes no explicita la ponderación de cada uno de estos elementos, pero enfatizan que el examen es lo que tiene más peso a la hora de promediar los puntos obtenidos por el trabajo realizado a lo largo de un bimestre. (Picaroni, 2009: 35) Un aspecto común a los países es la independencia con que los maestros asignan calificaciones, aún en aquellos en que establecen normativas explícitas. Cada docente resuelve con total autonomía,

8

tanto la combinación de instrumentos o instancias que tomará en cuenta para calificar a sus alumnos, como la periodicidad con que lo hará. (Picaroni, 2009: 60) La toma de decisiones de calificación, aprobación o reprobación no se fundamenta en criterios homogéneos entre los docentes, pese a que existen y están plasmados en los objetivos de los programas escolares para cada materia y grado. En México los profesores tienen absoluta libertad para decidir mediante qué actividades los alumnos demostrarán el grado de dominio de los contenidos vistos en cada materia y la ponderación de las mismas, por lo que al finalizar un grado escolar no es posible garantizar que todos los alumnos han logrado el mismo nivel de conocimiento, aún cuando tengan el mismo promedio final. (Picaroni, 2009: 56) Es importante añadir que, aunque la normatividad escolar suele establecer en forma general los objetivos programáticos, hay una grave carencia de precisión al respecto. Un hallazgo importante es que en ninguno de los países estudiados la normatividad incluye un respaldo conceptual de carácter descriptivo que asegure la relación entre la calificación otorgada a un alumno y los desempeños a los que ella refiere. Ni en las normativas de evaluación, ni en los currículos, se explicitan los referentes de la evaluación en forma detallada. (Picaroni, 2009: 60) Las consignas empleadas en las propuestas de evaluación suelen estar cargadas de ambigüedades y aspectos implícitos que tal vez sean claros para el docente pero seguramente no lo son para el alumno. Por otra parte, la mayoría de las propuestas son puramente escolares, descontextualizadas y sin audiencias medianamente plausibles; son excepcionales las propuestas de evaluación basadas en actividades auténticas. (Picaroni, 2009: 62 y 42) Por lo que se refiere a la retroalimentación que se da a los alumnos, pocos docentes realizan devoluciones en sentido estricto, es decir, expresiones que permitan al alumno comparar lo efectivamente realizado con lo que se esperaba que lograra, a fin de comprender las insuficiencias de su trabajo y profundizar en el conocimiento cuando los trabajos están bien logrados. Aunque algunos docentes manejan la distinción entre evaluación formativa y sumativa, y dicen preferir la primera, en la práctica muchos de ellos califican todos los trabajos y no dan otros tipos de devolución a los alumnos más allá de la calificación o puntaje. En el mejor de los casos, reemplazan la calificación por juicios del tipo “muy bien” o “debes esforzarte más”. (Picaroni, 2009: 85 y 100) En el mismo sentido, en otro de los informes derivados de este estudio se reporta que las devoluciones que los maestros hacen a los niños a partir de sus trabajos no los orientan claramente sobre las formas para avanzar y sus propuestas didácticas no guardan relación con los resultados obtenidos por los niños o no son específicas. Se limitan a asignar calificaciones expresadas numérica o literalmente, sin informar sobre los aspectos involucrados ni indicar posibles formas de mejorar. Muchos se preocupan por estimular a los alumnos para que hagan un mayor esfuerzo, pero no les dan pistas concretas acerca de cómo hacerlo. (Ravela, Picaroni y Loureiro, 2009: 5) Además de servir para orientar los esfuerzos de los estudiantes, la evaluación debe también ser una herramienta para que los maestros tengan elementos para orientar mejor su propio trabajo, a partir del avance de sus alumnos, considerando en particular la situación de los que experimenten mayores dificultades para aprender. En este sentido el trabajo del PREAL muestra también que sólo algunos docentes se esfuerzan por desarrollar estrategias didácticas a partir de las necesidades cognitivas que se detectan gracias a los resultados obtenidos por los alumnos en las evaluaciones. Pareciera que, en general, la forma de enfrentar la situación de los alumnos de resultados más bajos es que los docentes apelan a factores emocionales y al esfuerzo personal de esos alumnos, y que no hacen ajustes en su propia práctica. (Picaroni, 2009: 101-102) Otros destinatarios clave de la retroalimentación derivada de las evaluaciones son los padres de familia, que deberían recibir información que les permita apoyar mejor el trabajo de sus hijos. Sin embargo el trabajo del PREAL mostró que hay pocas diferencias en los países estudiados en este sentido: las diferencias se refieren a los aspectos menos sustantivos: las formas de expresión de las 9

calificaciones. En casi todos los casos la información que reciben las familias sobre los logros de sus hijos está fuertemente basada en las calificaciones, que sólo dan cuenta de una posición relativa a partir de las categorías de una escala de valoración. (Ravela, Picaroni y Loureiro, 2009: 5) Algunos de los resultados encontrados en el análisis de los currículos nacionales resaltan varios puntos en común: los currículos se enfocan al desarrollo de competencias y habilidades, destacan la importancia de no limitar la educación a la transmisión de conocimientos y además usarlo en situaciones distintas en la vida cotidiana. Los currículos de América latina describen a la evaluación como un proceso que debe ser continuo, permanente y flexible, además de que se encuentra en ellos la necesidad de elaborar evaluaciones diagnósticas, además de realizar evaluaciones formativas y sumativas en el proceso. (Loureiro, 2009: 14) A pesar que los currículos latinoamericanos analizados se centran en el desarrollo de competencias, se encontró que la mayoría de las tareas entregadas por los profesores en este estudio no involucraban contextos reales y complejos (Loureiro, 2009: 101), esto es, no existe una transferencia de los conocimientos adquiridos más allá de memorización. Otro resultado a resaltar es relacionado con el discurso de los maestros que dicen cumplir con lo establecido en los currículos, pero creen que son necesarias algunas adecuaciones para incluir conocimientos que no se encuentran explícitos en ellos, además aun cuando los maestros dicen cumplir con el currículo se encontraron evidencias muy fuertes de que los maestros no siempre toman en cuenta las metodologías y enfoques didácticos sugeridos en los mismos. (Loureiro, 2009:103) Un aspecto diferente del estudio patrocinado por el PREAL es el que se refiere al impacto que tienen sobre el trabajo docente las evaluaciones externas que se han extendido recientemente en todos los países de América Latina. En este sentido es interesante señalar que, en varios de los países del estudio, las evaluaciones nacionales proponen actividades en contextos significativos, con propuestas de una complejidad cognitiva que pocas veces se encuentran en las propuestas elaboradas por los maestros mismos (Loureiro, 2009: 104). Esas evaluaciones estandarizadas están más avanzadas y más en línea con los desarrollos de la didáctica que las propuestas que se implementan en las aulas. Este hallazgo contradice la extendida idea de que las evaluaciones externas son memorísticas, están focalizadas en los resultados y desconocen los procesos de aprendizaje de los estudiantes, todo lo cual sólo sería contemplado en las evaluaciones que hacen los maestros en el aula. Como este no es el caso, las evaluaciones externas podrían ofrecer a los maestros instrumentos de trabajo que apoyen sus tareas cotidianas, pero los efectos pueden ser ambivalentes: algunos maestros pueden apropiarse de las evaluaciones externas como herramientas y aprovecharlas en función de su propia propuesta educativa, pero para otros pueden servir simplemente para “llenar el tiempo” y entrenar a los estudiantes para responder pruebas estandarizadas. (Ravela, Picaroni y Loureiro, 2009: 11-12) Por último, la investigación resalta un punto importante, se sabe que los países han actualizado sus currículos y han diseñado materiales educativos dando un papel importante a la evaluación en el proceso de enseñanza y aprendizaje, sin embargo, las evidencias encontradas en el estudio mostraron las profundas dificultades que los maestros presentan para llevar dichas propuestas a las aulas. (Loureiro, 2009: 107) 1.3. Estudios mexicanos 1.3.1. El trabajo de Ismael Vidales Delgado y colaboradores Este texto recoge resultados de un proyecto realizado en el estado de Nuevo León, sobre prácticas de evaluación de docentes de primaria. Se hizo primero un análisis documental, seguido por entrevistas semi-estructuradas con informantes calificados, para elaborar un marco de referencia. Luego se trabajó con una muestra de 313 profesores y profesoras de primarias públicas del estado. 10

Según este trabajo, la idea que tienen los maestros sobre la evaluación es fragmentada y dispersa, limitándose a reproducir la terminología de los textos que se manejan en cursos de actualización, por lo que las actividades de evaluación que llevan a cabo en el aula tienen cierto sustento teórico, pero no siempre bien entendido o utilizado en forma consciente e intencional. Por ello, para elaborar instrumentos o asignar calificaciones, los maestros tienden a guiarse por su experiencia más que por principios teóricos, que suelen estar ausentes, en opinión de supervisores y jefes de sector. Algunas personas, sin embargo, piensan que no hay tal desconocimiento teórico, sino más bien resistencias debido al exceso de carga administrativa. (Vidales Delgado et al., 2005: 184) En el discurso muchos maestros coinciden en que se evalúa para mejorar la práctica docente y los desempeños de los alumnos en conocimientos, habilidades, actitudes v valores, pero en la práctica prevalece la visión de que la evaluación es sólo un evento temporal (bimestral, mensual o semanal) que sirve principalmente para sustentar juicios sobre aprobación o reprobación de los alumnos, un requisito para dar resultados numéricos a la administración. Estas opiniones son reforzadas por una cultura en la que padres de familia y autoridades piden la evaluación como un formalismo que da supuestas evidencias cuantitativas del avance de sus hijos. (Vidales Delgado et al., 2005: 185) Según los maestros prevalece el uso de exámenes escritos y, al parecer, son los docentes de más antigüedad en el servicio los que menos utilizan esos recursos. Esto parecería indicio de que la falta de experiencia, o las deficiencias en la formación de las generaciones más recientes de maestros, podrían ser la explicación del recurso frecuente a ese tipo de exámenes, adquiridos ya elaborados por falta de capacidad para desarrollar evaluaciones propias. (Vidales Delgado, 2005: 189) Según la opinión de supervisores y jefes de sector, un alto porcentaje de escuelas y maestros compran exámenes y otros recursos de evaluación y planeación a editoriales y otras instancias. Para los exámenes bimestrales la cifra podría llegar hasta el 80 por ciento. Sin embargo, una amplia mayoría de los directores (72 por ciento) sostiene que en sus escuelas los exámenes son hechos por los mismos maestros, y sólo un 28 por ciento reconoce que los adquieren de instancias externas. De los maestros que informan que elaboran sus propios exámenes, el 66 por ciento dice hacerlo en forma individual y el 34 por ciento en parejas o colegialmente. Sin embargo, parece haber falta de capacitación en el manejo de los materiales curriculares en que se deberían basar las evaluaciones; pocos maestros los utilizan y muchos no entienden sus propósitos o consideran que las formas de evaluación sugeridas son muy complicadas y laboriosas; por ello los exámenes se suelen limitar a verificar cuántos conceptos aprendió el niño. (Vidales Delgado et al., 2005: 189-190) Por lo que se refiere a la información derivada de las evaluaciones que se entrega a los padres de familia, no hay informes amplios ni se da seguimiento a los resultados del proceso educativo; sólo se entregan las boletas de calificación y las observaciones de apoyo a los hijos, de felicitación o de descalificación. (Vidales Delgado, 2005: 194) 1.3.2. El estudio del Instituto Nacional para la Evaluación de la Educación Entre 2009 y 2010, un grupo de investigadores del Instituto Nacional para la Evaluación de la Educación (INEE) diseñó y aplicó a 3534 profesores de 1193 escuelas un cuestionario estructurado sobre sus propias prácticas de evaluación, además de un cuestionario complementario a una muestra de alumnos (17908) y otro a los directores de los mismos planteles. La muestra fue obtenida aleatoriamente y se calculó de manera que fuera representativa a nivel nacional. Según los resultados de este trabajo, la mayoría de los docentes de primaria de México dicen utilizar la evaluación desde una perspectiva de mejora del aprendizaje y de la enseñanza, o sea en forma congruente con un enfoque formativo. El 17 por ciento de los maestros encuestados afirmó que evalúa para saber cómo apoyar a los alumnos y cerca de 11 por ciento dijo hacerlo para planear y conducir sus clases. Alrededor de 43 de cada cien dicen emplear la evaluación principalmente como medio para identificar problemas en el aprovechamiento de los alumnos. (García Medina et al., 2011: 28) 11

La mayoría de los docentes (68%) aplican exámenes escritos bimestralmente, lo que coincide con el periodo establecido en la normativa para emitir calificaciones, 31% de los maestros lo hace mensual, quincenal o semanalmente y menos de 1% no los utiliza. Los cuestionamientos orales son frecuentemente utilizados por el 61.5% de los maestros. (García Medina et al., 2011: 71-72) En español, la escritura de textos de distinto tipo y la lectura en voz alta son acciones de evaluación utilizadas con frecuencia por un mayor porcentaje de profesores: 67 de cada 100 dijeron hacerlo en el bimestre. En cuanto a escritura, los maestros tienden a evaluar con mayor frecuencia la segmentación de las palabras y menos la claridad de la expresión de las ideas. Y en cuanto a lectura, el respeto de signos de puntuación y la dicción o pronunciación de las palabras son los aspectos que más profesores consideraron importantes para valorar. (García Medina et al., 2011: 44, 48-49) En cuanto a matemáticas, sólo cuatro de cada 10 profesores utilizan la invención de problemas con mucha frecuencia para evaluar la asignatura. El 74 por ciento de los profesores utilizan de manera muy frecuente la actividad “resolver operaciones” (sumas, restas, multiplicaciones, divisiones) para evaluar a sus alumnos en matemáticas. La actividad a la que recurren de manera más frecuente la mayoría de los docentes (82%) es resolver problemas en los que tengan que hacer operaciones. (García Medina et al., 2011: 49-50) Por lo que se refiere a los niveles de demanda cognitiva que se manejan en las evaluaciones, algunos resultados del estudio del INEE van en el sentido de un uso considerable de actividades que implican niveles cognitivos altos. Según esos resultados, los maestros mexicanos utilizan con mayor frecuencia actividades de niveles altos e intermedios de complejidad, y con menor frecuencia las actividades de complejidad baja como memorización o razonamiento. Se señala también que las primarias generales tuvieron menores porcentajes en las actividades de demanda cognitiva baja y mayores en casi todas las de nivel de complejidad alta. (García Medina et al., 2011: 52 y 56) Estos resultados parecen poco consistentes con otros, como los que se refieren a la calificación de las evaluaciones, que apuntan en el sentido de que los aspectos más importantes para asignar una nota fueron “atención” y/o “participación en clase” (71%) y “calificación obtenida en los trabajos en clase” (48%). Por otra parte, cerca de 63% de los maestros asigna calificaciones “considerando aciertos y errores” de forma cotidiana. (García Medina et al, 2011: 55 y 77) Menos de 10% de los profesores utilizan ejemplos de malos trabajos para que los alumnos identifiquen lo que no deben hacer. La práctica más extendida (74%) es que los maestros indiquen a los alumnos las características requeridas para considerar de buena calidad un trabajo, pero esto no se acompaña por una práctica de modelamiento. (García Medina et al., 2011: 72 y 75) En cuanto a formas de retroalimentación, la firma o sello son recursos utilizados frecuentemente por poco más de 70 de cada 100 profesores, aunque se trata de medios poco informativos. Mucho más congruente con una buena retroalimentación una evaluación realmente formativa consiste en explicar a los alumnos cómo solucionar los errores cometidos, y casi 71 por ciento de los maestros dice utilizar esta estrategia de forma cotidiana cuando retroalimenta a sus estudiantes. Aunque la cifra parece muy alta y su coincidencia con la cifra anterior hace dudar de su validez, la opinión de los alumnos parece coincidir, ya que cuando se les preguntó si sus maestros los apoyaban donde tenían más problemas para aprender, y si hablaban con ellos sobre lo que necesitarían hacer para mejorar su aprendizaje, en más del 71% de los grupos la mayoría de los estudiantes afirmó que sus profesores realizaban de forma frecuenta ambas actividades. (García Medina et al., 2011: 76-78) Por último, otros resultados del estudio indican que enseñar a los alumnos a autoevaluarse es una actividad poco frecuente de la mayoría de los profesores: sólo 13% de los maestros suele pedir a sus alumnos que se autoevalúen y 46% nunca lo hace. En el mismo sentido, apenas 20% de los docentes incluye entre sus prácticas cotidianas proporcionar guías o indicaciones para que los alumnos se autoevalúen o co-evalúen y casi 40% nunca lo hace. (García Medina et al, 2011: 78-79) 12

1.3.3. El diagnóstico de las prácticas de evaluación del PIE 10-2N Este estudio se presenta en otro capítulo de esta obra. Sus resultados coinciden en mucho con los hallazgos reportados en apartados anteriores. Muestra que los maestros dicen concordar con la evaluación formativa, pero hay elementos para temer que las prácticas no sean congruentes con las concepciones y creencias manifestadas, ni con una evaluación realmente formativa: por una parte, los obstáculos para implementar prácticas formativas, según los maestros, son principalmente el tamaño de los grupos y la falta de tiempo; por otra, los maestros siguen dando excesiva importancia a la calificación de todos o casi todos los instrumentos de evaluación que utilizan. Hay, además, cierta contradicción en las percepciones de los maestros sobre sus competencias de evaluación formativa: predomina una visión positiva sobre ellas, pero la mayoría coincide en que le es necesario recibir apoyo o formación al respecto. Parecería haber buena alineación entre enseñanza y evaluación, pero hay bases para plantear una hipótesis en cuanto a la predominancia de metas de baja demanda cognitiva como explicación: en tal sentido apunta la masiva opinión de los alumnos de que los exámenes son fáciles, que puede indicar que las preguntas tienen bajo nivel de demanda cognitiva. Enseñanza y evaluación parecen coincidir en manejar tareas de baja demanda cognitiva. 2. Metodología 2.1. El corpus de imágenes Las imágenes recopiladas fueron 1229, número que se redujo luego a 850 imágenes analizables, 244 evidencias de español (inicialmente 317) y 213 de matemáticas (inicialmente 248). La depuración de las imágenes pasó por varias etapas en las que algunas se fueron descartando por distintas razones: no corresponder a tareas o exámenes o a las asignaturas de español o matemáticas, ser de baja calidad, demasiado borrosas para ser editadas, ser sólo extractos o partes de exámenes o tareas más amplias. Tras la última etapa, en que se eliminaron las últimas 50 imágenes como resultado del primer análisis y la limpieza de las bases de datos entregadas por los calificadores, las imágenes que se utilizaron en el análisis fueron finalmente 850: 366 de matemáticas (que comprenden 217 evidencias de 74 escuelas) y 484 imágenes de español (240 evidencias de 73 escuelas). Tabla 1. Características de las evidencias analizadas Aspectos

Total de imágenes

Grado

Género

Nivel de rendimiento Medio Tipo de evidencia

Valores Una Dos a cuatro Cinco o más Segundo Quinto Sexto Hombre Mujer No identificado Sobresaliente Bajo Urbano Rural Examen Tarea

Total n=457 Número % 309 67.6 110 24.1 38 8.3 173 37.9 114 24.9 170 37.2 227 49.7 220 48.1 10 2.2 246 53.8

Español n=240, 52.5% Número % 150 62.5 66 27.5 24 10.0 91 37.9 58 24.2 37.9 91 47.1 113 51.7 124 1.2 3 52.9 127

Matemáticas n=217, 47.5% Número % 159 73.3 44 21.6 14 6.1 82 37.8 56 25.8 79 36.4 114 52.5 96 44.2 7 3.2 119 54.8

210 367

46.2 80.3

112 191

47.1 79.6

98 176

45.2 81.1

90 223 234

19.7 48.8 51.2

49 126 114

20.4 52.5 47.5

41 97 120

18.9 44.7 55.3

Fuente: Elaboración propia a partir de la base de datos

13

2.2. El marco analítico Para la revisión de las imágenes se preparó un marco de análisis que precisara las dimensiones de las prácticas de evaluación que idealmente se trataría de detectar, a partir de la literatura sobre evaluación en aula en general, y en particular sobre evaluación formativa, sintetizada en el estado del conocimiento derivado del proyecto El uso formativo de la evaluación para la mejora del aprendizaje, Estado del conocimiento y diagnóstico de prácticas de maestros de primaria de Nuevo León (Martínez Rizo, 2012), así como de la revisión de literatura adicional hecha para este proyecto, cuyos resultados se han reportado en el apartado anterior. Se consideró en particular el marco analítico desarrollado por Stiggins y colaboradores, así como el marco utilizado en un estudio de validación de un instrumento complejo para medir las prácticas de evaluación en aula en el área de ciencias (QAS Notebook, Martínez et al., 2012) El marco desarrollado por Stiggins y otros comprende ocho dimensiones, como sigue: 1. Propósitos de la evaluación. 2. Métodos de evaluación: contenidos a evaluar y formas de hacerlo. 3. Criterios para seleccionar el método de evaluación. 4. Calidad de las evaluaciones. 5. Retroalimentación. 6. El maestro como evaluador. 7. Percepción del estudiante acerca del maestro. 8. Políticas de evaluación. (Stiggins y Conklin, 1992: 80) Por su parte, el marco usado para validar el QAS Notebook comprende nueve dimensiones, que en conjunto buscan captar el constructo complejo denominado práctica de evaluación: 1. 2. 3. 4. 5. 6. 7. 8. 9.

Establecimiento de metas de aprendizaje claras. Frecuencia de las evaluaciones. Variedad de las evaluaciones. Alineación de las evaluaciones con las metas de aprendizaje. Complejidad cognitiva. Manejo de explicaciones y justificaciones científicas. Participación de los alumnos en actividades de auto-evaluación. Uso de la información para dar retroalimentación a los alumnos. Uso de la información para sustentar decisiones de instrucción. (Martínez et al., 2012: 109)

A partir de lo anterior se elaboró una ficha para analizar las evidencias de evaluación que dieron los profesores de Nuevo León. La versión completa de esa ficha comprende los siguientes aspectos: A. Identificación de la evidencia: a. Número de la escuela en la que se produjo b. Número de imágenes que corresponden a la evidencia c. Grado escolar al que corresponde d. Género del alumno que respondió el examen o hizo la tarea e. Nivel de rendimiento del alumno, según su maestro f. Medio en que se ubica la escuela (urbano o rural) g. Asignatura: español o matemáticas h. Tipo de evidencia: examen o tarea i. Origen de la evidencia: elaborada por el maestro, comprada… j. Bloque del currículo al que corresponde B. Referentes curriculares a. Presencia del referente curricular b. Referente enfatizado en español o matemáticas 14

c. Meta de aprendizaje del referente curricular d. Meta de aprendizaje prevaleciente en la evidencia (inferida) e. Tipo de preguntas usadas (prevaleciente): de respuesta estructurada, de respuesta abierta corta, de respuesta extendida f. Método de evaluación prevaleciente g. Coherencia entre meta del referente curricular y método prevaleciente h. Coherencia entre meta inferida y método prevaleciente C. Propósito de la evaluación a. Propósito de uso de las evaluaciones de diagnóstico b. Propósito de uso de evaluaciones bimestrales y tareas c. Propósito de uso afectivo D. Instrucciones/Consigna a. Claridad de la instrucción b. Finalidad o propósitos c. Destinatarios d. Incertidumbre e. Restricciones f. Repertorio de metas g. Proceso de trabajo E. Calificación a. Existencia de la calificación b. Claridad de los criterios de calificación c. Ponderación de los criterios de calificación F. Retroalimentación a. Existencia de la retroalimentación b. Tipo de retroalimentación general c. Calidad de la retroalimentación d. Tipo de retroalimentación específica: valorativa, descriptiva u orientadora, devolutiva e. Retroalimentación usada para la modificación de la práctica docente 2.3. El análisis Para cada aspecto (Cfr. Anexo 1) se especificaron los valores que podrían estar presentes en las evidencias; la ficha incluye códigos para facilitar la captura de los resultados del análisis. Varias de las dimensiones anteriores se refieren a aspectos de las prácticas que no se pueden detectar mediante la sola revisión de las evidencias, sino que para caracterizarlos bien se necesitaría información adicional, como la relativa al propósito que perseguía el maestro con cierta evaluación, o a la forma de calificar. Por ello para el análisis que se hizo se elaboró una versión reducida de la ficha, con los aspectos que se podría detectar con base en las evidencias. Los aspectos que se eliminaron fueron los que se destacan en letra cursiva en el listado anterior. De otras dimensiones el análisis de las evidencias puede dar sólo información muy limitada, en particular todos los incisos del apartado D sobre instrucciones/consigna y los tres apartados que no están en letra cursiva del apartado F, sobre retroalimentación. Los analistas fueron dos alumnos del último semestre de psicología que hicieron prácticas profesionales en el proyecto y dos egresadas de la Maestría en Investigación Educativa (MIE), todos previamente capacitados. Las evidencias a analizar se distribuyeron como sigue: 15

Tabla 2. Distribución de evidencias a calificar entre los cuatro analistas Asignatura

Conjunto/Calificador Exámenes Calificador 1

Español

Calificador 2

Calificador 3

Matemáticas

Calificador 4

Evidencias Una sola imagen Dos o más imágenes

Tareas Exámenes repetidos Una sola imagen de conjunto 2 Dos o más imágenes Tareas repetidas de conjunto 2 Total de evidencias a analizar Exámenes Una sola imagen Dos o más imágenes Tareas Exámenes repetidos Una sola imagen de conjunto 1 Dos o más imágenes Tareas repetidas de conjunto 1 Total de evidencias a analizar Una sola imagen Exámenes Dos o más imágenes Tareas Exámenes repetidos Una sola imagen de conjunto 4 Dos o más imágenes Tareas repetidas de conjunto 4 Total de evidencias a analizar Exámenes Una sola imagen Dos o más imágenes Tareas Exámenes repetidos Una sola imagen de conjunto 3 Dos o más imágenes Tareas repetidas de conjunto 3 Total de evidencias a analizar

27 32 95 10 10 20 194 27 31 95 10 11 20 194 30 25 70 10 10 20 165 29 24 70 11 11 20 165

Fuente: Elaboración propia a partir de la base de datos

El análisis se llevó a cabo por dos parejas de personas: un alumno de psicología y una egresada de la MIE llevaron a cabo el análisis de evidencias de español, mientras a las otras dos correspondió el análisis de las evidencias de matemáticas. El conjunto de las evidencias a analizar se distribuyó entre los integrantes de cada pareja de analistas, de tal manera que para la asignatura de español 81 de las evidencias (41 exámenes y 40 tareas) fueron revisadas por dos personas mientras que para la asignatura de matemáticas 82 de las evidencias (42 exámenes y 40 tareas) por los dos calificadores de esta asignatura, el resto de las evidencias de ambas asignaturas solo fueron analizadas por uno de los calificadores. Lo anterior se hizo para poder verificar la consistencia de la calificación de cada una según los diferentes aspectos considerados en el marco analítico. Para ello se calcularon los coeficientes de correlación entre calificadores. En la Tabla 3 se muestran los resultados de un análisis elemental de consistencia entre calificadores.

16

Tabla 3. Consistencia de resultados entre calificadores Dimensión

Referentes curriculares

Instrucción*

Calificación

Retroalimentación

Aspectos Meta de aprendizaje Tipo de preguntas Método de evaluación Coherencia Claridad Finalidad destinatarios Incertidumbre Restricciones Repertorio de metas Proceso de trabajo Existencia Existencia Tipo general Valorativa Descriptiva Devolutiva Especifica

Total (n=139) 0.461 0.547 0.489 0.199 0.658 0.473 0.631 0.658 0.577

Español (n=67) 0.527 0.740 0.687 0.188 0.682 0.300 0.631 0.677 0.467

0.716 0.249 0.224 0.556 0.595 0.512 0.757 0.665

0.767 0.064 0.464 0.624 0.619 0.556 0.737 0.644

Matemáticas (n=72) 0.389 0.345 0.314 0.257 0.635 0.540 0.460 0.613 0.672 0.593 0.236 0.305 0.431 0.568 0.463 0.695

* Para esta dimensión sólo se tomaron en cuenta las evidencias de tareas Fuente: Elaboración propia a partir de la base de datos

Las cifras resaltadas en letra negrita se refieren a los aspectos en los que hubo mayor consistencia entre calificadores, con cifras que rondan el 0.7, en tanto que las resaltadas en letra cursiva son las más bajas, con cifras de menos de 0.1 a 0.3. En general la consistencia entre los calificadores de las evidencias de español fue más alta que entre los calificadores de evidencias de matemáticas. Lo anterior puede deberse a la menor claridad que se tienen sobre los estándares usados en matemáticas, así como a que las evidencias en español en general muestran mayor información sobre instrucción y complejidad de las tareas. Los aspectos que mostraron menor consistencia fueron los relacionados con la coherencia entre la meta y el método de evaluación inferido por los calificadores, el proceso de trabajo de las tareas y la existencia de la calificación, lo cual se debió, según los calificadores a no tener más información acerca de las evidencias en estos aspectos. Para rediseñar el instrumento usado para el análisis de evidencias convendrá tomar como ejemplos las que ya se han analizado para identificar palabras clave o elementos de los estándares de matemáticas que sean mejores indicadores de las dimensiones que se quiere estudiar, con lo que podría esperarse mayor precisión por parte de los calificadores a la hora de inferir las metas de aprendizaje que corresponden a cada evidencia.

17

3. Resultados Los profesores que facilitaron las evidencias trabajaban mayoritariamente en escuelas urbanas: 80.3% en este medio y 19.7% en el rural. El 52.5% de las evidencias corresponde a español y el 47.5% a matemáticas. Poco más de la mitad (51.2%) son tareas que los maestros asignan a los alumnos y poco menos de la mitad (48.8%) corresponden a exámenes aplicados por los profesores. Del total, 173 corresponden a segundo grado, 114 a quinto y 170 a sexto de primaria. La proporción de trabajos de niños y niñas es cercana a la mitad, y también alrededor de la mitad correspondía a alumnos que, a juicio de los profesores, tenían un nivel de rendimiento sobresaliente en el grupo. 3.1. Referente curricular, instrucciones, calificación y retroalimentación Las tablas 4 a 10 presentan datos de los aspectos de los que hay menos información: presencia de referente curricular; de las instrucciones para responder exámenes o elaborar tareas; de la forma de calificar unos y otras; y de la retroalimentación que se ofrece a los alumnos sobre sus resultados. Tabla 4. Caracterización del referente curricular de las evidencias Caracterización del referente Explícito y claro Explícito y confuso Total No explícito Explícito y claro Español Explícito y confuso No explícito Explícito y claro Matemáticas Explícito y confuso No explícito Evidencias

Total Número % 2 0.4 12 2.6 439 96.9 2 0.8 12 5 226 94.2 --------213 100

Exámenes Tareas Número % Número % ----2 0.9 1 0.4 11 4.7 218 97.8 221 94.4 2 1.8 0.8 1 11 9.6 99.2 125 101 88.6 ----------------93 100 120 100

Fuente: Elaboración propia a partir de la base de datos

En la tabla 4 se aprecia que ninguna evidencia de matemáticas tenía explicito el referente a evaluar. Algo similar se observó en las evidencias de español: muy pocas presentan el referente curricular, aunque un examen lo tenía, pero planteado confusamente. Algo mejor es la situación de las tareas: en 13 casos (11.4%) se encontró un referente, en 11 este es confuso y en dos explícito y claro. Tabla 5. Caracterización de las instrucciones que se dan a los alumnos Total Caracterización de las instrucciones Número % No existen 156 35.1 Incomprensibles 17 3.8 Total Comprensibles sin especificar 238 53.5 Comprensibles específicas 34 7.6 No existen 88 36.7 Incomprensibles 7 2.9 Español Comprensibles sin especificar 142 59.2 Comprensibles específicas 3 1.3 No existen 68 33.2 Incomprensibles 10 4.9 Matemáticas Comprensibles sin especificar 96 46.8 Comprensibles específicas 31 15.1 Evidencias

Fuente: Elaboración propia a partir de la base de datos 18

Exámenes Tareas Número % Número % 23 10.5 133 58.8 7 3.2 10 4.4 163 74.4 75 33.2 26 11.9 8 3.5 13 10.3 75 65.8 5 4.0 2 1.8 106 84.1 36 31.6 2 1.6 1 0.9 10 10.8 58 51.8 2 2.2 8 7.1 57 61.3 39 34.8 24 25.8 7 6.3

La Tabla 5 muestra que hay pocas evidencias con instrucciones comprensibles y específicas. La situación más frecuente fue la de instrucciones comprensibles no específicas. En una proporción considerable las instrucciones no existen o son incomprensibles, situación más marcada en las tareas, aunque no habría que perder de vista que el profesor puede dar instrucciones verbales o escribirlas en el pizarrón, y por ello éstas no aparecen en las evidencias. Por otro lado el maestro no necesita dar instrucciones para exámenes comprados pues éstos las incluyen. Tabla 6. Caracterización de la calificación Evidencias Total Español Matemáticas

Total Caracterización de la calificación Número % Existe 195 42.7 No existe 253 55.4 Existe 85 35.4 No existe 155 64.6 Existe 110 52.9 No existe 98 47.1

Exámenes Número % 97 44.3 122 55.7 51 40.5 75 59.5 46 49.5 47 50.5

Tareas Número % 98 42.8 131 57.2 34 29.8 80 70.2 64 49.5 51 50.5

Fuente: Elaboración propia a partir de la base de datos

En cuanto a calificación, la Tabla 6 muestra que en más de la mitad de los casos no se encuentra en las evidencias, destacando el caso de las tareas de español, en que la cifra llega al 70 por ciento. De nuevo es posible que el profesor califique exámenes y/o tareas sin plasmar la calificación en las evidencias recopiladas, aunque parece menos probable que el caso de las instrucciones. La misma observación se aplica a los criterios de calificación, ausentes en casi todos los casos, lo que era esperable y muestra una limitación de la estrategia de obtención de información (Tabla 7). Tabla 7. Caracterización de los criterios de calificación del total de las evidencias Caracterización de los criterios No existen criterios de calificación Se enuncian criterios de calificación Se enuncian criterios de calificación y cómo se espera que se lleven a cabo

Número 443 1

% 99.1 0.2

3

0.7

Fuente: Elaboración propia a partir de la base de datos

Por lo que se refiere a la retroalimentación que se ofrece a los alumnos, la Tabla 8 indica que no se encuentra en las evidencias revisadas en una proporción que va del 18 por ciento (en tareas de matemáticas) al 25 por ciento (en español), pero nuevamente es posible que los docentes den retroalimentación sin que esto se plasme en evidencias textuales como las recogidas. Tabla 8. Caracterización de la retroalimentación que se ofrece en las evidencias Evidencias Total Español Matemáticas

Total Caracterización de retroalimentación Número % Existe 354 78.8 No existe 95 21.2 Existe 183 76.6 No existe 56 23.4 Existe 171 81.4 No existe 39 18.6

Fuente: Elaboración propia a partir de la base de datos 19

Exámenes Número 174 44 98 27 85 29

% 79.8 20.2 78.4 21.6 74.6 25.4

Tareas Número 180 51 76 17 95 22

% 77.9 22.1 74.6 25.4 79.2 18.3

A pesar de que el porcentaje de evidencias que no tienen retroalimentación es bajo (una de cada cuatro) la calidad o el tipo de retroalimentación encontrada en las evidencias es del tipo valorativo (ver tabla 9) en un 98.6%. Existe una gran tendencia a encontrar solo retroalimentaciones que se limitan a marcar aciertos y errores, marcar con algún sello, dar una calificación sin significado y marcar las tareas con frases de aliento o desaliento a los alumnos (bien hecho, sigue así, esfuérzate más, etc.) (ver tabla 10). En el total de las evidencias sólo se encontraron cinco de ellas con retroalimentación descriptiva en donde se explicaba al alumno el porqué de los aciertos o errores y el progreso que habían logrado. Tabla 9. Caracterización del tipo de retroalimentación que se ofrece en las evidencias Evidencias

Tipo de retroalimentación Valorativa

Total

Descriptiva-orientadora Devolutiva Valorativa

Español

Descriptiva-orientadora Devolutiva Valorativa

Matemáticas

Descriptiva-orientadora Devolutiva

Total Número % 345 98.6 5 1.4 176 97.2 5 2.8 169 100 -

Exámenes Número 169 1 95 1 74 -

% 99.4 0.6 99.0 1.0 100 -

Tareas Número 176 4 81 4 95 -

% 97.8 2.2 95.3 4.7 100 -

Fuente: Elaboración propia a partir de la base de datos

Tabla 10. Caracterización del tipo de retroalimentación-valorativa que se ofrece en las evidencias Evidencias

Total

Español

Matemáticas

Total Retroalimentación valorativa Número % Aciertos y errores 208 62.7 Sellos-marcas-calif. 99 29.8 Frases aliento-desaliento 25 7.5 Aciertos y errores 84 51.5 Sellos-marcas-calif. 71 43.6 Frases aliento-desaliento 8 4.9 Aciertos y errores 124 73.4 Sellos-marcas-calif. 28 16.6 Frases aliento-desaliento 17 10.1

Fuente: Elaboración propia a partir de la base de datos

20

Exámenes Número 129 27 4 60 26 69 1 4

% 80.6 16.9 2.5 69.8 30.2 93.2 1.4 5.4

Tareas Número 79 72 21 24 45 8 55 27 13

% 45.9 41.9 12.2 31.2 58.4 10.4 57.9 28.4 13.7

3.2. Tipo de preguntas utilizadas Es evidente que la presencia de preguntas que requieran una respuesta extendida es muy reducida, en comparación con las que implican escoger entre opciones previamente estructuradas, que son mayoritarias en los exámenes, y las que suponen una respuesta corta, que prevalecen en las tareas. Tabla 11. Caracterización de preguntas usadas en las evidencias Evidencias Total

Español

Matemáticas

Caracterización de preguntas Respuesta estructurada Respuesta abierta corta Respuesta extendida Respuesta estructurada Respuesta abierta corta Respuesta extendida Respuesta estructurada Respuesta abierta corta Respuesta extendida

Total Número 249 169 33 144 64 32 105 105 1

% 55.2 37.5 7.3 60 26.7 13.3 49.8 49.8 0.5

Exámenes Número % 187 83.9 36 16.1 0 0 115 91.3 11 8.7 0 0 72 74.2 25 25.8 0 0

Tareas Número % 62 27.2 133 58.3 33 14.5 29 25.4 53 46.5 32 28.1 33 28.9 80 70.2 1 0.9

Fuente: Elaboración propia a partir de la base de datos

Las tablas 12, 13 y 14 precisan el tipo de respuesta que suponen las preguntas de cada uno de los tipos anteriores. Por lo que se refiere a las preguntas de respuesta estructurada, la Tabla 10 muestra que en los exámenes predominan abrumadoramente las que tienen respuestas de opción múltiple, mientras que en las tareas la mayoría requieren respuestas de completar, aunque también es importante la proporción de preguntas con respuestas de relacionar columnas y de opción múltiple. En cuanto a las preguntas que implican respuestas abiertas cortas, la Tabla 11 pone en evidencia que en matemáticas casi todas las preguntas admiten una sola respuesta correcta, tanto en exámenes como en tareas, mientras que en las tareas de español algo más de la mitad de las preguntas admiten más de una respuesta, e incluso en los exámenes esta situación está presente en más de una tercera parte de los casos. Y en cuanto a preguntas que requieren una respuesta extendida, en la Tabla 12 puede apreciarse que prácticamente siempre están ausentes los criterios de evaluación, y que incluso se encuentra algún caso en el que en realidad lo que se requiere es una respuesta corta. Tabla 12. Caracterización de las respuestas a preguntas de respuesta estructurada Caracterización de respuestas Relacionar columnas Falso/verdadero Total Completar Opción múltiple Relacionar columnas Falso/verdadero Español Completar Opción múltiple Relacionar columnas Falso/verdadero Matemáticas Completar Opción múltiple Evidencias

Total Número % 15 6.0 2 6.9 47 19.0 184 74.2 8 5.6 2 1.4 22 15.4 111 77.6 7 6.7 0 0 25 23.8 73 69.5

Fuente: Elaboración propia a partir de la base de datos 21

Exámenes Tareas Número % Número % 0 0 15 24.6 2 1.1 0 0 19 10.2 28 45.9 166 88.8 18 29.5 0 0 8 28.6 2 1.7 0 0 11 9.6 11 39.3 102 88.7 9 32.1 0 0 7 21.2 0 0 0 0 8 11.1 17 51.5 64 88.9 9 27.3

Tabla 13. Caracterización de las respuestas a preguntas de respuesta abierta corta Caracterización del referente Implícita en pregunta Total Solo una respuesta Más de una respuesta Implícita en pregunta Solo una respuesta Español Más de una respuesta Implícita en pregunta Matemáticas Solo una respuesta Más de una respuesta Evidencias

Total Número % 11 6.5 122 72.2 36 21.3 9 14.1 21 32.8 34 53.1 2 1.9 101 96.2 2 1.9

Exámenes Número % 3 8.3 29 80.6 4 11.1 2 18.2 5 45.5 4 36.4 1 4.0 24 96 -----

Tareas Número % 8 6.0 93 69.9 32 24.1 7 13.2 16 30.2 30 56.6 1 1.3 77 96.3 2 2.5

Fuente: Elaboración propia a partir de la base de datos

Tabla 14. Caracterización de las respuestas a preguntas de respuesta extendida Caracterización del referente Con criterios de evaluación Total Sin criterios de evaluación Solo respuesta corta Con criterios de evaluación Sin criterios de evaluación Español Solo respuesta corta Con criterios de evaluación Matemáticas Sin criterios de evaluación Solo respuesta corta Evidencias

Total Número % ----32 97 1 3 ----31 96.9 1 3.1 ----1 100 -----

Exámenes Número % -------------------------------------

Tareas Número % ----32 97 1 3 ----31 96.9 1 3.1 ----1 100 -----

Fuente: Elaboración propia a partir de la base de datos

3.3. Proceso de trabajo implicado A partir de las tablas anteriores es posible inferir, con fundamento razonable, que la mayoría de las preguntas de las evidencias revisadas, especialmente las de los exámenes, difícilmente podrán referirse a metas de aprendizaje que impliquen una demanda cognitiva alta, ya que se prestan más para evaluar habilidades de baja complejidad, como memorización y mecanización. También parece razonable la presencia un poco menos marcada de preguntas de respuesta estructurada en las tareas que se asignan a los alumnos para que las hagan en casa o en el aula misma, en particular preguntas con respuestas de opción múltiple, falso/verdadero, relacionar columnas y completar, esto si se tiene en cuenta la considerable dificultad de diseñar tareas que incluyan preguntas cerradas de ese tipo. La Tabla 15 aporta información adicional que complementa lo anterior, al presentar la cantidad de evidencias cuya realización supone un proceso relativamente breve y, presumiblemente, simple, puesto que deben hacerse en una sola ocasión con un tiempo limitado. La presencia de evidencias que supongan un proceso más prolongado, con diversos momentos, es completamente marginal, incluso sin el requerimiento adicional de entregas parciales. En forma esperable, la situación es un poco menos marcada en español, y en las tareas.

22

Tabla 15. Caracterización del proceso de trabajo implicado Caracterización del proceso

Evidencias

Total

Español

Matemáticas

Una ocasión con tiempo limitado Diferentes momentos sin entregas parciales Una ocasión con tiempo limitado Diferentes momentos sin entregas parciales Una ocasión con tiempo limitado Diferentes momentos sin entregas parciales

Total

Exámenes

Tareas

Número

%

Número

%

Número

%

383

97

218

99.1

165

94.3

12

3.0

2

0.9

10

5.7

231

96.3

126

100

105

92.1

9

3.8

0

0

9

7.9

152

98.1

92

97.9

60

98.4

3

1.9

2

2.1

1

1.6

Fuente: Elaboración propia a partir de la base de datos

3.4. Nivel de demanda cognitiva y autenticidad Llegamos así al punto más importante del análisis: el que se refiere a la complejidad de la meta de aprendizaje a la que se refieren las evidencias, en términos de la demanda cognitiva que implica responder las preguntas correspondientes. Debe reiterarse que se trata de la complejidad de la meta de aprendizaje inferida a partir de la revisión de las evidencias mismas, y no de la que pudo tener en mente el docente al diseñar o seleccionar la actividad de evaluación de que se trate. La Tabla 16 presenta las conclusiones del análisis de las evidencias revisadas en el sentido mencionado. Tabla 16. Caracterización de la complejidad cognitiva de la meta de aprendizaje inferida Evidencias

Caracterización de la meta

Mecanización Conocimiento Razonamiento Total Habilidad de desempeño Habilidad p/crear productos Mecanización Conocimiento Español Razonamiento Habilidad de desempeño Habilidad p/crear productos Mecanización Conocimiento Matemáticas Razonamiento Habilidad de desempeño Habilidad p/crear productos

Total Número % 261 57.6 166 36.6 18 4.0 2 0.4 6 1.3 123 51.3 93 38.8 17 7.1 1 0.4 6 2.5 138 63.6 73 33.6 1 0.5 1 0.5 -----

Exámenes Tareas Número % Número % 143 64.1 118 50.4 75 33.6 91 38.9 5 2.2 13 5.7 ----2 0.9 ----6 2.6 84 66.7 39 34.2 38 30.2 55 48.2 4 3.2 13 11.4 ----1 0.9 ----6 5.3 59 60.8 79 68.1 37 38.1 36 31 1 1.0 --------1 0.9 ---------

Fuente: Elaboración propia a partir de la base de datos

En una gran mayoría, las evidencias tienen un nivel de complejidad bajo: las tareas asignadas y los exámenes aplicados a los alumnos demandan el ejercicio de actividades simples o repetitivas, que en el esquema utilizado corresponden a las categorías “mecanización” y “conocimiento”. 23

Lo anterior se presenta tanto en español como en matemáticas. Sólo se pide a los alumnos acciones como nombrar, enlistar, elegir y seleccionar. En matemáticas la proporción de evidencias que plantean sólo actividades de mecanización ronda los dos tercios, tanto en exámenes como en tareas. El tercio restante consiste en actividades algo más complejas, de conocimiento. El caso de las tareas de español es el único en que la mayoría de las evidencias piden el nivel de conocimiento, con cerca del 50% que esperan que los alumnos describan o expliquen algún tema. De las 457 evidencias sólo se hallaron 18 (17 de español, una de matemáticas) en los que los niveles de complejidad demandados llegaron a ser de razonamiento; dos tareas más, una de español y otra de matemáticas, requerían habilidades de desempeño y seis tareas de español habilidades para crear productos. En síntesis, sólo cuatro por ciento de las tareas y exámenes revisados piden a los alumnos realizar actividades en donde lleven a cabo análisis, síntesis, deducción o justificación. La tabla 17 refina al análisis anterior, presentando los resultados por grado escolar. Tabla 17. Caracterización de la complejidad cognitiva de la meta de aprendizaje por grados Grado

Evidencias

Total Número % 132 76.3 40 23.1 1 0.6 60 65.9 30 33.0 1 1.1 72 87.8 10 12.2 48 42.1 57 50.0 5 4.4 3 2.7 18 31.0 32 55.2 5 8.6 3 5.2 30 54.5 25 45.5 81 48.5 69 41.3 12 7.2 2 1.2 3 1.8 45 49.5 31 34.1 11 12.1 1 1.1 3 3.3 36 45.6 38 48.1 1 1.3 1 1.3

Caracterización de la meta

Mecanización Conocimiento Razonamiento Mecanización Español Conocimiento Razonamiento Mecanización Matemáticas Conocimiento Mecanización Conocimiento Total Razonamiento Habilidad p/crear productos Mecanización Conocimiento Español Razonamiento Habilidad p/crear productos Mecanización Matemáticas Conocimiento Mecanización Conocimiento Total Razonamiento Habilidad de desempeño Habilidad p/crear productos Mecanización Conocimiento Español Razonamiento Habilidad de desempeño Habilidad p/crear productos Mecanización Conocimiento Matemáticas Razonamiento Habilidad de desempeño Total

2°

5°

6°

Fuente: Elaboración propia a partir de la base de datos 24

Exámenes Tareas Número % Número % 67 76.1 65 76.5 21 23.9 19 22.4 1 1.2 37 75.5 23 54.8 12 24.5 18 42.9 1 2.4 30 76.9 42 97.7 9 23.1 1 2.3 21 44.7 27 40.3 24 51.1 33 49.3 2 4.3 3 4.5 3 4.5 11 39.3 7 23.3 15 53.6 17 56.7 2 7.1 3 10.0 3 10.0 10 52.6 20 55.6 9 47.4 16 44.4 55 62.5 26 31.7 30 34.1 39 47.6 3 3.4 9 11.0 2 2.4 3 3.7 36 73.5 9 21.4 11 22.4 20 47.6 2 4.1 9 21.4 1 2.4 3 7.1 19 48.7 17 45.9 19 48.7 19 51.4 1 2.6 1 2.7

Por lo que se refiere a exámenes, en la tabla anterior se puede apreciar que las preguntas que sólo implicaban mecanización o conocimiento sumaron 100% en segundo grado, tanto en español como en matemáticas. En quinto la proporción siguió siendo de 100% en matemáticas y en español bajó a 93%; y en sexto grado en español fue de 96% y en matemáticas de 97%, es decir, en los tres grados prácticamente la totalidad de los exámenes analizados correspondían a estos niveles. En cuanto a las tareas, en matemáticas la proporción de preguntas de baja demanda cognitiva fue de 100% tanto en segundo como en quinto, y en sexto fue de 97%. Una situación mejor aparece en el caso de las tareas de español, campo formativo en el que en segundo grado las preguntas de baja demanda cognitiva representaron un 97%, proporción que bajó a 80% en quinto y a 69% en sexto. Si bien mecanización y conocimiento son actividades necesarias como base para el desarrollo de otras más complejas, y es normal que su presencia sea mayoritaria en los primeros grados del trayecto escolar, la permanencia casi exclusiva de preguntas que no pasan de esos niveles en los últimos grados de la primaria, en especial en matemáticas, parece preocupante. El análisis de las evidencias disponibles comprendió un aspecto más, que amplía el anterior, en relación únicamente con las tareas, tanto de español como de matemáticas. Las tareas se prestan más que los exámenes para que se pida la realización de actividades de mayor complejidad, que supongan más tiempo y comprendan varios aspectos, aunque esto no parece ser frecuente de acuerdo con el análisis del proceso implicado para la realización de los trabajos reflejados en las evidencias analizadas, según se pudo ver en la Tabla 15. El currículo de la primaria mexicana contempla este tipo de tareas complejas con el concepto de proyectos, en el campo formativo de lengua y comunicación. Un concepto que apunta en la misma dirección es el de tareas auténticas. Una tarea auténtica se asemeja a un problema real, en contraposición a una tarea artificial, que sólo puede darse en un contexto escolar. De acuerdo con la conceptualización de Wiggins, los rasgos que distinguen las tareas auténticas incluyen que tienen un propósito claro, se ubican en un contexto real, con destinatarios más allá del maestro, presentan elementos de incertidumbre y tienen restricciones, pero tienen más de una solución aceptable, y para su solución es necesario poner en juego habilidades de diversa complejidad, ya que incluyen un repertorio variado de metas de aprendizaje, también de diferente nivel. (Wiggins, 1998: 23-24) La Tabla 18 presenta los resultados del análisis relativo a la presencia de rasgos de autenticidad en las tareas de español y matemáticas revisadas. Tabla 18. Caracterización de la autenticidad de las tareas (n = 226) Aspecto

Caracterización No existe Finalidad o Se menciona propósito Se describe Escolar Contexto Semi-escolar Real Incluye datos necesarios Incertidumbre No incluye todos los datos Enfrenta al alumno Una solución Restricciones Alternativas de solución Mecanización Repertorio de metas de Conocimiento-Razonamiento aprendizaje Desempeño-Producción

Total 150 72 4 174 51 2 149 47 30 167 59 120 92 15

Fuente: Elaboración propia a partir de la base de datos 25

66.4 31.9 1.8 76.7 22.5 0.9 65.9 20.8 13.3 73.9 26.1 52.9 40.5 6.6

Español 84 27 2 73 38 2 54 33 26 72 41 43 56 14

74.3 23.9 1.8 64.6 33.6 1.8 47.8 29.2 23 63.7 36.3 38.1 49.6 12.4

Matemáticas 66 45 2 101 13 --95 14 4 95 18 77 36 1

58.4 39.8 1.8 88.6 11.4 --84.1 12.4 3.5 84.1 15.9 67.5 31.6 0.9

Salta a la vista que las tareas analizadas tienen muy pocos rasgos de autenticidad. En la mayoría de los casos el propósito no es explícito, y en casi todos los restantes simplemente se menciona, pero sólo se describe en cuatro casos, dos en español y otros tantos en matemáticas. El contexto casi nunca es real: es masivamente escolar en matemáticas, y en español lo es también en dos terceras partes de los casos, y semi-escolar en la tercera parte restante. Las tareas presentan poca incertidumbre, y mayoritariamente sólo admiten una solución. Y, coincidiendo con lo ya observado anteriormente, implican sobre todo mecanización en el caso de matemáticas, y mecanización o conocimiento en el de español. Metas de nivel alto son escasas en español y prácticamente inexistentes en matemáticas. 3.5. Congruencia entre enseñanza y evaluación Tras todo lo anterior es posible un último análisis de las evidencias disponibles, que se refiere directamente a la hipótesis a la que se llegó al final del diagnóstico de las prácticas de evaluación de maestros de primaria de Nuevo León, en el sentido de que parecería haber congruencia entre las prácticas de evaluación y las de enseñanza de los docentes, pero en tanto unas y otras se refieren a propósitos de aprendizaje de bajo nivel de complejidad o de demanda cognitiva. Primeramente se volvieron a caracterizar todas las evidencias, siguiendo ahora la tipología de métodos de evaluación de Stiggins et al. (2007: 100), con categorías ligeramente diferentes a las utilizadas antes sobre el tipo de preguntas y respuestas que se mostraron en las tablas 11 a 14. Allí se pudo ver que en poco más de la mitad de los casos se usan métodos de selección de respuestas (respuesta estructurada). La nueva caracterización confirmó que ocho de cada 10 exámenes usan ese método de evaluación, mientras el resto sólo permiten al alumno dar una respuesta corta única. También se confirma que el método de respuesta corta es más usado en las tareas que los profesores asignan, en comparación con los exámenes. Tabla 19. Caracterización del método de evaluación prevaleciente Caracterización del referente Selección de respuesta Respuesta abierta corta Totales Evaluación de desempeño Comunicación personal Selección de respuesta Respuesta abierta corta Español Evaluación de desempeño Comunicación personal Selección de respuesta Matemáticas Respuesta abierta corta Evaluación de desempeño Evidencias

Total Número % 236 52.4 201 44.7 13 2.9 ----132 55.2 94 39.3 13 5.4 ----104 49.3 107 50.7 -----

Exámenes Tareas Número % Número % 181 81.5 55 24.1 41 18.5 160 70.2 ----13 5.7 --------109 87.2 23 20.2 16 12.8 78 68.4 ----13 11.4 --------72 74.2 28.1 32 25 25.8 71.9 82 ---------

Fuente: Elaboración propia a partir de la base de datos

La Tabla 20 presenta el último análisis, a partir de un complemento del marco analítico utilizado, que se puede ver en el Anexo 2, basado en Stiggins et al. (2007). El anexo consiste en una tabla de dos dimensiones: cada columna se refiere a uno de cuatro métodos de evaluación (preguntas de respuesta estructurada, preguntas de respuesta abierta, evaluaciones de desempeño o ejecución y preguntas formuladas oralmente, en una interacción del maestro con los alumnos), y cada renglón a uno de cinco tipos de metas de aprendizaje (mecanización, conocimiento, razonamiento, habilidad de desempeño y habilidad de crear productos).

26

En cada casilla de la tabla se señala qué tan adecuado es, en principio, el método de la columna con la meta del renglón correspondiente. Se precisa “en principio” porque teóricamente es posible pensar en buenas preguntas de cualquier tipo para evaluar metas de aprendizaje de cualquier nivel, pero en la práctica unos métodos son sin duda más apropiados para metas de cierto nivel. Los resultados de este último análisis se muestran en la Tabla siguiente. Tabla 20. Caracterización de la coherencia entre meta de aprendizaje y método de evaluación Evidencias

Total

Español

Matemáticas

Caracterización de la coherencia Muy buena opción Buena opción Opción aceptable Mala opción Muy buena opción Buena opción Opción aceptable Mala opción Muy buena opción Buena opción Opción aceptable Mala opción

Total Número 267 80 96 7 162 49 22 6 105 31 74 1

Exámenes % 59.3 17.8 21.3 1.6 67.8 20.5 9.2 2.5 49.8 14.7 35.1 0.5

Número 182 11 29 0 109 8 8 0 73 3 21 0

Tareas

% Número % 82 85 37.3 5.0 69 30.3 13.1 67 29.4 0 7 3.1 87.2 53 46.5 6.4 41 36 6.4 14 12.3 0 6 5.3 75.3 32 28.1 3.1 28 24.6 21.6 53 46.5 0 1 0.9

Fuente: Elaboración propia a partir de la base de datos

En los exámenes el método de evaluación usado en la mayoría de las evidencias es una opción muy buena en relación con el nivel cognitivo de la meta de aprendizaje: en 87.2% de los exámenes de español y en 75.3% de los de matemáticas se da esa combinación. En español el resto se divide por igual en opciones buenas y aceptables, y en matemáticas el segundo lugar lo ocupan las opciones aceptables. En ninguna de las asignaturas hay casos de malas opciones, pero dado que se trata de metas de aprendizaje inferidas esto parece lógico. También puede explicarse porque en los hechos haya congruencia entre enseñanza y evaluación, con énfasis en metas de aprendizaje de bajo nivel cognitivo, según la hipótesis apuntada. En las tareas la situación es algo diferente, pero nuevamente en español las opciones muy buena y buena suman 82.5% y en matemáticas esas dos opciones acumulan 52.7% de los casos, con 46.5% más de opciones aceptables. En síntesis, la congruencia entre métodos de evaluación y tipo de metas de aprendizaje en cuanto a nivel de demanda cognitiva es alta. Los elementos anteriores del análisis que se ha presentado permiten afirmar que la congruencia se da porque tanto las metas de aprendizaje como los métodos de evaluación se refieren a actividades que suponen bajos niveles de demanda cognitiva. Conclusiones Hay conclusiones sustantivas, sobre las prácticas de evaluación mismas, y otras metodológicas, sobre las lecciones aprendidas sobre los acercamientos al estudio de un fenómeno tan complejo. En lo sustantivo, con las limitaciones a las que se hará referencia, podemos afirmar que las prácticas de evaluación de los profesores de Nuevo León distan mucho de tener un componente formativo importante. Las opiniones más optimistas que los docentes mismos expresan en cuestionarios y entrevistas no deben entenderse, sin embargo, como intentos conscientes por dar información falsa, sino como un reflejo de comprensiones superficiales del sentido real de la evaluación formativa.

27

El hallazgo más importante al que llegamos al explorar las prácticas en una forma que ofrece una visión algo más amplia que los cuestionarios y las entrevistas aplicados a los maestros y, en algunos casos, a sus alumnos, concretamente mediante el análisis de exámenes aplicados por los docentes y tareas asignadas por ellos a sus alumnos, encuentra en particular que los maestros utilizan en forma masiva exámenes integrados básicamente por preguntas de respuesta estructurada, que implican operaciones de baja demanda cognitiva, y que asignan tareas que en general, aunque en un grado algo menor al de los exámenes, implican también solamente memorización o tareas repetitivas y mecánicas. Asimismo, encontramos un grado de congruencia bastante alto entre los métodos de evaluación utilizados y las metas de aprendizaje inferidas, que en ambos casos corresponden a niveles de demanda cognitiva bajos. Otros hallazgos particulares, que resultan lógicos a partir de lo anterior, son que:  Las consignas se reducen por lo general a indicaciones elementales sobre la forma de responder, pero carecen por completo, en casi todos los casos, de rasgos de autenticidad.  La calificación de exámenes y tareas privilegia el conteo de aciertos y errores, sin referencia a estándares de desempeño precisos, y suele mezclar aspectos de naturaleza ajena al dominio de los contenidos del currículo, como conducta, limpieza o puntualidad.  La verdadera devolución a los alumnos de los resultados de las evaluaciones, en el sentido de retroalimentación que indique con precisión puntos fuertes y débiles, y dé orientaciones útiles para mejorar, es prácticamente inexistente.  La retroalimentación se suele reducir a informar sobre el resultado de la calificación, en la forma de una nota a la que se llegó mediante un proceso que la hace carecer de significado pedagógico, que frecuentemente va acompañada de elogios o amonestaciones, así como de exhortaciones a mejorar sin orientación sobre cómo conseguirlo. La afirmación de que estos hallazgos particulares resultan lógicos se fundamenta señalando que cuando la meta de aprendizaje consiste en que el alumno memorice una serie de datos, o bien realice mecánicamente una serie de operaciones matemáticas, entonces es razonable que la consigna sea muy sencilla, sin rasgos de autenticidad, que la calificación se limite a contar aciertos y errores, y que la retroalimentación se reduzca a informar al estudiante de lo anterior, diciéndole que es necesario que avance más cuando el número de aciertos esté lejos del total posible. Por otra parte, es obvio que el proyecto no permitió estudiar la forma en que los docentes llevan a cabo actividades de evaluación cotidianamente, observando el desempeño de sus alumnos, interrogándolos o poniéndolos a hacer ejercicios cortos, en forma individual o grupal, ni tampoco sobre la manera de dar retroalimentación verbal o de promover la autoevaluación de cada alumno sobre su propio avance, o la co-evaluación entre unos y otros. El acercamiento utilizado no fue suficiente para ello, lo que nos lleva al segundo tipo de conclusiones. Las limitaciones a las que alude el párrafo anterior se refieren al hecho de que la recolección de evidencias consistió únicamente, como se ha explicado ya, en pedir a los maestros entrevistados en Nuevo León que permitieran fotografiar algunos ejemplos de exámenes aplicados por ellos y de tareas asignadas a sus alumnos, pero no se les interrogó sobre la manera en que elaboraron o seleccionaron dichos exámenes y tareas, la consigna que presentaron a los alumnos al respecto, la forma de calificar o la de retroalimentar a los estudiantes. Esta fue, obviamente, una deficiencia que deberá corregirse en trabajos posteriores, acompañando la recolección de evidencias de evaluación con instrumentos apropiados para explorar las dimensiones de las prácticas que no se pueden detectar simplemente con el análisis de los documentos, sino que requieren información adicional que es necesario solicitar expresamente al maestro.

28

Referencias Carter, K. (1984). Do teachers understand the principles for writing test? Journal of Teacher Education 35 (6): 57-60. Correnti, Richard y José Felipe Martínez (2012). Conceptual, Methodological and Policy Issues in the Study of Teaching: Implications for Improving Instructional Practice at Scale. Educational Assessment, Vol. 17, N° 2-3, pp. 51-61. Fleming, M. y B. Chambers (1983). Teacher-made tests: Window on the classroom. En W. E. Hathaway, ed. Testing in the schools. New directions for testing and measurement. San Francisco, Jossey Bass, 19: 29-38. García Medina, A. Moisés et al. (2011). Evaluación de los aprendizajes en el aula. Opiniones y prácticas de docentes de primaria en México. México. Instituto Nacional para la Evaluación de la Educación. Loureiro Denis, Graciela (2009). Evaluación en el aula, currículo y evaluaciones externas. Instituto de Evaluación Educativa, UCU y GTEE-PREAL. Martínez, José Felipe et al. (2012). Measuring Classroom Assessment Practice Using Instructional Artifacts: A Validation Study of the QAS Notebook. Educational Assessment, Vol. 17, N° 2-3, pp. 107-131. Martínez Rizo, Felipe (2012). La evaluación en el aula: Promesas y desafíos de la evaluación formativa. Aguascalientes. Universidad Autónoma de Aguascalientes. Picaroni, Beatriz (2009). La evaluación en las aulas de primaria: usos formativos, calificaciones y comunicación con los padres. Instituto de Evaluación Educativa, UCU y GTEE-PREAL. Ravela, Pedro, B. Picaroni y G. Loureiro (2009). La evaluación de aprendizajes en las aulas de 6° grado en América Latina. Observatorio Regional de Políticas de Evaluación Educativa. Boletín N° 12 (Julio), pp. 1-12. GTEE-PREAL. Reynolds, W, M. y K. A. Menard (1980). An investigation of teachers’ test construction practices. Ponencia presentada en la reunión anual del National Council of Measurement in Education, Boston, Massachusetts. Ruiz, Cuéllar G. y Perez Martínez, G. (en prensa). Creencias y prácticas de evaluación en aula de maestros de educación primaria de Nuevo León. En Ruiz Cuéllar, Guadalupe, ed. La evaluación en el aula: Diagnóstico. Cap. 2. Aguascalientes. Universidad Autónoma de Aguascalientes. Shulman, Lee S. (1980). Test design: A view from practice. En Eva L. Baker y E. S. Quellmalz, eds. Educational Testing and Evaluation. Los Angeles, Sage: 63-73. Stiggins, Richard J., J. Arter, J. Chappuis y S. Chappuis (2007). Classroom Assessment for Student Learning. Doing It Right–Using It Well. Upper Saddle River Pearson-ETS. Stiggins, Richard J. y Nancy F. Conklin, (1992). In teacher’s hands: Investigating the practices of classroom assessment. Albany: State University of New York Press. Thomas, D. S. (1929). Some new techniques for studying social behavior. (Child Development Mongraphs, N° 1). New York, Teachers College, Columbia University. Vidales Delgado, Isamael et al. (2005). Prácticas de evaluación escolar en el nivel de educación primaria en el Estado de Nuevo León. CAEIP. México. Santillana. Wiggins, Grant (1998). Educative assessment: Designing assessments to inform and improve student performance. San Francisco: Jossey-Bass. 29

ANEXO 1. FICHA DE ANÁLISIS PARA EVIDENCIAS. VERSIÓN COMPLETA A. Identificadores. Número de escuela

Total de imágenes que corresponden a la evidencia Código

1. Estado

2. Grado

3. Género

1 2 Código 1º 2º

Exclusivos Ags.

4º

Exclusivos Ags.

5º

Ags- NL

6º Código 1 2

Ags- NL

Código 1 2

5. Medio

Código 1 2

6. Asignatura

Exclusivos Ags. Ags- NL

3º

3 4. Nivel de rendimiento

Valores 001-100 Escuelas Nuevo León 101-118 Escuelas de Aguascalientes

Código 1 2

Hombre Mujer No identificado Sobresaliente Bajo Urbana Rural Español Matemáticas

Código 7. Evidencia

8. Origen de la evidencia

9. Bloque

1 2 Código

Examen Tarea

1 2 3 4 5 Código

Examen/tarea proporcionado por autoridades educativas Examen/tarea comprado a externos (editoriales) Examen/tarea elaborado por el profesor Examen/tarea elaborado en colectivo (el profesor y otros) Examen/tarea tomado de los materiales curriculares

1

1er. Bimestre (agosto-sep.)

2

2do. Bimestre (oct-nov.)

3

3er. Bimestre (dic-enero)

4

4to. Bimestre (feb-marzo)

5

5to. Bimestre (abril-junio) 30

B. Referentes curriculares Código 10. Presencia del Referente curricular

Valores

1

Referente explicito y claro

2

Referente explicito y confuso

3

Referente no explicito

Código

10.1. Referente enfatizado en Español

1 2 3

Competencia Estándar Ámbito

4 5

Aprendizaje esperado Tema de Reflexión

6 7

Proyecto No aplica

Código

10.2. Referente enfatizado en Matemáticas

1 2 3

Competencia Eje Estándar

4 5

Aprendizaje esperado Tema

6 7

Contenidos No aplica

Código

11. Meta de aprendizaje del referente curricular. Ver tabla 1.

Valores

1

Mecanización

2

Conocimiento

3

Razonamiento

4

Habilidad de desempeño

5

Habilidad para crear productos

Código

12. Meta de aprendizaje prevaleciente en la evidencia (inferida)

1

Mecanización

2

Conocimiento

3

Razonamiento

4

Habilidad de desempeño

5

Habilidad para crear productos

31

Tabla 1. Metas de aprendizaje Tipo de meta

Explicación

Estándares de contenido/palabras clave

Mecanización

Se deben aprender algunos conocimientos /hechos/ conceptos momentánea y memorísticamente En matemáticas elaboración de ejercicios repetitivos, sumas, restas, multiplicación , etc.

Nombrar, listar, recordar, memorizar, elegir, seleccionar

Conocimiento

Se deben aprender algunos conocimientos / hechos / conceptos por completo; algunos son recuperados utilizando materiales de referencia. En matemáticas se requiere recordar y llevar acabo formulas como simple ejercicio

Explicar, comprender, describir, identificar, informar, definir, etiquetar, asociar, reconocer

Razonamiento

Habilidades del pensamientoutilizando el conocimiento para resolver problemas, tomar decisiones, planear, etc.

Analizar: componentes, partes, secuencia lógica, pasos, la idea principal, detalles de apoyo, determinar, seccionar, examinar, ordenar. Comparar / contrastar: discriminar entre iguales y diferentes, distinguir entre las similitudes y diferencias, yuxtaponer (asociar o juntar). Sintetizar: combinar, formular, organizar, adaptar, modificar. Clasificar: categorizar, ordenar, agrupar, dar ejemplos Inferir / deducir: interpretar, identificar implicaciones, predecir conclusiones, crear hipótesis, generalizar. Evaluar: justificar, fundamentar una opinión, pensar críticamente, valorar, criticar, debatir, defender, juzgar, probar

Habilidades de Desempeño

Demostración observable, en donde lo que importa es lo que se hace; se utiliza el conocimiento y el razonamiento para realizar una tarea

Habilidad para crear productos

Las características del producto final es lo importante; se utiliza el conocimiento, el razonamiento y habilidades de desempeño para producir el producto final 32

Observar, enfocar la atención, escuchar, realizar, hacer, preguntar, dirigir, trabajar, leer, hablar, ensamblar, operar, utilizar, demostrar, medir, investigar, guiar, simular, recoger, dramatizar, explorar Diseñar, crear, desarrollar, producir, escribir, representar, mostrar, crear un modelo, construir

Código 13. Tipo de preguntas usadas (método)

1 2 3

Valores De respuesta estructurada De respuesta abierta corta De respuesta extendida (tipo ensayo)

Código

13.1 Preguntas de respuesta estructurada

1

Relacionar columnas

2

Falso/verdadero

3

Completar palabras o frases

4

Opción múltiple

99

No aplica

Código 13.2 Preguntas de respuesta abierta corta

1

Las respuestas están implícitas en la pregunta

2

Admiten solo una respuesta correcta

3

Admiten más de una respuesta correcta

99

No aplica

Código 13.3 Preguntas de respuesta extendida

1

Permite respuesta extendida y establece criterios de evaluación

2

Permite respuesta extendida y no establece criterios de evaluación

3

Aparenta ser de respuesta extendida pero solo permite una respuesta corta (si, no, cantidad, hallazgo, etc) No aplica

99 Código 14. Método de evaluación prevaleciente en la evidencia

Valores

1

Selección de respuesta

2

Respuesta abierta por escrito

3

Evaluación del desempeño

4

Comunicación personal Código

15. Coherencia entre meta Referente curricular y método prevaleciente. Tabla 2

16. Coherencia entre meta inferida y método prevaleciente. Tabla 2

1 2 3 4 Código

Valores (++) Combinación fuerte (+) Buena combinación (+-)Buena combinación pero con limitantes especiales (-) Mala combinación

1

(++) Combinación fuerte

2

(+) Buena combinación

3 4

(+-) Combinación aceptable pero con limitantes especiales (-) Mala combinación

33

C. Sobre la evaluación Código

Valores

17. Propósito de uso (Diagnóstico)

1 2 3 Código

18. Propósito de uso (Bimestral y tareas)

1 2 3

Lo realiza solo por requisito admón. para asignar calificación Lo usa para ver progreso de los alumnos y replantear la planeación única Lo usa para ver progreso de los alumnos y replantear planeaciones diversificadas

Código

valores

19. Propósito de uso afectivo

No lo usa para planear, lo realiza solo por requisito admón. Realiza una sola planeación con base en los resultados Realiza planeaciones diversificadas con base en los resultados

1

Elogio

2

Regaño

3

Ninguno de los anteriores

D. Sobre la instrucción (Consigna) Código

20. Claridad de la instrucción

0

No existe instrucción

1

La comunicación es incoherente e incomprensible.

2

Es comprensible, da instrucciones sobre lo que se espera pero sin especificar Es comprensible da instrucciones precisas de lo que se espera y cómo se espera que se lleve a acabo Valores

3 Código 21. Finalidad o propósitos bien definidos, solo para tareas

Valores

0

No se menciona el objetivo ni el producto a elaborar o resolver

1

Se menciona el producto a elaborar o resolver

2

Se describe el producto a elaborar o resolver y el objetivo

3

Se describe el producto a elaborar o resolver, el objetivo y la relación de la actividad con el referente curricular No aplica en caso de exámenes

99 Código 1 22. Destinatarios o audiencia (CONTEXTO), solo para tareas

2 3

99

Contexto escolar. El destinatario es el maestro, el alumno trabaja solamente para él y lleva a cabo una serie de ejercicios o tareas sin sentido real. Contexto semi-escolar. Se tratan de imitar situaciones reales, se enuncian destinatarios reales sin corregir la tarea que no deja de ser ejercicio escolar. Contexto real. Se sitúa en una situación propia dl mundo real en donde el destinatario podría recibir los resultados y opinar sobre ellos. La tarea es adecuada al destinatario. No aplica en caso de exámenes

34

Código 23. Incertidumbre, solo para tareas

1

La tarea tiene todos los datos necesarios y sólo esos, y una única solución

2

La tarea no incluye todos los datos pero solo tiene una solución posible

3

La tarea enfrenta al alumno a una situación en la que debe enfrentar y resolver la tarea que puede tener más de una solución No aplica en caso de exámenes

99 Código 1

99

La tarea considera condiciones que no pueden ser modificadas y tiene una sola solución por lo cuál no permite generar decisiones en los alumnos La tarea considera condiciones no modificables pero permite soluciones alternativas y decidir sobre el camino más adecuado dadas las condiciones No aplica en caso de exámenes

Código 1

La tarea sólo requiere el uso de metas de aprendizaje de mecanización

24. Restricciones, solo para tareas

25. Repertorio de metas de aprendizaje, solo tareas

2

2

La tarea requiere metas de aprendizaje de conocimiento o razonamiento

3

La tarea solicita la elaboración de productos que requieren el uso de metas de aprendizaje de habilidades de desempeño y creación de productos No aplica en caso de exámenes

99 Código 1 2

26. Proceso del trabajo

3

99

La tarea solo se realiza en una ocasión con tiempo limitado sin la oportunidad de elaborar productos parciales, aplica en caso de exámenes La tarea se realiza en diferentes momentos con entregas de productos parciales sin la intervención del profesor La tarea se realiza en diferentes momentos con entregas parciales de productos con la intervención del maestro dando la oportunidad al alumno de ensayar diferentes formas de solución. No aplica

E. Sobre la calificación 27. Calificación

Código

Valores

1

Existe

2

No existe

Código

Valores

28. Claridad de los criterios de calificación

1

No existe criterios de calificación

2 3

Se enuncian criterios de calificación Se enuncian criterios de calificación y cómo se espera que se lleven a cabo

29. Ponderación de los criterios de calificación

Código

valores

1

No existe la ponderación de los criterios

2

Solo se dice cuales criterios tendrán más peso sobre la calificación

3

Se determina claramente el peso que se le dará a cada aspecto o criterio

35

F. Retroalimentación 30. Uso de retroalimentación

31. Tipo de retroalimentación general

32. Calidad de la retroalimentación

Código 1

Existe una retroalimentación

2

No existe retroalimentación (si contesta esta opción poner 99 en las siguientes)

Código 1

Se limita a marcar aciertos y errores

2 3

Los alumnos obtienen una calificación pero sin significado Se reconoce lo que hace falta para mejorar

99

No aplica

Código -2

Retroalimentación proporcionada pero incorrecta

-1

No hay retroalimentación y era necesaria

0

No hay retroalimentación pero no era necesaria

1

Solamente se da un comentario o frase en código o una nota

2

Comentario que provee a los estudiantes dirección, información útil acerca del desempeño actual comparado con lo que se espera Comentarios con información que ayudan al estudiante a construir y reflexionar sobre el conocimiento

3

33.1 Retroalimentación valorativa

33.2 Retroalimentación descriptiva u orientadora

33.3 Retroalimentación Devolutiva

Valores

Código

Valores

1

Indica aciertos y errores sin información adicional

2

Se usan sellos o marcas o da solamente una calificación

3

Se usan frases de aliento o desaliento: excelente trabajo, esfuérzate más, mal trabajo, etc. No aplica

99 Código 1 2 3 99 Código

Se indica el porqué de los aciertos y errores Se indica el progreso que se ha alcanzado Se incluyen frases que explican el desempeño No aplica

1

Se dan indicaciones de cómo mejorar

2 3 4

Se indica el progreso y cómo se pueden alcanzar los objetivos Se pide a los alumnos argumentar y reflexionar sobre sus respuestas Incluye preguntas reflexivas

99

No aplica

36

33. Tipo de retroalimentación especifica

34. Retroalimentación usada para la modificación de la práctica docente

Código 1

Valorativa

2

Descriptiva u orientadora

3

Devolutiva

99

No aplica

Código 0 1

valores No consideraba la idea de reflexionar sobre su propia práctica de enseñanza No usa la evaluación (ni la toma en cuenta) para cambiar su práctica

2

Toma en cuenta los resultados de la evaluación pero no cambia su práctica

3

Toma en cuenta los resultados de la evaluación y cambia su práctica

37

ANEXO 2. RELACIÓN ENTRE METAS DE APRENDIZAJE Y MÉTODO DE EVALUACIÓN Meta a ser evaluada

Método de evaluación Selección de respuesta

Respuesta abierta

Evaluación de desempeño

Interacción verbal

(+-) Opción aceptable cuando se trata de un grupo de estudiantes, pero tiende a consumir tiempo.

(-) Mala opción: consume demasiado tiempo para evaluar todos los temas previstos

(+-) Opción acpetable con grupos de estudiantes pero es una opción que tiende a consumir tiempo.

(+) Opción buena si se trata de verificar la comprensión de las relaciones entre los elementos del conocimiento. (+-) Es una opción aceptable (++) Muy buena opción: la únicamente en la evaluación descripción escrita de soluciones de la comprensión de algunos a problemas complejos puede dar patrones de razonamiento. información para evaluar diversos aspectos de razonamiento. (-) Mala opción. Permite evaluar el dominio de los prerrequisitos del conocimiento necesarios para un desempeño competente, pero no se puede basar sólo en ellos para evaluar la habilidad misma.

(-) Mala opción: consume demasiado tiempo para cubrir todo.

(-) Mala opción. Permite evaluar conocimientos que son prerrequisitos de la habilidad de crear productos de calidad, pero no se puede utilizar para la evaluación de la calidad de los productos mismos.

(++) Muy buena opción. Puede evaluar los atributos del producto mismo.

(+-) Opción aceptable evaluando las respuestas, e infiriendo el dominio—pero esto es una opción que tiende a consumir tiempo. (++) Muy buena opción: permite pedir al estudiante que “piense en voz alta” o que responda a preguntas de seguimiento para sondear su razonamiento. (++) Muy buena opción cuando la habilidad es la comunicación oral; si se trata de otras habilidades no es buena opción. (-) Mala opción.

Mecanización

(++) Opción muy buena si sólo se pretende corroborar memorización y mecanización

Conocimiento

(++) Muy buena opción para evaluar el dominio de metas de nivel conocimiento.

Razonamiento

Habilidades de desempeño o ejecución Habilidad de crear productos

(++) Muy buena opción cuando el producto es escrito. No es buena cuando el producto no es escrito.

38

(++) Muy buena opción, pues permite observar a los alumnos resolver algunos problemas e inferir su nivel de razonamiento. (+) Buena opción. Se pueden observar y evaluar las habilidades a medida que se realizan.