Enseñanza e Investigación en Psicología
Consejo Nacional para la Enseñanza e Investigación en Psicología
[email protected] ISSN: 0185-1594 MÉXICO
2004 Marco Antonio Pulido / Nuria Lanzagorta / Enrique Morán / Alejandra Reyes / Mariana Rubí EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA Enseñanza e Investigación en Psicología, julio-diciembre, año/vol. 9, número 002 Universidad Veracruzana Xalapa, México pp. 321-339
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA Effect of signals in delayed reinforcement schedules: A contemporary review Marco Antonio Pulido, Nuria Lanzagorta, Enrique Morán, Alejandra Reyes y Mariana Rubí Universidad Intercontinental1
RESUMEN Diversos estudios han demostrado que los efectos decrementales de separar la respuesta procuradora del reforzador pueden diluirse si una señal exteroceptiva ocurre durante el intervalo de demora. En este trabajo se presenta una revisión de experimentos contemporáneos, tanto de orientación conductual como cognitiva, sobre los efectos de la demora señalada. Las principales conclusiones de la revisión fueron que los estudios de orientación cognitiva carecen de los grupos de control apropiados, y, por otro lado, que los estudios de orientación conductual carecen de las extensiones paramétricas necesarias para evaluar adecuadamente las diferentes teorías desarrolladas para explicar el fenómeno. Indicadores: Demora señalada; Teorías cognitivas y conductuales.
ABSTRACT Different studies have showed that delay gradients are less steep when a signal occurs during the delay interval. This paper reviews a number of contemporary studies on the signaled of delay reinforcement, and includes both cognitively and behaviorally oriented studies. The review showed that most of the cognitive studies lack appropriate control groups; on the other hand, most of the behaviorally oriented studies lack appropriate parametric extensions.
Laboratorio de Condicionamiento Operante, Av. Universidad 1330, Edificio A, 1102, Colonia del Carmen Coyoacán, 04100 México, D.F., tel. 5555-738544, exts. 1411 y 3325, correo electrónico:
[email protected]. Artículo recibido el 18 de abril y aceptado el 12 de junio de 2003. 1
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
These deficiencies make it difficult to choose amongst the different theories developed to explain the effects of the signaled of delay reinforcement. Keywords: Signaled delay of reinforcement; Cognitive and behavioral theories.
322
El asociacionismo y la reflexología del siglo XIX tuvieron una influencia importante sobre la investigación y la teoría del aprendizaje de inicios del siglo XX. Tanto en el asociacionismo como en la reflexología— es decir, dentro de lo que se conoce como teorías conexionistas del aprendizaje (Baum, 1995)— predominaba la idea de que los eve ntos ambientales y conductuales pueden dividirse en unidades discretas (ideas, sensaciones, estímulos, respuestas, etc.) para su estudio. Esta forma de analizar los fenómenos psicológicos llevó forzosamente a plantear diferentes hipótesis acerca de la forma en que los eventos discretos pueden asociarse para formar “ideas complejas” (dentro del asociacionismo) o largas cadenas de comportamiento (dentro de la reflexología). Una de las hipótesis propuestas para explicar la forma en que eventos discretos pueden llegar a unirse es la contigüidad temporal. De acuerdo con esta hipótesis, dos eventos discretos pueden asociarse si el intervalo temporal entre ambos es “breve” (Pavlov, 1927). La hipótesis de la contigüidad está presente en dos investigadores de gran importancia para el desarrollo del análisis experimental de la conducta: Thorndike y Pavlov. Así, resulta comprensible que en el trabajo seminal de Skinner (1938) aparezca la separación entre la respuesta procuradora y el reforzador (en adelante demora de reforzamiento ) como variable independiente en varios experimentos. Una de las formas más comunes de explorar los efectos de la de-mora de reforzamiento es utilizando programas tándem de dos componentes. Sizemore y Lattal (1977, 1978), por ejemplo, sometieron palomas a programas tándem IV 60"-TF 3", donde el TF funciona como intervalo de demora que separa la respuesta procuradora del reforzador. En arreglos como el descrito pueden ocurrir respuestas durante el intervalo de demora, por lo que se les suele denominar “procedimientos de demora variable”. Con la finalidad de mantener constante el intervalo de demora, es posible sustituir el TF por un RDO, en el cual las respuestas que ocurren durante la demora reini-
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
cian dicho intervalo. Por razones evidentes, la sustitución del TF por un RDO produce lo que se conoce como “programa de demora fija.” Además de variar la posibilidad de que ocurran o no respuestas durante los intervalos de demora, también es posible señalar dicho intervalo al organismo mediante un estímulo exteroceptivo. Por ejemplo, Ávila y Bruner (1995) expusieron ratas a programas encadenados IA 30"-TF 60". En dichos programas, el intervalo de TF se señaló mediante la activación de un tono auditivo. En general, procedimientos como el descrito reciben el nombre de “programas de demora señalada”; en consecuencia, estudios como los descritos de Sizemore y Lattal (1977, 1978) reciben el nombre de “programas de demora no señalada”. Un hallazgo bien documentado dentro del análisis experimental es el de que la demora disminuye el valor del reforzador; el efecto de la demora es más notorio conforme aumenta la separación entre la respuesta y el reforzador. A la relación inversa entre la separación respuesta-reforzador y el valor del reforzador se le conoce como “gradiente de demora” (Hull, 1952). Un segundo hallazgo bastante documentado en la literatura sobre demora de reforzamiento es que presentar señales exteroceptivas durante el intervalo que separa la respuesta del reforzador (es decir, el uso de procedimientos de demora señalada) modifica la forma del gradiente de demora. El resultado más habitual es que la conducta se mantenga en niveles similares a los encontrados con reforzamiento inmediato cuando se utilizan procedimientos de demora señalada (Spence, 1956). Los efectos de la demora señalada sobre el gradiente de demora fueron de gran interés para teóricos del aprendizaje como Clark Hull y Kenneth Spence. Para estos investigadores, cuyos argumentos teóricos son esencialmente conexionistas, resultaba difícil explicar el comportamiento de los roedores que recorrían laberintos y cuya conducta ocurría principalmente en ausencia del reforzador primario. Spence (1947) resolvió el problema al recurrir al concepto de “reforzador secundario” o “condicionado”. De acuerdo con este concepto, las diferentes señales exteroceptivas del recorrido en el laberinto se han asociado con alimento (el reforzador primario); así, la conducta del sujeto se mantiene durante el camino debido a que va siendo re-
323
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
324
forzada de forma inmediata por reforzadores condicionados. En una serie de elegantes experimentos, Perkins (1947) evaluó la hipótesis de Spence midiendo la ejecución de roedores en laberintos rotados. Al rotar la orientación del laberinto de un ensayo a otro, las pistas y señales luminosas que podían funcionar como reforzadores condicionados cambiaban también. En congruencia con la hipótesis de Spence (1947), la ejecución de los su-jetos se deterioró al rotar los laberintos, en comparación con aquellos gru-pos experimentales en los cuales el laberinto no se cambió de posición. El hallazgo de que la ejecución bajo condiciones de demora se facilita al intercalar señales durante el intervalo que separa la respuesta del reforzador se ha replicado con diferentes especies animales y procedimientos experimentales. Los resultados sugieren que el hallazgo posee considerable generalidad (Azzi, Fix, Keller y Rocha e Silva, 1964; Ferster, 1953; Lattal, 1984, y otros). Los programas de demora señalada y no señalada han recibido durante décadas la atención de los investigadores interesados en los fenómenos de aprendizaje. De hecho, hasta hoy se han realizado tres revisiones extensivas sobre el tema. De ellas, las dos primeras (Renner, 1964; Tarpy y Sawabini, 1974) se han centrado en procedimientos de condicionamiento sumamente heterogéneos; por otro lado, la más reciente de ellas (Lattal, 1987) solamente se ocupa de experimentos de-sarrollados utilizando los métodos, instrumentos y teorías del análisis experimental de la conducta. Dado que ya se han realizado tres revisiones sobre el tema, es necesario justificar la realización de una cuarta, centrada principalmente en procedimientos de demora señalada. En lo relacionado con una justificación de carácter metodológico, el desarrollo de nuevos sistemas de automatización y programación de experimentos ha invitado a los investigadores a llevar a cabo estudios con diseños experimentales cada vez más poderosos (y a conducir dichos estudios con mayor frecuencia). En lo que respecta a una justificación teórica, la hipótesis de que los efectos facilitativos de las señales solamente pueden interpretarse en términos de reforzamiento condicionado se ha cuestionado por modelos alternativos de orientación cognoscitiva (véase, por ejemplo, Lieberman, McIntosh y
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
Thomas, 1979; Rescorla, 1982; Schaal, Odum y Shahan, 2000; Williams, 1994). En esta revisión se abordarán principalmente aquellos estudios contemporáneos, posteriores a la última revisión, diseñados para evaluar la hipótesis del reforzador condicionado; no obstante, también se recuperan algunos estudios anteriores que fueron relegados por Lattal (1987). A diferencia de éste, se incluyen asimismo algunos estudios contemporáneos con hipótesis de orientación cognitiva. Los estudios se analizan, en primer lugar, para determinar la medida en que sus resultados apoyan la hipótesis del reforzamiento condicionado; en segundo lugar, se presentan algunas de las nuevas hipótesis y experimentos diseñados para explicar los efectos de la demora señalada; finalmente, se discute la evidencia empírica a favor y en contra de las diferentes hi-pótesis revisadas, y se proponen los diversos cursos que podrían seguir futuras investigaciones. Antes de comenzar con esta sección, es importante señalar que el concepto de reforzador condicionado ha sido evaluado empíricamente de formas muy diversas, y que la interpretación de los efectos de la demora señalada como evidencia del fenómeno es solamente una de sus múltiples manifestaciones empíricas (véase, por ejemplo, Kelleher y Gollub, 1962; Williams, 1994). En vista de lo anterior, una revisión acerca del concepto de reforzamiento condicionado en el contexto de los estudios de demora señalada no puede pretender desterrar ?o fundamentar? definitivamente el concepto dentro del condicionamiento operante. Efectos de las señales durante la demora como reforzadores condicionados Una cantidad importante de estudios sobre demora señalada parte del supuesto de que un buen diseño de investigación debería comparar al menos tres condiciones experimentales: 1) la ejecución del sujeto con reforzamiento inmediato, 2) la ejecución del sujeto bajo condiciones de demora no señalada y 3) la ejecución del sujeto bajo condiciones de demora señalada (Lattal, 1984). Si la ejecución se deteriora notablemente bajo condiciones de demora no señalada y se man-
325
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
326
tiene a niveles similares a los encontrados en reforzamiento inmediato con demora señalada, entonces el resultado se interpreta como congruente con la hi-pótesis del reforzamiento condicionado. Richards (1981), por ejemplo, comparó el mantenimiento de la respuesta de picoteo a la tecla en palomas puestas bajo programas tándem y encadenado IV 60"-TF (0", 0.5", 2.5", 5" y 10"). En general, las tasas de respuesta producidas por el programa encadenado fueron más altas ?y más parecidas a las obtenidas con reforzamiento inmediato? que las producidas en el programa tándem. El resultado no varió al cambiar el componente consumatorio de los programas por un RDB 20". Schaal y Branch (1988) replicaron los resultados producidos por Richards utilizando señales luminosas breves de 0.5" y 3" de duración, en lugar de una señal luminosa continua durante todo el intervalo de demora. Por lo común, las tasas de respuesta de picoteo a la tecla encontradas en programas encadenados (IV 60"-TF 3", 9" y 27") se mantuvieron en niveles más altos que las tasas de respuesta producidas por un programa tándem equivalente. La diferencia entre las tasas de respuesta de los dos programas fue mayor con demoras cortas que con la demora de 27". En síntesis, el resultado sugiere que los efectos faciltadores de las señales dependen de la relación entre la duración de la señal y la duración de la demora. En otro estudio similar, Schaal y Branch (1990) evaluaron el efecto de señales de diferente duración sobre el mantenimiento de la tasa de picoteo de palomas en programas encadenados IV 60"-TF 27". En resumen, los autores observaron que con señales de 10" o más las tasas de respuesta en el programa demorado fueron iguales a las encontradas en la condición de reforzamiento inmediato; con señales menores a 10", fueron considerablemente más bajas a las encontradas con reforzamiento inmediato. Estudios como los de Schaal y Branch (1988, 1990) sugieren que los efectos facilitadores de las señales podrían diluirse con demoras largas. Precisamente con el objetivo de evaluar los límites máximos de demora en los cuales las señales todavía tienen efectos facilitadores, Ávila y Bruner (1995) llevaron a cabo un estudio en el cual
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
sometieron a ratas ingenuas a programas tándem y encadenado IA 30"-TF 60", 120" o 180". Al evaluar los resultados, encontraron poca evidencia de adquisición en cualesquiera de las condiciones experimentales (aun cuando la señal estuvo presente durante todo el intervalo de demora en los programas encadenados). El resultado parece confirmar el hallazgo de Schaal y Branch (1990) en el sentido de que los efectos facilitativos de las señales desaparecen con demoras largas. De los estudios revisados se puede concluir que las señales tienen una capacidad relativamente limitada para mediar entre la respuesta y la consecuencia en procedimientos de operante libre. Los hallazgos coinciden con las conclusiones de Spence (1947) y Hull (1952), quienes también encontraron que los gradientes de demora producidos por ratas en cajas de Skinner eran sorprendentemente inclinados, en comparación con los producidos en laberintos donde los sujetos continuaban corriendo aun con demoras de varios minutos. En un intento por identificar otras variables que pudieran modular los efectos de las señales en programas de demora señalada, Schaal, Schuh y Branch (1992) compararon programas encadenados IV -TF que difirieron en la duración del IV . Específicamente, compararon la ejecución de palomas en un programa múltiple en el cual el primer componente fue un IV 20"-TF (5, 10, 20") y el segundo componente un IV 120"-TF (5, 10, 20"), hallando que los efectos de la demora fueron menos notables con el IV de 120" que con el IV más corto. Los resultados se discutieron principalmente en términos de sus similitudes con los hallaz-gos más usuales reportados en la literatura sobre automoldeamiento. Al parecer, tanto en el automoldeamiento como en los programas de demora señalada la duración del intervalo entre reforzadores modula los efectos de las señales. En estudios recientes se ha cuestionado la idea de que los programas de demora no señalada se encuentren completamente desprovistos de señales mediadoras entre la respuesta y el reforzador. En particular, Critchfield y Lattal (1993) sugirieron que los sonidos producidos por la presión de la palanca podrían tener propiedades de reforzadores condicionados. Con la finalidad de evaluar el efecto de la
327
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
328
señales auditivas breves producidas por los manipulanda convencionales en cajas de condicionamiento, los autores expusieron ratas ingenuas a una situación en la cual una interrupción de un haz de luz invisible producía alimento después de un intervalo de 30" de demora. La mitad de los sujetos produjo un breve tono auditivo al emitir la respuesta; en la otra mitad de los sujetos la emisión de la respuesta no produjo cambios exteroceptivos programados. Los resultados mostraron que la adquisición de la respuesta fue más rápida en el primer grupo que en el grupo que no recibió retroalimentación. Los resultados de Critchfield y Lattal (1993) fueron ampliados por Schlinger, Henry y Blakely (1994), quienes, utilizando una preparación semejante, evaluaron demoras de 4 y 10". En general, las ratas expuestas a la demora más breve y con retroalimentación auditiva mostraron mayor evidencia de adquisición de la respuesta. Tanto el estudio de Critchfield y Lattal (1993) como el de Schlinger y cols. (1994) sugieren que distinguir entre procedimientos de demora señalada y no señalada es más complicado de lo que usualmente se piensa. Por otro lado, indican también que todo procedimiento de reforzamiento demorado no señalado puede tener reforzadores condicionados que median el intervalo entre la respuesta y el reforzador. Además de acortar y alargar los intervalos de demora y variar la duración de la señal, los estudios contemporáneos han evaluado pocas variantes en la forma de programar demoras señaladas. Una excepción a la falta de variantes paramétricas en el análisis de los efectos de la demora señalada es el trabajo de Lattal (1984). En una primera serie de estudios evaluó el efecto de la colocación de la señal dentro de programas encadenados de dos componentes y también de la forma de presentar la señal (de forma contingente o no contingente). El autor sometió a palomas a programas encadenados IV 50"-TF 20, 75 o 150". Los resultados mostraron que los efectos facilitadores de las señales sobre el mantenimiento de la tasa de respuesta son mayores cuando la señal coincide con el intervalo de demora; adicionalmente, las señales contingentes resultaron ser más efectivas para mantener la tasa de respuesta que las no contingentes.
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
Uno de los grupos de control evaluado por Lattal (1984) en el primer experimento consistió en presentar señales de manera aleatoria durante diferentes porciones del programa encadenado. El procedimiento produjo tasas inesperadamente altas de respuesta en el grupo control, las cuales se atribuyeron a que una proporción de las señales ocurrieron durante el intervalo de demora. Justamente con la finalidad de evaluar sistemáticamente si la proporción de demoras señaladas que recibe el sujeto es importante en los efectos facilitativos de las señales en programas de demora señalada, Lattal (1987) llevó a cabo un estudio en el que sometió a palomas a programas encadenados de dos componentes en los cuales las señales durante el intervalo de demora podían ocurrir con una probabilidad de 1.0, 0.66, 33 ó 0.0". El autor observó que las tasas de respuesta se incrementaron de manera directa a la proporción de demoras señaladas. Otro estudio contemporáneo que destaca por la originalidad de sus manipulaciones experimentales es el de Royalty, Williams y Fantino (1987). En síntesis, estos autores deseaban evaluar el carácter de reforzador condicionado de las señales en programas encadenados. Razonaron que si los reforzadores primarios pierden valor al separarse de la respuesta procuradora, lo mismo debería ocurrir con los estímulos exteroceptivos presentados en programas de demora señalada. Para evaluar su hipótesis, compararon programas encadenados de tres com-ponentes (IV 33", IV 33", IV 33") con la ejecución en programas similares en los cuales uno de los IV se sustituyó por un IV 30"TF 3". Los resultados mostraron que introducir una demora de 3" entre la respuesta y el cambio de estímulo disminuyó notablemente la tasa de respuesta en el componente modificado; el efecto fue particularmente considerable al introducir la modificación en cualquiera de los primeros dos componentes del encadenado. Los resultados se discuten como evidencia del carácter de reforzador condicionado de los estímulos en programas de demora señalada. En los estudios reseñados las variables dependientes empleadas han sido el mantenimiento y la adquisición de la operante libre; sin embargo, también se han llevado a cabo utilizando otras variables dependientes. Por ejemplo, Marcatilio y Richards (1981) sometieron palomas a programas concurrentes en los cuales los sujetos podían
329
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
escoger entre un encadenado y un tándem (IV 90"-TF 0.25", 2.5", 5" ó 10"). Los resultados mostraron importantes efectos de historia, pero también una clara preferencia por los programas encadenados. 330
Los resultados de Marcatilio y Richards (1981) contrastan con los de Leung y Winston (1986). Dichos autores sometieron palomas a programas concurrentes en que podían escoger entre un programa encadenado IF (5, 10, 15, 20, 30, 110, 115, 120 ó 130")-TF 5", observándose una preferencia consistente de los animales por el programa tándem. Los resultados se interpretaron como consistentes con la idea de Fantino (1969) de que segmentar el programa mediante estímulos discriminativos incrementa la percepción psicológica del tiempo en los animales. Leung y Winston (1986) también sugirieron que sus discrepancias con Marcatilio y Richards (1981) podrían deberse a que el tipo de componente inicial del programa terminal (periódico o a periódico) modula los efectos de las señales en programas de demora señalada. En general, los resultados de esta primera sección tienden a coincidir en que las señales durante el intervalo de demora tienen efectos facilitadores sobre el condicionamiento operante. Al parecer, las señales no necesariamente deben ser largas, pero sí es importante que ocurran consistentemente durante el intervalo de demora y que sean contingentes y cercanas a la respuesta que las produce. El intervalo entre reforzadores, las características del primer componente del programa y la duración de la demora programada modulan los efectos de las señales. Aparentemente, los efectos de las señales sobre el condicionamiento son semejantes en al menos tres variables dependientes: el mantenimiento, la adquisición y, en menor medida, la elección. Los efectos de las señales durante la demora: interpretaciones cognoscitivas A diferencia de las investigaciones desarrolladas dentro de la perspectiva del análisis experimental de la conducta, en las cuales existe una relativa homogeneidad metodológica, la investigación cognitiva sobre demora se-ñalada es sumamente desigual. Esa diversidad metodológica podría tal vez atribuirse al hecho de que algunas de las hipótesis
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
cognitivas tuvieron su origen en estudios con laberintos (por ejemplo, la hipótesis de la señalización de Lieberman y cols., 1979). La hipótesis de la señalización plantea que las señales que ocurren dentro del intervalo de demora sirven para marcar o resaltar en la memoria del sujeto la respuesta procuradora. La señalización facilita la recuperación del “recuerdo” de la respuesta al ocurrir el evento reforzante, produciendo así la asociación entre la respuesta y el reforzador remoto. La hipótesis de la señalización fue planteada inicialmente por Lieberman y cols. (1979) basándose en investigaciones previas de Lett (1973, 1975). Este autor mostró que las ratas son capaces de aprender laberintos bajo condiciones de demora de reforzamiento de varios minutos, siempre y cuando se retire al sujeto del laberinto justo después de emitir la respuesta correcta (o incorrecta). De acuerdo con Lett, las ratas aprenden bajo estas condiciones debido a que se evita que ocurran otras respuestas en el espacio experimental, las cuales compiten con la respuesta seleccionada para ser reforzada, siendo el sujeto incapaz de discriminar cuál de todas estas conductas produjo el eve nto reforzante. Lieberman y cols. (1979) sugirieron alternativamente que el apren-dizaje bajo condiciones de demoras largas (en el estudio de Lett) ocurrió debido a que, al sacar al animal del laberinto justo después de dar la vuelta correcta (o incorrecta), dicha conducta quedó señalada en la memoria del sujeto. Así, la saliencia mnémica, y no la ausencia de conductas competitivas durante el intervalo de demora, es la responsable de la facilitación del aprendizaje. Para evaluar empíricamente la hipótesis de la señalización, Lieberman y cols. (1979) sometieron a dos grupos de ratas a un laberinto en el cual una de dos puertas se asociaba con alimento. Al primero de estos grupos se le extraía brevemente de la caja una vez seleccionada una de las puertas del laberinto, y rápidamente se le regresaba durante todo el intervalo de demora. Los sujetos del segundo grupo no fueron manipulados por los investigadores después de emitir la respuesta (correcta o incorrecta). Los resultados solamente mostraron aprendizaje en el grupo que fue manipulado después de emitir la respuesta, a pesar de que los sujetos de ambos grupos permanecieron durante la demora en el laberinto donde podrían ocurrir conduc-
331
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
332
tas competitivas y dificultar así la asociación entre la respuesta procuradora y el reforzador. En un experimento subsecuente (experimento 4), utilizaron un laberinto similar al descrito previamente para mostrar que la señalización puede ocurrir también con estímulos exteroceptivos diferentes a la manipulación del animal (por ejemplo, tonos auditivos y/o cambios de iluminación). Adicionalmente, Lieberman, Davidson y Thomas (1985) mostraron también que los efectos de sus procedimientos pueden replicarse con procedimientos de mayor control de variables extrañas (como sería una cámara de condicionamiento operante para palomas). Tanto el poder evitar la manipulación directa del sujeto como el éxito en la replicación del fenómeno de señalización en procedimientos de operante libre generaron interés en otros investigadores por estudiar fenómenos mnémicos en procedimientos de demora señalada. Por ejemplo, Cronin (1980) intentó evaluar la hipótesis conocida con el nombre de “reactivación mnémica” en programas de demora señalada. De acuerdo con dicha hipótesis, dos sucesos que ocurren separados en el tiempo pueden asociarse si un tercer suceso ocurre al presentarse ambos (Roberts, 1976; Spear, 1978). Así, si la misma señal que sigue a la respuesta procuradora también antecede a la entrega del reforzador, la asociación entre ambos eventos debería facilitarse. Cronin (1980) evaluó esta posibilidad sometiendo a palomas a programas de discriminación condicional en los que la señal se presentaba al iniciar y al terminar el intervalo de demora. La autora observó un mejor desempeño en la tarea de discriminación condicional en aquellas condiciones en las cuales la misma señal ocurrió al iniciar y al terminar la demora que en condiciones de control en las que las dos señales diferían entre sí. Los resultados de Cronin proponen una explicación tentativa al hallazgo de Schaal y Branch (1988) de que las señales breves pierden su capacidad para mantener la tasa de respuesta con demoras largas. De acuerdo con los resultados de Cronin (1980), la pérdida en el control conductual podría atribuirse a que la señal termina antes de la entrega del reforzador y, por lo tanto, fracasa en la reinstalación mnémica de la respuesta procuradora al ocurrir el reforzador.
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
Otros autores que han trabajado en modelos mnémicos de la demora señalada son Schaal y cols. (2000), quienes sometieron palomas a programas de igualación a la muestra en que se presentaba el estímulo muestra de dos segundos después de un IV (60" ó 120"). Los estímulos de comparación se mostraron a los sujetos después de diferentes intervalos de demora. Los resultados mostraron que tanto la tasa de respuesta como el número de igualaciones correctas fueron una función inversa de la duración de la demora. Adicionalmente, los animales tuvieron un mayor porcentaje de igualaciones correctas con el IV 120". En consecuencia, los hallazgos se interpretaron como evidencia de que el mecanismo principal que explica las limitaciones de señales cortas en demoras largas es principalmente mnémico; es decir, la separación temporal evita que el sujeto recuerde los eventos que acompañaron a la respuesta procuradora. Por otro lado, el hecho de que la duración del IV modulara el porcentaje de igualaciones correctas corroboró el hallazgo previo (Schaal y cols., 1992) de que la duración del primer componente en programas de demora señalada es determinante para el funcionamiento de las señales. Uno de los pocos trabajos de investigación desarrollados para evaluar simultáneamente algunas de las hipótesis que compiten para explicar los efectos de las señales en programas de reforzamiento demorado fue realizado por Williams (1991). Este autor sugirió que las diferencias entre las hipótesis no son sólo de carácter teórico sino también metodológico. Las hipótesis del reforzamiento condicionado, de señalización y de reactivación mnémica difieren entre sí principalmente por la forma en que se programan las señales; esto es, en tanto que el procedimiento para generar reforzadores condicionados consiste sola-mente en señalar la respuesta procuradora, en los procedimientos de señalización y reactivación se señalan tanto las respuestas procuradoras como las que no lo son (por ejemplo, un vuelta equivocada en el laberinto). Otra diferencia metodológica en los estudios característicos de las tres hipótesis tiene que ver con la duración de la señal. Mientras que en los estudios típicos de señalización y reforzamiento condicionado la señal es breve y ocurre solamente al inicio, en los que tratan sobre la reactivación mnémica la señal se presenta al inicio y al final del intervalo, si bien puede ser continua.
333
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
334
Williams (1991) comparó los procedimientos descritos exponiendo ratas a programas de discriminación condicional en los que una señal indicaba a un sujeto cuál de dos palancas proporcionaba reforzamiento demorado. Las respuestas de los sujetos podían no producir señal u ocasionar una señal breve o una larga. Además, para algunos grupos experimentales se señalaron solamente las respuestas en la palanca “correcta”, en tanto que para otros se señalaron tanto respuestas “correctas” como “incorrectas”. Los resultados mostraron que los sujetos que recibieron únicamente señales ante la respuesta “correcta” y que adicionalmente recibieron una señal larga alcanzaron los criterios de adquisición más rápido. Con base en los resultados, el autor concluyó que los procedimientos característicos de reforzamiento condicionado tienen mayores efectos facilitativos durante la demora que los procedimientos de señalización y reactivación mnémica. En síntesis, las hipótesis cognoscitivas acerca de los efectos facilitativos de las señales en programas de reforzamiento demorado sugieren que los mecanismos de memoria juegan un papel fundamental para producir dichos efectos. En general, aquellos factores que ayudan a dar saliencia mnémica a las conductas procuradoras del organismo son esenciales para el aprendizaje, y también la unión de los eventos conductuales con sus consecuencias mediante dos señales semejantes (o una de ellas larga) ayuda al condicionamiento. De acuerdo con los resultados de Williams (1991), los factores mnémicos son necesarios pero no suficientes para explicar los efectos de las señales en programas de reforzamiento demorado. SÍNTESIS Y CONCLUSIONES El propósito principal de esta revisión fue el de tratar de evaluar la evidencia empírica a favor y en contra de las hipótesis que se han sugerido para explicar los efectos de las señales en programas de reforzamiento demorado. A continuación se presenta un análisis crítico de los estudios revisados en el que se pretende valorar la medida en que los experimentos en cuestión apoyan o no las hipótesis que sustentan. Antes de comenzar el análisis, cabe mencionar que en opinión de los presentes autores los problemas de los estudios revisados difie-
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
ren dependiendo del punto de vista teórico que les dio origen. Así, generalmente los problemas con las hipótesis cognitivas se deben sobre todo a la falta de grupos control; por otro lado, el principal problema de los estudios de orientación conductual es la falta de una agenda ordenada de investigación para abordar el fenómeno. Con la finalidad de tener más claridad, se discutirán en primer lugar las limitaciones de los experimentos de orientación cognitiva. En el estudio de reactivación mnémica de Cronin (1980), por ejem-plo, se argumenta que dos señales iguales (una al ocurrir la respuesta y la otra al entregar el reforzador) facilitan el aprendizaje relativo a condiciones en las cuales no hay señal o se presentan dos señales diferentes. Para dar mayor peso a su argumento, esta autora debió someter a los sujetos experimentales a condiciones en las que las dos señales se colocaran en diferentes posiciones durante el intervalo de demora. Si al añadir estas condiciones de control el aprendizaje sigue siendo más rápido con las señales en los extremos, el argumento de Cronin resultaría más convincente. En lo que respecta a los estudios de Lieberman y cols. (1979, 1985), aunque están diseñados para mostrar la supremacía de la hipótesis de señalización sobre la de reforzamiento condicionado, sus resultados son difíciles de interpretar. La principal dificultad radica en la ausencia de un grupo control en el cual solamente se señale la respuesta procuradora; dado que en los procedimientos que producen efectos de reforzamiento condicionado solamente se señala la respuesta “correcta”, tales estudios carecen del grupo de comparación adecuado. Las deficiencias en los trabajos sobre reactivación mnémica y señalización se corrigen en la investigación de Williams (1991). Bajo las condiciones experimentales de dicho autor, son los procedimientos característicos del reforzamiento condicionado los que parecen facilitar en mayor medida el aprendizaje. El estudio de Williams es difícil de evaluar; no obstante, dado que se desconoce el grado de covarianza entre sus procedimientos de discriminación condicional y los procedimientos de la-berintos utilizados en muchos de los estudios de orientación cognitiva.
335
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
336
Por último, el estudio de Schaal y cols. (2000) resulta difícil de interpretar sin ambigüedades como evidencia de la importancia de factores mnémicos en los programas de demora señalada. En breve, en el procedimiento de igualación a la muestra utilizado por dichos investigadores, el estímulo de muestra se separa gradualmente del estímulo de comparación y, como consecuencia, el incremento en la separación reduce la eficacia del sujeto. La demora del reforzador disminuye el “recuerdo” del estímulo de comparación, pero también separa la señal del reforzador y reduce así la posibilidad de que los dos eventos se asocien. En síntesis, los hallazgos del estudio son congruentes tanto con una interpretación mnémica como con una basada en reforzamiento condicionado. Si la literatura de orientación cognitiva revisada no permite realizar afirmaciones teóricas contundentes por la falta de grupos de control adecuados, los estudios de orientación conductual producen información incompleta para comprender cabalmente el efecto de las señales en programas de reforzamiento demorado. Por ejemplo, los trabajos de Leung y Winston (1986), Schaal y cols. (1992) y Schaal y cols. (2000) sugieren que los efectos de las señales varían de acuerdo con, al menos, dos parámetros del programa: la duración del primer componente del encadenado y su periodicidad. A la fecha, sólo se han evaluado dos duraciones del primer componente (IV 20" e IV 120"). Por otro lado, aún no existen investigaciones en las cuales se compare directamente el efecto de la periodicidad del primer componente sobre los efectos de las señales en programas de reforzamiento demorado. La falta de estudios como los sugeridos imposibilita saber si los efectos interpretados tradicionalmente como evidencia de reforzamiento condicionado no son sino casos especiales dentro de toda una familia de diferentes efectos conductuales. Por ejemplo, la comparación entre los resultados de Leung y Winston (1986) con los de Fantino (1969) indican que, bajo ciertas circunstancias, las señales durante la demora podrían dificultar el aprendizaje, no facilitarlo, posibilidad que Neuringer (1969) ya había sugerido. La literatura de orientación conductual ha adoptado el principio de analogía en sus intentos por evaluar la hipótesis del reforzamiento condicionado. El principio de analogía consiste en evaluar si las ma-
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
nipulaciones que tienen efectos conocidos sobre los reforzadores primarios tienen los mismos efectos sobre los reforzadores condicionados putativos. En el estudio de Royalty y cols. (1987), por ejemplo, se sugiere que demorar señales durante el periodo de espera entre la respuesta y el reforzador disminuye su capacidad para mantener el palanqueo en ratas. En dicho estudio, sin embargo, se evaluó un solo valor de demora (3") y de intervalo entre reforzadores (99"). Dado que se ha demostrado que conforme se aleja el reforzador de la respuesta procuradora las funciones de las señales cambian (Tombaugh y Tombaugh, 1971), y que también se ha establecido que la duración del intervalo entre reforzadores afecta asimismo la función de las señales (Schaal y cols., 1992), los resultados de Royalty y cols. (1987) son poco concluyentes. Otra variable que, según se sabe, disminuye la capacidad de reforzadores primarios para mantener la conducta es la ausencia de una relación de contingencia entre la respuesta procuradora y el reforzador. Los resultados de Lattal (1984) revelan que las señales no contingentes durante el intervalo de demora son menos efectivas que las contingentes para mantener la conducta. El resultado, empero, no es concluyente debido a que en dicho trabajo las señales no contingentes podían también ocurrir durante el primer componente del programa de reforzamiento. Adicionalmente, en el estudio de Lattal sólo una pequeña proporción de las señales ocurrieron durante la demora y, por ende, el bajo porcentaje de demoras señaladas podría explicar asimismo el efecto documentado por él. Los estudios de Schaal y Branch (1988, 1990) denotan que, al igual que lo que ocurre con los reforzadores primarios, los incrementos en la “magnitud” de los reforzadores condicionados (por ejemplo, en la longitud de la señal) favorecen el condicionamiento. Sin embargo, tal interpretación de los resultados de dichos investigadores es cuestionable por al menos dos razones. En primer lugar, no queda claro en qué sentido el alargar una señal es equivalente a incrementar su magnitud; también podría entenderse como un cambio en la magnitud un aumento en los decibeles de una señal auditiva o en los vatios de una señal luminosa. En segundo término, al aumentar la
337
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
338
duración de la señal se facilita al sujeto la discriminación entre los periodos en los cuales sus respuestas son efectivas y aquellos en los que no lo son. La mejor discriminación de las oportunidades de respuesta seguramente aumenta la frecuencia de reforzamiento y, en consecuencia, la tasa de respuesta. En fin, la investigación basada en el principio de analogía no resuelve satisfactoriamente la cuestión de si las señales utilizadas en programas de demora señalada funcionan o no como reforzadores condicionados. La base de este problema es, como se sugirió anteriormente, la falta de extensiones paramétricas, de controles adecuados y de ve rdaderos experimentos “cruciales” (quizá con la excepción del estudio de Williams, 1991) . Una última reflexión relativa a los estudios de demora señalada revisados tiene que ver con la gran cantidad de variables dependientes que se utilizan como putativamente equivalentes. En trabajos recientes se ha mostrado, por ejemplo, que los efectos de los mismos programas de demora no señalada son diferentes sobre adquisición y estado estable (Bruner, Pulido y Escobar, 1999, 2000; Weil, 1984). Los resultados tan contrastantes obtenidos por Lieberman y cols. (1979, 1985) con laberintos y de Williams (1991) con procedimientos de discriminación condicional también plantean dudas acerca de la covarianza entre las variables dependientes. Los presentes autores sugieren que, en tanto una mayor cantidad de estudios confirmen o no la intercambiabilidad de las diferentes variables dependientes empleadas en el área, las comparaciones entre ellas deben ser, por lo menos, cautelosas. REFERENCIAS Ávila, R. y Bruner, C. (1995). Adquisición de la respuesta bajo demoras largas de reforzamiento señalado y no señalado. Revista Mexicana de Análisis de la Conducta, 21: 117-127. Azzi, R., Fix, D.S.R., Keller, F.S. y Rocha e Silva, M.I. (1964). Exteroceptive control of response under delayed reinforcement. Journal of the Experimental Analysis of Behavior, 7: 159-162.
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
Baum, W.M. (1995). Introducción al análisis molar de la conducta. Revista Mexicana de Análisis de la Conducta, 21: 17-35. Bruner, C., Pulido, M.A. y Escobar, R. (1999). Response acquisition and maintenance with a temporally defined schedule of delayed reinforcement. Revista Mexicana de Analisis de la Conducta, 25: 379-391. Bruner, C., Pulido, M.A. y Escobar, R. (2000). La adquisición del palanqueo con programas temporales de reforzamiento demorado. Revista Mexicana de Análisis de la Conducta, 26: 91-103. Critchfield, T.S. y Lattal, K.A. (1993). Acquisition of a spatially defined operant with delayed reinforcement. Journal of the Experimental Analysis of Behavior, 59: 373-387. Cronin, P. B. (1980). Reinstatement of postresponse stimuli prior to reward in delayed-reward discrimination learning by pigeons. Animal Learning and Behavior, 8: 352-358. Fantino, E. (1969). Conditioned reinforcement, choice and the psychological di stance to reward. En D.P. Hendry (Ed.): Conditioned Reinforcement. Homewood, IL: Dorsey Press: 163-191. Ferster, C.B. (1953). Sustained behavior under delayed reinforcement. Journal of Ex-perimental Psychology, 45: 27-45. Hull, C.L. (1952). A behavior system. New Haven: Yale University Press. Kelleher, R.T. y Gollub, L.R. (1962). A review of positive conditioned reinforcement. Journal of the Experimental Analysis of Behavior, 5: 543-597. Lattal, K.A. (1984). Signal functions in delay of reinforcement. Journal of the Experimental Analysis of Behavior, 42: 239-253. Lattal, K.A. (1987). The effect of delay and of intervening events on reinforcement value. En M.L. Commons, J.E. Mazur, J.A. Nevin y H. Rachlin (Eds.): Quantitative Analysis of Behavior (vol 5). New Jersey: Lawrence, Erlbaum Associates Publisher. Lett, B.T. (1973). Delayed reward learning: Disproof of the traditional theory. Learning and Motivation, 4: 237-246. Lett, B.T. (1975). Long delay learning in the T maze. Learning and Motivation, 6: 8090. Leung, J.P. y Winton, A.S. (1986). Preference for less segmented fixed-time components in concurrent schedules of reinforcement. Journal of the Experimental Analysis of Behavior, 46: 175-183.
339
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
Lieberman, D.A., McIntosh, D.C. y Thomas, G.V. (1979). Learning when reward is delayed: A marking hypothesis. Journal of Experimental Psychology: Animal Behavior Processes, 5: 224-242.
340
Lieberman, D.A., Davidson, F.H. y Thomas, G.V. (1985). Marking in pigeons: The role of memory in delayed reinforcement. Journal of Experimental Psychology: Animal Behavior Processes, 11: 611-624. Marcatilio, A.J.M. y Richards, R.W. (1981), Preference for signaled versus unsignaled reinforcement delay in concurrent-chain schedules. Journal of the Experimental Analysis of Behavior, 36: 221-229. Neuringer, A.J. (1969). Delayed reinforcement versus reinforcement after a fixed interval. Journal of the Experimental Analysis of Behavior, 12: 375-383. Pavlov, I.P. (1927). Conditioned reflexes. London, Oxford University Press. Perkins, C.C. (1947). The relation of secondary reward to gradients of reinforcement. Journal of Experimental Psychology, 37: 377-392. Renner, K.E. (1964). Delay of reinforcement: A historical review. Psychological Bulletin, 61: 341-361. Rescorla, R.A. (1982). Effect of a stimulus intervening between CS and US in autoshaping. Journal of Experimental Psychology: Animal Behavior Processes, 8: 131-141. Richards, R.W. (1981). A comparison of signaled and unsignaled delay of reinforcement. Journal of the Experimental Analysis of Behavior, 35: 145-152. Roberts, W.A. (1976). Failure to replicate visual discrimination with a 1-min delay of reward. Learning and Motivation, 7: 313-325. Royalty, P., Williams, B.A. y Fantino, E. (1987). Effects of delayed conditioned reinforcement in chain schedules. Journal of the Experimental Analysis of Behavior, 47: 41-56. Schaal, D.W. y Branch, M.N. (1988). Responding of pigeons under variable-interval schedules of unsignaled, briefly signaled, and completely signaled delays to reinforcement. Journal of the Experimental Analysis of Behavior, 50: 33-54. Schaal, D.W. y Branch, M.N. (1990). Responding of pigeons under variable-interval schedules of signaled-delayed reinforcement: Effects of delay-signal duration. Journal of the Experimental Analysis of Behavior, 53: 103-121. Schaal, D.W., Schuh, K.J. y Branch, M.N. (1992). Key pecking of pigeons under variable interval schedules of briefly signaled delayed reinforcement: Effects of variable-interval value. Journal of the Experimental Analysis of Behavior, 58: 277-286.
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
Schaal, D.W., Odum, A.L. y Shahan, T.A. (2000). Pigeons may not remember the stimuli that reinforced their recent behavior. Journal of the Experimental Analysis of Behavior, 73: 125-139. Schlinger, J.R., Henry, D. y Blakely, E. (1994). The effects of delayed reinforcement and a response-produced auditory stimulus on the acquisition of operant behavior in rats. Psychological Record, 44: 391-419. Sizemore, O.J. y Lattal, K.A. (1977). Dependency, temporal contiguity and response independent reinforcement. Journal of the Experimental Analysis of Behavior, 25: 119-125. Sizemore, O.J. y Lattal, K.A. (1978). Unsignaled delay of reinforcement in variableinterval schedules. Journal of the Experimental Analysis of Behavior, 30: 169175. Skinner, B.F. (1938). The behavior of organisms. New York: Appleton-Century-Crofts. Spear, N.E. (1978). The processing of memories: Forgetting information. New York: Er lbaum. Spence, K.W. (1947). The role of secondary reinforcement in delayed reward learning. Psychological Review, 54: 1-8. Spence, K.W. (1956). Behavior theory and conditioning. New Haven: Yale University Press. Tarpy, R.M. y Sawabini, F.L. (1974). Reinforcement delay: A selective review of the last decade. Psychological Bulletin, 81: 984-997. Tombaugh, J.W. y Tombaugh, T.N. (1971). Effects on performance of placing a visual cue at different temporal locations within a constant delay interval. Journal of Experimental Psychology, 87: 220-224. Weil, J.L. (1984). The effects of delayed reinforcement on free-operant responding. Journal of the Experimental Analysis of Behavior, 41: 143-155. Williams, B.A. (1991). Marking and bridging versus conditioned reinforcement. Animal Learning and Behavior, 19: 264-269. Williams, B.A. (1994). Conditioned reinforcement: Experimental and theoretical issues. The Behavior Analyst, 17: 261-285.
341
EL EFECTO DE LAS SEÑALES EN PROGRAMAS DE REFORZAMIENTO DEMORADO: UNA REVISIÓN CONTEMPORÁNEA
342
ENSEÑANZA E INVESTIGACIÓN EN PSICOLOGÍA VOL. 9, NUM. 2: 321-339 JULIO-DICIEMBRE, 2004
343