POLEMICA CONCEPTUAL: REQUISITO DE RESPUESTA, REFORZAMIENTO NEGATIVO, COSTE DE RESPUESTA, CASTIGO NEGATIVO.
La polémica se origina a raíz de la aparición del artículo de Luis Valero para la sección Vida Cotidiana Una técnica de reforzamiento negativo para escalonar el tráfico de entrada y salida de vacaciones al que Julio Varela hace el siguiente comentario. Comentario (Julio Varela): Creo que aquí hay una identificación conceptual errónea. Quiero comprar un pantalón que cuesta 10 euros. En el momento de compra, ¿recibo un castigo de 10 euros? Pero si está en barata y vale 6 euros, ¿al pagar 6 euros, soy reforzado negativamente al recibir un castigo menor? Creo que hay una confusión entre "requisito de respuesta" y reforzamiento negativo.
Luis Valero responde con el siguiente anexo. Anexo de Luis Valero: AUTOPISTAS, REFORZAMIENTO NEGATIVO Y COSTE DE RESPUESTA Pues quizás tenga confundidos los conceptos. Pero creo que son dos conceptos diferentes: (1) la contingencia que mantiene la respuesta, y (2) los requisitos exigidos para que aparezca reforzamiento. En el caso de las autopistas, la contigencia es de reforzamiento negativo y las exigencias de respuesta solo son el cambio de horas en las que circular con el coche, pero disminuye la cantidad pagada por ello (se elimina o disminuye algún evento). Reforzamiento negativo y coste de respuesta: Por lo que se sobre "reforzamiento negativo" consiste en la eliminación de algún evento contingente a la respuesta y esto hace aumentar la probabilidad de esa respuesta. La contingencia se define por su efecto. El coste de respuesta seria una forma de castigo por eliminación de algún tipo evento (generalmente un reforzador) tras cada respuesta. Cuando se paga en una autopista la contingencia es doble: se obtiene un transito rápido y tranquilo por una vía (ref.positivo) y al mismo tiempo se ha de pagar una cuota por utilizar esa autopista (coste de respuesta). Weiner (1962) parece ser el primero que aplicó el coste de respuesta en experimento con humanos. En un tablero con puntos, como reforzadores condicionados, quitaba un punto cada vez que el individuo daba una respuesta incorrecta. A ello seguía un tiempo fuera corto. Después de una serie de ensayos era suficiente con quitar un punto para disminuir la conducta. El coste de respuesta operaba como una estimulación aversiva. En Kanfer y Phillips se describen algunos de las primeras aplicaciones del coste de respuesta en problemas clínicos (obesidad, tartamudeo, economía de fichas). En todos los casos, se describe como una técnica de castigo, que puede conseguirse de dos formas: (a) eliminando un reforzador contingente a la respuesta, o (b) aumentando el esfuerzo o número de respuestas por la misma unidad de reforzador positivo conseguida (Ferster y Skinner, 1957). Así pues, una de las formas de aumentar o disminuir el coste de respuesta es aumentar o disminuir a su vez las exigencias o los criterios de esa respuesta. Cuando por el mismo
1
reforzador se exige mayor cantidad o intensidad de respuesta es una técnica de castigo, puesto que la respuesta disminuye. Pero cuando por el mismo reforzador se exige menor intensidad de respuesta es una técnica de reforzamiento, y la respuesta aumenta. Toda contingencia es relativa a las condiciones ambientales y la historia de interacciones previas del individuo con ese ambiente. En unas condiciones de castigo -en experimentos animales, pej., - con un shock eléctrico de 80 V, la disminución del shock a 30 V puede actuar de reforzador (negativo -pues- según la definición operacional de esta contingencia). Incluso en otras condiciones, puede llegar a actuar como estímulo discriminativo de una contingencias reforzante, y aumentar también la probabilidad de respuesta. En el ejemplo que siempre se pone de reforzamiento negativo: ante un gran ruido ambiental, se cierra la puerta y se elimina el ruido. También entrecerrar la puerta y disminuir la intensidad del sonido -aunque no sea completa- estaría bajo reforzamiento negativo. Economía conductual y compras: Por otro lado, siguiendo tu ejemplo, cada comportamiento de compra (p.ej., un pantalón) supone un reforzamiento positivo por la prenda obtenida y simultáneamente un castigo por coste de respuesta (al tener que dejar 10 euros al dependiente). Dependiendo de la historia previa del individuo con ese pantalón y ese dinero, la conducta se fortalecerá en el futuro o no. En el caso que se añadan otros reforzadores sobre la compra, como la atención de los amigos, la marca famosa del pantalón, lo útil de la prenda, etc., aumentara ese comportamiento. En el caso de que el coste de respuesta sea excesivo (la persona no tiene ese dinero a final de mes, hay otra tienda que lo tiene 8 euros, la inflación aumenta el precio, etc.) la respuesta de compra disminuirá. Y, por el contrario, en las temporadas de rebajas cuando bajan los precios, el hecho de comprar el mismo pantalón por menos dinero (rebajas 50%) supone una disminución del coste, y por tanto, un aumento de la respuesta de compra. Las rebajas son una forma de reforzamiento negativo. La conducta de compra es una respuesta de elección con dos contingencias simultaneas, y dominara aquella que produzca mayor probabilidad de reforzamiento. En el caso del dinero como “economía de fichas generalizada” que todos tenemos, el pago con dinero es la eliminación de un reforzador, luego coste de respuesta. Que también puede obtenerse aumentando la cantidad de dinero a pagar por el mismo reforzador. El efecto típico de la inflación económica. Luego si el coste de respuesta es una técnica de castigo, y el dinero perdido es la estimulación aversiva, puede afirmarse que la eliminación de ese castigo será un reforzamiento negativo. Básicamente la respuesta de ahorrar dinero en una compra es una respuesta de evitación. En los estudios sobre “economía conductual” (Green y Kagel, 1987) se intentan estudiar las condiciones para una respuesta de elección (p.ej., entre dos productos) o bien la relación coste beneficio en las decisiones económicas. En este contexto, la razón coste/beneficio que denominan “unidad de precio” sería la proporción entre los requisitos de respuesta y la magnitud de reforzador. En ese ejemplo de la autopistas, sería la proporción entre el dinero pagado (es un requisito de respuesta y supone también un coste de respuesta) y la magnitud del reforzador obtenido (los kilómetros recorridos o el tiempo ganado). Este tipo de experimentos en laboratorio con animales ha mostrado que la preferencia o elección se produce siempre en aquellas condiciones donde la unidad de precio sea más baja, es decir, menor respuesta con mayor reforzamiento (en el ejemplo sería la condición de rebaja del precio de la autopista). Y cuando las unidades de precio entre dos alternativas son muy bajas (dos productos muy rebajados) se prefiere la de mayor cantidad de reforzamiento; mientras que
2
cuando las dos unidades de precio son muy elevadas (dos productos muy caros) se elige la de menor requisito de respuesta (Bickel, W.K., Green, L. y Vuchinich, R.E., 1997; Foster y Hackenberg, 2004, Madden, Bickel y Jacob, 2000). Los conductores eligen: Luego, permitiéndome la licencia de generalizar a humanos, podría afirmar que un conductor puesto ante la disyuntiva de elegir entre coger la autopista a horas punta (con el mismo coste económico y con menor reforzamiento, una unidad de precio más alta), o bien coger la autopista en horas “valle” apenas sin circulación y a mitad de precio (con menor coste económico y con mayor reforzamiento, una unidad de precio más baja), elegirá esta última opción con mayor probabilidad. Siempre que no se añadan otras variables, por ejemplo, que no salga del trabajo hasta las 5, o que la suegra no tenga preparadas las maletas a la hora de salir. Con todo es una hipótesis a comprobar, que parece confirmarse por los datos. En Madrid en el último puente de mayo se produjeron unos atascos monumentales, de miles de conductores atrapados en las autovías durante kilómetros. En el puente de junio en Barcelona la circulación ha sido intensa pero fluida, y no han aparecido en la prensa atascos de tráfico a destacar. La DGT tendrá los datos al respecto. Por cierto, es importante hacer ver a los psicólogos y al publico en general, que este tipo de cosas son realmente experimentos sociales, y no los que se hacen con gaseosa… Bueno, un poco extenso, pero quizás serviría para crear otra discusión en la pagina web sobre "reforzamiento negativo". Referencias: • • • • • • •
Bickel, W.K., Green, L., y Vuchinich, R.E. (1995). Behavioral economics. JEAB, 55, 145-154. Ferster. C.B. y Skinner, B.F. (1957). Programas de reforzamiento. Nueva York: Appleton-Century-Croft. Foster, T.A., Hackenberg, T.D. (2004). Unit price and choice in a tokenreinforcement context. JEAB, 81, 5-25. Green, L. y Kagel, J. (1987). Advances in behavioral economics. Orwoodk NJ. Ablex Publising Corp. Kanfer, P.H., y Phillips, J.S. (1977). Principios de aprendizaje en la terapia del comportamiento. Mexico: Trillas. Madden, G.J., Bickel, W.K., y Jacobs, E.A. (2000). Three predictions of the economic concepts of unit in a choice context. JEAB, 73, 45-64. Weiner, H. (1962). Some effects of response cost upon human operant behavior. JEAB, 5, 201-208.
Respuesta de Julio Varela: Bueno, realmente tenemos una discusión e insisto que se trata de una confusión. En primer lugar, me limitaré a argumentar solo en términos de las definiciones existentes en el análisis operante, posteriormente haré alusión a algunas cuestiones económicas que conforman una microteoría, basada en un modelo económico (no conductual) que algunos psicólogos skinnerianos han usado para tratar de estudiar fenómenos relacionados en esa área y que son relativos a la investigación sobre el desempeño bajo programas concurrentes, conocidos como estudios sobre “elección”. Ojalá esto no desvíe la discusión.
3
Efectivamente, el reforzador se define a partir de sus efectos, no puede definirse a priori. Si la tasa de respuesta a la que un estímulo es contingente (condicional) se mantiene o aumenta, se trata de un reforzador. La clasificación que hace Skinner de los reforzadores como positivos o negativos debe entenderse en el sentido de que es algo que se añade o que se resta (elimina). Por tanto, si la respuesta tiene como consecuencia que se presente un estímulo, se trata de un reforzador positivo. En otro caso, si la consecuencia de la respuesta evita que se presente un estímulo, éste es un reforzador negativo y se le conoce también como estímulo aversivo. Hasta aquí creo que no hay polémica. Los programas de reforzamiento son especificaciones de lo que un organismo debe hacer antes de conseguir el reforzamiento (Ferster y Skinner, 1957). Digamos, que los programas de reforzamiento especifican los criterios de una respuesta. Ante un RF10, se requerirán (requisito) 9 respuestas previas y la décima será reforzada. O bien, en un programa de IF se reforzará sólo aquella respuesta que cubra el criterio de ser la primera que ocurra cuando haya transcurrido el periodo indicado por el programa. Por ejemplo, si se trata de un IF30”, la primer respuesta que ocurra después de ese intervalo será reforzada. Todo programa, al igual que toda tarea experimental, supone explícita o implícitamente la existencia de un requisito de respuesta. La respuesta que cubra tal requisito cumple con la tarea y si no ocurre de acuerdo al requisito entonces no estará disponible el reforzador. Supongamos que un individuo, bajo un RF10 ha respondido 9 veces. El reforzador se presentará sólo hasta que el organismo responda nuevamente, al cumplimentarse el criterio (requisito). Supongamos que alguien aplica un programa de reforzamiento RF20 hasta que se estabiliza la respuesta. Por alguna causa acorde a su investigación, decide cambiar el programa a un RF5. Ahora el individuo responde menos veces y obtiene el reforzador. En este sencillo ejemplo, no es necesario hablar de ninguna técnica de castigo, simplemente se reduce el criterio de respuesta para recibir el reforzador. Cada respuesta de la primera hasta la 19ª -que forma parte de una cadena de 20-, no es castigada al no otorgarse reforzamiento. En todo caso, existe argumentación de que el reforzamiento intermitente produce una resistencia a la extinción. Reforzar intermitentemente (retirar el reforzamiento) no es castigo, de acuerdo a la definición tradicional. De igual forma, reducir el criterio de respuesta ante un programa, no es extinción, tampoco es castigo, se trata simplemente de reducir el criterio de respuesta ante el cambio del programa. Sólo es eso. Si se arguyera que dicha reducción del requisito de respuesta es castigo, entonces habría que conciliar el conflicto conceptual: reforzamiento vs. castigo en el mismo procedimiento, siendo que el primero incrementa la tasa y el segundo la decrementa o elimina. Reducir la tasa de respuestas a partir de una reducción del criterio (programa) no es castigo. Consideremos un ejemplo que servirá de base para nuestra argumentación. Un estudiante debe responder correctamente 10 preguntas de un examen para obtener 10 de calificación. Después de aplicar dos exámenes (de biología e historia), el profesor considera que el examen de biología es correcto pero se da cuenta que cinco reactivos del examen de historia estaban mal planteados y que otros no habían sido parte de la temática vista en clase. Así, mantiene el criterio de otorgar a cada respuesta del examen de biología un punto, y en el caso del examen de historia, decide reducir el criterio y calificar el examen con 10 si se responde correctamente a 5 de las 10 preguntas. En este caso, cada respuesta correcta a cada pregunta correcta vale 2 puntos. Una buena ejecución en el examen de biología consiste de 10 respuestas correctas mientras que en el de historia la buena ejecución requiere de 5 para obtener la misma calificación. Si el alumno reprueba biología o historia, será castigado mediante una calificación reprobatoria. Pero será reforzado si su calificación es aprobatoria. Supongamos que en el primer caso (biología) respondió correctamente 6 preguntas y por tanto su calificación será 6. Si en el caso de historia respondió correctamente 4 preguntas, su calificación será de 8. Hablar de extinción, castigo o coste de respuesta, en cualquiera de los dos casos, es un sinsentido.
4
Para los skinnerianos, el ejemplo anterior puede ser analizado como programa de RF1 (examen de biología) y un ejemplo de RF1 con doble reforzamiento (examen de historia). Aunque me parece burda la conceptuación, concedamos que así es. El año siguiente, el maestro de nuestro ejemplo anterior, decide aplicar el mismo examen de biología pero en horarios diferentes, dado que considera que mientras más temprano los alumnos son más inteligentes aunque al alumno le cueste trabajo levantarse temprano. Así, decide que quien se presente al examen (que consta de 10 preguntas) a las 7 de la mañana, bastará con que conteste correctamente 5 de ellas para aprobar con 10. Pero, quien se presente a las 8.00 (horario normal) cada respuesta valdrá un punto. Todos tienen oportunidad de obtener 10, el reforzamiento será el mismo (obtener 10), el examen es el mismo, pero los criterios de respuesta son diferentes: levantarse temprano o llegar a la hora consuetudinaria. Siguiendo la terminología skinneriana (de manera muy flexible), alguien podría considerar que en esta ocasión, el programa de reforzamiento, para cada alumno es concurrente, esto es, el alumno puede optar por presentar el examen más temprano (RF1) o más tarde (RF1 con doble reforzamiento). Si se presenta más temprano (mayor esfuerzo para levantarse), podrá contestar menos preguntas para obtener el 10. Si se presenta más tarde (menor esfuerzo), tendrá que contestar las 10 preguntas correctamente si desea obtener la calificación máxima (10). El alumno puede elegir si se presenta a las 7 o a las 8 sabiendo que en cada caso, sus respuestas tendrán un valor diferente(1) . De acuerdo a la concepción skinneriana, en este ejemplo no existe el castigo. ¿De dónde sale el argumento de que transitar por una autopista con descuento implica el reforzamiento negativo y se trata de un coste de respuesta? Me atrevo a considerar que el argumento se basa en los trabajos desarrollados en el área de lo que podríamos denominar como “microteoría conductual económica” que emana de los innumerables trabajos desarrollados en relación a la investigación animal bajo programas concurrentes. El tema obligado es: la elección. Los programas de reforzamiento concurrentes se definen como aquellos en los operan dos programas (criterios de respuesta) diferentes simultáneamente y para ello, la caja de Skinner está provista de dos palancas. En una de ellas (la derecha, por ejemplo), se programa el reforzamiento bajo un RF30 y en la otra (la izquierda), el programa de reforzamiento se basa en un RF10. El animal alternará entre uno u otro programa pero, finalmente, responderá más fácilmente a la palanca que opera bajo un programa de RF10. Hace menos y obtiene lo mismo. Digamos que en la palanca de la izquierda hay una rebaja, un descuento, una tarifa reducida, o como se le quiera llamar, y en la palanca de la derecha hay que responder más para obtener lo mismo. Suponer que un mayor requisito es sinónimo de castigo, violenta el concepto skinneriano. Skinner (1938) nunca sugirió, definió o postuló que una mayor tasa o intensidad de respuesta implicara un procedimiento de castigo. Recordemos que su “hallazgo” del reforzamiento intermitente (Skinner, 1956) sólo obedeció a que no tenía suficiente alimento para poder terminar su investigación en el tiempo programado. En lugar de entregar una porción de alimento por cada respuesta, empezó a proporcionar el alimento cada dos o tres respuestas. Skinner nunca consideró que al aumentar el requisito de respuesta se implicara un procedimiento de castigo como es el coste de respuesta. Las investigaciones iniciales y recientes en este campo (Herrnstein, 1958; Foster y Hackenberg, 2004), en ningún momento aluden a una combinación de los procedimientos de reforzamiento y castigo. En todo caso, aluden al coste-beneficio que tiene la respuesta. Y aquí, creo que surge la confusión. El concepto coste-beneficio no tiene relación conceptual con coste de respuesta,. El primer término se deriva de la economía no de la psicología skinneriana y alude a las consecuencias de la respuesta en términos de menor o mayor ganancia. Ganar menos de lo esperado, para los ecónomos equivale a un coste; el segundo, originalmente se definió como un procedimiento de castigo (Weiner, 1962) y empleado exitosamente en pacientes psiquiátricos (Ayllon y Azrin, 1968).
5
El coste de respuesta a la skinneriana, difícilmente puede usarse en la investigación tradicional con animales privados ya que implica que el individuo dispone de reforzadores que ha obtenido y no ha usado. Un animal privado, en general no almacena el alimento o la bebida disponible, lo consume. Si el ser humano actuara igual entonces, en el momento de que una persona recibiera su salario, se lo gastaría todo, inmediatamente y sabemos que aunque puede ocurrir, usualmente esto no sucede. El ser humano puede ahorrar o no gastar inmediatamente su salario (reforzadores secundarios, según la lógica skinneriana). De esta forma, a un niño se le puede decir que cada vez que haga sus deberes escolares, se le pondrá un punto azul en un folio y si final de la semana tiene 3 o más puntos azules se le invitará a dar un paseo por el parque y un helado (no recuerdo cómo se le dice a esto en España). Sin embargo, cada vez que no realice sus deberes, se le pondrá un punto rojo. Por cada punto rojo, perderá uno azul. Esta, no otra, es la técnica del coste de respuesta. La técnica se define como el castigo de una respuesta mediante el retiro de reforzadores positivos ganados. Si el niño responde incorrectamente, perderá un reforzador positivo, esto es, se castiga la respuesta incorrecta. Expuesto esto, no veo cómo el pagar en una caseta de peaje pueda concebirse como castigo cuando en realidad es una transacción. ¿Cuál es la respuesta incorrecta? Yo sólo estoy pagando lo que cuesta el uso de una carretera. Claro, puedo optar por horarios diferentes, cada uno con requisitos (costes) diferentes. La barata, reducción de precios, oferta, descuento, dos por uno, o como se llame la promoción, sólo incluye la reducción de requisito no la aplicación de castigo mediante la eliminación de reforzadores negativos. Curiosamente, algunas de mis referencias son las mismas que empleó Luis. Referencias: • •
•
• •
Ayllon T. y Azrin N. (1968). Economía de fichas. Trad. al cast. México: Trillas. Foster T.A., Hackenberg T.D. (2004). Unit price and choice in a tokenreinforcement context. Journal of Experimental Analysis of Behavior, 81, 5-25. Herrnstein R.J. (1958). Some factors including behavior in a two-choice situation. Transactions of the New York Academy of Sciences,12, 3535. Skinner B. F. (1938). The Behavior of Organisms. New York; Appleton Century Crofts. Weiner, H. (1962). Some effects of response cost upon human operant behavior. Journal of Experimental Analysis of Behavior, 5, 201-208.
Respuesta de Luis Valero: En todas las definiciones iniciales, completamente de acuerdo, al igual que sobre los programas de reforzamiento y requisitos de repuesta. Pero en esta explicación de la reducción de requisitos de respuesta, ya no tanto. De acuerdo en que se trata de dos conceptos diferenciados, pero mi argumentación es que al reducir los criterios o requisitos de respuesta la probabilidad de esta respuesta aumenta, y correspondería a la definición de “reforzamiento negativo” al haberse reducido una parte de la estimulación aversiva. En el caso que pones sobre experimentación animal con un programa de RF20 y luego se reduce a RF5, efectivamente el cambio introducido por el experimentador es reducir el numero de respuestas exigidas para entregar el reforzador, pero la probabilidad de reforzamiento por respuesta aumenta, y ello aumenta también la probabilidad de responder (en el primer caso Ref/Resp = 0.05, y en el segundo Ref/Resp = 0.20). En este caso podría
6
considerarse (y repito “podría”, es un análisis teórico y habría que ver los efectos) como reforzamiento positivo el cambio de una situación a otra. De hecho, en el otro ejemplo escolar con el cambio de preguntas del examen, de valorar 1 punto por pregunta o valorar 2 puntos por pregunta, habrá que ver la cantidad de alumnos que se presentarían a uno y otro examen (estoy seguro que al segundo muchos mas), además de las concomitantes respondientes de alegría de los alumnos al aumentarles la valoración de sus preguntas de examen. En el caso contrario, el paso de un programa RF5 a otro RF20, efectivamente es un aumento en los requisitos de respuesta, pero el efecto conseguido podría analizarse como castigo por disminución del reforzador, incluso puede darse extinción. Por eso el paso de un programa a otro ha de hacerse lentamente. Pero, por otro lado, en el ejemplo que iniciamos sobre el pago y rebaja en el precio de la autopista, no se trata de un programa con reforzamiento variable concurrente, como los que describes que efectivamente serian un comportamiento de elección y ya esta. Sino de una única respuesta ante el control de peaje: pagar una cantidad de dinero determinada por utilizar esa autopista. En esa situación, pagar dinero es deshacerse de un reforzador ya adquirido y entrar en la autopista, sería acceder a un reforzador de actividad. Es una respuesta con una doble contingencia, de castigo negativo o coste de respuesta, por un lado, y de reforzamiento positivo por otro. No seria una respuesta de elección o concurrente, sino en todo caso –y siendo muy estrictos- en cadena. Necesariamente primero hay que pagar para acceder a la autopista después. En otro ejemplo de coches. Habitualmente se considera que las multas de tráfico es una técnica de coste de respuesta, nos castigan y “quitan” el dinero por aparcar mal o ir a demasiada velocidad. Si en esa situación, el conductor/a habla con el policía de trafico, se hace la victima, le da alguna excusa, que esta embarazada, etc., y el guardia reduce o elimina la multa, ahora ese comportamiento se supone estaría bajo reforzamiento negativo, porque ha eliminado la multa. Pues de igual forma, si se circula por la autoría a una hora determinada y ello cuesta la mitad de precio que habitualmente, o incluso es gratis a determinadas horas, pues aumentar la conducta de circular por esa autoría, y puede analizarse como reforzamiento negativo. Otro ejemplo, habitual en España, la “hora feliz” en los pubs y bares, cuando ofrecen 2x1 las copas a una hora determinada (20-22 horas), y con ello aumentan la clientela y el ambiente del local. Si hay una disminución en el precio y aumenta la conducta, eso corresponde a la definición de reforzamiento negativo. Por cierto, estoy seguro que, en tu ejemplo, serán mayoría los alumnos que madruguen a las 7h., para hacer el examen y se les valore al doble las preguntas, (aunque me demandarían por el trato injusto entre alumnos ;))) Por ultimo, por la explicación del otro mensaje, no creo que tenga confundidos los términos de “coste de respuesta” (como en los ejemplos anteriores), y el de “coste/beneficio” de tipo económico. Ambos son diferentes, y los expuse en un intento de explicar una respuesta del conductor de toma de decisiones entre unas ganancias y unas perdidas. Efectivamente tienen un origen económico, pero esos análisis pueden aplicarse perfectamente a este tipo de comportamientos donde hay dinero por medio. Bien, y por ultimo, si este posible aumento de los conductores en las autopistas no es explicable por “reforzamiento negativo”, ¿cuál es la contingencia? ¿la reducción de requisitos de respuesta?. Si fuese sólo así, ¿por qué pagar la autopista con tarjeta de crédito, que también reduciría los requisitos de respuesta, no aumenta el número de conductores que circulan, pero sí aumenta cuando reducen los precios?.
7
Respuesta de Julio Varela: Debido a que tenemos acuerdo en las definiciones básicas y que los ejemplos son los que parecen estar en polémica, me quedaré en las definiciones básicas y perdón por la insistencia. 1. Reforzamiento positivo. En el momento en que aparece la respuesta Ra se produce la presentación del estímulo Ex. Si la tasa de Ra aumenta, se define a Ex como reforzador positivo. 2. Reforzamiento negativo. En el momento en que aparece la respuesta Rb, no se produce la presentación, desaparece o se reduce algún parámetro del estimulo Ey. Si la tasa de Rb aumenta, se define al efecto de Ey como reforzador negativo y Ey se nomina como estímulo negativo (o aversivo). APUNTE: Bajo este sistema lógico, la tasa de respuesta es clave para identificar si un estímulo es un reforzador. Si se incrementa la tasa ante la presentación del estimulo, éste es positivo pero si el estimulo se elimina, es negativo. 3. El castigo. En el momento en que aparece la respuesta Rc, y se presenta el estímulo Ey, consecuentemente la tasa de respuesta Rc disminuye drásticamente o desaparece. 4. La extinción. En el momento en que aparece la respuesta Rd, y se presenta el estímulo Ey, la tasa de respuesta Rd tiende a disminuir gradualmente.(2) 6. El coste de respuesta. En el momento en que aparece la respuesta Rc, al sujeto se le retira un Ex y la tasa de respuesta Rc tiende a desaparecer. APUNTE: En el marco lógico anterior, la respuesta Ra es aquella que el experimentador espera que ocurra (requerida por el programa). Socialmente, se le identifica con respuestas adecuadas, positivas, sociales, adaptadas o como se les quiera denominar. APUNTE: En cambio, las respuestas Rb y Rc son respuestas no esperadas o no requeridas por el programa. Socialmente son respuestas incorrectas, negativas, inadecuadas, mala onda, antisociales, psicópatas, etc. APUNTE: La respuesta Rd puede o no esperarse, y esto depende de la operación. 7. El estímulo Ex es positivo. El estimulo Ey es negativo (o aversivo). Como se puede observar, en el castigo (4) y en el coste de respuesta (6), la respuesta que ocurre es inesperada (Rc), esto es, es una respuesta inadecuada. La extinción (5) se usa para respuestas tipo Rd que, dependiendo de la operación, puede ser una respuesta tipo Ra o Rc. El reforzamiento intermitente es un ejemplo de extinción de Ra. Por otro lado, aplicar la “ley del hielo a alguien” es un ejemplo de extinción de Rc (inadecuada). APUNTE: Es importante notar que en todos los casos descritos, que definen los procedimientos, se trata de una sola respuesta y una sola contingencia (condicionalidad). Hasta aquí, con base en las definiciones básicas, podemos argumentar lo siguiente: a) No existe castigo en el coste de respuesta. O es coste o es castigo, no puede definirse como sinónimo. b) Podemos afirmar lo mismo respecto a la extinción: se trata de extinción o de coste, pero no puede afirmarse algo diferente.
8
c) Mucho menos puede argumentarse que en el coste de respuesta exista castigo y extinción. Las referencias citadas por Luis y por mí en los escritos anteriores se ciñen a estas definiciones. No hay más. Ahora entramos en el terreno pantanoso de la conducta humana. En la investigación animal operante, el único análogo de transacción (yo doy, tú me das) que existe, surge de la investigación con monos de donde salió originalmente la palabra “token” que tradujimos al castellano como ficha. Y se usaron fichas simplemente porque los animales no usan el dinero. Las fichas fueron bautizadas como “reforzadores simbólicos” y que podían intercambiarse por reforzadores primarios (u otros reforzadores secundarios o simbólicos). Si yo doy algo, lo que doy debe ser un “reforzador”, y lo que yo reciba, debe ser un “reforzador”. Es una transacción de reforzadores y las respuestas implicadas son del tipo Ra (esperadas), no son del tipo Rc (no esperadas). Por esto, pagar cierta cantidad de dinero por transitar en una autovía, es un simple caso de transacción de reforzador no primario (uso de autovía) por uno simbólico (dinero). Si cobran 1000 pelas pago ese dinero. Si cobran 500 pelas, también lo pago. Ambos casos son transacciones. En ninguno, considerando las definiciones básicas, es argumentable el coste de respuesta, el castigo o la extinción. Y finalmente, el terreno escabroso que ya ha causado algunas diferencias y que sé que existe discrepancia: decir que se incrementa la tasa (número de automovilistas que transitan en el horario con peaje reducido) es una extrapolación poco afortunada de los conceptos empleados en el laboratorio. En éste ámbito, la tasa de respuestas siempre se refiere a la tasa del INDIVIDUO. En el caso de las autovías, se está haciendo alusión a una tasa poblacional, no individual. Por tanto, desde mi punto de vista, conceptualmente no hay consistencia. Estaré atento a la respuesta y comentarios de Luis y de cualquier otra persona pero por mi parte, creo que con esto argumento que sí hay una confusión conceptual en el caso analizado de las autovías Gracias por su paciencia ante estos largos mensajes. Respuesta Final de Luis Valero: Creo que estamos llegando a algunos acuerdos y puntos en común. Aunque en algunos puntos nos vamos alejando del tema. De acuerdo en las definiciones iniciales sobre las contingencias básicas, y en las definiciones en un contexto de laboratorio. Pero no tanto, en cuanto a la definición de “Ra” como respuestas correctas, adecuadas, sociales, adaptativas, etc., y “Rb” como incorrectas, inadecuadas, etc. Sería una distinción sólo desde el punto de vista del experimentador, cuando se trata de una contingencia programada, o una situación escolar o de tratamiento, donde el terapeuta administra las posibles contingencias. La respuesta que se analiza puede ser esperada o inesperada, adecuada o inadecuada, la distinción la hace el observador si es él quien aplica las consecuencias. Pero en circunstancias naturales, no existen Ra ni Rb, sólo la contingencia, las consecuencias que siguen a una respuesta y alteran sus parámetros futuros. No hay que suponer intención en la madre que “castiga” al niño quitándole que vea los dibujos animados en TV (otro ejemplo de coste de respuesta), sino la simple contingencia. Dependiendo del efecto, afirmaremos que la respuesta ha sido “reforzada” o “castigada”, porque puede que el comportamiento inadecuado del niño aumente.
9
Por cierto, creo que hay un error de escritura en los puntos 3 (castigo) y 4 (extinción), das la misma definición. Se supone que en extinción se elimina el Ey (reforzador que antes seguía a la conducta). La diferencia respecto a “coste de respuesta” es que se elimina cualquier evento, cualquier otro reforzador, no necesariamente el que con anterioridad seguía a esa respuesta. Ambas serian definidas como contingencias de “castigo negativo”. Citando las definiciones de los clásicos, Honig (1966/75, pags 456-470) da esa definición ya mencionada anteriormente sobre castigo, e incluye a continuación cuatro procedimientos de castigo: presentación de estimulación aversiva o punitiva, presentación de estimulación aversiva condicionada, tiempo fuera de reforzamiento positivo, y coste de respuesta. En su texto también clásico de Kanfer y Phillips (1970/77, pags. 359-360) incluyen entre los “modelos para el control aversivo del comportamiento”: saciedad, extinción, tiempo fuera y costo de respuesta. En un texto más actual y aplicado sobre modificación de conducta, Martin y Pear (1999/96, pags. 174-176) presentan la misma clasificación de los tipos de “estímulos punitivos”: castigo físico, reprimendas verbales como aversivos condicionados, tiempo fuera y costo de respuesta. En el libro de técnicas de modificación de conducta de Labrador et al. (1995, pag. 515), un clásico español sobre el tema, se iguala el coste de respuesta como castigo negativo. Por tanto, mi primera afirmación (y de esta creo que no me bajo) es que el “castigo negativo”, aquel en que se elimina algún evento contingente a la respuesta y disminuye su probabilidad, incluye diversos procedimientos que son: extinción, tiempo fuera y coste de respuesta. Los tres, con sus diferentes formas de aplicación, son procedimientos de castigo. Por otro lado, mi segunda afirmación (y creo que tengo argumentos para mantenerme todavía en ella) es que el pago de dinero por utilizar una autopista es un comportamiento con una doble contingencia de coste de respuesta y de reforzamiento positivo. No hay ninguna razón para extrañarse que un mismo comportamiento pueda tener dos contingencias simultáneamente, y que además esto pueda ocurrir en la vida diaria. De hecho, he encontrado el experimento clásico en los programas de reforzamiento con castigo, con un programa de reforzamiento positivo y de castigo, ambos simultáneamente. Es un experimento de Azrin et al. (1963) con palomas donde primero reforzaron con comida el picoteo sobre la tecla, hasta mantenerlas estable con un programa RV 3 minutos, después se introdujo castigo según un programa RF1, simultáneamente sobre la misma tecla. Es decir, la paloma picaba la tecla, recibía una descarga y a continuación la comida. En la tercera fase, cambiaron el programa RF del castigo, con niveles de RF100 a RF1000, y observaron que cuanto mayor era el programa menos tasa de respuesta se suprimía. Es decir, cuanto menos probable era el castigo mas aumentaba la respuesta operante. El parecido con el pago por pasar por una autopista y los diferentes precios, no puede ser mayor. Bien, si consideramos que pagar dinero por algo es un coste de respuesta (castigo negativo), y si consideramos también este experimento anterior, el hecho de disminuir el pago de autopista (menor probabilidad de castigo) aumentara la conducta de utilizar esa autopista. La disminución del programa de castigo aumenta la conducta, lo cual –según la definición- sería reforzamiento negativo. Creo que el análisis es correcto, el razonamiento también es lógico, y los datos sobre los efectos de las rebajas en la conducta del consumidor (de lo que hay bastantes estudios empíricos) confirman esta hipótesis. Aunque se pueda estar de acuerdo o no con el uso de algunos de esos términos. Por último, aunque ya es apartarnos del tema de debate en esta ocasión, es importante señalar que uno de los parámetros habituales de registro de un comportamiento es la
10
frecuencia o bien la tasa de respuesta. Pero existen otros más, y respecto a la conducta de grupo también existen diversos parámetros de medición como el número de personas o usuarios, la frecuencia o tiempo de uso, los productos de la conducta de grupo, etc., que son perfectamente válidos en una investigación empírica (y conductual), y que de hecho se utilizan con diseños de caso único en investigación comunitaria. Por ejemplo, el número de coches que paran con semáforo ámbar en un determinado cruce, el número de coches que circulan por encima de una velocidad dada, la cantidad de atropellos o accidentes en una carretera determinada, la cantidad de litros de gasolina vendidos en una determinada estación, y por supuesto, el numero de coches que atraviesan el control de una autopista a una hora determinada. Referencias: • • • • •
Azrin, N.H., Holz, W.C., y Hake, D.R. (1963). Fixed-ratio punishment. JEAB, 6, 141-184. Labrador, F.J., Cruzado, J.A., y Muñoz, M. (1995). Manual de técnicas de modificación y terapia de conducta. Madrid: Pirámide. Kanfer, F.H. y Phillips, J.S. (1970/77). Principios de aprendizaje en la terapia del comportamiento. Mexico: Trillas. Martin, G. y Pear, J. (1996/99). Modificación de conducta: qué es y cómo aplicarla. Madrid: Prentice Hall. Honig, W.K. (1966/75). Conducta Operante: investigación y aplicaciones. Mexico: Trillas.
Respuesta Final de Julio Varela: Había comentado que con mi mensaje anterior terminaba mi plática pero ... Viendo tu respuesta, tengo que agregar algunos puntos a manera de conclusiones. A. Totalmente de acuerdo que en circunstancias naturales no existe ni Ra ni Rb, … y tampoco existen los programas de reforzamiento. Estos son producto de programaciones hechas en laboratorio o escenarios estricta o relativamente controlados por alguien: el experimentador. B. Efectivamente, cometí no uno sino dos errores en mi descripción de extinción (la del castigo es correcta). En el caso de extinción debí haber escrito: 4. La extinción. En el momento en que aparece la respuesta Ra, y no se presenta el estímulo Ex, la tasa de respuesta Ra tiende a disminuir gradualmente. C. Gracias, ya sé a quién responsabilizar del error clásico conceptual de igualar el coste de respuesta con el castigo negativo: a Labrador. D. En tu primer afirmación, de la cual no te bajas, planteas un punto muy importante: la distinción entre la funcionalidad de la contingencia y el criterio del experimentador. Una respuesta Ra que durante varias sesiones ha sido reforzada mediante Ey, de pronto, el experimentador decide aplicar la extinción y por tanto retira Ex (reforzador positivo). ¿La respuesta de la rata eliminó el estímulo Ex por ser aversivo? E. Totalmente contingencias contingencias, mi comentario
de acuerdo en que no hay ninguna razón para extrañarse que pueda haber dos simultaneas, lo que sí es de extrañarse es que se considere que hay dos cuando en realidad hay una sola, como se describe en el caso básico (punto 6 de anterior).
F. El estudio de Azrin, Holz y Hake (1963) no se desarrolló un programa de reforzamiento simple, tiene dos componentes y un sólo operandum. En ningún momento, bajo nueva revisión
11
con lupa, encontré la argumentación o alusión al coste de respuesta. Los autores hablan de supresión y reducción de tasa ante la presentación del castigo (estimulo aversivo), sólo eso. Referencias: •
Azrin, N.H., Holz, W.C., y Hake, D.R. (1963). Fixed-ratio punishment. JEAB, 6, 141-184.
NOTAS: (1) No quiero desviarme del tema central de discusión pero si se considera correcta esta forma skinneriana de considerar la ejecución, habría que aclarar muchas cosas, entre otras: ¿La respuesta que se refuerza es la de levantarse a cierta hora? ¿Es la respuesta de responder correctamente a cada pregunta? ¿Son ambas? Sigo con el tema y perdón por la irrupción. (2) Esta definición es errónea pero se mantiene pues será comentada en mensajes posteriores.
[email protected] Grupo Contextos 2010
12