Story Transcript
Métodos Cuantitativos I: Diseño y medición Clase 8: Diseños experimentales y cuasi experimentales
Student of Social Science
Nico Trajtenberg Departamento de Sociologia, Facultad de Ciencias Sociales Udelar
1
Clase pasada… ü
Problema practico disparador à bullying (progrma KiVa)
ü
Validez, validez interna y externa
ü
Amenazas a la validez interna
ü
Amenazas a validez externa
ü
3 diseños pre experimentales
ü
3 diseños experimentales
2
Y hoy…? I.
Refresquemos el problema practico disparador (porque obviamente lo voy a refritar asquerosamente para esta clase...)
II.
Continuar con disenios experimentales a. Diseños experimentales factoriales b. Series cronologicas
III. Disenios cuasi experimentales a. 2 ejemplos b. Que es un cuasi experimento c. 4 tipos:
series cronologicas, muestras crnologicas equevalentes; Grupo de control no equivalente Series cronologicas multiples
d. Experimentos naturales
3
I. El problema practico disparador: bullying en Uruguay
4
Un ejemplo practico disparador
Es el bullying un problema relevante en Uruguay?
Deberiamos hacer algo al respecto?
Que podriamos hacer?
Volvemos a nuestro insufrible estudio mproso de ANEP – Universidad de Cambridge (Trajtenberg & Eisner 2014)
5
Algunos datos sobre victimizacion
Algunos datos sobre victimizacion 70.0%
61.9%
60.0% 50.0%
46.3% 38.0%
40.0% 30.0%
22.0%
20.0%
12.5%
10.0% 0.0% Ignorado
Insultado
Agresion Robo/danios Acoso sexual Fisica a la propiedad Al menos una vez
Factores de riesgo asociados… ü Los jovenes con mas chances de ser
victimas de bullying son las que tienen mala relacion con los companieros, dificultades academicas, y no ven muchas ventajas de estudiar
ü Los jovenes con mas chances de ser
perpetradores de bullying son los menos comprometidos con liceo, los que tienen peor relacion con profesores, y los que perciben al centro como menos legitimo
8
Que hacer? Se propone aplicar el programa KiVa (www.kivaprogram.net) que involucra
diversos componentes que incluyen i) entrenamiento y foro de discusion para personal, ii) uso de entornos de aprendizaje virtual, iii) guia para padres, y iv) un juego de computadora antibullying para los jovenes
Desarrollado en todas las escuelas de Finlandia; estudios de replicación internacional en Suecia, Holanda, USA, Puerto Rico
Resultados: disminucion de la victimizacion y perpetracion de bullying en un 50% luego de un anio de implementado; tambien tuvo efectos positivos en ansiedad, depresion, y motivacion para estudiar y concurrir a la escuela
9
II. Diseños Experimentales
10
Tres diseños experimentales 1. Diseño grupo de control pre test – post test R 01
X
R 03
03 04
2. Diseño de 4 grupos de Solomon R O1
X
R O3
O3 O4
R
X
R
O5 O6
3. Diseño de grupos de control con post test únicamente R R
X
O1 O2
11
Otro diseño experimental: factorial 4. Diseño grupo factorial (2x2)
ü ü
R
X1A
01
R
X1B
02
R
X2A
03
R R
X2B
04 O5
Queremos ver los efectos del programa KiVa pero la realidad es un poco mas compleja que Tratamiento SI vs. Tratamiento NO à imaginen que… que el programa KiVa tiene una variante donde la prevención del bullying le da un rol mas protagónico a los observadores (bystanders) Sospechamos que impacto del programa será afectado por tipo de entorno socioeconómico de centro: funciona igual en Liceo Francés y en liceo en Marconi?
Es un disenio que permite comparar distintos niveles/tipos de tratamiento, tipos de condiciones, tipos de unidades, etc.
Permite analizar no solo efectos principales de cada condicion/VI sino interacciones entre VI à es muy util para ver hasta que punto son generalizables los efectos de variables manipuladas (validez externa)
12
Otro diseño experimental: factorial Cuando ni el tipo de programa ni el tipo de contexto afectan los resultados à efectos nulos del tratamiento! Sin énfasis observador
Énfasis observador
Contexto no problemáticos
5
5
Contexto problemático
5
5
Contexto problemático
Énfasis observador Sin énfasis observador
Contexto no problemático
Contexto problemático
Contexto no problemático
Sin énfasis observador
Énfasis observador
13
Otro diseño experimental: factorial Cuando hay efectos, analicemos primero los EFECTOS PRINCIPALES, en este
caso vemos que hay diferencias significativas en el tipo de programa de prevencion del bullying, entre los que hacen enfasis en el observador y los que no lo hacen, pero que el contexto parece no tener relevancia Énfasis observador
Sin énfasis observador
Contexto no problemáticos
5
7
Contexto problemático
5
7
Sin énfasis observador
Contexto problemático
Énfasis observador
Contexto no problemático
Contexto problemático
Contexto no problemático
Énfasis observador
No énfasis observador
14
Otro diseño experimental: factorial Pero miren en este caso, EFECTOS PRINCIPALES, en este caso vemos que no
hay diferencias significativas del tipo de programa entre los que hacen enfasis en el observador y los que no lo hacen, pero que el contexto socio economico del centro educativo es el que hace toda la diferencia! Énfasis observador
Sin énfasis observador
Contexto no problemáticos
5
5
Contexto problemático
7
7
Contexto problemático
Sin énfasis observador Énfasis observador
Contexto no problemático
Contexto problemático
Contexto no problemático
Énfasis observador
No énfasis observador
15
Otro diseño experimental: factorial Tambien podriamos tener la situacion en la cual observaramos que tanto el tipo de programa (haciendo enfasis o no el bystander) como el contexto socio economico del centro educativo (problemático vs. No problematico) tienen EFECTOS PRINCIPALES sobre la disminucion del bullying Énfasis observador
Sin énfasis observador
Contexto no problemáticos
5
7
Contexto problemático
7
9
Sin énfasis observador
Contexto problemático
Énfasis observador
Contexto no problemático
Contexto problemático
Contexto no problemático
Enfasis observador
Sin enfasis observador
16
Otro diseño experimental: factorial En algunos casos podemos detectar efectos interactivos à en este caso se
puede observar como el efecto tipo de programa es relevante para disminuir el bullying en contextos problematicos Énfasis observador
Sin énfasis observador
Contexto no problemáticos
7
5
Contexto problemático
5
7
Sin énfasis observador
Contexto problemático
Énfasis observador
Contexto no problemático
Contexto problemático
Contexto no problemático
Énfasis observador
Sin énfasis observador
17
Otro diseño exp: series cronologicas Uno de los problemas de los usuales disenios experimentales es que los post tests no estan diseniados para identificar efectos mediatos
Problema de (i) subestimacion de efectos de mediato y largo plazo; y (ii)
sobreestimacion de efectos de programas (ej. Evaluaciones de programas que miden reincidencia por plazo de menos de dos anios)
Gran inconveniente es que son mucho mas costosos y complejos à seguimiento de unidades durante periodos largos de tiempo à problema de mortalidad selectiva se agrava y se dificulta mantener equivalencia incial de grupos
Problema de historia que no afecte diferencialmente a grupos Hay muchas variantes de diseño
18
Otro diseño exp: series cronologicas Sin efecto
Efecto creciente X1
X1
O1
O2
O3
O4
O5
O6
O1
O2
X1
O2
O3
O5
O6
Suceso independiente del tratamiento
Efecto temporal
O1
O4
O3
X1
O4
O5
O6
O1
O2
O3
O4
O5
O6
19
III. Diseños Cuasi experimentales
20
2 ejemplos… Entre 2002 y 2008 gracias a préstamo del BID se desarrollo un
esfuerzo inédito en Uruguay: el Centro Nacional de Rehabilitación (CNR), un centro de pre egreso que atendía a 100 varones entre 18 y 34 años provenientes del sistema penitenciario.
Se aplico un programa de tratamiento adaptado de las experiencias desarrolladas en Barcelona (Redondo & Garrido) que incluía no solo programas educativos, laborales y de refuerzo de vínculos familiares sino también un enfoque cognitivo conductual con un modulo pro social y un énfasis en la preparación para el reingreso
Ingreso dependía de voluntad del interno mas selección basada en escala de riesgo y entrevista personal realizada por sicólogos de CNR à incluía individuos de riesgo medio/bajo
Fuerte debate sobre si este programa no era demasiado costoso y
si realmente tenia algún tipo de efecto mejorando la reincidencia de los ofensores
Como sabemos si el programa
del CNR es realmente efectivo disminuyendo la reincidencia? Podemos usar experimentos…?
21
2 ejemplos… En 2014 el gobierno del Encuentro Progresista
implemento en Uruguay una histórico cambio en el marco legal regulando el consumo de cannabis que incorpora tres modalidades de adquisición: autoconsumo, pertenencia a clubes de consumo, compra en farmacias
Fuerte debate político y académico sobre si
este cambio no tendrá efectos perversos aumentando: i) consumo de drogas blandas y duras; ii) y del delito
Podemos usar experimentos…?
Como sabemos si el novedoso marco legal uruguayo no aumenta el consumo de drogas y de delito?
22
(III) Diseños Cuasiexperimentales Cuasi experimentos tienen el mismo objetivo que experimentos: testear hipótesis causales descriptivas sobre causas manipulables
Se introduce un símil de experimento donde la causa es manipulable y ocurre antes que el efecto
Pueden incluir muchos de los rasgos estructurales del experimentos (pre test, grupos de control) pero no hay un control total de la asignación del tratamiento experimental (ausencia del carácter aleatorio de asignación)
La asignación de la condición es muchas veces auto asignada (elegida por
las propias unidades) o seleccionada por un administrador (sicólogo, juez, legislador)
Pero los investigadores conservan
control sobre: la elección y programación de las medidas, como se ejecuta efectivamente la asignación no aleatoria, que tipos de grupos de control son seleccionados
23
(III) Diseños Cuasiexperimentales ü
Dado que se carece de control experimental total à fundamental que se posea un conocimiento profundo de cuales son las variables especificas que están fuera de control (potenciales explicaciones de efectos observados alternativas al tratamiento)
ü
Muchas veces se asume que en ausencia de asignación aleatoria e incluso de grupo de control no tiene sentido ningún tipo de evaluación experimental à pero en muchos casos es posible hacer diseños interesantes que generan evidencia razonable de la existencia de un efecto del tratamiento
24
(III) Diseños Cuasiexperimentales Falta de control à descartar hipótesis alternativas (falsacionismo, Popper)
Cuasi experimentos asumen una versión soft del
falsacionismo que reconoce dos grandes supuestos que nunca se cumplen 1. Los enunciados causales nunca están perfectamente
especificados y por ende refutación genera permanente reformulación de las teorías causales
No es tan grave ya que reformulación suele ser en aspectos específicos, menores y no de gran alcance
2. Las medidas nunca son reflejos perfectamente validos e independientes de la teoría que se esta evaluando empíricamente (Quine)
Tampoco es tan grave ya que aun cuando las observaciones
no sean neutrales pueden llegar a tener un status de hechos cuando han sido repetidamente confirmadas en diferentes tiempos, utilizando diferentes marcos teóricos y diferentes medidas
25
(III) Diseños Cuasiexperimentales La asignación no aleatoria del tratamiento à pueden
haber diferencias sistemáticas (no aleatorias) entre el grupo de tratamiento y el grupo de control pero que no se deben al tratamiento!
Ej. presos seleccionados x CNR poseen menor trayectoria delictiva, menos problemas sicológicos, un mayor soporte desde la familia, etc.
Todas esas diferencias son potenciales explicaciones
alternativas (al tratamiento) para el efecto observado à clave es utilizar buenos diseños y mediciones para descartarlas à tener una estimación lo mas valida posible del efecto tratamiento
Cuanto mayor el numero de explicaciones alternativas à mas complejo y demandante es el diseño del cuasi experimento
Nunca estamos seguros de podes descartar todas las explicaciones alternativas…
26
(III) Diseños Cuasiexperimentales Stanley y Campbell mencionan varios tipos ü Experimentos de series cronológicas ü Muestras cronológicas equivalentes ü Materiales equivalentes ü Grupo de control no equivalente ü Diseños compensados ü Diseños de muestra separada pre test – post test ü Diseños de muestra separada pre test – post test con grupo de control
ü Diseño de series cronológicas múltiples ü Diseño de ciclo institucional recurrente ü Análisis de la discontinuidad en la regresión
27
(i) Experimentos de series cronologicas Proceso periódico de medición de algún grupo/individuo y la presencia de una discontinuidad à inclusión de una variable tratamiento
Ej: si barra de hierro que ha tenido peso constante en los últimos meses
pierde peso luego de que es metida en acido nítrico à causa fue el baño de acido nítrico aun cuando no tengamos barra de hierro de control! à ejemplo aceptado en ciencias duras pero difícilmente plausible en CCSS
Parecido superficial a diseño 2 ya que carece de grupo de control e incluye medidas pre test y post test
NR O1 O2 O3 O4 X 05 O6 O7 O8 O9 O10
Aplico programa KiVa en liceo Frances en el
años 2016, y comparo la prevalencia de bulliyng anual que hubo en los 4 años previos (2011 – 2015) y los observados en los siguientes cuatro años (2017 – 2020)!
28
(i) Experimentos de series cronologicas Implementación de Programa KiVa en Liceo Francés (X) A
Es legitimo inferir efecto del programa (X) en A y en B B
2011
2012 2013
2014 2015
2016
2017 2018
2O19
2020
29
(i) Experimentos de series cronologicas Implementación de Programa KiVa en Liceo Francés (X)
C
Es mas dudoso inferir efecto del programa (X) en C, y sobre todo en D y E D E
2011
2012 2013
2014 2015
2016
2017 2018
2O19
2020
30
(i) Experimentos de series cronologicas Implementación de Programa KiVa en Liceo Francés (X)
F
Es ilegitimo inferir efecto del programa (X) en F, Gy H
G
H
2011
2012 2013
2014 2015
2016
2017
2018
2O19
2020
31
(i) Experimentos de series cronologicas Imposibilidad de controlar historia es el problema mas grave ü no solo no hay aislamiento de laboratorio sino que la extensión del tiempo
determina que estudiantes pueden estar mucho mas expuestos a multitud de fuentes de estimulo en el mismo sentido que el tratamiento/programa
ü es también importante identificar los ciclos/periodos de las unidades de
manera que los periodos sean suficientemente largos para no generar resultados sesgados (Ej. Periodos de vacaciones à baja bullying por menos exposición)
Instrumentación à tampoco es gran problema pero debe haber precaución con cambios en los instrumentos de medición o en su calibración (observadores que conocen experimento y poseen expectativas à pseudo confirman hipótesis)
Maduración, Regresión estadística y selección tampoco constituyen un problema (cuidado con la existencia de procesos de mortandad selectiva)
Validez externa à efecto experimental podría ser especifico de
población expuesta a tratamiento pero esto solo es una limitación si se realizan con observaciones artificiales no comunes en la realidad social (ej. Programa de bullying basado en role playing virtual es trasladable a la realidad?)
32
(i) Experimentos de series cronologicas Es fundamental que se especifique de antemano el
tratamiento y su relación cronológica esperada con el efecto à descartar exámenes post hoc oportunistas
Relevancia y preponderancia de estos diseños en ciencias duras pero
ü En CCSS fuera del laboratorio el aislamiento experimental y las condiciones constantes son mucho menos probables
ü Un experimento único jamás es prueba concluyente à
replicación del estudio (revolución de estudios de replicación en los últimos años!)
ü Uso como ultima alternativa cuando no se puede desarrollar ningún diseño mas controlado
33
(ii) Muestras cronológicas equivalentes Se eligen dos muestras equivalentes de una población y se introducen de forma intermitente el tratamiento (variable independiente) en una de ellas para compararla las diferencias entre ambas X1 O1
X0 O1
X1 O2
X0 O2
Es de mayor valor cuando se anticipa que el efecto del tratamiento es reversible/transitorio
El programa KiVa se aplica a una muestra experimental de alumnos
durante el año 2016 (X1 O1), y en el siguiente año (2017) se compara con una muestra equivalente a la que no se le aplica el programa KiVa (XO O1). Posteriormente en año 2018 se vuelve a aplicar el programa KiVa en la misma muestra experimental (X1 O2), y en 2019 se vuelve a observar los comportamientos de la muestra equivalente a la que no se ha sometido al programa de tratamiento (XO O2)
34
(ii) Muestras cronológicas equivalentes Principal problema del diseño anterior (historia) se controla
presentando el tratamiento en numerosas sesiones separadas haciendo improbable que el efecto se deba a circunstancias externas
Efecto reactivo de los instrumentos y conciencia de estar siendo tratado (y estudiado) es un problema mas serio para este tipo de diseños donde las unidades son expuestas al tratamiento en repetidas ocasiones
Problema de validez externa ü interferencia de múltiples dosis de tratamiento à no puede
generalizarse a situaciones donde haya una única exposición al tratamiento
ü Condición de control puede verse contaminada si el efecto
tratamiento tiene efecto prolongado e influye en periodos de control à subestimación efecto del tratamiento
ü También puede haber efecto sobre estimación de efecto tratamiento ya que intercalamiento puede generar mayor efecto que el que generaría una exposición continua y homogénea
35
(iii) Grupo de control no equivalente Involucra grupo experimental y grupo de control y ambos reciben
pre test y post test pero carecen de equivalencia pre experimental de muestreo à grupos se forman naturalmente
La asignación del tratamiento a los grupos es aleatoria y
controlada por el experimentador à diferente del experimento clásico donde sujetos son seleccionados aleatoriamente de población común para ser asignados a grupo experimental y de control O1 X1 O2 -------------------O3 O4
Tengo identificados dos colegios relativamente similares en el
barrio Punta carretas à eligió aleatoriamente en cual vamos a aplicar el programa de prevención de bullying KiVa y en cual mantendremos como grupo de control, aplicándoles un pre test a ambos colegios antes de implementar el programa, y post test luego de la implementación para evaluar diferencias de bullying entre ambos colegios
36
(iii) Grupo de control no equivalente Cuanto mas similares sean los grupos en reclutamiento (y se confirme en
puntajes de pre test), mas eficaz será este diseño para controlar amenazas de validez interna (historia, maduración, reactividad de prueba, instrumentación)
Algunas amenazas a validez interna asociadas a interacción maduración –
tratamiento (grupo experimental esta compuesto por individuos mas jóvenes) o efecto regresión (si se selecciona grupo experimental por sus puntajes extremos)
Si las medias de grupo experimental y grupo de control son muy diferentes à proceso de equiparación no permite igualar e incrementa amenaza de efectos indeseados de regresión donde el efecto observado será independiente del tratamiento
37
(iii) Grupo de control no equivalente Conviene distinguir dos versiones 1. Cuando el investigador puede elegir asignar aleatoriamente el tratamiento entre los dos grupos formados naturalmente
2. Cuando el grupo tratado es auto seleccionado o asignado no por el investigador y no se cuenta con un grupo de control de la misma población à diseño mucho mas endeble y vulnerable a amenazas de validez
Problemas adicionales: administración de test, interacción
de selección y tratamiento y en menor grado reactividad de instrumento
38
(iv) Series cronológicas múltiples Un diseño que tiene serie cronológica del diseño (i) pero le agrega un
grupo de control como en el diseño (iii): se agrega una institución similar no sujeta al tratamiento à una serie cronológica de control análoga (idealmente asignando aleatoriamente el tratamiento)
NR O1 O2 O3 O4 X O5 O6 O7 O8 O9 -------------------------------------------------NR O1 O2 O3 O4 O5 O6 O7 O8 O9
Como en disenio (iii) tengo identificados dos colegios relativamente
similares en el barrio Punta carretas à eligió aleatoriamente en cual vamos a aplicar el programa de prevención de bullying KiVa y en cual mantendremos como grupo de control, pero aquí hago desarrollo varias medias pre tratamiento en ambos colegios antes de implementar el programa, y también varias medidas post test luego de la implementación para evaluar diferencias de bullying entre ambos colegios
39
(v) Series cronologicas multiples Grupo tratado donde hubo programa: Liceo Frances
Implementacion de Programa KiVa
Grupo de control donde no hubo programa: Liceo Crandon
2011
2012 2013
2014 2015
2016
2017 2018
2O19
2020
40
(iv) Series cronológicas múltiples
Múltiples mediciones aumentan validez interna de efectos detectados à efecto se demuestra frente a control y frente a múltiples pre y post observaciones
Mayor control de efecto selección y maduración y sus interacciones
Persisten problemas de validez externa: interacción de pre tests y tratamiento; interacción selección y tratamiento
Stanley & Campbell lo consideran un ‘excelente diseño cuasi experimental’ con claras ventajas respecto a diseño (i) y (iii) à ‘de los mejores entre los mas viables’
41
(IV) Experimentos naturales
42
(iii) Experimentos Naturales En realidad no son experimentos porque la causa no puede ser manipulada
Estudios que contrastan un evento/fenómeno que ocurre naturalmente y sus efectos sobre una condición de tratamiento (o exposición) y una condición de comparación
Uso de técnicas estadísticas como Regresión Discontinua o Regresión con Variables instrumentales (Stanley & Campbell los incluyen como variante de diseño cuasi experimental)
Ejemplos ü ü ü ü ü
Relación entre los terremotos y el valor de las propiedades Causas de los brotes de epidemia de cólera Reformas legales prohibiendo fumar en la vía publica y enfermedades coronarias Políticas de tolerancia cero en Nueva York La legalización del consumo de marihuana y conductas desviadas
43
(iii) Experimentos Naturales Pero hemos de ser muy cuidadosos con los controles
de cofounders sino corremos el riesgo de sobrestimar el efecto del evento natural no manipulable
Ej. 1: Enfermedades coronarias disminuyeron luego de prohibición, pero venían disminuyendo y en el estudio quedo invisibilizado su carácter estacional (prohibición de fumar duro seis meses)
Ej. 2: Delito crecía en NY hasta la administración Giulianni y luego empezó a disminuir…pero
ü Ese mismo patrón se ve en todas las ciudades del Estados Unidos donde se utilizan sistemas policiales y de justicia criminal muy diferentes
ü El delito y la violencia venia disminuyendo en todo el mundo en los últimos 30 años
ü El delito y la violencia viene disminuyendo en los últimos siglos e incluso milenios (Pinker 2011, Eisner 2015)
44
45
Recuerdan los ejemplos con los que empezamos este modulo?
Como sabemos si las políticas de incremento de la severidad penal de 1995 y 2000 tuvieron efecto sobre el crimen?
46
(iii) Experimentos Naturales Como sabemos si los cambios en políticas sociales de los gobiernos de izquierda a partir de 2005 tuvieron algún efecto sobre el crimen?
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
47
(iii) Experimentos Naturales Si queremos explorar el efecto de ambos tipos de políticas, es imposible utilizar un experimento ortodoxo à que queremos hacer?
Emplear un diseño de Regression Discontinuity para
intentar identificar que tuvieron ambos ‘tratamientos’ (políticas penales y políticas sociales) sobre la evolución del crimen en Uruguay combinando:
Una serie armonizada de la ECH y Ministerio del Interior desde el año 1985 – 2012 que incluye datos de pobreza, desigualdad, arreglo familiar, nivel educativo, trabajo, barrio, y delitos (Menese)
Un mapeo sobre los esfuerzos de políticas publicas en prevención del delito 1985 – 2012 (González, Rojido & Trajtenberg, 2015)
48
(iii) Experimentos Naturales
49
Gracias… en la proxima continuamos con: ü
Estudios no experimentales!!!!!!!!
Student of Social Science
50