Métodos Cuantitativos I: Diseño y medición Clase 8: Diseños experimentales y cuasi experimentales

Métodos Cuantitativos I: Diseño y medición Clase 8: Diseños experimentales y cuasi experimentales Student of Social Science Nico Trajtenberg Departa

Author: Teresa Quintero Quintana

1 downloads 62 Views 2MB Size

Report

DOWNLOAD PDF

Recommend Stories

Criterios para el proceso de revisión de cara a la publicación de investigaciones experimentales y cuasi-experimentales en Psicología

CIENCIAS EXPERIMENTALES

Facultad de Ciencias Experimentales

Trabajos experimentales

Facultad de Ciencias Experimentales

ESCUELA DE CIENCIAS EXPERIMENTALES

Facultad de Ciencias Experimentales

Story Transcript

Métodos Cuantitativos I: Diseño y medición Clase 8: Diseños experimentales y cuasi experimentales

Student of Social Science

Nico Trajtenberg Departamento de Sociologia, Facultad de Ciencias Sociales Udelar

1

Clase pasada… ü 

Problema practico disparador à bullying (progrma KiVa)

ü 

Validez, validez interna y externa

ü 

Amenazas a la validez interna

ü 

Amenazas a validez externa

ü 

3 diseños pre experimentales

ü 

3 diseños experimentales

2

Y hoy…? I. 

Refresquemos el problema practico disparador (porque obviamente lo voy a refritar asquerosamente para esta clase...)

II. 

Continuar con disenios experimentales a.  Diseños experimentales factoriales b.  Series cronologicas

III.  Disenios cuasi experimentales a.  2 ejemplos b.  Que es un cuasi experimento c.  4 tipos:        

series cronologicas, muestras crnologicas equevalentes; Grupo de control no equivalente Series cronologicas multiples

d.  Experimentos naturales

3

I. El problema practico disparador: bullying en Uruguay

4

Un ejemplo practico disparador  

Es el bullying un problema relevante en Uruguay?

 

Deberiamos hacer algo al respecto?

 

Que podriamos hacer?

 

Volvemos a nuestro insufrible estudio mproso de ANEP – Universidad de Cambridge (Trajtenberg & Eisner 2014)

5

Algunos datos sobre victimizacion

Algunos datos sobre victimizacion 70.0%

61.9%

60.0% 50.0%

46.3% 38.0%

40.0% 30.0%

22.0%

20.0%

12.5%

10.0% 0.0% Ignorado

Insultado

Agresion Robo/danios Acoso sexual Fisica a la propiedad Al menos una vez

Factores de riesgo asociados… ü  Los jovenes con mas chances de ser

victimas de bullying son las que tienen mala relacion con los companieros, dificultades academicas, y no ven muchas ventajas de estudiar

ü  Los jovenes con mas chances de ser

perpetradores de bullying son los menos comprometidos con liceo, los que tienen peor relacion con profesores, y los que perciben al centro como menos legitimo

8

Que hacer?   Se propone aplicar el programa KiVa (www.kivaprogram.net) que involucra

diversos componentes que incluyen i) entrenamiento y foro de discusion para personal, ii) uso de entornos de aprendizaje virtual, iii) guia para padres, y iv) un juego de computadora antibullying para los jovenes

  Desarrollado en todas las escuelas de Finlandia; estudios de replicación internacional en Suecia, Holanda, USA, Puerto Rico

  Resultados: disminucion de la victimizacion y perpetracion de bullying en un 50% luego de un anio de implementado; tambien tuvo efectos positivos en ansiedad, depresion, y motivacion para estudiar y concurrir a la escuela

9

II. Diseños Experimentales

10

Tres diseños experimentales 1.  Diseño grupo de control pre test – post test R 01

X

R 03

03 04

2.  Diseño de 4 grupos de Solomon R O1

X

R O3

O3 O4

R

X

R

O5 O6

3.  Diseño de grupos de control con post test únicamente R R

X

O1 O2

11

Otro diseño experimental: factorial 4.  Diseño grupo factorial (2x2)

  ü  ü 

R

X1A

01

R

X1B

02

R

X2A

03

R R

X2B

04 O5

Queremos ver los efectos del programa KiVa pero la realidad es un poco mas compleja que Tratamiento SI vs. Tratamiento NO à imaginen que… que el programa KiVa tiene una variante donde la prevención del bullying le da un rol mas protagónico a los observadores (bystanders) Sospechamos que impacto del programa será afectado por tipo de entorno socioeconómico de centro: funciona igual en Liceo Francés y en liceo en Marconi?

 

Es un disenio que permite comparar distintos niveles/tipos de tratamiento, tipos de condiciones, tipos de unidades, etc.

 

Permite analizar no solo efectos principales de cada condicion/VI sino interacciones entre VI à es muy util para ver hasta que punto son generalizables los efectos de variables manipuladas (validez externa)

12

Otro diseño experimental: factorial   Cuando ni el tipo de programa ni el tipo de contexto afectan los resultados à efectos nulos del tratamiento! Sin énfasis observador

Énfasis observador

Contexto no problemáticos

5

5

Contexto problemático

5

5

Contexto problemático

Énfasis observador Sin énfasis observador

Contexto no problemático

Contexto problemático

Contexto no problemático

Sin énfasis observador

Énfasis observador

13

Otro diseño experimental: factorial   Cuando hay efectos, analicemos primero los EFECTOS PRINCIPALES, en este

caso vemos que hay diferencias significativas en el tipo de programa de prevencion del bullying, entre los que hacen enfasis en el observador y los que no lo hacen, pero que el contexto parece no tener relevancia Énfasis observador

Sin énfasis observador

Contexto no problemáticos

5

7

Contexto problemático

5

7

Sin énfasis observador

Contexto problemático

Énfasis observador

Contexto no problemático

Contexto problemático

Contexto no problemático

Énfasis observador

No énfasis observador

14

Otro diseño experimental: factorial   Pero miren en este caso, EFECTOS PRINCIPALES, en este caso vemos que no

hay diferencias significativas del tipo de programa entre los que hacen enfasis en el observador y los que no lo hacen, pero que el contexto socio economico del centro educativo es el que hace toda la diferencia! Énfasis observador

Sin énfasis observador

Contexto no problemáticos

5

5

Contexto problemático

7

7

Contexto problemático

Sin énfasis observador Énfasis observador

Contexto no problemático

Contexto problemático

Contexto no problemático

Énfasis observador

No énfasis observador

15

Otro diseño experimental: factorial   Tambien podriamos tener la situacion en la cual observaramos que tanto el tipo de programa (haciendo enfasis o no el bystander) como el contexto socio economico del centro educativo (problemático vs. No problematico) tienen EFECTOS PRINCIPALES sobre la disminucion del bullying Énfasis observador

Sin énfasis observador

Contexto no problemáticos

5

7

Contexto problemático

7

9

Sin énfasis observador

Contexto problemático

Énfasis observador

Contexto no problemático

Contexto problemático

Contexto no problemático

Enfasis observador

Sin enfasis observador

16

Otro diseño experimental: factorial   En algunos casos podemos detectar efectos interactivos à en este caso se

puede observar como el efecto tipo de programa es relevante para disminuir el bullying en contextos problematicos Énfasis observador

Sin énfasis observador

Contexto no problemáticos

7

5

Contexto problemático

5

7

Sin énfasis observador

Contexto problemático

Énfasis observador

Contexto no problemático

Contexto problemático

Contexto no problemático

Énfasis observador

Sin énfasis observador

17

Otro diseño exp: series cronologicas   Uno de los problemas de los usuales disenios experimentales es que los post tests no estan diseniados para identificar efectos mediatos

  Problema de (i) subestimacion de efectos de mediato y largo plazo; y (ii)

sobreestimacion de efectos de programas (ej. Evaluaciones de programas que miden reincidencia por plazo de menos de dos anios)

  Gran inconveniente es que son mucho mas costosos y complejos à seguimiento de unidades durante periodos largos de tiempo à problema de mortalidad selectiva se agrava y se dificulta mantener equivalencia incial de grupos

  Problema de historia que no afecte diferencialmente a grupos   Hay muchas variantes de diseño

18

Otro diseño exp: series cronologicas Sin efecto

Efecto creciente X1

X1

O1

O2

O3

O4

O5

O6

O1

O2

X1

O2

O3

O5

O6

Suceso independiente del tratamiento

Efecto temporal

O1

O4

O3

X1

O4

O5

O6

O1

O2

O3

O4

O5

O6

19

III. Diseños Cuasi experimentales

20

2 ejemplos…   Entre 2002 y 2008 gracias a préstamo del BID se desarrollo un

esfuerzo inédito en Uruguay: el Centro Nacional de Rehabilitación (CNR), un centro de pre egreso que atendía a 100 varones entre 18 y 34 años provenientes del sistema penitenciario.

  Se aplico un programa de tratamiento adaptado de las experiencias desarrolladas en Barcelona (Redondo & Garrido) que incluía no solo programas educativos, laborales y de refuerzo de vínculos familiares sino también un enfoque cognitivo conductual con un modulo pro social y un énfasis en la preparación para el reingreso

  Ingreso dependía de voluntad del interno mas selección basada en escala de riesgo y entrevista personal realizada por sicólogos de CNR à incluía individuos de riesgo medio/bajo

  Fuerte debate sobre si este programa no era demasiado costoso y

si realmente tenia algún tipo de efecto mejorando la reincidencia de los ofensores

  Como sabemos si el programa

del CNR es realmente efectivo disminuyendo la reincidencia? Podemos usar experimentos…?

21

2 ejemplos…   En 2014 el gobierno del Encuentro Progresista

implemento en Uruguay una histórico cambio en el marco legal regulando el consumo de cannabis que incorpora tres modalidades de adquisición: autoconsumo, pertenencia a clubes de consumo, compra en farmacias

  Fuerte debate político y académico sobre si

este cambio no tendrá efectos perversos aumentando: i) consumo de drogas blandas y duras; ii) y del delito

  Podemos usar experimentos…?

Como sabemos si el novedoso marco legal uruguayo no aumenta el consumo de drogas y de delito?

22

(III) Diseños Cuasiexperimentales   Cuasi experimentos tienen el mismo objetivo que experimentos: testear hipótesis causales descriptivas sobre causas manipulables

  Se introduce un símil de experimento donde la causa es manipulable y ocurre antes que el efecto

  Pueden incluir muchos de los rasgos estructurales del experimentos (pre test, grupos de control) pero no hay un control total de la asignación del tratamiento experimental (ausencia del carácter aleatorio de asignación)

  La asignación de la condición es muchas veces auto asignada (elegida por

las propias unidades) o seleccionada por un administrador (sicólogo, juez, legislador)

  Pero los investigadores conservan

control sobre: la elección y programación de las medidas, como se ejecuta efectivamente la asignación no aleatoria, que tipos de grupos de control son seleccionados

23

(III) Diseños Cuasiexperimentales ü 

Dado que se carece de control experimental total à fundamental que se posea un conocimiento profundo de cuales son las variables especificas que están fuera de control (potenciales explicaciones de efectos observados alternativas al tratamiento)

ü 

Muchas veces se asume que en ausencia de asignación aleatoria e incluso de grupo de control no tiene sentido ningún tipo de evaluación experimental à pero en muchos casos es posible hacer diseños interesantes que generan evidencia razonable de la existencia de un efecto del tratamiento

24

(III) Diseños Cuasiexperimentales   Falta de control à descartar hipótesis alternativas (falsacionismo, Popper)

  Cuasi experimentos asumen una versión soft del

falsacionismo que reconoce dos grandes supuestos que nunca se cumplen 1.  Los enunciados causales nunca están perfectamente

especificados y por ende refutación genera permanente reformulación de las teorías causales

  No es tan grave ya que reformulación suele ser en aspectos específicos, menores y no de gran alcance

2.  Las medidas nunca son reflejos perfectamente validos e independientes de la teoría que se esta evaluando empíricamente (Quine)

  Tampoco es tan grave ya que aun cuando las observaciones

no sean neutrales pueden llegar a tener un status de hechos cuando han sido repetidamente confirmadas en diferentes tiempos, utilizando diferentes marcos teóricos y diferentes medidas

25

(III) Diseños Cuasiexperimentales   La asignación no aleatoria del tratamiento à pueden

haber diferencias sistemáticas (no aleatorias) entre el grupo de tratamiento y el grupo de control pero que no se deben al tratamiento!

 

Ej. presos seleccionados x CNR poseen menor trayectoria delictiva, menos problemas sicológicos, un mayor soporte desde la familia, etc.

  Todas esas diferencias son potenciales explicaciones

alternativas (al tratamiento) para el efecto observado à clave es utilizar buenos diseños y mediciones para descartarlas à tener una estimación lo mas valida posible del efecto tratamiento

  Cuanto mayor el numero de explicaciones alternativas à mas complejo y demandante es el diseño del cuasi experimento

  Nunca estamos seguros de podes descartar todas las explicaciones alternativas…

26

(III) Diseños Cuasiexperimentales   Stanley y Campbell mencionan varios tipos ü  Experimentos de series cronológicas ü  Muestras cronológicas equivalentes ü  Materiales equivalentes ü  Grupo de control no equivalente ü  Diseños compensados ü  Diseños de muestra separada pre test – post test ü  Diseños de muestra separada pre test – post test con grupo de control

ü  Diseño de series cronológicas múltiples ü  Diseño de ciclo institucional recurrente ü  Análisis de la discontinuidad en la regresión

27

(i) Experimentos de series cronologicas   Proceso periódico de medición de algún grupo/individuo y la presencia de una discontinuidad à inclusión de una variable tratamiento

  Ej: si barra de hierro que ha tenido peso constante en los últimos meses

pierde peso luego de que es metida en acido nítrico à causa fue el baño de acido nítrico aun cuando no tengamos barra de hierro de control! à ejemplo aceptado en ciencias duras pero difícilmente plausible en CCSS

  Parecido superficial a diseño 2 ya que carece de grupo de control e incluye medidas pre test y post test

NR O1 O2 O3 O4 X 05 O6 O7 O8 O9 O10

  Aplico programa KiVa en liceo Frances en el

años 2016, y comparo la prevalencia de bulliyng anual que hubo en los 4 años previos (2011 – 2015) y los observados en los siguientes cuatro años (2017 – 2020)!

28

(i) Experimentos de series cronologicas Implementación de Programa KiVa en Liceo Francés (X) A

Es legitimo inferir efecto del programa (X) en A y en B B

2011

2012 2013

2014 2015

2016

2017 2018

2O19

2020

29

(i) Experimentos de series cronologicas Implementación de Programa KiVa en Liceo Francés (X)

C

Es mas dudoso inferir efecto del programa (X) en C, y sobre todo en D y E D E

2011

2012 2013

2014 2015

2016

2017 2018

2O19

2020

30

(i) Experimentos de series cronologicas Implementación de Programa KiVa en Liceo Francés (X)

F

Es ilegitimo inferir efecto del programa (X) en F, Gy H

G

H

2011

2012 2013

2014 2015

2016

2017

2018

2O19

2020

31

(i) Experimentos de series cronologicas   Imposibilidad de controlar historia es el problema mas grave ü  no solo no hay aislamiento de laboratorio sino que la extensión del tiempo

determina que estudiantes pueden estar mucho mas expuestos a multitud de fuentes de estimulo en el mismo sentido que el tratamiento/programa

ü  es también importante identificar los ciclos/periodos de las unidades de

manera que los periodos sean suficientemente largos para no generar resultados sesgados (Ej. Periodos de vacaciones à baja bullying por menos exposición)

  Instrumentación à tampoco es gran problema pero debe haber precaución con cambios en los instrumentos de medición o en su calibración (observadores que conocen experimento y poseen expectativas à pseudo confirman hipótesis)

  Maduración, Regresión estadística y selección tampoco constituyen un problema (cuidado con la existencia de procesos de mortandad selectiva)

  Validez externa à efecto experimental podría ser especifico de

población expuesta a tratamiento pero esto solo es una limitación si se realizan con observaciones artificiales no comunes en la realidad social (ej. Programa de bullying basado en role playing virtual es trasladable a la realidad?)

32

(i) Experimentos de series cronologicas   Es fundamental que se especifique de antemano el

tratamiento y su relación cronológica esperada con el efecto à descartar exámenes post hoc oportunistas

  Relevancia y preponderancia de estos diseños en ciencias duras pero

ü  En CCSS fuera del laboratorio el aislamiento experimental y las condiciones constantes son mucho menos probables

ü  Un experimento único jamás es prueba concluyente à

replicación del estudio (revolución de estudios de replicación en los últimos años!)

ü  Uso como ultima alternativa cuando no se puede desarrollar ningún diseño mas controlado

33

(ii) Muestras cronológicas equivalentes   Se eligen dos muestras equivalentes de una población y se introducen de forma intermitente el tratamiento (variable independiente) en una de ellas para compararla las diferencias entre ambas X1 O1

X0 O1

X1 O2

X0 O2

  Es de mayor valor cuando se anticipa que el efecto del tratamiento es reversible/transitorio

  El programa KiVa se aplica a una muestra experimental de alumnos

durante el año 2016 (X1 O1), y en el siguiente año (2017) se compara con una muestra equivalente a la que no se le aplica el programa KiVa (XO O1). Posteriormente en año 2018 se vuelve a aplicar el programa KiVa en la misma muestra experimental (X1 O2), y en 2019 se vuelve a observar los comportamientos de la muestra equivalente a la que no se ha sometido al programa de tratamiento (XO O2)

34

(ii) Muestras cronológicas equivalentes   Principal problema del diseño anterior (historia) se controla

presentando el tratamiento en numerosas sesiones separadas haciendo improbable que el efecto se deba a circunstancias externas

  Efecto reactivo de los instrumentos y conciencia de estar siendo tratado (y estudiado) es un problema mas serio para este tipo de diseños donde las unidades son expuestas al tratamiento en repetidas ocasiones

  Problema de validez externa ü  interferencia de múltiples dosis de tratamiento à no puede

generalizarse a situaciones donde haya una única exposición al tratamiento

ü  Condición de control puede verse contaminada si el efecto

tratamiento tiene efecto prolongado e influye en periodos de control à subestimación efecto del tratamiento

ü  También puede haber efecto sobre estimación de efecto tratamiento ya que intercalamiento puede generar mayor efecto que el que generaría una exposición continua y homogénea

35

(iii) Grupo de control no equivalente   Involucra grupo experimental y grupo de control y ambos reciben

pre test y post test pero carecen de equivalencia pre experimental de muestreo à grupos se forman naturalmente

  La asignación del tratamiento a los grupos es aleatoria y

controlada por el experimentador à diferente del experimento clásico donde sujetos son seleccionados aleatoriamente de población común para ser asignados a grupo experimental y de control O1 X1 O2 -------------------O3 O4

  Tengo identificados dos colegios relativamente similares en el

barrio Punta carretas à eligió aleatoriamente en cual vamos a aplicar el programa de prevención de bullying KiVa y en cual mantendremos como grupo de control, aplicándoles un pre test a ambos colegios antes de implementar el programa, y post test luego de la implementación para evaluar diferencias de bullying entre ambos colegios

36

(iii) Grupo de control no equivalente   Cuanto mas similares sean los grupos en reclutamiento (y se confirme en

puntajes de pre test), mas eficaz será este diseño para controlar amenazas de validez interna (historia, maduración, reactividad de prueba, instrumentación)

  Algunas amenazas a validez interna asociadas a interacción maduración –

tratamiento (grupo experimental esta compuesto por individuos mas jóvenes) o efecto regresión (si se selecciona grupo experimental por sus puntajes extremos)

  Si las medias de grupo experimental y grupo de control son muy diferentes à proceso de equiparación no permite igualar e incrementa amenaza de efectos indeseados de regresión donde el efecto observado será independiente del tratamiento

37

(iii) Grupo de control no equivalente   Conviene distinguir dos versiones 1.  Cuando el investigador puede elegir asignar aleatoriamente el tratamiento entre los dos grupos formados naturalmente

2.  Cuando el grupo tratado es auto seleccionado o asignado no por el investigador y no se cuenta con un grupo de control de la misma población à diseño mucho mas endeble y vulnerable a amenazas de validez

  Problemas adicionales: administración de test, interacción

de selección y tratamiento y en menor grado reactividad de instrumento

38

(iv) Series cronológicas múltiples   Un diseño que tiene serie cronológica del diseño (i) pero le agrega un

grupo de control como en el diseño (iii): se agrega una institución similar no sujeta al tratamiento à una serie cronológica de control análoga (idealmente asignando aleatoriamente el tratamiento)

NR O1 O2 O3 O4 X O5 O6 O7 O8 O9 -------------------------------------------------NR O1 O2 O3 O4 O5 O6 O7 O8 O9

  Como en disenio (iii) tengo identificados dos colegios relativamente

similares en el barrio Punta carretas à eligió aleatoriamente en cual vamos a aplicar el programa de prevención de bullying KiVa y en cual mantendremos como grupo de control, pero aquí hago desarrollo varias medias pre tratamiento en ambos colegios antes de implementar el programa, y también varias medidas post test luego de la implementación para evaluar diferencias de bullying entre ambos colegios

39

(v) Series cronologicas multiples Grupo tratado donde hubo programa: Liceo Frances

Implementacion de Programa KiVa

Grupo de control donde no hubo programa: Liceo Crandon

2011

2012 2013

2014 2015

2016

2017 2018

2O19

2020

40

(iv) Series cronológicas múltiples  

Múltiples mediciones aumentan validez interna de efectos detectados à efecto se demuestra frente a control y frente a múltiples pre y post observaciones

 

Mayor control de efecto selección y maduración y sus interacciones

 

Persisten problemas de validez externa: interacción de pre tests y tratamiento; interacción selección y tratamiento

 

Stanley & Campbell lo consideran un ‘excelente diseño cuasi experimental’ con claras ventajas respecto a diseño (i) y (iii) à ‘de los mejores entre los mas viables’

41

(IV) Experimentos naturales

42

(iii) Experimentos Naturales   En realidad no son experimentos porque la causa no puede ser manipulada

  Estudios que contrastan un evento/fenómeno que ocurre naturalmente y sus efectos sobre una condición de tratamiento (o exposición) y una condición de comparación

  Uso de técnicas estadísticas como Regresión Discontinua o Regresión con Variables instrumentales (Stanley & Campbell los incluyen como variante de diseño cuasi experimental)

  Ejemplos ü  ü  ü  ü  ü 

Relación entre los terremotos y el valor de las propiedades Causas de los brotes de epidemia de cólera Reformas legales prohibiendo fumar en la vía publica y enfermedades coronarias Políticas de tolerancia cero en Nueva York La legalización del consumo de marihuana y conductas desviadas

43

(iii) Experimentos Naturales   Pero hemos de ser muy cuidadosos con los controles

de cofounders sino corremos el riesgo de sobrestimar el efecto del evento natural no manipulable

  Ej. 1: Enfermedades coronarias disminuyeron luego de prohibición, pero venían disminuyendo y en el estudio quedo invisibilizado su carácter estacional (prohibición de fumar duro seis meses)

  Ej. 2: Delito crecía en NY hasta la administración Giulianni y luego empezó a disminuir…pero

ü  Ese mismo patrón se ve en todas las ciudades del Estados Unidos donde se utilizan sistemas policiales y de justicia criminal muy diferentes

ü  El delito y la violencia venia disminuyendo en todo el mundo en los últimos 30 años

ü  El delito y la violencia viene disminuyendo en los últimos siglos e incluso milenios (Pinker 2011, Eisner 2015)

44

45

Recuerdan los ejemplos con los que empezamos este modulo?

  Como sabemos si las políticas de incremento de la severidad penal de 1995 y 2000 tuvieron efecto sobre el crimen?

46

(iii) Experimentos Naturales   Como sabemos si los cambios en políticas sociales de los gobiernos de izquierda a partir de 2005 tuvieron algún efecto sobre el crimen?

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

47

(iii) Experimentos Naturales   Si queremos explorar el efecto de ambos tipos de políticas, es imposible utilizar un experimento ortodoxo à que queremos hacer?

  Emplear un diseño de Regression Discontinuity para

intentar identificar que tuvieron ambos ‘tratamientos’ (políticas penales y políticas sociales) sobre la evolución del crimen en Uruguay combinando:

  Una serie armonizada de la ECH y Ministerio del Interior desde el año 1985 – 2012 que incluye datos de pobreza, desigualdad, arreglo familiar, nivel educativo, trabajo, barrio, y delitos (Menese)

  Un mapeo sobre los esfuerzos de políticas publicas en prevención del delito 1985 – 2012 (González, Rojido & Trajtenberg, 2015)

48

(iii) Experimentos Naturales

49

Gracias… en la proxima continuamos con: ü 

Estudios no experimentales!!!!!!!!

Student of Social Science

50