Universidad de Congreso. MAED
Estadística y Derecho: Conceptos y Oportunidades
Walter Sosa-Escudero, PhD Universidad de San Andres y CONICET
[email protected]
2ª parte
Estadística y derecho: tres casos
Discriminacion por genero ► En
una empresa las mujeres ganan más que los varones. ► ¿Es posible conjeturar que los hombres son discriminados? ► ¿Porqué no funciona comparar salarios de hombres y mujeres?
“Fumar es beneficioso para la salud” ► Estudio
realizado a 100 personas elegidas al
azar. ► Encuentra una relacion negativa entre el riesgo de muerte y la cantidad de cigarrillos fumados por semana: mas cigarrillos, ¿menos riesgo de muerte? ¿Fumar es beneficioso para la salud?
Paul F. Engler and Cactus Feeders, Inc., v. Oprah Winfrey et al. “It has just stopped me cold from eating another burger”
Oprah Winfrey, 16 de abril de 1996
► El
comentario de Oprah se hizo en el contexto del problema del “mal de la vaca loca” ► La empresa Cattle Feeders (alimento para ganado) demanda a Oprah por $4,893,843. ► Sostienen que sus dichos provocaron inusuales caidas en el precio del alimento para ganado.
Precio de alimento, Cactus Feeders
Precios del mercado de futuros en Chicago
Preguntas ► ¿Qué
significa “inusuales caidas”? ► ¿Qué caidas son “usuales”? ► ¿Qué significa “usuales”? ► ¿Cuál es el rol de cualquier otro factor (no causado por Oprah) en la determinacion de precios?
La lógica y la esencia de la Estadística
Estadistica ► Cox-Hinkley
(1974): los metodos estadisticos intentan asistir en la interpretacion de datos sujetos a una aleatoriedad considerable.
► Ejemplo
1: edad de participantes de esta clase, en base a un subconjunto.
► Ejemplo
2: billetes y monedas que una persona lleva en su billetera, en base a toda la clase.
La naturaleza de lo aleatorio ► Ejemplo
1: el proceso que elige personas que integran la muestra. ► Ejemplo 2: el efectivo en sí mismo. Lo aleatorio: como representación de lo desconocido. Mas alla de que hayan fenomenos fortuitos o no.
Estadistica descriptiva e inferencial ► Descriptiva:
resaltar características de una colección de referencia La edad promedio de las personas encuestadas. La diferencia de edades entre el mas joven y el mas viejos de los encuestados. El cash promedio de los encuestados La mayor cantidad de cash de los encuestados. Medias, varianzas, proporciones, maximos, minimos, errores estandar, etc.
► Inferencial:
conocer caracteristicas poblacionales a partir de una muestra ¿Cuál es la edad promedio de las personas en la clase? ¿Qué cantidad de cash lleva un argentino que vive en Buenos Aires? ¿Qué edad tiene la persona mayor que vendria a esta Maestria? ¿Hay mas mujeres que hombres en esta Maestria? (¿Cuándo? ¿Ahora?)
► La
estadistica inferencial es una disciplina compleja, en comparacion con la descriptiva. ► Requiere explicitar el vínculo que hay entre la población y la muestra (usualmente, un modelo probabilistico).
► Por
ejemplo, en el contexto inferencial, la edad promedio de los encuestados es una estimación de la edad de la clase. ► ¿Cuan confiable sera esta estimación? ► Depende de: 1) la cantidad de personas encuestadas (todos: optimo, uno?), 2) cuan heterogenea es la poblacion (???), 3) ciertas caracteristicas del proceso de estimacion (insesgadez?).
Estadistica y Econometria ► Estadística:
desarrollada fundamentalmente para las ciencias experimentales. ► Datos experimentales: proceden de un “experimento controlable”. Aleatoriedad: error de medicion. Ejemplo: efecto de una droga en temperatura corporal. ► Ciencias sociales: datos observacionales. Ejemplo: educacion y salarios.
► Econometria:
uso de la estadística en cuestiones relacionadas con la economía ► ¿Una disciplina aparte? La parte de la estadística integrada verticalmente a la economía. ► ¿Por qué? Datos no experimentales, Leyes no exactas, aleatoriedad como “heterogeneidad no observable”, dependencias, etc.
La esencia de la estadistica 1: estimar ► Estimación:
conjetura educada y en base a datos, acerca de una magnitud desconocida. ► Ejemplo: cuantos argentinos están desempleados actualmente. ► Método: Encuesta Permanente de Hogares. Proporcion de personas desempleadas en la encuesta.
Significatividad estadistica y variabilidad muestral ► ► ► ► ► ►
Un ejemplo: en una caja hay 10 bolitas negras y/o blancas. Problema: ¿Cuál es la proporcion de blancas? Estimador: proporcion de bolitas blancas en un una muestra ¿Cuan confiable es la estimacion si sacamos: 1 bolita, 4 bolitas, 10 bolitas? Mas es mejor. Cuanto mas homogenea sea la poblacion, mejor. Variabilidad muestral: cuán distintas pueden haber sido las estimaciones. Ejemplo extremo: 10 bolitas? 1 bolita? ¿Todas negras o blancas?
► Todas
estimacion requiere alguna idea de la variabilidad muestral ► Ejemplo: En base a 10.165 personas encuestadas en el GBA, el 15,66% de las personas es pobre. Un intervalo de confianza al 95% es (14,95%-16,36%) ► ¿Intervalo de confianza? ¿Al 100%?
La Esencia de la Estadistica 2: Evaluar Hipotesis ► Hipotesis:
aseveracion acerca de una magnitud desconocida. ► Puede ser cierta o falsa. ► Test de hipotesis: mecanismo estadistico que, en base a datos, decide aceptar o rechazar la hipotesis. ► Cuidado: no determina si es verdadera o falsa, sino nuestra postura al respecto.
► Ejemplo:
Hipotesis “nula” (mantenida): una empresa contrata por igual a hombres y mujeres. Hipotesis “alternativa”: la empresa discrimina en contra de las mujeres, y tiende a preferir hombres, por el simple hecho de ser hombres. Test de hipotesis: en base a la proporcion de mujeres contratadas en sus busquedas, decidir si se acepta o no la hipotesis “nula”.
Tests de hipotesis como herramienta de prueba: siempre hay errores
Verdadero
Falsa
Acepto
Ok
Error “de tipo II”
Rechazo
Error “de tipo I”
Ok
► Optimamente:
decidir sin error ► Problema I: no evidencia conclusiva, interviene cierta aleatoriedad. Ejemplo, las contrataciones tienen un componente fortuito. En nuestro ejemplo, el punto es contratan significativamente menos mujeres que hombres. ► Ergo, cualquier decision bajo incertidumbre esta sujeta a errores
► Problema
II: achicar un error implica agrandar el otro. ► Ejemplo: cine. ► No es posible no cometer errores ► Solucion “clasica”: diseñar un test de hipotesis que fije un maximo tolerable para un tipo de error, y haga que el otro sea lo mas chico posible.
► Ejemplo:
en el caso de discriminacion, decidir que hay discriminacion si se encuentra que la empresa contrato menos que el 40% de las mujeres. ► ¿Cómo se determina el umbral “40%”? ► En base a 1) cantidad de casos (personas) involucradas 2) proporcion de mujeres y hombres en la poblacion de referencia
Idea ► Supongamos que al trabajo se postulan igual proporcion de hombres y mujeres. ► En el proceso de selección intervienen factores fortuitos: algunas personas rechazan la oferta, la suerte juega a favor o en contra en las entrevistas, igualmente para hombres y mujeres, etc. ► En ausencia de discriminacion deberiamos esperar que la mitad de los contratados sean mujeres. ► Habrá discriminacion si la proporcion de mujeres es significativamente menor que 50%
► Un
test de hipotesis clasico es un mecanismo estadistico que fija optimamente estos umbrales, es decir, intentando que el error de tipo I (rechazar cuando verdadero) no supere cierto umbral, y que el tipo II (aceptar cuando falso) sea lo mas chico posible. ► Cual es el máximo tolerable de error de tipo I? En la practica, no mas de 10% ► “Significatividad”: 1-error de tipo I (90% en el caso anterior). Es algo asi como la probabilidad de aceptar la hipotesis mantenida cuando es cierta.
► ► ► ► ► ►
¿Porque no 100% de significatividad? Error tipo I: rechazo cuando no hay discriminacion. Como evitar el error de tipo I? ¡Jamas rechazar! (jamas ir al cine) Como? Discriminacion solo si la proporcion de mujeres es nula. Problema: jamas detecto discriminacion, aun cuando la hubiese Ergo: a fines de que el mecanismo detecte discrimine, hay que aceptar error de tipo I (para no perderme peliculas buenas, alguna mala tengo que soportar).
Caso: Encuestas Electorales
¿Gana Scioli?
Regresion: “el automovil de la estadistica moderna”
► Analisis
de regresion: la herramienta mas utilizada en econometria ► Variable “dependiente”: salarios ► Variables “independientes”: educacion, experiencia, sexo, etc. ► El analisis de regresion mide cuanto contribuye cada variable independiente en determinar la dependiente.
Estadistica y derecho ► Discriminacion
por genero y raza. ► Antitrust, defensa de la competencia. ► Medicion de daños (contrafactuales y predictivos). ► Estadistica forense. Perfil de ADN ► Auditoria
Caso: discriminación (Ver documento adjunto)
► Empleados
varones dicen que son
discriminados en contra de las mujeres. ► Empresa: ¿discriminación? Mujeres Hombres
Salarios 1,405 1,441
Mujeres Hombres
Salarios Posicion Experiencia 1,405 4,267 7,249 1,441 5,483 12,149
¿Discriminacion?
Estimate Std. Error t value Pr(>|t|) (Intercept) 115.2621 1.4013 82.252 < 2e-16 *** experiencia -0.4725 0.1133 -4.169 4.43e-05 *** posicion 6.7101 0.3126 21.464 < 2e-16 *** genero -2.2013 1.0804 -2.037 0.0428 *
¿Discriminacion?
► Salarios
de varones mayores que de hombres (comparacion “peras con manzanas”) ► Hombres ocupan cargos mas altos y tienen mas experiencia. ► Regresión: controlando por cargo y experiencia, los hombres cobran menos que las mujeres. ► Comparacion “peras con peras”
Falacias, artimañas y como mentir con estadisticas
Econometricks Significatividad estadistica vs. Conceptual ►
►
►
En una empresa las mujeres en promedio ganan $5400 y los hombres, $5401. En base a cierta muestra, se podria concluir que $5400 es significativamente distinto que $5401 (rechazamos la hipotesis nula de que los hombres ganan lo mismo que las mujeres) (significatividad estadistica) Supongamos que nos enteramos que hay una regla que dice que las mujeres de esta empresa deben ganar 1 peso menos que los hombres. ¿Hay discriminacion? (significatividad conceptual)
No confundir significatividad estadistica con conceptual.
Significatividad estadística vs. conceptual ► Ejemplo
recurrente: efectos “sorprendentes” (gaseosas light sobre performance sexual, mirar mascotas en performance, etc.
Relacion y causalidad ► De
la existencia de una relacion estadistica no es posible inferir causalidad ► Ejemplo: Tamaño del estado argentino y audiencia de Big Bang Theory. ► Ejemplo: inversion en educacion. ► Falacia de la correlacion
Precedencia temporal y causalidad ► Tampoco
de la predencia temporal es posible inferir causalidad ► Ejemplos: paraguas y lluvia. Precio de acciones.
Modelos chicos vs. grandes ► En
general, los modelos chicos (que omiten factores relevantes) tienden a ser sesgados. ► Ejemplo: fumar es beneficioso para la salud ► Los modelos grandes tienden a ser poco conclusivos (“el que mucho abarca poco aprieta”) ► Ejemplo: demasiadas variables en contaminacion. Nada es importante
Toda estimacion merece un error estandar ► Toda
estimacion “puntual” requiere alguna idea de cuan imprecisa es (error de muestreo, intervalo de confianza, cantidad de observaciones, etc.)
Aceptar una hipotesis no quiere decir que sea verdadera Un test tiende a aceptar la hipotesis “nula” cuando a) es verdadera, b) es falsa, pero el test no puede detectar su falsedad. ► Ejemplo: medicos malos ►
Es importante garantizar la calidad del test y su uso apropiado
Los casos: revisitados ► Discriminacion
por genero: test de hipotesis en base a modelos de regresion. Problema: nivel de significatividad. Enorme industria en EEUU. ► Efectos nocivos del tabaco: experimentos, modelos de regresion aislando el efecto del cigarrillo del de otros. ► Oprah: modelo de precios de acciones, permiten detectar comportamientos anómalos (outliers).
Comentarios finales y lecturas sugeridas
A modo de conclusion ► Lempert
(1985): Lex regis: “when econometrics or any other statistical speciality enters the courtroom, the law is king” ► La aleatoriedad como nocion fundamental: contemplarla no debe dar lugar a justificar cualquier comportamiento. ► “Lawyers and judges must understand not the technicalities of statistical analyses, but the underlying logic of the descriptions and tests that statisticians offer them. Members of each community must, in short, learn what it is to think like a member of the other”.
► Area
muy activa en el mundo anglosajon ► ¿Posibilidades para el ambito local? ► Desmitificar ambas disciplinas. ► Lo cuantitativo como forma de razonar
Guia de lecturas Textos ► Finkelstein, M., 2009, Basic Concepts of Probability and Statistics in the Law. ► Ulen, T., 2010, Empirical Methods in Law Libros de casos y experiencias ► De Groot et al., 1994, Statistics and the Law, Wiley, New York. ► Kadane, J., 2008, Statistics in the Law: A Practitioner's Guide, Cases, and Materials, Springer, New York.
Articulos Rubinfeld, D., 1985, Econometrics in the Courtroom, Columbia Law Review, 85, 5, 1048-1097. ► Lempert, R., 1985, Statistics in the Courtroom: Building on Rubinfeld, Columbia Law Review, 85,5, 1098-1116. ► Kennedy, R., 1988, McCleskey v Kemp: Race, Capital Punishment, and the Supreme Court, Harvard Law Review, 101, 7, 1388-1443. ► Bassman, R., 2003, Statistical outlier analysis in litigation support: the case of Paul F. Engler and Cactus Feeders, Inc., v. Oprah Winfrey et al., Journal of Econometrics, 113, 159-200. ►
Sobre lo cuantitativo ►
► ►
Thompson, C., 2010, Why should we learn the language of data, revista Wired, abril. http://www.wired.com/magazine/2010/04/st_thompson_statistics/ Paulos, J.A., 2007, El hombre anumerico, Tusquets, Buenos Aires. Best, J., 2001, Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists, U. of California Press.
www.queeslaestadistica.com
Walter Sosa Escudero, PhD
Cuando estaba en el secundario no me decidía entre las ciencias sociales (economía, política, geografia humana), la matemática y la computación. Estudié economía porque pensaba que tenia un poco de todo lo que me gustaba. Hice mi licenciatura en economía en la Universidad de Buenos Aires y obtuve mi doctorado en la Universidad de Illinois, Estados Unidos. Me especializo en econometría, disciplina que usa métodos estadísticos, matemáticos y computacionales en las ciencias sociales. Soy docente e investigador en la Universidad de San Andrés e investigador independiente del CONICET. Vivo con mi esposa Mercedes, mi hijo Alejandro y nuestros perros Ninja y Vilma en el barrio de Nuñez, si bien soy de Boca. Me gusta tocar la guitarra, sacar fotos, escribir, sentarme a leer en cualquier café, deambular por mi barrio y andar en bicicleta. Soy fácil de encontrar por Google. Buscame y mandame tus inquietudes y dudas.
Material adicional (por si les interesa seguir indagando)
Mi pagina web: http://waltersosa.weebly.com/
La pagina del libro: http://www.queeslaestadistica.com/
Nota en La Nación sobre estadísticas electorales: http://www.lanacion.com.ar/1791283-las-estadisticas-como-unahamburguesa-o-un-remedio
Mi charla TED sobre estadisticas: http://www.youtube.com/watch?v=hODwSUX0kT4&authuser=0
Nota con Matias Martin en Basta de Todo (Metro 95.1): http://basta.metro951.com/2014/06/02/walter-sosa-escudero-en-escritores/
Contactame:
[email protected]