Estimación de la probabilidad de ganar un punto en un partido de tenis profesional utilizando modelos para datos de panel

Fernando M. Dalla Fontana Javier Bussi Estimación de la probabilidad de ganar un punto en un partido de tenis profesional utilizando modelos para dat

Author: Carolina Ávila Vera

17 downloads 23 Views 471KB Size

Report

DOWNLOAD PDF

Recommend Stories

Seguimiento de un Objeto Extendido en Imágenes Utilizando Modelos 3D

Seguimiento de un Objeto Extendido en Imágenes Utilizando Modelos 3D Por Agustín Alberto Ortega Jiménez Tesis sometida como requisito parcial para obt

DESARROLLO DE UN PARTIDO

Modelos de Panel Lineales Agrupamiento de Datos de Sección Cruzada

Universidad Mayor de San Simón Facultad de Ciencias Económicas y Financieras Carrera de Economía Econometría de Datos de Panel Parte I Modelos de Pa

Modelos de probabilidad

Coordenadas de un punto

Potencia de un Punto

Modelos de Probabilidad con Statgraphics

Variable Aleatoria. Modelos de Probabilidad

CREAR UN PUNTO DE ACCESO EN UN ORDENADOR CON HOSTAPD

Un punto de vista sobre la Resiliencia

Story Transcript

Fernando M. Dalla Fontana Javier Bussi

Estimación de la probabilidad de ganar un punto en un partido de tenis profesional utilizando modelos para datos de panel

RESUMEN

En los trabajos presentados hasta la fecha sobre el tenis profesional se suele considerar que la probabilidad de ganar un punto es constante a lo largo de un partido. Sin embargo debería estudiarse la influencia que sobre dicha variable, es decir, ganar un punto con el servicio, ejerce la ocurrencia de diferentes eventos, tales como haber ganado el punto previo en el mismo juego o la importancia del punto. El presente trabajo plantea un modelo estadístico para dicha probabilidad, el cual prueba que los puntos no son independientes ni están igualmente distribuidos: ganar o perder un punto con el servicio en tenis no depende únicamente de la calidad de los jugadores, sino que además depende del desarrollo del partido. El análisis se realizó sobre una muestra de 161 partidos de la Copa Davis entre los años 2008 a 2011, los cuales componen un total de 34 944 puntos. El modelo para datos de panel utilizado tiene en cuenta la dicotomía de la variable respuesta, incorpora un efecto aleatorio para modelar la parte no observable de la calidad de un jugador y contemplar la heterogeneidad de los mismos, e incluye variables explicativas dinámicas que permiten capturar el efecto de variables que cambian punto a punto, es decir, durante el transcurso del partido. La estimación utilizada es la de Mínimos Cuadrados Generalizados Factibles (FGLS). Palabras clave datos de panel / regresores dinámicos / mínimos cuadrados generalizados factibles

Fernando M. Dalla Fontana

Javier Bussi

Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística, Universidad Nacional de Rosario. [email protected]

Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística, Universidad Nacional de Rosario [email protected]

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 81

1. INTRODUCCIÓN

En el presente trabajo se plantea la aplicación de un tipo de metodología estadística, consistente en la obtención de un modelo que describa la probabilidad de ganar un punto en un partido de tenis profesional, la cual es clave en el análisis de este deporte. En la mayoría de los trabajos hasta la fecha se ha considerado que la probabilidad de ganar un punto en tenis es constante a lo largo del partido, lo que supone independencia entre los puntos y una misma distribución de probabilidad. Sin embargo debería estudiarse la influencia que sobre dicha variable, es decir, ganar un punto, ejercen la ocurrencia de diferentes eventos, tales como haber ganado el punto previo o la importancia del punto jugado. La variable respuesta, es decir si el punto es ganado o no, es una variable dicotómica. En este trabajo se analizarán datos punto por punto de partidos de singles (en donde se enfrentan dos jugadores) correspondientes a la Copa Davis, la cual es una competencia por equipos que representan a los distintos países que participan de la misma. Una de las características de los datos es que involucran distintos jugadores, los cuales son heterogéneos ya que presentan distintas habilidades para el juego, es decir, son jugadores de diferente calidad. Esta calidad puede influir en la probabilidad de ganar un punto y en la relación existente entre puntos consecutivos. Por lo tanto resulta necesario modelarla, pero sólo parte de la misma es observable (por ejemplo el ranking del jugador) mientras que otra parte no es observable (por ejemplo el miedo a un determinado oponente). Para contemplar esta situación es necesario modelar la calidad no observable de los jugadores como un efecto individual aleatorio, de manera similar a la forma en que se modela la heterogeneidad no observada en datos de panel. Por lo tanto resulta de utilidad entonces la consideración del análisis de datos de panel ya que además el conjunto de datos es apropiado para tal fin, es decir, es una sección transversal de partidos donde cada uno comprende dos series de tiempo de puntos jugados con el servicio, una por cada jugador. Los datos de panel consisten en observaciones repetidas en la misma sección transversal de sujetos o ítems a través del tiempo. El hecho de contar con observaciones repetidas medidas sobre la misma unidad determina que éstas presenten una tendencia a estar correlacionadas bajo una estructura que puede variar según el problema estudiado. Existen situaciones en las cuales la directa aplicación de las técnicas de análisis de datos de panel no es posible sin un ajuste de las mismas. Este ajuste resulta en una adaptación de la metodología con el fin de corregir la aplicación según el tipo de variable dependiente estudiada.

82 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

Estas técnicas estándares están especialmente diseñadas para el análisis de variables dependientes continuas. Su aplicación directa cuando la variable de interés es discreta no es posible y si además la mayoría de los regresores son dinámicos, es decir, varían a medida que transcurre el partido, los estimadores habituales para datos de panel resultan inconsistentes. La estimación de modelos de datos de panel dinámicos con variable respuesta binaria sigue siendo hoy en día un problema no totalmente resuelto en la estadística clásica, si bien existen algunos métodos que proveen soluciones parciales. Con el fin de abordar estos inconvenientes presentes en el proceso de estimación, se aprovecha la naturaleza de los datos de tenis, lo que permite utilizar un modelo lineal para la probabilidad de ganar un punto. La estimación utilizada en este trabajo es la de Mínimos Cuadrados Generalizados Factibles (referida como fgls por sus siglas en inglés), la cual resulta consistente y apropiada para el tipo de datos en este estudio. El presente trabajo está orientado a la aplicación de las técnicas de datos de panel cuando se presentan los desafíos antes mencionados, y expone una solución práctica para resolver este tipo de situaciones. Sus objetivos son: Desarrollo y presentación de una metodología específica para el análisis de datos de panel con respuesta binaria y variables explicativas dinámicas. Aplicación de la metodología a un conjunto de datos correspondientes al deporte del tenis profesional, con el fin de obtener un modelo para la probabilidad de ganar un punto y probar ciertas hipótesis de interés relacionadas con el juego.

2. MATERIALES 2.1 EL DEPORTE DEL TENIS

El tenis es un deporte que se juega en todo el mundo y ha adquirido mucha popularidad en los últimos años. En este trabajo se considerarán partidos de singles, es decir partidos en los cuales se enfrentan dos jugadores. El objetivo clave del juego es colocar la pelota de manera tal que pique o bote en el espacio delimitado del campo del adversario, hasta que éste no pueda responder de la misma manera. Cuando esto ocurre, se dice que se ha jugado un punto y que éste ha sido perdido por el jugador que no pudo responder, siendo su adversario el ganador del mismo.

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 83

2.2. EL JUEGO: SU PUNTUACIÓN Y TERMINOLOGÍA

Un partido de tenis se compone de puntos, juegos (llamados de ahora en más en este trabajo como games) y sets. El resultado final se determina por el número de sets ganados, siendo ganador el jugador que obtiene primero un número determinado de sets. Un set consiste de una secuencia de games, donde en cada game uno de los jugadores es el encargado de servir, es decir, iniciar el juego de un determinado punto. El jugador restante es considerado el encargado de recibir. Cada game consiste de puntos, que se juegan con el servicio de uno y sólo uno de los jugadores. En tenis, el servicio es un golpe de suma importancia, puesto que genera al jugador que sirve una considerable ventaja respecto a su rival. Un servicio puede inmediatamente culminar un punto, o bien otorgarle al que sirve una posición ofensivamente favorable, por lo que es de esperar que un jugador gane más puntos con su servicio que con el servicio de su adversario. Cabe aclarar que cada jugador que sirve dispone de dos servicios por cada punto jugado. En caso de que falle en ambos servicios, pierde el punto. En este caso el jugador no logra poner la pelota en juego y el punto recibe el nombre de doble falta. Si bien los puntos no se diferencian en cuanto a la forma en que son jugados, se les suele asignar una terminología clásica y propia del tenis a aquellos considerados “críticos” en cada game o set. Por ejemplo, si se está por jugar un punto donde el jugador que está sirviendo puede ganar el game, se dice que el jugador que sirve tiene “doble game point” o “doble punto para game”. Sucede análogamente con los “puntos para set” o “set points” y los “puntos para partido” o “match points”, términos cotidianamente utilizados en el lenguaje del tenis. Otro concepto que se usa muy seguido es el de los “puntos de quiebre” o “breakpoints”. Un punto de quiebre ocurre cuando, en el próximo punto, el jugador que recibe tiene la posibilidad de ganar el game. Los puntos de quiebre son de gran importancia ya que, como se dijo, el servicio es considerado una ventaja y es de esperar que un jugador no pierda games con su servicio. Cuando un jugador gana un punto de quiebre se dice que “quebró el servicio” de su adversario.

2.3. LOS DATOS

Este estudio se centra en analizar partidos de singles jugados en la Copa Davis, la cual es un torneo internacional por equipos de jugadores, que representan países de todas partes del mundo. La información utilizada en este estudio se encuentra desagregada a nivel de punto, es decir, para cada partido se conocen los jugadores y la secuencia com-

84 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

pleta de puntos que cada uno efectuó con su servicio. Se excluyen del análisis los puntos de tie break (games especiales que tienen mayor número de puntos a disputar) debido a la naturaleza especial que éstos tienen en un partido. También se tuvo en cuenta sólo jugadores con ranking en la Asociación de Tenistas Profesionales (referido de ahora en más en este trabajo por sus siglas en inglés atp: Association of Tennis Professionals) y aquellos partidos de singles que hayan sido significativos para la resolución de la serie, por lo que quedaron excluidos los disputados una vez que la serie ya estaba definida. En resumen, los datos analizados presentan las siguientes características: • Partidos del Grupo Mundial, disputados entre 2008 y 2011. • Enfrentamientos entre dos jugadores (singles). • Partidos significativos para la serie. • No se consideraron puntos disputados en tie breaks. • Jugadores con ranking en el circuito de la atp. • Partidos disputados en superficies lentas y medias.

2.4. BASE DE DATOS

Los datos se recolectaron a través de internet en dos principales fuentes: la página oficial de la Copa Davis (www.daviscup.com) y la página oficial de la atp (www.atpworldtour.com). Se recolectó información de 161 partidos disputados entre los años 2008 y 2011, los cuales componen un total de 34 944 puntos. La base de datos está conformada por el ranking de los jugadores y el resultado para cada punto disputado en cada partido. A continuación se detallan las variables que componen la base de datos final. • Identificador del partido • Identificador del jugador • Número de set • Resultado del punto • Indicador del primer punto del game • Indicador de punto de quiebre • Ranking de los jugadores El ranking es una variable medida en escala ordinal basada en méritos, que determina la entrada y preclasificación de los jugadores en los distintos torneos. Se construye a partir de puntos obtenidos en los torneos profesionales en las últimas 52 semanas (lo que equivale a un año) y se actualiza cada semana. Está asociado a la habilidad para jugar al tenis, considerándose al número uno como el mejor jugador, seguido por el número dos, y así sucesivamente.

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 85

2.5. SOFTWARE ESTADÍSTICO

Se utilizó el software estadístico sas (Statistical Analysis System, versión 9.1.3) para analizar la información y generar el programa necesario para estimar los modelos propuestos en este estudio. Se utilizaron ciertos procedimientos para el análisis, en particular el procedimiento iml (Interactive Matrix Language).

3. METODOLOGÍA 3.1. DATOS DE PANEL CON RESPUESTA BINARIA Y REGRESORES DINÁMICOS CON EFECTOS ALEATORIOS

Los datos a analizar se consideran un panel de N sujetos, es decir una sección transversal de N partidos donde cada uno de ellos comprende dos series de tiempo de puntos jugados con el servicio, una para cada jugador. Se recolectó información de 161 partidos jugados en la Copa Davis durante los años 2008 a 2011, componiendo un total de 34 944 puntos. Se asume que los partidos son independientes, y por lo tanto se considera en primer término un partido genérico i-ésimo y luego se extenderá la notación para los N partidos. Este estudio se centra en explicar la probabilidad de ganar un punto en el tenis. Para tal fin se plantea un modelo para la variable respuesta binaria, es decir, para el resultado de un punto con el servicio de un jugador, en un determinado partido. El modelo que se propone es:

(1)

donde: i: partido o unidad en estudio (corte transversal), j: jugador dentro de cada partido, t: punto, dimensión en el tiempo, período u observación, yijt:resultado del punto t-ésimo en el partido i-ésimo, en donde sirve el jugador j. Luego

Q i : componente de calidad del i-ésimo partido para el j-ésimo jugador, D ij : regresores dinámicos evaluados en la ijt-ésima observación, y E ijt : error aleatorio de la ijt-ésima observación. Se puede observar que por ser

de carácter binario, se verifica que la es-

86 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

peranza matemática de la respuesta es igual a la probabilidad de que la misma tome el valor 1: . Por lo tanto, estimar este modelo permite estimar estadísticamente la probabilidad que un jugador tiene, en un partido, de ganar un punto con su servicio. En cada partido habrá puntos jugados con el servicio del jugador 1 y puntos jugados con el servicio del jugador 2. Por lo tanto cada partido tendrá un total de puntos, . Además es el número total de puntos jugados en los partidos, en este caso 34 944. El modelo descripto expresa que la probabilidad de que el -ésimo jugador gane el -ésimo punto efectuado con su servicio en el partido -ésimo es igual a la esperanza de , asumiendo que los errores tienen esperanza nula. contiene información acerca de la calidad de los jugadores 1 y 2 antes de comenzar el partido (como por ejemplo el ranking de los mismos), mientras que hace referencia a características que se modifican a medida que el partido se desarrolla, hasta antes del punto -ésimo (como por ejemplo el resultado del punto previo o si el punto a jugar es un punto de quiebre). A continuación se discuten las características de las componentes , y . Mientras contiene características de los jugadores antes de comenzar el partido, el término dinámico depende de toda la información del partido, disponible hasta el punto . Si por ejemplo los puntos estuvieran idéntica e independientemente distribuidos (iid), la información provista en no sería útil para predecir la respuesta . Por lo tanto los llamados regresores dinámicos capturarían alejamientos de la hipótesis de iid, tal como variables dependientes que explican por ejemplo una “racha ganadora” (si existiese) y características del punto que actualmente se está jugando, relacionadas con la importancia del mismo.

3.2. COMPONENTE DE CALIDAD (

)

Como es sabido, la calidad de un jugador de tenis no es directamente medible y está vinculada con características propias de los jugadores que interactúan en el partido. La componente explicativa contiene información acerca de los deportistas antes de comenzar el mismo. Las características de los jugadores no se modifican con el correr de los puntos, sino que están previamente especificadas (notar que no depende de ). contiene algunas componentes que se pueden observar (calidad observable) y otras que no (calidad no observable). Se asume que la calidad observable es lineal y se la denota con . Para tener en cuenta la calidad no observable en el modelo, se incluye un efecto individual aleatorio y se lo indica con , de la manera en que usualmente se mo-

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 87

dela la heterogeneidad no observable en datos de panel. Esto permite evitar estimaciones sesgadas de los parámetros. De esta manera la componente de calidad del jugador que juega en el partido viene dada por:

(2)

Supuestos: a)

. La variancia del efecto individual aleatorio es constante a través de los jugadores: b)

(3)

c) La covariancia entre los efectos no observables de un mismo partido es constante a través de los partidos:

(4)

en donde . La covariancia puede interpretarse de la siguiente manera: si el jugador 1 sirve mejor de lo esperado, puede que el nivel de juego del jugador 2 con su servicio se vea afectado, provocando que su probabilidad de ganar un punto disminuya. Por lo tanto, es de esperar que y estén negativamente correlacionados ( ), pero no se impone que la covariancia sea negativa. Este supuesto establece que los efectos no observables no son independientes, condición que no es habitualmente incluida en los modelos (Magnus and Klaassen, 2001). El efecto no observable no está correlacionado con las variables de calidad observable:

(5)

Esto es razonable para el caso del juego de tenis, ya que el ranking de los jugadores está especificado tiempo antes del comienzo del partido, al final de la semana previa a la semana en la cual se disputa el mismo. Este supuesto es necesario además para que el proceso de estimación discutido posteriormente sea consistente (Kiviet, 1995).

88 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

3.3. REGRESORES DINÁMICOS (

)

La calidad contempla variables conocidas antes del comienzo del partido, las cuales no varían a lo largo del mismo. En contraste, los regresores dinámicos capturan el efecto de variables que cambian punto a punto, es decir, durante el partido. Esta parte del modelo es la que se utiliza para probar, por ejemplo, la independencia e igual distribución de los puntos en tenis, por lo que resulta de interés en este estudio. Cuando se observa un partido de tenis profesional, es común preguntarse, por ejemplo, si al perder un punto el jugador que sirve se ve afectado ya sea positiva o negativamente a la hora de jugar un nuevo punto. Esto plantearía que los puntos pueden depender unos de otros. Para evaluar dependencia se tiene en cuenta que el resultado de puntos anteriores influenciaría al resultado del punto actual. Es decir, dentro de un mismo juego, puede que el haber ganado o perdido el punto previo condicione de alguna manera al jugador que sirve y esto se refleje en el resultado del punto posterior. Por otro lado, el punto actual puede ser jugado diferente a otros puntos por algún motivo. Si esto fuese cierto los puntos podrían no contar con igual distribución, lo cual podría ser medido, por ejemplo, a través de la importancia del punto . Como se detallará luego, la importancia de un punto puede ser considerada teniendo en cuenta los puntos de quiebre del servicio. En términos del modelo general, los regresores dinámicos se expresan de la siguiente manera: (6)

Supuestos: A la hora de realizar las aplicaciones, los regresores están completamente determinados por el historial del partido hasta el punto . También podrían estar determinados por las variables relacionadas con la calidad (tales como el ranking de ambos jugadores). Es decir, es de esperar que variables dinámicas y de calidad observable interactúen entre sí. Además, debido a las características propias de un partido de tenis, se considera que el desarrollo del mismo también depende de características no observables ( y ), de manera tal que resulta , y .

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 89

3.4. EL TÉRMINO DEL ERROR ALEATORIO (

)

Los errores aleatorios se ven afectados por la estructura dicotómica de la variable respuesta, quedando determinados de la siguiente manera:

A la hora de estimar consistentemente el modelo, se debe analizar la correlación de los errores con las variables explicativas. Si existiese correlación, el proceso de estimación por mínimos cuadrados convencional resultaría inconsistente y se debería aplicar una corrección al mismo (Magnus and Klaassen, 2001). Supuestos: a) b)

(7)

donde , y es el número total de puntos servidos por el jugador hasta antes del primer punto del juego actual (donde el jugador está por servir). Estos últimos supuestos en (7) son propios de la teoría del análisis de datos de panel aunque también son razonables para los datos en tenis, ya que y están dados al comienzo del partido y los regresores dinámicos dependen sólo de resultados de puntos previos. Tanto en la literatura de datos de panel como de estadística aplicada, suele asumirse que la variancia de los errores es la misma para todos los individuos (homocedasticidad). En el presente estudio se demuestra que esto no se cumple, por tratarse de observaciones de tipo binario. Específicamente por ser , resulta: (8)

90 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

por lo que la variancia del error depende de cada jugador y se muestra con la presencia del subíndice . Por lo tanto existe heterocedasticidad, la cual debe ser tenida en cuenta a la hora de realizar la estimación del modelo.

3.5. EL MODELO Dadas las componentes especificadas en los puntos 3.2, 3.3 y 3.4, la expresión del modelo para el -ésimo jugador viene dada por:

, Es usual interpretar y clasificar los modelos para datos de panel a través de sus componentes de error. En la mayoría de las aplicaciones se utiliza un modelo de componente error “a un criterio” (“one way” error component model). Agrupando las componentes aleatorias se lo lleva a esta forma: (9) Los supuestos enunciados para cada una de las componentes implican que este modelo se defina como un Modelo con Respuesta Binaria y Regresores Dinámicos con Efectos Aleatorios.

3.6. ESTIMACIÓN Uno de los puntos cruciales para la estimación del modelo descripto es la construcción de la matriz de variancias y covariancias de las componentes de error . Teniendo en cuenta el modelo y sus supuestos, dentro de un determinado partido , en donde se enfrentan dos jugadores 1 y 2 que efectuaron y puntos con su servicio respectivamente, se verifica:

, ,y donde

Antes de construir la matriz de variancias y covariancias, es conveniente expresar el modelo en términos de un partido genérico. Para ello se redefinen las variables y vectores del modelo postulado, apilando las observaciones pertenecientes a los jugadores de cada partido.

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 91

.

Siendo y el número de parámetros en y respectivamente, y el número total de parámetros a estimar, el modelo para un partido ,

es: (10)

donde: vector de respuestas del -ésimo partido, de dimensión , matriz de variables de calidad evaluadas en cada tiempo del partido , de dimensión , matriz de variables dinámicas evaluadas en cada tiempo del partido , de dimensión , , de dimensión ,y , de dimensión . El vector de errores , de , puede ser escrito: (11)

donde: , , donde

y

es un vector compuesto de unos de dimensión el producto de Kronecker, y

. y

representa

Finalmente, el modelo queda expresado:

(12)

siendo la matriz de variancias y covariancias de los errores para el -ésimo partido:

(13)

que es de

92 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

Estimar este modelo de manera consistente no es trivial. Por el tipo de modelo existe heterocedasticidad de los errores debido a la variable dependiente dicotómica. Las variables explicativas y los errores están correlacionados contemporáneamente, lo que implica que el método de Mínimos Cuadrados Ordinarios (referido de ahora en más en este trabajo por sus siglas en inglés ols: Ordinary Least Squares) es inconsistente. Debe por lo tanto realizarse una modificación al mismo. De esta manera el procedimiento a utilizar es el de Mínimos Cuadrados Generalizados Factibles (referido de ahora en más en este trabajo por sus siglas en inglés fgls: Feasible Generalized Least Squares). También, y antes de detallar los pasos de estimación, es de utilidad expresar un modelo que resuma la información de todos los partidos. Manteniendo la lógica anterior, se escribe: (14) donde: vector de variables de respuesta binaria para los períodos de observación, matriz de variables de calidad evaluadas en los períodos, de dimensión , matriz de variables dinámicas evaluadas en los períodos, de dimensión , matriz de variables explicativas evaluadas en los períodos, de dimensión ,y vector de errores para los períodos de observación.

3.7. MÍNIMOS CUADRADOS GENERALIZADOS FACTIBLES (fgls)

La estimación a través de fgls realizada en este estudio consiste en dos etapas: Etapa 1: estimación consistente de los parámetros dados en ( y ), Etapa 2: estimación por Mínimos Cuadrados Generalizados (referido de ahora en más en este trabajo por sus siglas en inglés gls: Generalized Least Squares) de los parámetros del modelo ( y ) con la matriz obtenida en la etapa 1. A. Etapa 1: estimación consistente de Para obtener una estimación consistente de la matriz de variancias y covariancias primero se necesitan estimaciones consistentes de , , y , las cua-

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 93

. En

les se obtienen a través de tres pasos. En los pasos 1 y 2 se estiman y el paso 3 se utilizan y estimados en los pasos 1 y 2 para estimar

y

.

Paso 1: estimación consistente de Se aplica una primera diferencia al modelo general (14), con el objetivo de suprimir el efecto aleatorio no observable :

donde el elemento

(15)

de esta diferencia es: , con

(16)

y están correlacionadas, puesto que el Aquí se puede observar que modelo supone para . Luego , por lo que estimar a través del método convencional ols conducirá a inconsistencias en las estimaciones. Se procede a aplicar un método de variables instrumentales, en donde se decide utilizar la variable como un instrumento de , ya que está correlacionada con la variable explicativa y no correlacionada con el error (Arellano, 1989; Judson and Owen, 1999; Kiviet, 1995). La ecuación toma la forma: (17) de donde aplicando

ols

se obtiene

, una estimación consistente de

.

Paso 2: estimación consistente de Este paso consiste en estimar de un modelo que considera una transformación de la variable respuesta . Se intenta suprimir el efecto dinámico ajustado a través de la estimación de obtenida en el paso 1, para así tener un modelo con sólo como variables explicativas e como variable respuesta, donde:

(18)

De esta manera, utilizando a como variables explicativas y a como variable respuesta se obtiene, nuevamente mediante ols, una estimación consistente de (Anderson and Hsiao, 1982).

94 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

Paso 3: estimación de y Recordando que , y llamando al promedio de los errores de un jugador a través de todos los puntos que sirvió en un partido, es decir , se demuestra que:

de donde, despejando

:

(19)

Además puede probarse que:

A partir de la expresión de la variancia puede formularse:

(20)

definida en la ecuación (8),

(21) Teniendo en cuenta las estimaciones y , obtenidas de (17) y (18) en los pasos 1 y 2, se reemplazan los errores por los residuos . De esta manera, reemplazando los valores estimados y estimando las esperanzas contenidas en (19), (20) y (21) con la media muestral apropiada en cada caso, se obtiene una estimación de y para cada jugador, y de para cada partido. Promediando los valores de las estimaciones de ambos parámetros y a través de los jugadores y de los partidos respectivamente, se logra llegar a estimaciones consistentes y . Finalmente se le resta a la estimación consistente y se adquiere una estimación de la variancia de los errores aleatorios ( ) para cada uno de los jugadores:

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 95

Así, la matriz de variancias y covariancias estimada queda consistentemente determinada para cada partido a partir de estimaciones consistentes de todas sus componentes. Etapa 2: estimación de y por gls Una vez obtenida , es posible la estimación de los parámetros mediante gls. La aplicación de este método se justifica por el hecho que los errores no tienen igual variancia y además están correlacionados. Es decir, no es de la forma y por lo tanto ols no es aplicable. Mediante gls, la estimación del vector de parámetros y su matriz de variancias y covariancias correspondiente, utilizando sólo la información de un partido viene dada por: (22) En esta situación es necesaria la obtención de una estimación única para todo el panel y no para cada partido por separado. Por lo tanto, asumiendo que los partidos son independientes se obtiene la matriz (de todos los partidos) que es diagonal en bloque con elementos . Luego resulta:

(23)

donde es la estimación consistente de la matriz de variancias y covariancias de los errores a través de los puntos, de dimensión , obtenida a partir de fgls. La estimación gls con conocida es consistente, lo cual no es un tema menor ya que la estimación por ols no lo es. La estimación mediante fgls descripta recorre distintos pasos para lograr la no correlación de las variables explicativas con el error, ya que en caso contrario se originan inconsistencias en las estimaciones (Hsiao, 1986). Anderson and Hsiao (1982) y Hsiao (1986) probaron que de esta manera la estimación gls es consistente, ya que equivale a la estimación por máxima verosimilitud. Por lo tanto es consistente y y por gls también, y las nuevas estimaciones consistentes y son más eficientes que las obtenidas en los pasos 1 y 2 de la etapa 1 (Magnus and Klaassen, 2001).

96 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

Finalmente y como refinamiento del procedimiento, se utilizan y obtenidos de para volver a estimar en el paso 3 de la etapa 1 y así continuar de manera similar hasta que el proceso converja. Una vez obtenida la estimación de los parámetros, se prueba la significación de los mismos mediante el Test de Wald Multivariado.

3.8. AJUSTE DEL MODELO Como la variable dependiente es dicotómica, el coeficiente de determinación ( ) no puede usarse como medida de diagnóstico para evaluar el ajuste del modelo (Maddala, 1983). Pueden calcularse en cambio la Raiz del Error Cuadrático Medio (referido de ahora en más en este trabajo por sus siglas en inglés rmse: Root Mean Square Error), cuya fórmula es:

y el Error Medio Absoluto (referido de ahora en más en este trabajo por sus siglas en inglés mae: Mean Absolute Error), obtenido mediante la fórmula:

siendo

el valor ajustado de

mediante el modelo.

4. RESULTADOS 4.1. APLICACIÓN A LOS PARTIDOS DE LA COPA DAVIS

Este estudio plantea un modelo para determinar la probabilidad de ganar un punto con el servicio en el tenis profesional. Se utilizaron 161 partidos correspondientes a la serie mundial de la Copa Davis entre los años 2008 y 2011. Como se ha mencionado, el servicio es uno de los aspectos más importantes en el tenis. Esto se refleja en el siguiente análisis descriptivo, en base a la muestra de partidos considerada, donde la probabilidad estimada de ganar un punto con el servicio, para todos los jugadores, es 0.63. Más alta aún es la de ganar un game, siendo 0.79 para el jugador que sirve.

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 97

La probabilidad estimada de ganar el punto actual (sin ser éste el primero del game), habiendo ganado el punto previo, se incrementa de 0.63 a 0.65, reflejando una “racha ganadora”. Si el punto previo se perdió, esta probabilidad decrece de 0.63 a 0.61. Por lo tanto, resultados de puntos previos podrían tener un efecto en el punto actual, lo que sugeriría una dependencia entre los puntos (Tabla 1). Por otro lado, ante la presencia de un punto de quiebre, la probabilidad estimada de ganar el punto decrece a 0.61, indicando que puntos “más importantes” podrían pesar a la hora de servir. A continuación se especifican las variables de las componentes de calidad y las variables dinámicas, tenidas en cuenta en este estudio para la formulación del modelo. Tabla 1. Resumen de los datos Promedio de… Número de…

Sets por partido

Partidos

161

Puntos por partido

Sets

592

Probabilidad estimada de…

Puntos por game

3.68 6.16 217.04

Games

5669

Ganar un game

0.79

Puntos

34944

Ganar un punto

0.63

Ganar un punto habiendo ganado el punto previo

0.65

Puntos de quiebre

3076

Games ganados

4451

Puntos ganados

22186

Ganar un punto habiendo perdido el punto previo

0.61

Ganar un punto de quiebre

0.61

4.2. ESPECIFICACIÓN DE LAS VARIABLES DE CALIDAD

Las variables de calidad miden la calidad observable de los jugadores en un partido. Básicamente la información que se utiliza para definirlas es el ranking de los jugadores en el circuito profesional, previo a jugar la serie, obtenido a partir de la base de datos de rankings en la página oficial de la atp. El ranking del jugador al momento de jugar el partido se denota con . Se propone utilizar como variable de calidad a una función del ranking de los jugadores:

(24)

98 | Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

La variable , utilizada para medir la calidad observable de un jugador en un partido determinado, fue introducida por Magnus and Klaassen (2001). Por ejemplo, un jugador con ranking 1 tiene mientras que, para jugadores con ranking 2, 3 y 4, es igual a 7, 6.42 y 6, respectivamente. Esta nueva variable expresa que la diferencia de calidad entre dos jugadores es menor si se consideran rankings cada vez más altos (siempre y cuando se comparen jugadores con igual diferencia entre sus rankings). Dicho de otra manera, jugadores con mayor ranking (menor calidad) son en general más parejos. Al momento de definir las variables de calidad es importante tener en cuenta dos aspectos. Primero, un jugador gana más puntos con su servicio si su adversario es “peor” que él, en comparación a si su rival es “mejor”. Esto indica que la resta entre las calidades de los jugadores y (la brecha entre ambos o calidad relativa), , es importante. Segundo, en un partido donde se enfrentan dos jugadores “fuertes”, se juegan más puntos con el servicio en comparación a dos jugadores “débiles” (Magnus and Klaassen, 1999a), por lo que la suma de calidades (calidad total del partido o calidad absoluta), también se debe tener en cuenta. De esta manera las variables de calidad se expresan:

y, siendo ponente de calidad

(25)

el correspondiente vector de parámetros, la comqueda expresada:

(26)

y se centran a través de sus respectivas Las variables medias, lo cual facilita la interpretación de , representando, de esta manera, la calidad observable esperada para un partido con jugadores con calidad promedio. El valor promedio de para el conjunto de partidos considerados es 3.28.

4.3. ESPECIFICACIÓN DE LAS VARIABLES DINÁMICAS

Una hipótesis interesante a evaluar en este estudio es la de independencia e igual distribución de los puntos en tenis, para lo cual las variables dinámicas a considerar en el modelo deberán contener información acerca de estas cuestiones. Los puntos previos pueden influir en el punto actual con lo cual existiría una de-

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 99

pendencia entre los puntos. También puede ocurrir que el punto actual sea jugado de manera distinta a otros puntos, lo cual implicaría una distinta distribución.

4.3.1. DEPENDENCIA

Se desea considerar la influencia que tiene el punto previo sobre el punto actual. Se desea estudiar esta dependencia dentro de un mismo game, por lo tanto es necesario notar una sutileza en la definición de la variable a utilizar. Es importante destacar que, para el jugador que sirve, el punto previo al primero de un game fue jugado en un game previo (en donde servía el mismo jugador). Es decir que entre el primer punto del game y los puntos anteriores jugados existe un game jugado con el servicio del otro jugador. Esto indica que, en un game determinado, no todos los puntos previos pueden asumirse “iguales” y para evaluar dependencia a través de la influencia de los mismos se debe distinguir entre el primer punto del game (donde el punto previo ocurrió bastante tiempo atrás) y los restantes puntos del mismo. Por lo tanto se define:

(27)

(28)

La dependencia puede ser estudiada a través de las variables definidas, sin necesidad de eliminar el primer punto de cada game.

4.3.2. DISTINTA DISTRIBUCIÓN

En un partido de tenis suele haber distintos momentos que, por la importancia que tienen, son considerados relevantes para definir el resultado. La influencia que estos momentos tengan en el juego se verá reflejada en la distribución de la probabilidad de ganar un punto. Es decir, la existencia de puntos más importantes que otros puede repercutir en el resultado de los mismos, modificando así la probabilidad de ganar a lo largo del partido.

100 |Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

Se intenta medir la ausencia de igual distribución de los puntos a partir de un indicador de la importancia del mismo, en este caso, el punto de quiebre. Se define la siguiente variable:

(29)

Se debe considerar el hecho de que la independencia e igual distribución de los puntos puedan depender del nivel propio del jugador. Si esto sucediese, es de esperar que jugadores de mayor calidad se vean menos afectados por el resultado del punto previo o la importancia del punto disputado que jugadores de menor calidad. De esta manera, los regresores incluyen también la calidad de los jugadores, lo que se traduce, en términos del modelo, a interacción entre variables dinámicas y de calidad:

Denotando con parámetros asociados a los regresores dinámicos, se expresa a

(30) al vector de como:

(31)

Puede notarse que cada variable dinámica tiene asociado un término independiente y dos términos de interacción, los cuales se relacionan con la resta y suma de las calidades de los jugadores.

4.4. MODELO PARA LA VARIABLE RESPUESTA BINARIA Una vez definidas las componentes se puede escribir el modelo completo para la probabilidad de ganar un punto en tenis:

REVISTA DE LA SOCIEDAD ARGENTINA DE ESTADÍSTICA / VOL. 11 / NRO. 1 / 2013 | 101

(32)

Los parámetros se interpretan teniendo en cuenta su signo y magnitud. Considerar que los puntos son independientes y están igualmente distribuidos (iid) implica que los regresores dinámicos no tengan ningún efecto sobre la probabilidad de ganar. Es decir probar iid equivale, en relación a los parámetros del modelo, a probar la hipótesis . Otra hipótesis de interés a probar es la de “homogeneidad”, la cual evalúa si el alejamiento de la independencia e igual distribución de los puntos (en caso de estar presente) es homogéneo para todos los jugadores, es decir, no depende de la calidad de los mismos. Probar esta hipótesis equivale a evaluar si los efectos asociados a las interacciones entre variables dinámicas y de calidad son nulos, es decir, .

4.5. ESTIMACIÓN Y PRUEBA DE HIPÓTESIS

Se estima, en principio, un modelo teniendo en cuenta todas las variables antes definidas (modelo completo). El mismo consta de 14 parámetros en total —tres parámetros , nueve parámetros , la variancia y la covariancia —, especificados en el modelo ajustado. Aquellos parámetros no significativos —considerado a un nivel — se eliminan paso a paso de acuerdo a sus valores de probabilidad asociada, evaluándose el comportamiento de los efectos restantes en un modelo más reducido. Sin tener en cuenta su significación, se retiene en el modelo aquellos efectos principales correspondientes a interacciones que resultan significativas. Así se obtiene un modelo reducido final con 10 parámetros, que es el elegido para interpretar en términos del problema. Se compara el ajuste del modelo reducido con el del modelo completo y se puede observar que los valores correspondientes al rmse y al mae de ambos modelos son prácticamente iguales, siendo la diferencia entre los mismos en el cuarto decimal. Se puede concluir que el modelo reducido final ajusta los datos tan bien como el modelo completo. La siguiente tabla muestra los valores de rmse y mae para ambos modelos.

102 |Estimación de la probabilidad de ganar un punto en un partido de tenis profesional… / F.M. DALLA FONTANA / J. BUSSI

Tabla 2. Estimación del Modelo Reducido Efecto Constante (

)

Resta de calidades ( Suma de calidades ( Punto previo (

)

)

Primer punto del game (

)

Primer punto del game × Suma de calidades ( )

Punto de quiebre (

Punto de quiebre × Resta de calidades ( Variancia (

Error Est.

gl

p-value

0.0058

1