Dinámica de la Distribución Provincial de la Renta. II: La Forma Externa de la Distribución Evolución Histórica-. (Volumen 1

Dinámica de la Distribución Provincial de la Renta. II: La Forma Externa de la Distribución –Evolución Histórica-. (Volumen 1. Secciones 1 a 5) Franci

Author: Esteban Castilla Escobar

5 downloads 66 Views 1MB Size

Report

DOWNLOAD PDF

Recommend Stories

Deuda externa: La cumbre de la Habana

Consideraciones sobre la renta de la tierra

La deuda externa de Nicaragua

LA FORMA DE LA CUECA CHILENA (1) Carlos Vega

Contrapunto de la forma

TEMA 1: RECUPERAMOS LA FORMA

II. EL IMPUESTO SOBRE LA RENTA DE LAS PERSONAS FÍSICAS

Proyecto de Presupuestos Generales del Estado para 2016 Memoria de Beneficios Fiscales II. EL IMPUESTO SOBRE LA RENTA DE LAS PERSONAS FÍSICAS II.1.

Conversión de la forma general a la forma ordinaria

Profr. Efraín Soto Apolinar. Conversión de la forma general a la forma ordinaria Ahora que ya conocemos las formas ordinaria y general de la ecuación

Flujo Circular de la Renta

Repasamos la forma de la condicional

Story Transcript

Dinámica de la Distribución Provincial de la Renta. II: La Forma Externa de la Distribución –Evolución Histórica-. (Volumen 1. Secciones 1 a 5) Francisco J. Goerlich Gisbert1

DT 00-08

Dirección: Departamento de Análisis Económico Edificio Departamental Oriental Universitat de València Avgda. dels Tarongers, s/n 46022 - VALENCIA Correo Electrónico: [email protected] Web: http://www.uv.es/~goerlich Tel.: 34 – 963828246 Fax: 34 – 963828249

1

El autor agradece la colaboración de J. C. Robledo y J. M. Sanus en la búsqueda de la información estadística así como los comentarios realizados por M. Mas a una versión de este trabajo, lo que no implica responsabilizarlos de los errores que, a buen seguro, todavía subsisten. Se agradece la financiación recibida de la DGICYT, proyecto SEC98-0895, y del Instituto Valenciano de Investigaciones Económicas (I.V.I.E.).

RESUMEN Este trabajo es una continuación de Goerlich (1998) y sus aportaciones pueden dividirse en tres grandes bloques. En primer lugar, se ofrece un conjunto amplio de resultados conocidos sobre estadísticos descriptivos cuando estos se calculan a partir de observaciones donde la ponderación de las mismas puede ser una cuestión relevante. En segundo lugar se analiza con cierto detalle, y desde un punto de vista meramente empírico, el concepto de βconvergencia puesto de moda por la moderna teoría del crecimiento económico. Finalmente el trabajo menciona diversos procedimientos para estimar la función de densidad de probabilidad de una variable, centrándose en el método no-paramétrico kernel. Se pretende de esta forma ampliar el instrumental analítico ofrecido en Goerlich (1998) para el análisis de la diversidad, la desigualdad y la convergencia. A lo largo del trabajo se ofrece una aplicación práctica con datos provinciales de la renta per capita que cubren el periodo 1955-1997. En cierto sentido el trabajo puede considerarse como un panorama muy selectivo de ciertos aspectos de la literatura, convenientemente adaptado a nuestros propósitos.

ABSTRACT This report is a follow-up of Goerlich (1998) and its contributions can be divided into three big blocks. First, I offer a wide set of known results on descriptive statistics when these statistics are calculated from potentially weighted data and where the weights can be of some relevance. Second, I analyse in detail, and from an empirical point of view, the concept introduced by modern growth theory known as β-convergence. Eventually the report examines different procedures to estimate the probability density function of a variable, focusing on the non-parametric kernel method. In this way I widen the analytical tools offered in Goerlich (1998) for the analysis of diversity, inequality and convergence. An empirical aplication of the different concepts mentioned in the work is offered using per capita income data from spanish provinces and the period 1955-1997. In some sense the work can be considered a selective survey of some aspects of the literature.

1

INDICE

1.

Introdución.

2.

El periodo de análisis y la variable objeto de estudio.

3.

Un modelo de referencia: ¿Cuanto explica nuestra ignorancia?

4.

Algunas consideraciones espaciales.

5.

Estadísticos descriptivos: Convergencia-σ σ. Una primera aproximación a los hechos estilizados.

6.

Convergencia-β β y otras historias: Una digresión.

7.

Dinámica de la distribución de la renta per capita: Convergencia-δ δ.

8.

A modo de conclusiones.

Apéndice: • Fuentes estadísticas. • Listado de cuadros.

Referencias.

2

1 Introducción. Este trabajo es continuación de Goerlich (1998) y pretente por tanto profundizar en el análisis de la evolución dinámica de la distribución provincial de la renta per capita en España en los últimos 40 años. Al igual que en el trabajo mencionado el análisis se realiza a partir de la exposición de una serie de técnicas con diversos grados de sofisticación.

La actividad económica tiene lugar en el espacio y en el tiempo, por ello partiendo de esta doble dimensión espacio-temporal este informe, enmarcado en una linea de investigación más amplia (Goerlich (1998,2000a,b)), trata de proporcionar un marco de referencia para una mejor comprensión de la evolución dinámica de una variable clave en el proceso de crecimiento económico, la renta per capita. En Goerlich (1998) el análisis se realizó de forma exclusiva a partir de la utilización de conceptos tomados de la literatura de la desigualdad, que ha concentrado gran parte de sus esfuerzos en la elaboración de índices que posean determinadas propiedades (Atkinson (1970), Sen (1973), Chakravarty (1990), Cowell (1995)). Este segundo informe realiza un análisis gráfico y estadístico exhaustivo, lo que permitirá una amplia recopilación de hechos estilizados. El trabajo toma prestados conceptos de la literatura aplicada sobre convergencia económica y busca básicamente caracterizar si la distribución cross-section de la renta per capita provincial tiende en el tiempo hacia la igualdad de rentas, entendida esta en un sentido que se hará explícito más adelante. Por tanto sea x la renta per capita provincial el objetivo es caracterizar φ(x), siendo φ(•) una medida de la función cross-section de densidad de probabilidad de x. Observaremos que hay dos características interesantes en la evolución temporal de φ(x): (i) la forma cambiante en el tiempo de dicha función, y (ii) la dinámica intra-distribucional, es decir como una parte dada de la distribución en t transita a otra parte de dicha distribución en t + j. Las dos características sobre las que incidiremos son pues “forma externa” y “movilidad”. El presente trabajo se centra básicamente en el estudio de la evolución dinámica de la forma externa de la distribución (the external shape of the distribution), se examinarán brevemente los conceptos de σ-convergencia y β-convergencia y observaremos como las técnicas utilizadas en estos dos primeros informes son, a pesar de su diferente origen, complementarias. El estudio de lo que sucede dentro de la distribución, es decir la movilidad, se aborda en Goerlich (2000a). Finalmente, Goerlich (2000b), tratará de buscar

3

respuestas sobre que tipo de actuaciones pueden explicar, producir o acelerar el proceso de convergencia; esto es, como condicionar en ciertas variables afecta a la evolución dinámica de la distribución cross-section de la renta per capita provincial.

La utilización de datos provinciales hace que inevitablemente perdamos parte de información valiosa, la referida a individuos, que no será utilizada aquí ya que carecemos de la suficiente perspectiva temporal con este tipo de datos. Lo que sucede a nivel individual es, por tanto, irrelevante para nuestros propósitos, por importante e interesante que ello sea.

Dos corrientes de literatura que han permanecido separadas, pero que hasta cierto punto son complementarias y cuyas técnicas de análisis pueden combinarse adecuadamente son: (1) la literatura tradicional sobre la desigualdad (Atkinson (1970), Sen (1973), Shorrocks (1980, 1982, 1984), Chakravarty (1990), Esteban y Ray (1993, 1994), Cowell (1995)), centrada fundamentalmente en el estudio de la distribución personal de la renta, y (2) la reciente literatura sobre la convergencia económica (Barro (1991), Barro y Sala-iMartin (1991, 1992, 1995), Quah (1993a,b), Sala-i-Martin (1994)), preocupada por la convergencia o divergencia de la renta per capita o productividad de diversas unidades geográficas, ya sean regiones o paises. Aunque ambas literaturas han tendido a permanecer separadas es evidente que tienen importantes puntos de contacto. Basta para ello ojear los trabajos de Esteban y Ray (1993) o Esteban (1996) sobre la polarización o los de Baumol (1986), DeLong (1988) o Quah (1996a,b, 1997) sobre la existencia de clubs de convergencia para darse cuenta de que, a grandes rasgos, se está hablando de conceptos similares, grupos de individuos o regiones que presentan peculiaridades distintas del resto. Así pues aunque la literatura sobre la desigualdad parte del individuo y la del crecimiento de una unidad espacial considerablemente más amplia, las dos tratan de estudiar la evolución en el tiempo de la distribución de una variable económica considerada de especial relevancia desde el punto de vista del bienestar o de la actividad económica. Debe ser obvio entonces que las técnicas de análisis en un tipo de literatura pueden utilizarse satisfactoriamente en el otro. De hecho algunos autores (Rabadán y Salas (1996)) han propuesto medir directamente la convergencia mediante índices de desigualdad; este enfoque, llevado hasta su extremo, podría sufrir de algunas de las críticas de Quah

4

(1993a,b) y Esteban (1996), ya que no parece adecuado reducir el concepto de convergencia a unos pocos estadísticos.

Si bien Goerlich (1998) realizó el análisis a partir de conceptos de la literatura de la desigualdad, este trabajo y el siguiente (Goerlich (2000a)) utilizan fundamentalmente técnicas de análisis de la literatura aplicada sobre convergencia económica con la finalidad de examinar si la distribución de corte transversal de la renta per capita provincial tiende en el tiempo hacia la igualdad en dicha renta o hacia una distribución estacionaria, así como la forma de dicha distribución, es decir, si converge en un cierto sentido que se hará preciso más adelante. Tanto si observamos dicha convergencia como si no, trataremos de buscar que hay detrás de la evolución dinámica en la distribución provincial de la renta per capita. Por otra parte, y a pesar de utilizar datos provinciales, introduciremos la dimensión poblacional en el análisis, algo que ya recogen los índices de desigualdad pero que, sin embargo y sin causa aparente, parece haber sido olvidado por la reciente literatura sobre la convergencia económica.2 Este enfoque se hará más evidente conforme progresamos.

La desigualdad y el crecimiento de las economías es un fenómeno complejo y multidimensional. Por ello, todo intento de resumir el proceso de convergencia en un único estadístico está abocado al fracaso. Quah (1993a,b) ha enfatizado satisfactoriamente este punto y a propuesto una serie de instrumentos metodológicos complementarios para analizar la evolución dinámica de distribuciones en el corte transversal (model of explicit distribution dynamics), parte de estos instrumentos serán utilizados en este y posteriores informes. El trabajo se estructura de la siguiente forma. La sección 2 presenta la variable objeto de análisis y el periodo de referencia. La sección 3 introduce un modelo de referencia basado en el análisis de varianza y la sección 4 examina algunas consideraciones espaciales. La sección 5 ofrece un análisis gráfico y estadístico exhaustivo de la variable objeto de estudio, la sección 6 examina el concepto de β-convergencia y la sección 7 la evolución de las funciones de densidad. Finalmente, la sección 8 ofrece unas conclusiones preliminares.

2

No obstante algunos autores si habían observado este olvido, Rabadan y Salas (1996, p.-15) o Jones (1997a, p.-23).

5

2 El periodo de análisis y la variable objeto de estudio. Como acabamos de mencionar el trabajo se centra en el análisis de la renta per capita provincial para el periodo 1955-1997. Nuestro conjunto de datos se mueve pues en dos direcciones, el ámbito espacial y el ámbito temporal y constituye lo que la literatura reciente (Quah (1990)) ha dado en llamar un campo de datos (data field) en el que tanto n, el número de grupos, como T, el número de periodos, son razonablemente grandes o al menos de una de una dimensión similar. Así pues supongamos que disponemos de n agrupaciones de individuos, provincias en nuestro caso,3 para un determinado periodo temporal, t = 1,...,T, cuya renta per capita designamos por xit, xit = Yit/Nit,4 siendo Yit la renta y Nit la población de la agrupación i = 1,2,...,n en el periodo t = 1,...,T; xit es por tanto para nosotros la renta per capita provincial en un año determinado, no obstante cuando nos refiramos a la dimensión cross-section de nuestra muestra utilizaremos de forma indistinta los términos individuos, provincias, regiones, países o agrupaciones. Sea además pit la frecuencia relativa, esto es, el porcentaje de población por agrupación para un año dado, pit = Nit/Nt, N t = Σ in=1 N it , entonces la renta per capita media para el agregado en un año determinado puede expresarse como una media aritmética ponderada,

µt =

Yt Σn Y Y N = i =1 it = Σ in=1 it it = Σ in=1 pit xit Nt Nt N t N it

Por renta per capita entenderemos el Valor Añadido Bruto al coste de los factores en términos reales por persona, VABcf. La información regional disponible para la economía española ha experimentado una importante mejora desde que la Fundación Banco Bilbao-Vizcaya ofreciera desde internet el libre acceso electrónico a su publicación Renta Nacional de España y su Distribución Provincial, además el acceso a la denominada Base de Conocimiento Económico Regional ha ido acompañado de

3

La mayor parte de la literatura ofrece sus argumentos en términos de observaciones individuales, en nuestro caso disponemos de observaciones sobre agrupaciones de individuos, por lo que una utilización adecuada de los estadísticos requiere algunas modificaciones en la formulación para aplicar correctamente las ponderaciones poblacionales de cada agrupación. El presente trabajo pretende, al menos parcialmente, realizar un esfuerzo en este sentido. 4 xit es la renta real equivalente per capita, es decir ha sido adecuadamente deflactada y ajustada por las diferentes necesidades de las agrupaciones, familias o individuos. (Deaton y Muellbauer (1980)).

6

importantes mejoras, cualitativas y cuantitativas, en la disponibilidad de información provincial, en concreto disponemos de series temporales de VABcf por provincias para el periodo 1955-1997 con carácter bianual,5 tanto en pesetas corrientes como constantes con base 1986.6 Muchos de los ejercicios que realizaremos aprovecharán esta estructura de panel de los datos con n = 50 y T = 22, no obstante, dado que nuestro objeto de estudio es la evolución dinámica de la distribución cross section de la renta per capita provincial, y esta no es de esperar que sufra alteraciones bruscas en periodos cortos de tiempo, en ocasiones nos centraremos en unos pocos años de referencia, en concreto 1955, 1965, 1975, 1985 y 1995, proporcionando así largos periodos de tiempo equiespaciados, lo que nos permitirá una visión de largo plazo.7

La población es la población de derecho calculada a 1 de julio y proporcionada por el Anuario Estadístico de España del INE. Detalles sobre el resto de variables utilizadas en el trabajo se encuentran en el apéndice de fuentes estadísticas.

Algunas consideraciones sobre los datos utilizados son de interés. Ceuta y Melilla fueron excluidas del análisis, tanto por sus peculiaridades como por su reducida dimensión, los totales nacionales excluyen pues estas provincias. La elección del año base, 1986, viene condicionada por la información proporcionada por la propia base de datos; dicho año base es diferente del utilizado en Goerlich (1998), 1990, lo que sin duda dificulta ciertas comparaciones, sin embargo obsérvese que puesto que 1990 no es un año para el que dispongamos de información no es posible realizar el cambio de base en las series utilizadas, por otra parte la propia Base de Conocimiento Económico Regional de la Fundación BBV ofrece las series de capital de Mas, Pérez y Uriel (1995) en base 1986 lo que facilita la incorporación de estas series al análisis en informes posteriores.

5

Para el último periodo tambien se dispone de los años 1994 y 1996, si bien el periodo 1994-1997 se trata de datos provisionales. No obstante a menos que se indique lo contrario mantendremos una periodicidad bianual en el tratamiento de la información. 6 Esta es una importante mejora en la información estadística ya que anteriormente la publicación Renta Nacional de España y su Distribución Provincial sólo ofrecía series en términos nominales por lo que en Goerlich (1998) se acudió a un proceso de deflacción a partir de los deflactores de Contabilidad Nacional Nacional (Uriel y Moltó (1995), INE (1996)). 7 Estos años de referencia facilitan algunas comparaciones con Pérez, Goerlich y Mas (1996) a nivel de Comunidades Autónomas.

7

Una visión en tres dimensiones de la variable a analizar la proporciona el gráfico 1,8 en él se observan los datos originales en las dos direcciones de interés, el eje temporal y el eje espacial. Desde el punto de vista temporal la ordenación de los datos es obvia, puesto que la flecha del tiempo es unidireccional; desde el punto de vista espacial no existe una ordenación natural, de forma que hemos elegido la ordenación en la que los datos fueron suministrados y que se encuentra recogida en el cuadro A1. Este gráfico muestra los datos a partir de los cuales se realizan los cálculos de este trabajo y permite observar la complejidad de efectuar análisis dinámicos en dos o más direcciones, cuestiones tales como si las desigualdades en renta per capita han crecido o disminuido a lo largo del tiempo, si se ha producido un proceso de convergencia o si la distribución cross section de la renta per capita provincial es estacionaria, no son evidentes a partir de una observación directa. Los datos muestran considerable variación, tanto en el eje temporal como en el eje espacial, y marginalizar respecto a uno de los dos puede distorsionar las conclusiones. El gráfico proporciona tambien cierta intuición de porque el análisis estándar de series temporales es inapropiado en este contexto, la dimensión cross-section es del mismo orden de magnitud que la dimensión temporal lo que hace dificil captar la dinámica a partir de un modelo de series temporales para el vector 50x1 de rentas per capita provinciales.

Gráfico 1 En la dirección temporal observamos un crecimiento generalizado de la renta per capita, si bien unas provincias parecen mostrar mayores oscilaciones que otras. Ello no hace sino reflejar que el crecimiento de la renta per capita nacional, cuadro 1, ha sido un fenómeno generalizado, aunque se ha producido con importantes oscilaciones, tanto desde el punto de vista temporal como transversal9; no obstante todas las provincias registran crecimientos positivos en todos los subperiodos decenales considerados, salvo Huelva, Sevilla, Barcelona, Madrid, Alava, Guipúzcoa y Vizcaya en el periodo 1975-85 (cuadro A4).10 En la dirección del eje geográfico las diferencias en niveles de renta per capita son

8

Los años que faltan han sido obtenidos por interpolación lineal para proporcionar una visión correcta en el ámbito temporal. 9 A menos que se indique lo contrario todas las tasas de crecimiento son tasa medias anuales acumulativas. Obsérvese, sin embargo, que el cálculo de dichas tasas no es una cuestión trivial (Kakwani (1997)), en la sección 6 volveremos sobre este punto aunque no será tratado en profundidad. 10 Obsérvese como la actualización de series, la utilización de un deflactor distinto, así como el diferente año base, introduce pequeñas modificaciones respecto a algunos de los resultados en Goerlich (1998).

8

evidentes, tanto al principio como al final del periodo muestral, pero no resulta claro si estas diferencias han tendido o no a reducirse en términos relativos.

Cuadro 1 Debido a que tanto la economía nacional como todas las provincias que la componen presentan un crecimiento medio sostenido para el conjunto del periodo (cuadro A4), es natural abstraerse de dicho crecimiento y realizar el análisis en términos relativos. Para ello normalizamos la renta per capita provincial por su valor nacional de cada año, así un valor de 1.5 indicará 1.5 veces la renta per capita nacional del año correspondiente y un valor de 0.5 una provincia con la mitad de renta per capita que el valor nacional en dicho año (cuadro A2). En este caso nuestra variable de interés será zit =

xit . Esta normalización µt

es simple, intuitiva y permite observar hechos estilizados con facilidad; normalizaciones más precisas son posibles (Quah y Sargent (1993)), pero su obtención suele ser más compleja, y por tanto la interpretación de las series resultantes más problemática y menos intuitiva.11 El gráfico 2 muestra la renta per capita normalizada según el procediemto que acabamos de exponer, las complicaciones de nuestro conjunto de datos para la inferencia dinámica obviamente no han desaparecido, pero un fenómeno importante aparece como relevante ahora, las disparidades en renta per capita se han reducido, o al menos no han aumentado, a lo largo del periodo 1955-1997; es más, se observa un importante acercamiento a los valores medios de algunas provincias que partían, al principio del periodo, de situaciones muy por encima de la media; el papel de estas provincias en la evolución de la distribución de la renta per capita será analizado con detalle más adelante.

Gráfico 2

11

Un tema poco tratado en la literatura es como las diferentes transformaciones previas realizadas en los datos pueden afectar a los resultados, por ejemplo algunos autores (Gardeazabal (1996)) utilizan logaritmos y sustraen la media aritmética simple del logaritmo de la renta per capita en cada cross-section, lo que constituye simplemente un cambio de origen, otros autores (Quah (1993b,1994a)) adoptan la normalización adoptada en este trabajo y que constituye un cambio de escala, mientras que otros autores (Bianchi (1995)) estandarizan los datos previamemte al análisis. Lo más paradójico es que los diversos autores comparan entre sí muchos de sus resultados, pero no conocemos con exactitud como las diferentes transformaciones afectan a los mismos.

9

Cuadro 1: Renta per capita nacional Miles de pesetas de 1986 y Tasas medias de crecimiento anual acumulativo.

Tasas de crecimiento

Miles de pts. 1955 1965 1975 1985 1995

318.405 499.676 775.342 826.953 1,095.521

1955-65 1965-75 1975-85 1985-95

4.61% 4.49% 0.65% 2.85%

1955-75 1975-95

4.55% 1.74%

1955-95

3.14%

Los gráficos 1 y 2 muestran dos visiones complementarias de un mismo conjunto de datos y permiten observar como transformaciones de los mismos, lineales o no, pueden enfatizar unas características y ocultar otras. La visión que observamos del paisaje no es la misma desde todas las cumbres.

10

3 Un modelo de referencia: ¿Cuanto explica nuestra ignorancia? Puesto que nuestro objetivo consiste en analizar la evolución de la renta per capita provincial durante el periodo 1955-1997 parece natural preguntarse cual es nuestro punto de partida. Dado que el conjunto de datos se mueve en dos direcciones, el ámbito espacial y el ámbito temporal, es posible preguntarse cuanto explica cada una de estas dos dimensiones de la varianza de nuestra variable; de esta forma podemos examinar cuestiones tales como si los cambios observados a lo largo del tiempo son grandes o pequeños en relación a las diferencias observadas entre provincias. Para ello comenzaremos nuestro trabajo aplicado con un análisis de varianza y como veremos nuestros resultados sugieren que tanto el ámbito espacial como el ámbito temporal tienen una importante capacidad explicativa tanto para los niveles como para las tasas de crecimiento de la renta per capita, no obstante los factores temporales parecen jugar un papel más preponderante que los factores espaciales, lo cual es sobre todo evidente en lo que hace referencia a las tasas de crecimiento.

El análisis de varianza se pone en práctica mediante un modelo de regresión de la siguiente forma xit = α + λ i + ηt + uit

(1)

donde xit representa la renta per capita de la provincia i = 1,2,...,n en el periodo t = 1,...,T, o cualquier otra variable de interés que se mueva en dos dimensiones. El término λ i representa el efecto individual, una constante específica para cada individuo o provincia en nuestro caso, el término ηt representa el efecto temporal, una constante específica para cada periodo de tiempo, α es una constante que capta el valor medio de la variable xit y uit es un componente idiosincrásico del individuo i en el periodo t y que como primera aproximación se supone independiente e idénticamente distribuido tanto en el corte

11

transversal como en la dimensión temporal. En terminología de la literatura econométrica sobre datos de panel (1) es simplemente un modelo de efectos fijos12.

Tal y como está definido el modelo los parámetros de (1) no están identificados, por lo que sin restricciones adicionales esta ecuación no es estimable. Como restricciones de identificación introducimos Σ in=1λ i = 0 y Σ Tt =1ηt = 0 , con lo que el efecto individual λ i representa la desviación del individuo i respecto a una media común dada por α y el efecto temporal ηt representa la desviación del periodo t respecto a dicha media común13. Estas restricciones no afectan a la bondad del ajuste del modelo, ni tampoco a la significación conjunta de λ i o ηt , aunque permiten ortogonalizar los regresores en (1) y afectan a la interpretación de los coeficientes (Suits (1984), Kennedy (1986), Green y Seaks (1991)).

La intuición detrás de la formulación de (1) es bastante simple. Un valor de xit por encima de la media para la provincia i en el periodo t puede ser explicado, bien por un factor individual específico de la propia provincia i, λ i , que se supone le afecta por igual a lo largo de todo el periodo; bien por un factor agregado específico para el periodo t, ηt , que se supone afecta por igual a todas las provincias; o bien por un factor idiosincrásico que no es identificado por el análisis de varianza. Obviamente nuestros métodos sólo tienen capacidad explicativa si los factores idiosincrásicos son relativamente pequeños en relación al resto. Por tanto el modelo (1) recoge toda la heterogeneidad inobservable posible en cualquiera de los dos ámbitos de interés, no obstante a pesar de que los factores individuales y temporales se suponen inobservables su importancia relativa puede ser estimada.

Los resultados procedentes de la estimación de la ecuación (1) se ofrecen en el cuadro 2. Dicha ecuación fue estimada tanto para los niveles de la renta per capita como para sus tasas de variación14 y en ambos casos se utilizaron todos los años disponibles o simplemente los años de referencia, lo que permite eliminar las oscilaciones de corto plazo.

Si λi y µt fueran consideradas como variables aleatorias, en lugar de como constantes fijas, entonces (1) sería un modelo de efectos aleatorios (Hsiao (1986)). 13 Estas restricciones implican que sólo n − 1 efectos individuales y T − 1 efectos temporales se estiman independientemente. 14 A menos que se indique lo contrario todas las tasas de crecimiento son tasas anuales medias acumulativas. 12

12

Los resultados son bastante unánimes para todos los conjuntos de datos, nuestra ignoracia es capaz de explicar entorno a un 95% de la variabilidad en los niveles de renta per capita y entre un 70% y un 86% de las tasas de variación; considerando que las variables explicativas son solamente variables ficticias estos porcentajes representan un gran poder explicativo y constituyen el mínimo a explicar por cualquier otro modelo. Nuestra tarea parece por tanto difícil ya que cualquier variable condicionante que introduzcamos en el análisis deberá ser capaz de restar capacidad explicativa a las variables ficticias y sacar de esta forma a la luz la heterogeneidad inobservable recogida por ellas.15

Cuadro 2 Observando las fuentes de variación vemos que los factores temporales, que en el caso de los niveles de renta recogen la tendencia que visualizábamos en el gráfico 1, explican entre un 66% y un 75% de la variabilidad total, mientras que los factores específicamente provinciales tienen una contribución más modesta, algo menos del 30% para los niveles de renta y entre un 4% y un 10% para las tasas de crecimiento, en todos los casos las variaciones temporales y provinciales son significativas, ya sea basándonos en los estadísticos F-estándar o en estadísticos χ2 consistentes frente a heterocedasticidad de forma desconocida (White (1980)).

En definitiva los resultados del cuadro 2 indican que la heterogeneidad inobservable captada por variables ficticias temporales y provinciales es capaz de explicar por si sola una gran variabilidad de nuestro conjunto de datos y proporcionan evidencia estadística de que ambos factores deben ser especificamente tenidos en cuenta en el análisis.

15

Por razones que se haran obvias en el epígrafe siguiente el Cuadro A9 del apéndice es idéndico al Cuadro 2 del texto pero eliminando las observaciones de las dos provincias Canarias. Los resultados son cualitativa y cuantitativamente similares a los mencionados en el texto.

13

Cuadro 2: Análisis de Varianza - Renta per cápita Serie: Renta per capita - Niveles Periodo: 1955 - 1997, periodicidad bianual Observaciones: 1,100 SC total SC explicada SC residual R2

102,886,185 99,042,629 3,843,555 0.9626

% sobre SC explicada

SC atribuible a factores provinciales

30,690,555

30.99%

SC atribuible a factores temporales

68,352,074

69.01%

% sobre SC total

Nivel de Significación

29.83% F(49,1029) = CHI(49) = 66.43% F(21,1029) = CHI(21) =

167.68 15,145.12 871.39 15,191.10

0.0000 0.0000 0.0000 0.0000

Serie: Renta per capita - Niveles Periodo: 1955 - 1995, periodicidad decenal Observaciones: 250 SC total SC explicada SC residual R2

25,160,173 24,122,156 1,038,017 0.9587

% sobre SC explicada

% sobre SC total

SC atribuible a factores provinciales

6,905,539

28.63%

27.45%

SC atribuible a factores temporales

17,216,617

71.37%

68.43%

Nivel de Significación F(49,196) = CHI(49) = F(4,196) = CHI(4) =

26.61 2,977.84 812.72 3,382.80

0.0000 0.0000 0.0000 0.0000

Serie: Renta per capita - Tasas de crecimiento Periodo: 1955 - 1997, periodicidad bianual Observaciones: 1,050 SC total SC explicada SC residual R2

8,251.45 5,969.87 2,281.58 0.7235

SC atribuible a factores provinciales SC atribuible a factores temporales

% sobre SC explicada

% sobre SC total

335.90

5.63%

4.07%

5,633.97

94.37%

68.28%

Nivel de Significación F(49,980) = CHI(49) = F(20,980) = CHI(20) =

2.94 168.39 121.00 2,924.15

0.0000 0.0000 0.0000 0.0000

Serie: Renta per capita - Tasas de crecimiento Periodo: 1955 - 1995, periodicidad decenal Observaciones: 200 SC total SC explicada SC residual R2

600.18 520.55 79.63 0.8673

% sobre SC explicada

% sobre SC total

SC atribuible a factores provinciales

65.25

12.54%

10.87%

SC atribuible a factores temporales

455.30

87.46%

75.86%

Nivel de Significación F(49,147) = CHI(49) = F(3,147) = CHI(3) =

2.46 343.37 280.16 1,107.51

0.0000 0.0000 0.0000 0.0000

4 Algunas consideraciones espaciales. Puesto que la actividad económica tiene lugar en el espacio podríamos preguntarnos hasta que punto la superfície física que sustenta la actividad económica es un aspecto económico relevante a tener en cuenta y en que forma debe ser introducido en el análisis. Si bien es cierto que todos los índices calculados en Goerlich (1998), así como la mayoría de estadísticos presentados en este informe, podrían ser calculados para la renta por Km2, Yit , en lugar de para la renta per capita, una inspeción visual de esta variable, ofrecida Kmi2 en los gráficos 3 y 4, muestra que la renta por Km2 está dominada por unas pocas observaciones, en concreto las provincias de Barcelona, Madrid, Guipúzcoa y Vizcaya, provincias con un elevado nivel de actividad económica y una superficie reducida, lo que hace que el análisis de esta variable sea poco interesante (Cuadro A5).

Gráficos 3 y 4 Puesto que la renta por Km2 puede descomponerse en el producto de la renta per capita por la densidad de población,

Yit Y N = it . it 2 , la evolución observada en los 2 Kmi N it Kmi

gráficos anteriores es fruto de una muy elevada densidad de población en las provincias mencionadas, que en todos los casos más que triplica la media nacional (Cuadro A6).

En realidad nuestro interés se centra, más que en analizar la distribución espacial de la renta, en como los aspectos espaciales, tanto de superficie y como de localización, afectan al nivel de actividad económica, es decir a la renta per capita (Quah (1996c), López-Bazo, Vaya, Mora y Suriñach (1996), Fingleton (1999a,b)). Dicho de otra forma estamos interesados en saber si los aspectos espaciales afectan en alguna medida al nivel de renta per capita de nuestras provincias, si ello es así el papel de la política económica encaminada a reducir las disparidades en renta per capita deberá compensar el sesgo introducido por los factores geográficos, ya que estos nos son totalmente exógenos. Examinaremos en primer lugar una serie de gráficos y estadísticos descriptivos y finalmente trataremos de contrastar estadísticamente nuestras intuiciones.

14

Aunque no es de esperar que la superficie por sí misma sea un factor determinante de la actividad económica, salvo en economías en las que el sector primario juega un papel preponderante, vale la pena constatar en el caso de las provincias españolas una correlación (simple) negativa y altamente significativa16, aunque ligeramente decreciente (en valor absoluto) en los últimos años, entre renta per capita y Km2, tal y como se observa en el cuadro 3; resultado de que las provincias ricas son pequeñas en términos de superficie, tanto al principio como al final del periodo muestral.

Cuadro 3 Cualquier unidad geográfica se extiende en dos direcciones, latitud y longitud, ellas representan el esquema de coordenadas en las que enmarcar la superficie física, el rendimiento económico de cada una de estas unidades geográficas, las provincias españolas en nuestro caso, puede ser representada por una altura determinada sobre el supuesto centro de gravedad de dicha superficie, uniendo todas estas alturas obtenemos una representación de la distribución espacial de la renta per capita. El gráfico 5 ilustra lo que queremos decir. Alteraciones en el tiempo de esta representación nos proporcionan una visión espacial de la evolución dinámica de la distribución de la renta per capita provincial.

Gráfico 5 El conjunto de gráficos 6 son la contrapartida real del gráfico 5 y proporcionan una visión alternativa de la información contenida en el gráfico 1. En ellos se representa la renta per capita provincial como función de la posición geográfica de cada provincia, latitud y longitud17, tomando como centro de gravedad las coordenadas de la capital de provincia18. Estos gráficos revelan información sobre los patrones de comportamiento

16

A menos que se indique lo contrario los coeficientes de correlación van acompañados del nivel de significación del contraste de la hipótesis nula de ausencia de correlación (Dougherty (1992, p.-112)). 17 La longitud positiva representa el Este geográfico y la negativa el Oeste geográfico, respecto al meridiano de Greenwich. 18 Por motivos obvios las islas Canarias han sido suprimidas de los gráficos y cálculos en los que interviene la latitud y/o longitud; no obstante los totales nacionales, y en consecuencia las desviaciones respecto al agregado, no han sido recalculadas.

15

Nota:

1,955 1,965 1,975 1,985 1,995

0.0001 0.0001 0.0000 0.0001 0.0006

Nivel de significación 0.3678 0.4216 0.4130 0.4553 0.4907

simple 0.0101 0.0028 0.0035 0.0011 0.0004

0.4099 0.5052 0.5056 0.6121 0.6461

Latitud Nivel de significación parcial 0.0042 0.0003 0.0003 0.0000 0.0000

Nivel de significación 0.4464 0.5548 0.5807 0.6712 0.6533

simple

0.0015 0.0000 0.0000 0.0000 0.0000

0.4791 0.6108 0.6366 0.7527 0.7484

Longitud Nivel de significación parcial

Los coeficientes de correlación en los que aparece la latitud/longitud excluyen las observaciones de Canarias. Los coeficientes de correlación parcial de la latitud/longitud mantienen constante la longitud/latitud.

-0.5269 -0.5336 -0.5597 -0.5129 -0.4704

simple

Km2

Cuadro 3: Correlación entre renta per capita, superficie y coordenadas geográficas

0.0007 0.0000 0.0000 0.0000 0.0000

Nivel de significación

Provincia j

Provincia i

Renta per capita

Provincia k

Latitud

Longitud

Espacio físico

Gráfico 5. Dinámica espacial

espacial de las diferentes provincias así como de su heterogeneidad y evolución a lo largo del tiempo.

Gráficos 6a,b,c,d,e Observando el conjunto de gráficos 6 estos muestran en primer lugar el crecimiento generalizado en la renta per capita ya mencionado, que para el conjunto nacional aumentó de 318 405 pts en 1955 a 1 095 521 pts en 1995, lo que representa un crecimiento medio anual acumulativo a lo largo del periodo del 3.14%. La inspección visual nos proporciona, además, una impresión geográfica de la distribución de la renta per capita provincial, así es fácil observar como las provincias ricas se sitúan en el norte, Alava, Guipúzcoa y Vizcaya, en el noreste, Barcelona, Gerona y Tarragona, una observación atípica en el centro de la península, Madrid que era la provincia más rica en 1955 y ha perdido posiciones relativas a lo largo del periodo, y en menor medida en el este, Valencia al principio del periodo y Baleares que era la provincia más rica en 1995, de hecho es fácil ver en los gráficos como Baleares con una tasa de crecimiento anual del 3.36% sobrepasa a Madrid, Alava y Barcelona a lo largo del periodo considerado. Por el contrario las provincias más pobres tienden a situarse en el sur, Cádiz, Córdoba, Granada y Jaén, en el oeste, Cáceres que era la provincia más pobre en 1995, Badajoz, Lugo y Orense, y parcialmente en el centro, Avila, Albacete y Cuenca que era la provincia con menor renta per capita en 1955. De esta forma los gráficos tienden a ilustrar una clara distribución geográfica de la desigualdad que parece haberse mantenido a lo largo del tiempo, y ello a pesar del crecimiento generalizado en la renta per capita. Los estadísticos descriptivos ofrecidos en el cuadro 3 así lo demuestran, las correlaciones simples entre renta per capita y latitud o longitud son positivas en todos los años y estadísticamente significativas, se observa además una ligera tendencia creciente en ambos casos, ello confirma la impresión visual de que las provincias más ricas tienden a situarse en el norte y el este de la península; más interesante resulta el examen de las correlaciones parciales entre renta per capita y latitud, manteniendo constante la longitud, y entre renta per capita y longitud, manteniendo constante la latitud, en todos los casos estas correlaciones parciales, que descuentan el efecto de la otra coordenada geográfica, son más altas que las correlaciones simples, lo que simplemente refuerza la observación anterior,

16

para una longitud dada la renta per capita aumenta conforme nos movemos de sur a norte y para una latitud dada la renta per capita aumenta conforme nos movemos de oeste a este.

Por otra parte el proceso de crecimiento no ha sido uniforme entre provincias vecinas, por ejemplo en Andalucía, una Comunidad Autónoma relativamente pobre, podemos encontrar provincias con tasas de crecimiento inferior a la media, Cádiz, Córdoba y Sevilla, junto con otras con tasas por encima de la media nacional, Almería, Granada, Huelva, Jaén y Málaga. Lo mismo sucede en Comunidades Autónomas intermedias como la Comunidad Valenciana, donde Castellón presenta un crecimiento por encima de la media nacional pero Alicante y Valencia por debajo; o en comunidades más ricas, como el País Vasco donde Aláva crece ligeramente por encima del promedio nacional pero Guipúzcoa y Vizcaya un punto porcentual por debajo, siempre tomando como referencia el conjunto del periodo (Cuadro A4). Estos ejemplos muestran como los procesos de crecimiento generalizado no tienen porque estar geográficamente concentrados a nivel provincial y que análisis a niveles de agregación superiores, Comunidades Autónomas sería la referencia natural en el caso de la economía española, pueden generar resultados marcadamente diferentes según el nivel de agregación utilizado.

En definitiva observamos una gran diversidad de comportamientos para nuestro periodo de estudio, el crecimiento generalizado en la renta per capita observado a nivel nacional ha dado lugar a un conjunto de comportamientos heterogéneos a nivel provincial y que podrían resumirse en dos palabras, movilidad y persistencia, ambos fenómenos son observados de forma simultánea, algunas provincias han cambiado sustancialmente sus posiciones relativas, mientras que otras, que al principio del periodo se situaban en las colas de la distribución siguen estando en ellas. Movilidad y persistencia son estudiadas con más detalle en Goerlich (2000a), en lo que resta de esta sección nos centraremos en cuantificar estadísticamente, en el contexto del modelo de la sección anterior, las impresiones obtenidas de los gráficos examinados, en concreto nuestras preguntas de interés a las que trataremos de responder son las siguientes: • ¿Juega la superficie un papel relevante en la determinación de los niveles y/o tasas de crecimiento de la renta per capita?.

17

• ¿Es la posición geográfica un factor clave de desarrollo?. ¿Justifica la localización el mantenimiento de diferenciales en los niveles y condiciones de vida?. • A pesar de que los procesos de crecimiento no han sido uniformes entre provincias vecinas es posible detectar grupos de provincias colindantes con niveles de renta similares en términos de su posición relativa, esto sugiere que la contigüidad puede ser importante a la hora de explicar los diferentes niveles de renta per capita debido a la existencia, por ejemplo, de efectos externos asociados a la actividad económica o a la mayor facilidad y menores costes en la realización de transacciones comerciales. De hecho algunos autores han sugerido que las relaciones de vecindad deben ser consideradas en los modelos económicos (Pan y LaSage (1995), Fingleton (1999c)). Ello suscita la siguiente pregunta: ¿son las relaciones de vecindad importantes en la determinación de los niveles de renta per capita en España?.

Tratar de cuantificar estas preguntas equivale, desde un punto de vista estadístico, a aumentar el modelo (1) con variables representativas de la superficie, posición geográfica o vecindad y examinar su significatividad; con este fin utilizaremos los Km2 provinciales como medida de superficie, las coordenadas geográficas, latitud y longitud, de la capital de cada provincia como indicador de localización y variables ficticias que agrupen las provincias en Comunidades Autónomas como medida imperfecta de vecindad. Para las Comunidades Autónomas uniprovinciales se consideró que la variable ficticia tomaba el valor uno para ella misma y para todas las provincias colindantes19 y en el caso de Baleares se consideraron relaciones de vecindad con las provincias de la costa mediterranea desde Gerona hasta Almería20.

19

Así la variable ASTURIAS toma el valor uno para Asturias, Lugo, León y Cantabria; CANTABRIA toma el valor uno para Cantabria, Asturias, León, Palencia, Burgos y Vizcaya; MADRID toma el valor uno para Madrid, Segovia, Avila, Toledo, Cuenca y Guadalajara; MURCIA toma el valor uno para Murcia, Albacete, Granada, Almería y Alicante; NAVARRA toma el valor uno para Navarra, Guipúzcoa, Alava, La Rioja, Zaragoza y Huesca; y LA RIOJA toma el valor uno para La Rioja, Alava, Burgos, Soria y Navarra. 20 De esta forma la variable BALEARES toma el valor uno para Baleares, Gerona, Barcelona, Tarragona, Castellón, Valencia, Alicante, Murcia y Almería.

18

Este procedimiento sin embargo tropieza con el problema de que este tipo de variables son invariantes en el tiempo lo que genera problemas de identificación con los efectos fijos individuales, λ i . La falta de identificación puede solucionarse con la introducción de restricciones adicionales, sin embargo en el caso de las variables consideradas no hay forma de introducir dichas restricciones de forma natural, tal y como sucedía por ejemplo en el caso de los efectos fijos; como argumenta Balestra (1992) la introducción de variables individuales constantes en el tiempo elimina el papel jugado por las variables ficticias individuales, al menos en una forma fácilmente interpretable.

En consecuencia el modelo (1) fue estimado sustituyendo los efectos fijos individuales, λ i , por Kmi2 como indicador de superficie, por la latitud, Lati, y la longitud, Loni, como variables de localización geográfica y por las variables ficticias que agrupan las provincias en Comunidades Autónomas como medidas de vecindad21, es decir el modelo estimado es de la forma general xit = α + w i′δ + ηt + uit

(2)

donde wi es un vector ksx1 que contiene las variables explicativas que son constantes en el tiempo para el individuo i, excluyendo el término constante, α, y δ es el vector ksx1 de parámetros asociados a estas variables. A continuación se examina tanto la significatividad de estas nuevas variables introducidas, wi, como la bondad del ajuste del nuevo modelo. De esta forma tratamos de ver si la heterogeneidad individual inobservable que era captada por los efectos fijos individuales en (1), λ i , es debida a estos factores o a otros no adecuadamente puestos al descubierto por estas variables. La condición de orden necesaria de identificación en (2) es que ks ≤ n − 1, de hecho cuando ks = n − 1 el modelo (2) está exactamente identificado, en el sentido de que existe una relación uno a uno entre los

21

Obsérvese que al contrario de lo que sucede con las variables indicativas de superficie o localización las variables representativas de la vecindad no son cuantitativas, por tanto medir la contigüidad de esta forma no es sino un mecanismo imperfecto de recoger lo que queremos, esto es, las relaciones de proximidad, ya que se trata de sustituir una ignorancia, los efectos fijos provinciales, por otra, agrupacionas más o menos arbitrarias de provincias; así pues consideraremos nuestro análisis como una primera aproximación al problema. Un tratamiento más detallado requiriría la definición de una matríz de proximidad cuya elaboración no está exenta de problemas y arbitrariedades (Florax y Rey (1995), Griffith (1996), Fingleton (1999a)).

19

efectos fijos individuales y los elementos del vector δ, por el contrario cuando ks > n − 1 el vector de parámetros δ no está identificado y no puede ser estimado (Balestra (1992)).

Vale la pena detenernos brevemente en esta cuestión. El modelo (1) formulado en notación de muestra completa y suponiendo una organización de las observaciones por individuo22, es decir primero se consideran los individuos y para cada uno de ellos se ordenan las observaciones en el tiempo, puede ser escrito como (Balestra (1992)) x = l nT α + D n λ + D T η + u

(3)

donde x es el vector nTx1 de rentas per capita23, lnT es un vector de unos de dimensión nT24, D n = I n ⊗ l T es una matríz nTxn que contiene el conjunto de las n variables ficticias individuales o provinciales en nuestro caso25, λ es un vector nx1 de efectos fijos individuales, D T = l n ⊗ I T es una matríz nTxT que contiene el conjunto de las T variables ficticias temporales, η es un vector Tx1 de efectos fijos temporales y u es el vector nTx1 de componentes idiosincrásicos o perturbaciones. Como ya mencionamos anteriormente estimamos (3) sujeto a las restricciones de identificación l′n λ = 0 y l′T η = 0 .

Por su parte el modelo (2) escrito en notación de muestra completa queda de la siguiente forma x = l nT α + ( W ⊗ l T )δ δ + DT η + u

22

(4)

A menos que se indique lo contrario esta será la organización que supondremos para las variables. A menos que se indique los contrario nT indica organización de las observaciones por individuo mientras que Tn indica organización de las observaciones por tiempo. s8 ′  67  24  En general l s =  1, ..., 1 .   25 ⊗ representa el producto de Kronecker, de forma que l T 0 L 0  0 l L 0 T  D n = In ⊗ l T =  M M O M    0 0 L lT  23

20

donde W es una matríz nxks cuya fila i-ésima es w i′ . Utilizando las propiedades del producto de Kronecker (Magnus y Neudecker (1988), Cap.-2) observamos que W ⊗ l T = ( I n ⊗ l T ).( W ⊗ 1) = D n . W

(5)

de forma que podemos escribir (4) como x = l nT α + D n . Wδ + D T η + u

(6)

Comparación entre (3) y (6) revela que la relación entre ambos modelos viene dada por

Wδ δ = λ   Sujeto a l′n λ = 0  

(7)

que es un sistema lineal de n ecuaciones en ks incógnitas sujeto a una restricción lineal que en efecto reduce el sistema a n − 1 ecuaciones, al resultar una de ellas redundante; obsérvese que la restricción implica l′n Wδ δ = 0 . Por tanto la condición de orden necesaria de identificación es ks ≤ n − 1. Cuando ks = n − 1 el sistema (7) admite solución única y por tanto existe una relación uno a uno entre λ y δ. Para demostrar esto simplemente introducimos la restricción l′n λ = 0 en el sistema. Suponiendo, sin pérdida de generalidad, que resolvemos la restricción para el último elemento del vector λ, y particionando dicho vector como λ = ( λ − λ n ) ′ donde λ − = ( λ 1 λ 2 ... λ n −1 ) ′ de dimensión (n − 1)x1, entonces la restricción l′n λ = 0 implica que λ n = − l ′n −1λ − , lo que permite escribir  λ −   λ −   Ι n −1  − − = Wδ = λ =   =   λ = Eλ − − l ′ − λ λ l ′  n   n −1   n −1 

21

(8)

 Ι n−  donde E, de dimensión nx(n − 1), queda definida por la última igualdad, E =  1  . − l′n −1  Puesto que E′E = I n −1 + l n −1l′n −1 es no singular obtenemos el sistema de n − 1 ecuaciones como (E ′E) −1 E′Wδ = λ −

(9)

W*δ = λ −

(10)

o de forma más compacta

donde W* = ( E′E )−1 E′W , de dimensión (n − 1)xks. Cuando ks = n − 1 la matríz E′W es cuadrada, por lo que suponiendo que W es de rango n − 126 dicha matríz será no singular, en este caso W* puede ser invertida, W*−1 = ( E′W )−1 E′E , con lo que obtenemos que

W*δ$ = λ$ −

⇔

δ$ = W*−1λ$ −

(11)

para un estimador cualquiera de λ− y δ. En este caso ambos modelos, (1) y (2), son equivalentes y tienen la misma capacidad explicativa, i.e. proporcionarían el mismo R2. Así pues cuando ks = n − 1 no ganamos nada sustituyendo los efectos fijos por variables observables pero invariantes en el tiempo. Sin embargo cuando ks < n − 1 entonces el modelo (2) impone un total de n − 1 − ks restricciones sobre el vector n − 1 de efectos fijos λ−; Rλ λ− = 0, donde R es una matríz (n − 1 − ks)x(n − 1) de rango completo tal que RW* = 0, en otras palabras la matríz R′ es el complemento ortogonal de W*, R′ = W⊥* . En este caso el modelo (2) es una versión restringida del (1) y la validez de dichas restricciones puede ser contrastada mediante los

26

De otra forma algunas de las variables explicativas invariantes en el tiempo introducidas serían redundantes.

22

procedimientos habituales. Obsérvese que siendo (2) una versión restringida del modelo (1) el R2 en (2) será siempre menor que en (1) por lo que la comparación de la bondad del ajuste en ambos modelos deberá incluir el correspondiente ajuste por grados de libertad.

Los resultados procedentes de la estimación de (2) con las variables relativas a superficie, localización geográfica y vecindad se ofrecen en el cuadro 4 con la misma estructura que en el cuadro 2, es decir la ecuación (2) fue estimada tanto para los niveles de renta per capita como para sus tasas de variación y en ambos casos se utilizaron todos los años disponibles o simplemente los años de referencia. Los resultados son bastante unánimes con referencia a nuestras preguntas de interés. Para los niveles de renta las variables representativas de la superficie, localización o vecindad son altamente significativas a los niveles convencionales de significación, a excepción de la localización cuando esta es introducida conjuntamente con la vecindad; nuestras variables, por tanto, juegan cierto papel en la explicación de los efectos fijos provinciales y en este sentido son capaces de aflorar parte de la heterogeneidad inobservable recogida por estos efectos; sin embargo, y de forma sistemática, las restricciones introducidas por estas variables en el modelo (1) son rechazadas con amplios márgenes de confianza, en consecuencia la superficie, la localización o la vecindad, ni siquiera consideradas de forma conjunta, son capaces de explicar todo aquello que es recogido por los efectos fijos provinciales. Dicho con otras palabras, los niveles de renta per capita, factores temporales al margen, no se encuentran determinados totalmente por factores geográficos totalmente exógenos e invariantes en el tiempo y existe un cierto margen para examinar el papel de los factores condicionantes con sentido puramente económico. Este análisis será retomado en Goerlich (1999b).

Cuadro 4 Algo similar ocurre en lo que hace referencia a las tasas de crecimiento con la diferencia de que ahora la localización no es nunca significativa, ya sea considerada de forma individual o conjunta, tampoco la superficie lo es cuando es introducida conjuntamente con la vecindad. Además ahora las restricciones impuestas por estas variables sobre el modelo (1) no son rechazadas cuando las variables representativas de la vecindad son introducidas y la inferencia la realizamos mediante los estadísticos F23

Contraste del modelo restringido frente al modelo general

R2

Contraste Global

Vecindad

Localización

Superficie

Contrastes de significatividad

0.7479

356.72 463.46

356.72 463.46 -

1,100

F(48,196) = CHI(48) =

F(1,244) = CHI(1) =

F(1,244) = CHI(1) = -

19.27 2,690.85

0.7641

82.55 102.62

82.55 102.62 -

250

F(48,1029) = 123.25 CHI(48) = 13,030.26

F(1,1077) = CHI(1) =

F(1,1077) = CHI(1) = -

Serie: Renta per capita - Niveles Periodo: 1955 - 1995, periodicidad decenal Observaciones:

Contraste del modelo restringido frente al modelo general

R2

Contraste Global

Vecindad

Localización

Superficie

Contrastes de significatividad

Serie: Renta per capita - Niveles Periodo: 1955 - 1997, periodicidad bianual Observaciones:

SUPERFICIE

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000 -

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000 -

F(45,188) = CHI(45) =

F(2,233) = CHI(2) =

F(2,233) = CHI(2) = -

F(45,987) = CHI(45) =

F(2,1032) = CHI(2) =

F(2,1032) = CHI(2) = -

11.36 1,446.78

0.8427

125.00 254.91

125.00 254.91 -

240

69.70 8,149.71

0.8406

603.53 1,271.67

603.53 1,271.67 -

1,056

LOCALIZACION

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000 -

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000 -

F(32,196) = CHI(32) =

F(17,228) = CHI(17) =

F(17,228) = CHI(17) =

F(32,1029) = CHI(32) =

F(17,1061) = CHI(17) =

F(17,1061) = CHI(17) =

6.21 520.20

0.9169

37.54 755.57

37.54 755.57

250

40.41 2,885.48

0.9157

186.07 3,750.23

186.07 3,750.23

1,100

VECINDAD

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000

Variables explicativas introducidas

Cuadro 4: Efectos de la superficie, localización y vecindad sobre la renta per cápita

F(44,188) = CHI(44) =

F(3,232) = CHI(3) =

F(1,232) = CHI(1) = F(2,232) = CHI(2) = -

F(44,987) = CHI(44) =

F(3,1031) = CHI(3) =

F(1,1031) = CHI(1) = F(2,1031) = CHI(2) = -

8.45 1,250.72

0.8740

122.81 378.80

57.64 69.59 104.01 247.90 -

240

53.02 7,007.94

0.8717

582.45 1,921.39

249.56 307.31 512.03 1,255.63 -

1,056

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000 0.0000 0.0000 -

0.0000 0.0000

F(28,188) = CHI(28) =

F(19,216) = CHI(19) =

F(1,216) = CHI(1) = F(2,216) = CHI(2) = F(16,216) = CHI(3) =

F(28,987) = CHI(28) =

0.0000 F(19,1015) = 0.0000 CHI(19) =

6.35 457.47

0.9177

33.66 771.00

6.65 7.73 0.40 0.72 7.16 154.58

240

41.22 2,608.23

0.9172

169.79 3,826.58

36.79 39.88 2.41 4.09 34.92 708.69

1,056

0.0000 0.0000

0.0000 0.0000

0.0106 0.0054 0.6683 0.6978 0.0000 0.0000

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000 0.0900 0.1291 0.0000 0.0000

SUPERFICIE, LOCALIZACION y VECINDAD

0.0000 F(1,1015) = 0.0000 CHI(1) = 0.0000 F(2,1015) = 0.0000 CHI(2) = F(16,1015) = CHI(3) =

SUPERFICIE y LOCALIZACION

F(48,980) = CHI(48) =

F(1,1028) = CHI(1) =

F(1,1028) = CHI(1) = -

Nota:

F(48,147) = CHI(48) =

F(1,195) = CHI(1) =

F(1,195) = CHI(1) = -

2.11 275.92

0.7759

15.04 17.38

15.04 17.38 -

200

2.43 146.45

0.6906

25.90 25.30

25.90 25.30 -

1,050

0.0004 0.0000

0.0001 0.0000

0.0001 0.0000 -

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000 -

F(45,141) = CHI(45) =

F(2,186) = CHI(2) =

F(2,186) = CHI(2) = -

F(45,940) = CHI(45) =

F(2,985) = CHI(2) =

F(2,985) = CHI(2) = 2.11 4.11

2.11 4.11

0.70 1.11

0.70 1.11

2.54 347.29

0.7549

-

-

192

3.12 167.55

0.6847

-

-

1,008

LOCALIZACION

0.0000 0.0000

0.4964 0.5753

0.4964 0.5753 -

0.0000 0.0000

0.1213 0.1281

0.1213 0.1281 -

Las estimaciones en las que se incluyen las variables relativas a localización excluyen las observaciones de Canarias.

Contraste del modelo restringido frente al modelo general

R2

Global

Vecindad

Localización

Superficie

Contrastes de significatividad

Serie: Renta per capita - Tasas de crecimiento Periodo: 1955 - 1995, periodicidad decenal Observaciones:

Contraste del modelo restringido frente al modelo general

R2

Contraste Global

Vecindad

Localización

Superficie

Contrastes de significatividad

Serie: Renta per capita - Tasas de crecimiento Periodo: 1955 - 1997, periodicidad bianual Observaciones:

SUPERFICIE

F(32,147) = CHI(32) =

F(17,179) = CHI(17) =

F(17,179) = CHI(17) =

F(32,980) = CHI(32) =

F(17,1012) = CHI(17) =

F(17,1012) = CHI(17) =

1.37 69.19

0.8277

4.22 104.60

4.22 104.60

-

200

1.70 61.39

0.7081

5.16 91.77

5.16 91.77

-

1,050

VECINDAD

0.1073 0.0002

0.0000 0.0000

0.0000 0.0000

0.0091 0.0013

0.0000 0.0000

0.0000 0.0000

Variables explicativas introducidas

F(44,141) = CHI(44) =

F(3,185) = CHI(3) =

F(1,185) = CHI(1) = F(2,185) = CHI(2) = -

F(44,940) = CHI(44) =

F(3,984) = CHI(3) =

F(1,984) = CHI(1) = F(2,984) = CHI(2) = -

2.15 252.13

0.7741

5.74 20.25

15.70 17.79 0.14 0.36 -

192

2.57 141.40

0.6926

9.96 30.00

25.55 26.32 0.13 0.30 -

1,008

0.0004 0.0000

0.0009 0.0002

0.0001 0.0000 0.8724 0.8334 -

0.0000 0.0000

0.0000 0.0000

0.0000 0.0000 0.8794 0.8601 -

SUPERFICIE y LOCALIZACION

Cuadro 4: Efectos de la superficie, localización y vecindad sobre la renta per cápita (Continuación)

F(28,141) = CHI(28) =

F(19,169) = CHI(19) =

F(1,169) = CHI(1) = F(2,169) = CHI(2) = F(16,169) = CHI(16) =

F(28,940) = CHI(28) =

F(19,968) = CHI(19) =

F(1,968) = CHI(1) = F(2,968) = CHI(2) = F(16,968) = CHI(16) =

1.43 62.49

0.8262

3.74 108.66

0.51 0.76 0.67 1.18 3.17 79.80

192

1.83 57.53

0.7106

4.81 96.76

0.12 0.15 1.45 2.71 3.77 65.74

1,008

0.0907 0.0002

0.0000 0.0000

0.4748 0.3842 0.5108 0.5535 0.0001 0.0000

0.0056 0.0008

0.0000 0.0000

0.7337 0.7020 0.2340 0.2576 0.0000 0.0000

SUPERFICIE, LOCALIZACION y VECINDAD

estándar, aunque si lo serían si nos basamos en estadísticos χ2 consistentes frente a heterocedasticidad de forma desconocida (White (1980)). Por tanto si la heterogeneidad es elevada esto puede afectar de forma importante a las conclusiones de nuestra inferencia. En consecuencia tambien en lo que hace referencia a las tasas de crecimiento existe margen para examinar el papel jugado por factores condicionantes con sentido puramente económico ya que tan solo las relaciones de vecindad aparecen como significativas en el modelo conjunto. Este análisis será retomado en la sección 6 en lo que hace referencia al nivel inicial de renta como condicionante del crecimiento y en Goerlich (1999b) en lo que respecta a otras variables.

En resumen y dicho en términos de nuestras preguntas de interés, aunque la superficie, las relaciones de vecindad y quizá tambien la posición geográfica son relevantes para la determinación de los niveles y/o tasas de crecimiento de la renta per capita no parece que estas variables sean capaces de recoger todo aquello que los efectos fijos provinciales recogían en el modelo (1), por tanto ninguna de estas tres características geográficas parece explicar completamente el comportamiento y evolución de los diferenciales en los niveles y/o tasas de crecimiento de la renta per capita entre las provincias españolas. El análisis debe proseguir.

24

5 Estadísticos descriptivos: Convergencia-σ σ. Una primera aproximación a los hechos estilizados. Esta sección ofrece una primera aproximación a los hechos estilizados de nuestra variable de interés, la renta per capita provincial, xit; el objetivo es ir caracterizando la evolución en la distribución de dicha variable, φ(x), mediante una exposición exhaustiva de estadísticos descriptivos. Descubriremos en el camino algunos hechos interesantes. El concepto fundamental al que hace referencia esta sección es el denominado σconvergencia, entendido en un sentido amplio como la dispersión en toda la distribución y no en el sentido más restringido acuñado por Barro y Sala-i-Martín (1995,Cap.-11.1,p.383-387) como la varianza del logaritmo de la renta per capita; no obstante las medidas de posición también serán relevantes en la caracterización de la distribución, así como la simetría de la misma alrededor de un valor central y la identificación de los valores atípicos o outliers y en consecuencia el papel que han jugado estos en la alteración en la dispersión de la distribución. Nuestro interés se centrará fundamentalmente en la variable zit =

xit , si µt

bien cuando el nivel sea relevante tambien nos fijaremos en xit; puesto que a lo largo de toda esta seción los estadísticos se calculan para cada cross-section y se analiza su evolución en el tiempo omitiremos a lo largo de ella el subíndice t, tal y como hicimos en Goerlich (1998).

5.1 Estadísticos simples versus estadísticos ponderados: Una digresión.27 Comenzamos esta sección con una disgresión no trivial que ha sido largamente ignorada por la literatura; como ya mencionamos en la sección 2 nuestra variable objeto de estudio es la renta per capita provincial, es decir la renta per capita de áreas geográficas que engloban a varios individuos, o más concretamente la función cross-section de

27

Agradezco a Joan María Esteban algunas de las reflexiones contenidas en este epígrafe.

25

densidad de probabilidad de dicha renta per capita, φ(x); la cuestión que se suscita inmediatamente es si el comportamiento de la renta per capita debe ser analizado en términos de provincias, áreas geográficas en general, o en términos de individuos; dicho con otras palabras la cuestión es si cuando trabajamos con rentas per capita medias de diferentes áreas geográficas la dimensión económica de dichas áreas debe contar para algo o no.

Los dos bloques de literatura que se analizan en este y en el anterior informe (Goerlich (1998)) han dado soluciones prácticas diferentes a esta cuestión, por una parte la literatura económica sobre la desigualdad, preocupada fundamentalmente por el bienestar individual, ha utilizado siempre estadísticos ponderados, donde la ponderación trata de reflejar la dimensión económica de las diferentes áreas geográficas analizadas, en este sentido todos los estadísticos analizados en Goerlich (1998) son estadísticos ponderados, razón por la cual no planteamos allí esta cuestión.28 Por otra parte la literatura sobre crecimiento y convergencia económica, preocupada por los países o las regiones, ha utilizado de forma practicamente exclusiva estadísticos simples, en el sentido de que la renta per capita de cada área geográfica era considerada como una observación individual, independientemente del tamaño o la importancia relativa de dicha área dentro del agregado.29

28

Sería posible de hecho calcular todos los estadísticos de desigualdad ofrecidos en Goerlich (1998) de forma no ponderada, estadísticos de desigualdad simples, simplemente considerando cada xi como una sola observación; sin embargo nadie parece plantearse esta cuestión. 29 Una cuestión similar, pero no idéntica, aparece cuando trabajamos con datos de encuesta y cada observación lleva asignada una ponderación muestral derivada del proceso de muestreo y relacionada con la probabilidad de que esa observación haya sido selecionada en la muestra, los denominados factores de elevación; tenemos de esta forma lo que se denomina una muestra ponderada, para la que es posible mantener el supuesto de independencia pero no el de idéntica distribución (Beach y Kaliski (1986), Bishop, Chakraborti y Thistle (1994)). La utilización de dichos factores en el cálculo de estadísticos descriptivos y medidas de desigualdad es estándar (Bosch, Escribano y Sánchez (1989), Atkinson, Rainwater y Smeeding (1995), Martín-Guzmán, Toledo, Bellido, López y Jano (1996), Goerlich y Mas (1999)) y su utilización en modelos de regresión o inferencia estadística ha sido objeto de atención diversa por parte de la literatura estadística que trabaja con datos de encuesta (Nathan y Holt (1980), Hausman y Wise (1981), DuMouchel y Duncan (1983), Jewell (1985), Kott (1991), Cosslett (1993), Pfefferman (1993), Selden (1994), Korn y Graubard (1995a,b), Imbens y Lancaster (1996), Magee, Robb y Burbidge (1998), Wooldridge (1999)). Nuestra muestra, por el contrario, no es propiamente dicha una muestra ponderada, pero si nos permite examinar la cuestión de si, dadas las rentas per capita medias observadas para las distintas provincias, nuestro interés debe dirigirse hacia estudio del comportamiento de dichas rentas en términos de las provincias mismas o en términos de los individuos que las habitan. Por supuesto, el ejercicio cuando la unidad de referencia es el individuo no dice nada acerca de la distribución de la renta dentro de cada provincia concreta, ya que para ello necesitaríamos datos de los individuos mismos, es decir datos microeconómicos (Goerlich y Mas (1999)).

26

Aunque la ponderación razonable en este contexto parecen ser las proporciones de población, pi, de cada unidad económica, i.e. índices de Gini, G, Desviacion Absoluta Media, M, Theil para β = 0, T(0), Atkinson, A(ε), ya que en un contexto puramente estadístico estas proporciones representan las frecuencias relativas de las correspondientes rentas per capita, de hecho la media del agregado, que si es observable, es una media aritmética ponderada por proporciones de población, µ = Σ in=1 pi xi ; otras ponderaciones son posibles, i.e. índice de Theil para β = 1, T(1), que utiliza ponderaciones según proporciones de renta, o incluso sería posible ponderar por superficie o cualquier magnitud que represente en alguna medida el tamaño económico. En cualquier caso en este trabajo utilizaremos siempre ponderaciones por proporciones de población, ya que son las más fácilmente interpretables.

Un ejemplo simple ayudará a transmitir la idea en la que estamos pensando. Considérese la distribución cross-section de rentas per capita en dos momentos del tiempo, t y t+1, para 3 regiones diferentes. El tamaño de la población, N, es constante e igual a 100 individuos desigualmente repartidos entre las regiones. Dicha distribución puede observarse en el cuadro 5.

Cuadro 5: Dos distribuciones hipotéticas de la renta per capita. Región

t

t+1

xi

pi

xi

pi

A

1

0.25

1

0.40

B

2

0.50

2

0.20

C

3

0.25

3

0.40

Obsérvese que dado que xi es idéntica para cada región tanto en t como en t+1 los estadísticos simples no varían, i.e. la distribución de xi en términos de regiones permanece constante, la media es igual a 2 y la varianza es igual a 2/3, tanto en t como en t+1. La

27

desigualdad, sin embargo, en el sentido en el que se entiende tradicionalmente en la literatura, es decir la dispersión en la distribución de xi en términos de individuos, ha aumentado, ya que una gran proporción de población se ha desplazado desde el centro, región B, hacia los extremos de la distribución; en concreto un 15% pasa al extremo inferior, región A, y otro 15% al extremo superior, región C. Los índices de desigualdad así lo reflejarían y tambien al cálculo de estadísticos ponderados por las proporciones de población. Así aunque la media ponderada tanto en t como en t+1 sigue siendo igual a 2,30 la varianza ponderada en t es 0.5 mientras que la varianza ponderada en t+1 es 0.8, es decir, se produce un aumento de la dispersión, i.e. la distribución de xi en términos de individuos muestra un aumento de la desigualdad. Por supuesto esto no dice nada acerca de la distribución de la renta dentro de cada región.

En términos de convergencia ¿que debemos concluir?, ¿se ha producido un proceso de divergencia o por el contrario la distribución se ha replicado a sí misma?. La literatura macroeconómica sobre la convergencia, utilizando estadísticos simples, concluiría que no ha habido ni convergencia ni divergencia. En efecto si como unidad de análisis consideramos las regiones entonces lo que nos interesa es la distribución no ponderada de xi y por tanto no obtendríamos convergencia ni divergencia, sino una réplica de la distribución. En términos estadísticos, si lo que consideramos es que disponemos de una muestra aleatoria de regiones entonces la ponderación no es importante. Sin embargo si pensamos en que las rentas per capita que estamos analizando tienen detrás diferentes tamaños de población parece razonable que la dispersión de la distribución la midamos desde el punto de vista individual y por tanto alteraciones en las proporciones de población que las diversas regiones representan dentro del agregado pueden afectar al proceso de convergencia o divergencia, aún en casos extremos como los de nuestro ejemplo en el que ni la renta per capita media de cada región ni la agregada (simple o ponderada) se alteran. Dicho en terminos estadísticos si nuestra población de referencia son las personas, entonces deberemos otorgar más peso a aquellas regiones más densamente pobladas, no hacerlo así distorsionará las características de la distribución que tratamos de estudiar. Este enfoque

30

El hecho de que la media simple y ponderada en t y t+1 sea siempre la misma se deriva del hecho de que la distribución, tanto simple como ponderada, es siempre simétrica en ambos periodos. Obviamente esto no es una característica general pero dado que lo que nos interesa es el fenómeno de las ponderaciones en el cálculo de los estadísticos hemos simplificado al máximo el ejemplo.

28

nos llevaría a concluir, en nuestro ejemplo, que se ha producido un proceso de divergencia. ¿Tiene esto sentido desde el punto de vista de la literatura del crecimiento económico?, ciertamente lo tiene; al fin y al cabo el modelo de Solow (1956) y Swan (1956), que ha inspirado gran parte del debate teórico y aplicado sobre la convergencia económica, es un modelo que se aplica al comportamiento esperado de un país individual y que hace referencia al proceso de convergencia de dicho país a un estado estacionario; sin embargo el modelo ha sido aplicado a diferentes países y regiones y a distintos niveles de desagregación31, por lo que extendiendo el argumento hasta el extremo podría ser aplicado a individuos tal y como han hecho Stiglitz (1969)32 y Tamura (1991), i.e. convergencia de las rentas individuales; de hecho Cass (1965) y Koopmans (1965), recuperando el analisis de agentes optimizadores de Ramsey (1928), desarrollaron el modelo de Solow (1956)Swan (1956) en términos de un consumidor representativo y por tanto, estrictamente hablando, en términos de individuos y esta es la tendencia actual en la moderna teoría del crecimiento económico (Barro y Sala-i-Martin (1995))33.

Los argumentos que acabamos de esgrimir hacen presagiar que la cuestión con la que iniciamos este epígrafe, si el comportamiento de la renta per capita debe ser analizado en términos de áreas geográficas o en términos de individuos, no va a ser nada fácil de discutir, al menos desde una actitud de principios. Probablemente lo que ha motivado la utilización de estadísticos simples (no ponderados) por parte de los investigadores dedicados a estudiar el tema de la convergencia económica son preguntas como la siguiente: ¿Cuanta diferencia hay entre las distintas especies de animales?. Esta es una cuestión que parece razonable contestar por medio de un indice de diferenciación (desigualdad) sin ponderaraciones que recojan el total de población de cada especie dentro del mundo animal. La consideración de diferentes ponderaciones nos llevaría, entre otras

31

El tema de la convergencia sectorial, del que no nos ocuparemos en este informe, tambien ha ocupado gran parte de la literatura, Bernard y Jones (1996a,b,c), Cuadrado-Roura, Gracía-Greciano y Raymond, J. L. (1999), Serrano (1999), Carnicero (1999), De la Fuente y Freire (2000), Alvarez de Toledo, Rojo, Toribio y Usabiaga (2000) o Temple (2000), y es curioso observar como en este caso los autores si tienen en cuenta la importacia de cada sector dentro del agregado, siendo este un argumento importante en la discusión sobre convergencia o divergencia. 32 Stiglitz (1969) muestra como la existencia de mercados de capital perfectos es un supuesto esencial para conseguir el resultado de convergencia. 33 Otros autores han estudiado la convergencia económica entre regiones pero a partir de datos individuales sobre rentas y no ha partir de los valores medios de las rentas per capita regionales, Bishop, Formby & Thistle (1992).

29

cosas, a tener que sumar la población de elefantes con la de hormigas para calcular la población total del reino animal. El enfoque adoptado por la literatura aplicada del tema de la convergencia internacional parece ser este, donde cada pais es una ‘especie’. Hay, sin embargo, una cuestión importante que hace que el símil que acabamos de utilizar no sea del todo adecuado. En nuestro ejemplo la distancia, dentro del índice de diferenciación, entre dos especies es nula si y sólo si las dos especies son una misma. En el caso de la convergencia entre países, sin embargo, aunque la distancia en renta per capita entre dos países sea nula, siguen considerándose dos observaciones separadas y no una sola. El problema es, al menos parcialmente, semántico. Usamos una misma palabra, desigualdad, para referirnos a cuestiones muy distintas. Si de lo que se trata es de medir la diferenciación entre países, entonces podríamos usar el enfoque de la diversidad biólogica para analizar la cuestión (Weitzman (1992)). Esta sería una linea interesante desde la que examinar la opción tomada por los especialistas en el tema de la convergencia económica. Aunque implícito en este enfoque es que el preservar la diversidad es un valor positivo, evidentemente no hay problema en invertir los términos y presuponer que la diversidad es un valor negativo. En cualquier caso esta divagación pone de manifiesto que, desde una actitud de principios, nos introducimos rapidamente por caminos cuyo destino no parece obvio, al menos a primera vista.

Las reflexiones que hemos realizado aquí parecen apuntar hacia el hecho de que la dispersión, o en general el estudio de la evolución dinámica de la distribución de la renta per capita, en terminología de Quah (1996c,d), debe realizarse en términos de las distribuciones ponderadas por la población, o en otras palabras el comportamiento de la renta per capita debe ser analizado en términos de individuos; y ello por varias razones, en la práctica es razonable preguntarse cuestiones tales como: ¿es indiferente que paises como España o Francia converjan al nivel medio de la renta per capita Europea a que lo haga Luxemburgo?. Todo parece indicar que no; no sólo desde el punto de vista individual la convergencia es mayor si convergen países grandes en lugar de países pequeños, y ello independientemente de lo que suceda con la distribución de la renta dentro de cada país, sino que otras cuestiones relevantes, como los procesos de transferencias de paises ricos a paises pobres, dependen sustancialmente de los tamaños de población que hay detrás de una renta per capita concreta. Sería fácil construir ejemplos en los que un

30

resultado de divergencia económica, obtenido a partir de estadísticos no ponderados, se debe al sistemático alejamiento respecto a la media de uno o dos países de tamaño insignificante, como Luxemburgo o Irlanda; mientras que una adecuada consideración de sus tamaños relativos dentro del agregado podría arrojar el resultado contrario de convergencia económica34. Por tanto al margen de una actitud de principìos existe una actitud empírica, ¿proporcionan los estadísticos simples y los ponderados visiones diferentes, cuando no contradictorias, de un mismo fenómeno económico?; disponemos de algunos ejemplos indica que si, Korn y Graubard (1995b), mientras que otros indican que no, al menos no siempre, Goerlich y Mas (1998a,b). En consecuencia en este informe adoptaremos una aproximación práctica al problema y todos los estadísticos de esta sección serán calculados tanto de forma ponderada como de forma simple (no ponderada), al objeto de examinar como la diferente estructura poblacional de las diferentes provincias españolas ha afectado al proceso de convergencia.35

Para hacernos una idea de las potenciales diferencias, en nuestro caso particular, de la posible discrepancia entre los estadísticos ponderados respecto a los simples basta con examinar la estructura demográfica de las diferentes provincias españolas a lo largo del tiempo (Cuadro A3). Algunos ejemplos bastarán, Barcelona y Madrid, que como veremos se encuentran en el extremo superior de la distribución, representan en todos los años más del 15% del total de la población española, más del 24% en 1995, sin embargo los estadísticos simples les asignan un peso conjunto del 4% para todo el periodo muestral, lo contrario sucede con provincias como Soria que, representado siempre porcentajes inferiores al 0.53% de la población, el 0.24% en 1995, los estadísticos simples le asignan un peso fijo del 2% en todos los años. Nos encontramos pues con dos efectos: (i) no todas las provincias tienen el mismo peso, y (ii) dicho peso varía en el tiempo. En este contexto

34

Comunicación personal del autor con L. Magee (Magee, Robb y Burbidge (1998)) indica que existe cierta evidencia de que muchos investigadores parecen estar en contra de las ponderaciones debido al hecho de que en contextos internacionales o regionales los paises o las regiones pequeñas, que suelen ser la mayoría, no tendrían prácticamente impacto sobre los resultados, que estarían dominados por unas pocas observaciones. 35 Como habrá observado el lector el tema de las ponderaciones no sólo afecta al cálculo de estadísticos descriptivos, a los que nos hemos referido en este epígrafe, sino tambien a los modelos de regresión que utilizamos en las dos secciones anteriores y al concepto de β-convergencia que se analizará en la sección siguiente. La utilización de tales ponderaciones en dichos modelos, y en general en cuestiones relacionadas con la inferencia estadística, ha sido objeto de atención por parte de la literatura estadística y econométrica que trabaja con datos de encuesta y será retomado en el epígrafe siguiente; sin embargo tales ponderaciones no serán tenidas en cuenta en los modelos de regresión analizados en este informe.

31

la moda, entendida como un estadístico puntual asociado a una sola observación, vendría dada por la provincia con más población relativa que es siempre Barcelona entre 1951 y 1977 y Madrid entre 1978 y 1998. En el otro extremo la provincia con menor porcentaje de población es Alava entre 1951 y 1962 y Soria a partir de 1963 hasta 1998. Además piénsese que si en lugar de realizar el análisis a nivel de provincias se realizara a nivel de Comunidades Autónomas, entonces una comunidad uniprovincial como es La Rioja, que tiene siempre un porcentaje de población inferior al 1% del total nacional, pasaría, en los estadísticos simples, de pesar un 2% a pesar un 5.88%, simplemente porque ha variado el número de unidades en el análisis; por lo tanto, en este caso, la división administrativa si importa, sin embargo el peso relativo de La Rioja, ni en términos de VAB ni en términos de población, ha variado por este motivo; por el contrario su peso en los estadísticos ponderados no se vería alterado. De todo ello se desprende de que si existe base para una dispar evolución entre los estadísticos simples y ponderados.

El tipo de argumentos que hemos ofrecido en este epígrafe parece que han estado totalmente ausentes en la literatura empírica sobre convergencia. Por una parte los autores procedentes del análisis microeconómico y la desigualdad (Theil y Sorooshian (1979), Berrebi y Silber (1987), Esteban (1994), Duro y Esteban (1998)) no parecen cuestionarse el problema y simplemente aplican el instrumental de índices de la literatura de la desigualdad al análisis regional de la convergencia, sin ningún tipo de mención al respecto. Por otra parte, y salvo por comparaciones de las distintas regiones respecto a la media del agregado, que es una media ponderada, los estudiosos del problema provenientes de la macroeconomía, utilizan de forma prácticamente exclusiva estadísticos simples. Así por ejemplo Decresin y Fatás (1995, p.-1630) reconocen el problema pero no hacen nada al respecto, salvo escoger la regiones de forma que sean comparables en tamaños de población. Ante esta situación es lícito preguntarse que hubiera pasado si hubiéramos trazado las fronteras de forma diferente, ¿habría ello supuesto una alteración substancial en los resultados?. Algunas excepciones son el trabajo de Rabadán y Salas (1996), quienes por el motivo que hemos mencionado proponen medir la convergencia mediante índices de desigualdad; procedimiento lícito aunque no el único posible, ni siquiera tiene porque ser el más adecuado, por ejemplo desde el punto de vista de la convergencia no hay porque asignar más importancia a las transferencias de renta en el extremo inferior de la

32

distribución, lo que por el contrario si puede ser deseable en términos de la medición de la desigualdad individual, ni porque basar los estadísticos en conceptos normativos sobre el bienestar social; y el de Jones (1997a, p.-22), quien argumenta que aunque el análisis de la renta per capita a nivel internacional se realiza normalmente en términos de los países esta puede ser una forma engañosa de examinar los datos ya que simplemente la alteración de las fronteras modificaría los resultados.

5.2 Inferencia con estadísticos ponderados: Un comentario. Aunque nuestro interés en esta sección se centra en el cálculo de estadísticos descriptivos ponderados, la inferencia estadística en este caso, tan desarrollada con muestras simples, merece un comentario.

La cuestión de la inferencia con estadísticos ponderados ha sido objeto de atención desde hace tiempo por parte de la literatura estadística y econometrica que trabaja con datos de encuesta (Klein y Morgan (1951), Nathan y Holt (1980), Hausman y Wise (1981), DuMouchel y Duncan (1983), Jewell (1985), Beach y Kaliski (1986), Kott (1991), Pfefferman (1993), Cosslett (1993), Kakwani (1993), Selden (1994), Bishop, Chakraborti y Thistle (1994),), Korn y Graubard (1995a,b), Imbens y Lancaster (1996), Magee, Robb y Burbidge (1998), Wooldridge (1999)), estos datos típicamente llevan asociado un peso relacionado en alguna medida con la probabilidad de que dicha observación sea incluida en la muestra y la cuestión de interés ha sido el tratamiento adecuado de estos pesos al objeto de lograr estimadores consistentes y eficientes con los que poder realizar inferencia acerca de los parámetros de la población. Esta literatura suele ser cuidadosa en la descripción de los procesos de muestreo que han dado lugar a las observaciones disponibles (Cosslett (1993), Selden (1994), Imbens y Lancaster (1996), Wooldridge (1999)), ya que las características de los datos y sus pesos dependen de dicho proceso y por tanto los estimadores propuestos, así como sus propiedades, varían en función de la información disponible acerca del muestreo utilizado.

Nuestra muestra, los datos de renta per capita provincial, no proceden, sin embargo, de ninguna encuesta, no han sido obtenidos mediante ningún proceso de muestreo,

33

simplemente disponemos de un conjunto de observaciones y pretendemos caracterizar la distribución de la variable que representan tales observaciones, φ(x). Si dicha distribución la consideramos en términos de las rentas per capita provincial individuales entonces podemos suponer que disponemos de una muestra de observaciones independientes e idénticamente distribuidas (i.i.d.), los estadísticos que debemos calcular son estadísticos simples y la inferencia puede proceder de forma estándar. Por otra parte si la distribución que deseamos analizar es la distribución de x en términos de los individuos que hay detrás de cada renta per capita provincial entonces las cosas no son tan sencillas, puesto que las provincias difieren en población cada observación muestral tiene una diferente representatividad dentro de la población de forma que podemos seguir suponiendo que las observaciones son independientes pero no identicamente distribucidas (i.n.i.d.). Fue esta observación la que motivó los comentarios del epígrafe anterior y aunque es razonable en este caso describir la población mendiante el cálculo de estadísticos ponderados queda por resolver la cuestión de como realizar inferencia sobre la población con este tipo de muestras. Es decir tratamos a continuación de responder a preguntas tales como: ¿podemos realizar contrastes sobre la media de la distribución mediante los procedimientos estándar?, ¿podemos constrastar la simetría o la normalidad mediante los estadísticos habituales (Jarque y Bera (1980)) en los que cualquier momento poblacional es sustituido por el correspondiente momento ponderado?. Los argumentos que ofrecemos a continuación responden afirmativamente a estas cuestiones de forma que la inferencia puede proceder de forma similar a situaciones estándar36.

Con muestras ponderadas la correcta utilización de los pesos y las propiedades de los estimadores dependen crucialmente del proceso de muestreo y de lo que supongamos acerca de la población subyacente (DuMouchel y Duncan (1983), Cosslett (1993)), por lo tanto para responder a las preguntas anteriores deberemos ser específicos acerca de estas cuestiones para nuestra muestra concreta. Sin embargo el tipo de muestra que utilizamos en este informe no parece haber sido analizado por la literatura estadística y/o econométrica una vez incorporamos el hecho de que cada observación tiene una representatividad diferente para la población, es por ello que la mejor forma de pensar en el problema es

36

Disponemos de una sola variable de forma que estamos interesados en este epígrafe en los momentos que caracterizan a φ(x) y en inferencia estadística sobre dichos momentos al objeto de concluir algo acerca de la forma de φ(x).

34

tratar de adecuar nuestra muestra a los resultados existentes en la literatura sobre datos de encuesta con muestreo no aleatorio, de forma que deberemos distinguir entre la distribución de la población y la distribución de acuerdo con la cual los datos han sido generados. Nuestra muestra está constituida por datos provinciales, áreas geográficas en general, cada observación lleva asociada una frecuencia muestral, para nuestro tipo de muestra dicha frecuencia viene dada por 1/n, en nuestro caso n = 50 con lo que la frecuencia muestral es del 2% y además constante en el tiempo; mientras que la población está constinuida por los individuos que habitan las provincias, N = Σ in=1 N i , cada observación lleva asociada una frecuencia poblacional, que refleja la importancia de dicha observación en la población, en nuestro caso la frecuencia poblacional viene dada por las proporciones de población, pi = Ni/N, que son variables en el tiempo. Este esquema puede ser visto como un proceso de muestreo estratificado estandar (Cosslett (1993), Imbens y Lancaster (1996), Wooldridge (1999)) en el que hay tantos estratos como observaciones, disponemos de una sola observación por estrato y en el que las proporciones de población coinciden con la importacia del estrato (y de la observación) dentro de la población. Por tanto, en nuestro caso pensamos en la observación i-ésima como extraída aleatoriamente de una subpoblación de tamaño Ni (Magee, Robb y Burbidge (1998)). El resultado es una muestra de observaciones independientes pero no idénticamente distribuidas. En esta situación la densidad de probabilidad de37 xi, φi(xi), no coincide con la densidad de probabilidad de la población subyacente, φ(x), pero los momentos de esta última distribución pueden ser estimados de forma consistente mediante momentos muestrales ponderados con ponderaciones pi; es decir si θ es un parámetro de la distribución de x en la población y g(x,θ) es una función dependiente de x y de θ tal que E[g(x,θ)] = 0 en la población38, entonces en nuestro contexto el estimador ponderado de momentos obtenido al resolver la ecuación Σ in=1 pi g( xi , θ$ ) = 0

37 38

xi es ahora no una observación sino una variable aleatoria de la que sólo dispondremos de una realización. La esperanza debe ser entendida de acuerdo con la densidad de la población.

35

es un estimador consistente para θ, θ$  p → θ , un parámetro de la distribución de la población. (Wooldridge (1999, p.-1401))39. Esta es una fundamentación estadística que justifica la utilización de momentos ponderados para caracterizar la distribución de x en términos de la población subyacente a nuestras observaciones, así para el caso de la media tomamos g(x,θ) = x − θ, de lo que resulta θ$ = µ = Σ in=1 pi xi .

Puesto que consistencia es una propiedad de grandes muestras antes de resolver la cuestión de la inferencia estadística deberemos considerar una regla para extender nuestra muestra de forma indefinida. Este no es un problema que se plantee la literatura sobre datos de encuesta donde es fácil pensar en términos de muestreo a partir de una población infinita, sin embargo en nuestro caso, en el que disponemos de observaciones de todas las provincias, es dificil imaginar cualquier regla que permita extender el proceso generador de datos a muestras arbitrariamente grandes40. En la práctica haremos uso de la ficción de las muestras repetidas para nuestro proceso generador de datos (Davidson y MacKinnon (1993)), de forma que si la muestra observada fuera de tamaño m, consideraremos muestras de tamaño n = k.m, k = 1,2,3,.... Los resultados asintóticos que mencionaremos mantendrán la distribución de la población, φ(x), fija y permitiremos que k crezca de forma indefinida con lo que tanto el tamaño de la muestra, n, como el de la población, N = Σ in=1 N i , crecerán de forma arbitrariamente grande, manteniendo constantes los pesos asignados a cada observación, Ni = Ni + (k-1)m, i = 1,2,3,...,m; en efecto este supuesto no hace mas que replicar nuestra población de referencia, manteniendo intactas las propiedades de las observaciones en relación a su representatividad respecto a la población. Una ficción conveniente para realizar análisis asintótico y justificar la inferencia estadística; por supuesto en una aplicación concreta n es fijo y dado, y por tanto k = 1.

39

En realidad las ponderaciones son el cociente entre la frecuencia poblacional y la frecuencia muestral, en nuestro caso n.pi, pero dado que la frecuencia muestral es constante ∀i desaparece en el proceso de estimación que iguala momentos muestrales ponderados a momentos poblacionales. 40 Dicho de otra forma, el número de regiones de un país es limitado y el número de paises de la Tierra es un número finito no muy grande, por no mencionar el conjunto de países de la OCDE, de la Unión Europea o de un continente. Por citar algunos ejemplos del tipo de muestras que estamos considerando.

36

Finalmente deberemos establecer la relación entre la densidad de probabilidad de cada variable individual, xi, φi(xi)41, y la densidad de probabilidad de la población subyacente, φ(x); si el muestreo fuera aleatorio (i.i.d.) estas dos distribuciones serían idénticas, φi(xi) = φ(x) ∀i, y en consecuencia cualquier momento de φi(xi) sería idéntico a cualquier momento de φ(x), con lo que momentos poblacionales pueden ser estimados mediante momentos muestrales y la inferencia puede proceder de forma estándar. En nuestro caso, en el que cada observación tiene un contenido informativo diferente acerca de la población, necesitamos dos requerimientos (Stigler (1974), Teorema 6 y ejemplo 5.5):

(i)

limn→∞

Σ in=1φi ( xi ) = φ( x ) n

de forma que la densidad de la población subyacente, φ(x), tenga sentido, y

(ii)

φi ( g ( xi )) = φ(npi g ( xi ))

∀i

es decir que las densidades de probabilidad de cualquier función de cada variable individual, φi ( g ( xi )) , pertenezcan todas a la misma familia y que sean idénticas una vez la función g(xi) ha sido ajustada por un factor de proporcionalidad, siendo el factor de proporcionalidad la ratio entre la frecuencia poblacional, pi, y la frecuencia muestral, 1/n, con lo que obtenemos el factor n.pi.

Estas condiciones son más fuertes de lo necesario pero son suficientes para garantizar la inferencia por los métodos habituales simplemente sustituyendo momentos poblacionales por momentos muestrales ponderados. Debe observarse que estas condiciones no son normalmente satisfechas por los procedimientos de muestreo estándar (Wooldridge (1999)) pero si pueden ser mantenidas en nuestro caso.

Una forma de entender la intuición de estas ponderaciones consiste en observar que puesto que suponemos que la observación i-ésima ha sido extraída aleatoriamente de una

41

De la cual no hay forma de inferir nada, al menos sin una mayor desagregación en los datos, ya que sólo dispondremos de una sola realización proveneniente de dicha distribución.

37

subpoblación de tamaño Ni es natural inflar la contribución de g(xi) por este factor en la población, pero puesto que sólo disponemos de n observaciones esta contribución debe ser escalada por la ratio entre muestra y población, n/N42. De esta forma si pi = 10% y n = 50 la contribución de xi en la población es escalada por 5. Obsérvese que no se trata de un caso de corrección por heterocedasticidad, como algunos autores sugieren (Beach y Kaliski (1986, p.-41)). Además si Ni = 1, ∀i , el muestreo puede ser considerado como aleatorio, en cuyo caso el requerimiento de convergencia anterior es superfluo, puesto que n.pi = 1, ∀i.

Como hemos mencionado la condición anterior es suficiente para que los momentos de n.pi.g(xi) converjan a los momentos de g(x) y en consecuencia la inferencia pueda ser realizada de forma estándar. Por ejemplo, µ = Σ in=1 pi xi es un estimador consistente de la media de la población, digamos θ; si deseamos realizar inferencia acerca de la media de la distribución poblacional de x necesitamos derivar la distribución asintótica de µ, observando que µ =

1 n Σ i=1npi xi y que los requerimientos anteriores implican n

 Σ n np x  Σ n Var (npi xi ) Σ in=1Vari ( xi ) Var  i =1 i i  = i =1 = → Var ( x ) = σ 2 n n   n

lo que nos permite derivar el resultado estandar ya conocido

d → N ( 0, σ 2 ) n (µ − θ)  Inferencia acerca de θ procede pues mediante los métodos habituales, sustituyendo σ2 por un estimador consistente de este parámetro, la varianza ponderada de las observaciones. El mismo argumento funciona para momentos de orden más elevado de forma que simetría o normalidad podrían ser contrastadas con los estadísticos estándar y sus distribuciones derivadas bajo muestreo aleatorio (Jarque y Bera (1980)), simplemente sustituyendo

42

Ver Imbens y Lancaster (1996) y Wooldridge (1999) para el caso de muestreo multinomial.

38

momentos simples por momentos ponderados. En cualquier caso el énfasis en este informe radica más en la descripción de φ(x) que en inferencia acerca de esta distribución.

5.3 ¿Que estadísticos descriptivos constituyen nuestro objeto de interés? Esta epígrafe ofrece una descripción pormenorizada de todos los estadísticos descriptivos calculados en el presente informe, aunque en su mayor parte se trata de estadísticos habituales de posición, dispersión y orden, y cuya discusión puede encontrarse en los libros de estadística tradicionales (Mood, Graybill y Boes (1974)), la consideración simultánea de estadísticos ponderados y simples hace conveniente una exposición de los mismos con una nomenclatura unificada. Los momentos de nuestra variable43, x, serán definidos en términos poderados utilizando como frecuencias relativas los porcentajes de población de cada provincia44, pi; los correspondientes momentos simples se obtendrán dando el mismo peso a cada observación, es decir Ni = 1, ∀i , con lo que N = n y pi = 1/n, ∀i ; en consecuencia los momentos simples utilizarán como divisor el número de observaciones, n, de forma que no se incorporan ajustes por grados de libertad.

• Media: es la medida de posición por excelencia. La media de x es una medida alrededor de la cual los valores de la variable están “centrados”, si no conocemos nada acerca de la distribución de x la media nos da una idea de la posición de la variable en cuestión. Otras medidas de posición serán consideradas en relación a los estadísticos de orden. En realidad la media ya ha sido definida cuando presentamos nuestra variable en la sección 2, obsérvese que soló la media ponderada coincide con la media del agregado, que en la práctica es observable:

MEDIA:

ponderada

simple

µ = Σ in=1 pi xi

x=

43

Σ in=1xi n

(12)

La exposición se realizará en terminos de x, aunque en la práctica en muchas ocasiones estaremos interesados en la variable normalizada, z. 44 Aunque otras ponderaciones son posibles, estas no son sólo las más intuitivas, sino que son las que generan la media del agregado; en este caso la renta per capita media de España que es observable.

39

• Desviación típica: es la medida de dispersión absoluta más habitual. La desviación típica se define a partir de la varianza, que no es más que el segundo momento central alrededor de la media, como la raíz cuadrada positiva de la misma.

VARIANZA:

simple45

ponderada

Var ( x ) =

Varω ( x ) = Σ in=1 pi ( xi − µ )2

Σ in=1 ( xi − x )2 n

(13)

Para dos distribuciones con la misma media una disminución de la varianza implica una mayor concentración de la masa de probabilidad entorno a la media, al menos para ciertos intervalos alrededor de dicha media, pero ello no nos dice necesariamente nada acerca lo que sucede en las colas de la distribución.

La varianza es una medida de dispersión de los valores de una variable alrededor de la media y puesto que su cálculo implica elevar al cuadrado las desviaciones respecto a la media la varianza posee como unidad de medida el cuadrado de las unidades de x, razón por la cual es normalmente más conveniente utilizar la desviación típica como medida de dispersión, puesto que este estadístico tendrá las mismas unidades de medida que x.

DESVIACION TIPICA:

ponderada

simple46

SDω ( x ) = + Varω ( x )

SD( x ) = + Var ( x )

(14)

Otras medidas de dispersión serán consideradas en relación a los estadísticos de orden.

Σ in=1 ( x i − x )2 . n −1 Los ajustes por grados de libertad mencionados están pensados de forma que los estadísticos muestrales constituyan estimadores insesgados de los parámetros poblacionales subyacentes; por razones obvias estos ajustes solo se pueden realizar en el caso de estadísticos simples. 46 Si la varianza simple incorpora un ajuste por grados de libertad entonces la desviación típica viene dada por SDs ( x ) = + Vars ( x ) .

45

En ocasiones la varianza simple incorpora un ajuste por grados de libertad, Vars ( x ) =

40

Para futuras referencias conviene definir los momentos de orden r, que son simplemente la media de las potencias de los valores de la variable original, momentos respecto al origen o simplemente momentos, o la media de las potencias de los valores de la variable en desviaciones respecto a un determinado valor, momentos centrales.

MOMENTOS:

ponderados

simples

µ ′r = Σ p x

Σ in=1xir mr′ = n

n i =1

r i i

(15)

Observamos que µ1′ = µ y m1′ = x , la media de x.

Las potencias de x pueden centrarse en un valor determinado y obtener de esta forma los denominados momentos centrales,

MOMENTOS

ponderados

simples

CENTRALES:

µ r ( a ) = Σ in=1 pi ( xi − a )r

mr ( b) =

Σ in=1 ( xi − b)r n

(16)

de donde observamos como los momentos respecto al origen se obtienen fijando a = b = 0, µ r ( 0) = µ ′r y mr ( 0) = xr′ . Si a = µ y b = x obtenemos los momentos centrales respecto a la media, que son los más habituales,

MOMENTOS

ponderados

CENTRALES:

µ r = Σ pi ( xi − µ ) n i =1

simples Σ in=1 ( xi − x )r mr = n

r

(17)

Observamos que µ1 = 0 y m1 = 0 , y que µ 2 = Varω ( x ) y m2 = Var ( x ) , la varianza de x47.

47

En el caso de la varianza simple el ajuste por grados de libertad mencionado anteriormente puede ser n . m2 = k2 , donde k hace referencia a los llamados escrito en función de los momentos como Vars ( x ) = n −1 estadísticos-k (Fisher (1929), Kendall y Stuart (1977), Cap.-12).

41

Es importante observar además que si las observaciones están ditribuidas de forma simétrica en torno a la media entonces todos los momentos centrales respecto a la media de orden impar son nulos, para el caso de µ r ello requiere no sólo que las observaciones estén distribuidas de forma simétrica sino que también lo estén sus frecuencias relativas.

• Coeficiente de Variación: es la medida de dispersión relativa más habitual. Como mencionamos en Goerlich (1998) la desviación típica no es invariante respecto a la escala y una forma de solucionar esta cuestión es dividir este estadístico por la media, el resultado es el denominado coeficiente de variación.

COEFICIENTE DE VARIACION:

ponderado CVω ( x ) =

simple

SDω ( x ) µ

CV ( x ) =

SD( x ) x

(18)

que no está definido cuando la media es cero y cuya significación no está del todo clara cuando la variable puede tomar valores negativos, ya que en este caso obtendríamos una medida de dispersión negativa. Aunque este no es nuestro caso si puede plantearse en general y en la práctica esto se obvia considerando el valor absoluto del coeficiente de variación.

El coeficiente de variación es uno de los estadísticos más habituales para medir el concepto de σ-convergencia, que como ya hemos mencionado se preocupa de la dispersión en la distribución, precisamente por ser invariante respecto a la escala; vale la pena observar, sin embargo, que la concentración de la distribución en un punto48, lo que exige que SD(x)→0, es condición suficiente para que CV(x)→0, pero no es condición necesaria, ya que esto puede suceder si µ→∞, aunque SD(x) permanezca estable o incluso crezca pero a una tasa menor que µ. Este comentario, que se aplica a todas las medidas de desigualdad relativa examinadas en Goerlich (1998), debe ser tenido presente cuando se examinan resultados concretos ya que periodos de crecimiento generalizado pueden ser vistos como 48

Lo que en términos estadísticos llamaríamos convergencia puntual (pointwise) en probabilidad.

42

periodos de intensa convergencia y lo que puede estar sucediendo es simplemente que el nivel de vida agregado crezca sin cesar aunque las diferencias entre las unidades económicas se mantengan.

Como observamos en Goerlich (1998) el cuadrado de coeficiente de variación es cardinalmente equivalente al índice de Theil (1967) con parámetro igual a 2, T ( 2) =

1 CVω ( x ) 49. 2

Hasta ahora nos hemos centrado en los dos primeros momentos de una variable que nos ofrecen una idea de la posición y dispersión de la misma, adicionalmente los momentos centrales respecto a la media de orden tres y cuatro son útiles para examinar diversas características de la densidad de probabilidad de x, φ(x), pero examinaremos primero los denominados estadísticos de orden y funciones de los mismos que nos permiten observar otras características interesantes de φ(x).

• Estadísticos de orden: Dadas nuestras observaciones de la renta per capita provincial,

{xi }in=1 , una ordenación no decreciente de dichas observaciones,

x(1) ≤ x( 2 ) ≤ x( 3) ≤... ≤ x( n −1) ≤ x( n ) , contituyen los denominados estadísticos de orden, donde el paréntesis en los subíndices indica que las observaciones han sido ordenadas en la forma indicada.

Los estadísticos de orden no tienen en cuenta, en principio, las frecuencias relativas de cada observación, pero lógicamente si queremos examinar las características de φ(x) en términos de individuos, las ponderaciones, { pi }in=1 , deberán ser introducidas en el análisis; de esta forma paralelamente a la ordenación de x consideraremos la ordenación de las

(

)

frecuencias relativas, p(1) , p( 2 ) , p( 3) ,..., p( n−1) , p( n ) , donde dicha ordenación se corresponde con la derivada para x, es decir p(i) es la proporción de población de la provincia que ocupa la posición i-ésima en nuestra muestra ordenada de forma no decreciente.

49

La versión simple del coeficiente de variación, CV(x), sería cardinalmente equivalente a la versión simple del índice de Theil, T(2).

43

Varios estadísticos de orden son útiles en la caracterización de φ(x), en primer lugar debemos mencionar los estadísticos de valor extremo, es decir el mínimo, x(1) = min {xi }in=1 , y el máximo, x( n ) = max {xi }in=1 , de los valores observados, que además de ser útiles en sí mismos nos permiten definir una medida alternativa de dispersión, el rango50,

RANGO:

R( x ) = x( n ) − x(1) = max{xi }in=1 − min{xi }in=1

(19)

y una medida alternativa de posición, el medio-rango,

MEDIO-RANGO:

Mid − R( x ) =

x(1) + x( n ) 2

min{xi }in=1 + max{xi }in=1 = 2

(20)

Ninguno de estos dos estadísticos, el rango y el medio-rango, dependen de las frecuencias relativas e igualmente ignoran todo lo que sucede entre los valores extremos. Otra medida de posición alternativa a la media es la mediana51, Med(x), que se define como el estadístico de orden que divide la distribución de x, φ(x), en dos partes con igual probabilidad en cada una de ellas, de forma que el 50% de la masa de probabilidad estará por debajo de la mediana y el 50% restante por encima. Para una distribución simétrica la mediana coincide con la media.

En el caso de una muestra simple la mediana es simplemente el estadístico de orden que divide la muestra en dos partes iguales, es decir la observación central; de forma que si n es impar la mediana viene dada por x(( n+1)/ 2 ) , ya que este valor deja a

50

Tal y como está definido el rango no depende de las frecuencias relativas, además como se observa en Goerlich (1998) el rango podría ser normalizado respecto a varios estadísticos de interés para hacer su intervalo de variación más interpretable, siendo los más obvios la media o los propios valores máximo o mínimo. Obsérvese además que si en lugar de considerar la variable x consideramos z entonces obtenemos lo que en Goerlich (1998, p.-29) se denomina el rango relativo. 51 El término “mediana” fue utilizado por primera vez por Galton (1883), aunque el concepto ya aparece en un trabajo anterior, Galton (1975).

44

izquierda y derecha el mismo número de observaciones, mientras que si n es par la mediana se define convencionalmente como la media entre los dos valores centrales, x( n / 2 ) + x( ( n / 2 )+1) 2

52

.

En el caso de muestras simples todas las observaciones tienen asignado el mismo peso y por tanto dividir la muestra en dos partes iguales es equivalente a distribuir la masa de probabilidad de forma simétrica. Sin embargo ello no es así si queremos obtener la mediana para una muestra ponderada, en este caso cada observación, xi, lleva asociada una frecuencia relativa, pi; el problema es por tanto ligeramente diferente, ahora no se trata de dividir las observaciones sino de dividir la masa de probabilidad que representan dichas observaciones, de forma que la mediana no puede definirse directamente a partir de las observaciones, es necesario invertir el proceso, en este caso debemos acumular los p(i), Fs = Σ is=1 p( i ) , s = 1,2,...,n, y buscar el valor s tal que Fs = 0.50, si dicho valor existe podría ser utilizado para definir la mediana, x(s).

En la práctica sin embargo este no es un procedimiento totalmente adecuado para la obtención de la mediana ya que aunque existiera un valor exacto s tal que Fs = 0.50 encontraríamos un resultado diferente si empezamos a contar la probabilidad asociada a las observaciones por la parte inferior de la distribución, x(1), o por la parte superior, x(n); este no es por tanto un procedimiento simétrico. Además en la práctica un valor exacto s tal que Fs = 0.50 será la excepción y no la regla por lo que será necesario arbitrar algún esquema de interpolación para las observaciones en el entorno de Fs = 0.50. El procedimiento utilizado busca el valor s tal que Fs−1 < 0.50 y Fs ≥ 0.50 y distribuye linealmente p(s) a lo largo del intervalo comprendido entre los puntos medios entre la observación (s)-ésima y sus dos observaciones adyacentes, (s−1) y (s+1)53, lo que es equivalente a asignar el valor

52

[

Si n es par entonces n/2 es un número entero y cualquier valor en el intervalo cerrado x( n / 2 ) , x( ( n / 2 )+1)

]

puede ser utilizado para definir la mediana (Patel y Read (1982), p.-261), convencionalmente tomamos el valor medio (Kendall y Stuart (1977) p.-39) pero obsérvese que cualquier otro valor del intervalo (abierto) dividiría la muestra en dos partes iguales al contener cada una de ellas idéntico número de observaciones; por otra parte el valor medio es el valor natural ya que es lo que obtenemos si interpolamos linealmente entre ambas observaciones. 53 Este procedimiento es válido siempre y cuando 1 < s < n, cuando s = 1 se toma como límite inferior del intervalo x(1) y cuando s = n se toma como límite superior del intervalo x(n).

45

de p(s) al final de dicho intervalo, para posteriormente obtener el valor de la mediana por   x( s−1) + x( s )  x( s ) + x( s+1)  , Fs−1  y  , Fs  , dado el valor interpolación lineal entre los puntos  2 2     de s tal que Fs−1 < 0.50 y Fs ≥ 0.50.

Una tercera medida de posición es la moda, Mode(x), que se define como el valor de x, si existe, para el cual φ(x) alcanza su valor máximo. Como estadístico descriptivo calculado para variables continuas y a partir de observaciones simples carece de utilidad ya que en la práctica nunca observamos dos valores de x exactamente iguales, sin embargo si consideramos estadísticos ponderados la moda vendrá dada por el valor que alcance mayor frecuencia relativa, que en nuestro caso es Barcelona entre 1951 y 1977 y Madrid entre 1978 y 1998. Aún en este caso su utilidad es muy limitada y este estadístico no será empleado; la moda será importante en la sección 7 cuando estimemos φ(x) de forma no paramétrica. Hemos visto que la mediana divide la distribución de x, φ(x), en dos partes con igual probabilidad en cada una de ellas, no hay motivo sin embargo para restringirse a que estas dos partes sean iguales, y podemos buscar estadísticos de orden que dividan la distribución de x de forma asimétrica. Esta idea la recogen los denominados quantiles, el quantil de orden p, ξp, se define como el estadístico de orden, ξ, que divide la distribución de x, φ(x), en dos partes tal que Φ (ξ ξ) = p, 0 ≤ p ≤ 1, siendo Φ (••) la función x

de distribución acumulativa de x, Φ( x ) =

∫ φ( u)du ;

es decir el p-% de la masa de

−∞

probabilidad estará por debajo del quantil de orden p, ξp, y el (1-p)-% restante por encima. Por tanto la mediana no es más que el quantil de orden 0.5, ξ.5 = Med(x), el mínimo puede ser considerado como el quantil de orden 0, ξ 0.0 = x(1) = min {xi }in=1 , y el máximo como el quantil de orden 1, ξ1.0 = x( n ) = max {xi }in=1 .

Varios quantiles son habituales en la literatura estadística, los tres estadísticos de orden que dividen la distribución de x, φ(x), en cuatro partes iguales son los denominados cuartiles, correspondientes a p = 0.25, 0.50 y 0.75; cuatro estadísticos de orden que

46

dividen la distribución de x en cinco partes iguales son los denominados quintiles, correspondientes a p = 0.2, 0.4, 0.6 y 0.8; nueve estadísticos de orden que dividen la distribución de x en diez partes iguales son los denominados deciles, correspondientes a p = 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8 y 0.9; 19 estadísticos de orden que dividen la distribución de x en 20 partes iguales son los denominados veintiles, correspondientes a valores de p en incrementos de 0.05; y finalmente 99 estadísticos de orden que dividen la distribución de x en 100 partes iguales son los denominados percentiles54, correspondientes a valores porcentuales de p. Obviamente el conocimiento de un número suficientemente elevado de quantiles proporciona una idea bastante buena de la forma de φ(x) razón por la cual estos estadísticos serán importantes en esta sección, nos centraremos en los siguientes valores de p = 0.01, 0.05, 0.10, 0.25, 0.50 (mediana), 0.75, 0.90, 0.95 y 0.99; lo que dado el reducido tamaño muestral es más que suficiente para nuestros propósitos, los cuartiles jugarán un papel destacado55.

En el caso de una muestra simple la obtención de los quantiles se basa en buscar el estadístico de orden que divide la muestra en las dos partes adecuadas, obviamente para un conjunto de observaciones siempre hay una pequeña indeterminación que puede ser resuelta de forma similar al caso de la definición práctica de la mediana. El procedimiento empleado primero determina np = px(n−1) + 1 y luego calcula el quantil correspondiente por interpolación lineal entre x([np]) y x([np]+1), donde [np] es el mayor entero menor o igual a np56, es decir,

QUANTILES:

ξ p = (1 − (np − [np])). x([ np ]) + (np − [np]). x([ np ]+1)

54

(11)

Los percentiles fueron definidos por Galton (1886a), aunque los cuartiles y el rango inter-cuartílico, como medida de dispersión alternativa a la desviación típica, fue utilizada por este mismo autor con anterioridad, Galton (1975). 55 Algunos autores (Mills (1990), p.-21-26) han propuesto extender el concepto de mediana a partir de ir dividiendo por la mitad sucesivamente los intérvalos de observaciones que quedan despues de calcular la mediana; es decir, una vez calculada la mediana se obtiene la mediana para las observaciones entre el mínimo y la mediana y otra mediana para las observaciones entre la mediana y el máximo, en la practica ello equivale apróximadamente al cálculo de los cuartiles ξ.25 y ξ.75. Este proceso de ir calculando sucesivas medianas puede hacerse recursivo y proporciona una caracterización de φ(x) idéntica a la ofrecida por los quantiles; un escalón más en el proceso de ir calculando sucesivas medianas sería aproximadamente equivalente a la obtención de ξ.125 y ξ.875, y procediendo recursivamente ello equivaldría aproximadamente a calcular ξ.0625 y ξ.9375 y a continuación ξ.03125 y ξ.96875, y así sucesivamente. Estos estadísticos fueron calculados pero no son incluidos ya que no ofrecen ningún resultado novedoso adicional respecto a los ya mencionados en el texto. 56 [•] debe ser leido como la “parte entera de” y denota la operación de eliminar la parte fraccional.

47

el procedimiento distribuye de forma uniforme la probabilidad teniendo en cuenta que para n observaciones sólo disponemos de n−1 huecos entre las mismas57. Obsérvese que np − [np] no es más que la parte fraccional de np y que para p = 0.5 obtenemos la fórmula para la mediana mencionada anteriormente.

En el caso de una muestra ponderada la obtención de los quantiles no puede proceder a partir de las observaciones por la misma razón que la mediana no podía definirse directamente a partir de dichas observaciones, en este caso cada xi lleva asociada una frecuencia relativa, pi, por lo que deberemos proceder a obtener los quantiles a partir de la función de distribución acumulativa empírica, es decir a partir de la acumulación de p(i), Fs = Σ is=1 p( i ) , s = 1,2,...,n. Dado un valor 0 ≤ p ≤ 1 podemos buscar el valor entero s tal que tal que Fs = p, si dicho valor existe podría ser utilizado para definir el quantil de orden p, ξp.

Por las mismas razones que expusimos al hablar de la mediana este no es un procedimiento totalmente adecuado ya que no es simétrico y además no es de esperar que encontremos un valor exacto de s tal que Fs = p, por lo tanto será necesario arbitrar algún esquema de interpolación para las observaciones en el entorno de Fs = p. El procedimiento utilizado es idéntico al que mencionamos para la mediana y se basa en distribuir linealmente p(s) a lo largo del intervalo comprendido entre los puntos medios entre la observación (s)-ésima y sus dos observaciones adyacentes, (s−1) y (s+1), lo que equivale a asignar el valor de p(s) al final de dicho intervalo, buscar el valor entero s tal que Fs−1 < p y Fs ≥ p y finalmente obtener el quantil de orden p por interpolación lineal entre

57

Este no es el único procedimiento práctico para calcular quantiles a partir de un conjunto de observaciones, aunque es el más lógico. Patel y Read (1982, p.-261) proponen un procedimiento alternativo pensado básicamente en distribuir observaciones a ambas partes del quantil más que en distribuir de forma continua la probabilidad a lo largo del rango de variación de x. Según esta regla np = pxn de forma que si np no es entero, entonces el estadístico de orden x([np]+1) es el quantil de orden p, mientras que si np es entero, entonces se toma como quantil de orden p la mitad entre x([np]) y x([np]+1). Obsérvese que esta regla proporciona el mismo valor para la mediana que la regla mencionada en el texto.

48

  x( s−1) + x( s )  x( s ) + x( s+1)  , Fs  , dado s tal que Fs−1 < p y Fs ≥ p58. Para , Fs−1  y  los puntos  2 2     p = 0.5 obtenemos la mediana tal y como fue definida anteriormente59.

El esquema de interpolación que acabamos de mencionar no funciona para las observaciones extremas, x(1) y x(n), ya que en este caso no podemos distribuir la probabilidad por debajo de x(1) ni por encima de x(n). Así pues para el primer hueco entre observaciones p(1) es distribuido entre x(1) y

x(1) + x( 2 ) 2

, de forma que si p(1) = F1 ≥ p

obtenemos el quantil correspondiente por interpolación lineal entre

( x( ) ,0) 1

y

 x(1) + x( 2 )  , p(1)  . De forma simétrica para el último hueco entre observaciones p(n) es  2   distribuido entre

x( n −1) + x( n ) 2

y x(n), de forma que si Fn−1 < p obtenemos el quantil

 x( n−1) + x( n )  correspondiente por interpolación lineal entre  , Fn−1  y x( n ) ,1 . 2  

(

)

Este es un procedimiento que debe proporcionar resultados razonables a menos que la muestra sea pequeña, los valores de p(1) o p(n) sean muy elevados y estemos interesados en los quantiles en las colas de la distribución. Su principal inconveniente es que si fijamos Ni = 1, ∀i , entonces no obtenemos los mismos resultados que la regla para la obtención de quantiles en el caso de muestras simples como consecuencia de la asimetría en el tratamiento de la probabilidad en los extremos de la distribución; sin embargo ambos procedimientos son asintóticamente equivalentes en el sentido de que si fijamos Ni = 1, ∀i , entonces ambas reglas proporcionarán los mismos resultados conforme n→∞.

58

Otros procedimientos de interpolación como el kernel smoothing analizado en la sección 7 serían posibles pero no fueron instrumentados en la práctica. 59 Este no es el único procedimiento práctico para calcular quantiles a partir de una muestra ponderada. Un procedimiento que imita la regla de Patel y Read (1982, p.-261) para observaciones mencionada anteriormente tomaría como quantil de orden p el estadístico de orden x(s) tal que Fs−1 < p y Fs ≥ p. Con datos de encuesta en el que el número de observaciones es muy elevado los procedimientos de interpolación no deben afectar mucho a la obtención de los quantiles pero con datos regionales y/o de paises parece razonable utilizar reglas que interpolen entre observaciones y sus probabilidades asociadas.

49

Finalmente señalar que una forma útil de inspeccionar visualmente los quantiles consiste en dibujar la función de distribución acumulativa empírica de probabilidad (Mood, Graybill y Boes (1974), p.-264), es decir un gráfico-XY de Fs = Σ is=1 p( i ) frente x(s), s = 1,2,...,n, en el caso ponderado, o de

s frente x(s), s = 1,2,...,n, en el caso simple. n

Volveremos sobre esta función en la sección 7, cuando consideremos explícitamente el procedimeinto de inferir de una muestra la forma de φ(x).

Asociados a los quantiles podemos definir medidas adicionales de dispersión, los rangos inter-quantílicos, cuasi-rangos o rangos de orden p,

RANGO DE ORDEN p:

R( ξ p ) = ξ1− p − ξ p ,

0 ≤ p < 0.5

(22)

y medidas adicionales de posición, los medios-rangos de orden p,

MEDIO-RANGO DE ORDEN p: Mid − R( ξ p ) =

ξ p + ξ1− p 2

,

0 ≤ p < 0.5

(23)

Obsérvese que para p = 0 obtenemos, R(ξ0.0) = R(x) y Mid−R(ξ0.0) = Mid−R(x). R(ξ ξ.25) es conocido como el rango inter-cuartílico, una medida de dispersión muy popular como alternativa a la desviación típica y en la definición de observaciones atípicas (outliers). Para una distribución simétrica todos medios-rangos de orden p deben coincidir y ser igual a la mediana que a su vez debe ser igual a la media, de esta forma estos estadísticos pueden proporcionarnos información muy útil acerca de la simetría de la distribución y en caso de ser asimétrica sobre la forma de dicha asimetría60. En nuestro caso calcularemos estos estadísticos para valores de p = 0.01, 0.05, 0.10, 0.25 y 0.50.

60

Idénticas medidas adicionales de posición y dispersión podrían ser definidas a partir del cálculo de sucesivas medianas de las observaciones (Mills (1990), p.-21-26).

50

• Medidas de simetría: Puesto que para una distribución simétrica la media y la mediana coinciden61 parece natural medir el alejamiento de una distribución de la simetría a partir del estadístico

ponderado SIMETRIA:

Sω ( x ) =

simple

µ − Medω ( x ) SDω ( x )

S(x) =

x − Med ( x ) SD( x )

(24)

cuyos límites de variación vienen dados por −1 ≤ Sω ( x ), S ( x ) ≤ 1 (Hotelling and Solomons (1932)).

Además puesto que todos los momentos centrales respecto a la media de orden impar son nulos para distribuciones simétricas parece natural utilizarlos para examinar la simetría de una distribución. En la práctica se suele utilizar solamente el tercer momento, µ3, que para distribuciones simétricas es nulo, µ3 = 0. El gráfico 7 permite observar dos funciones de densidad simétricas, la de una distribución normal estándar y la de una distribución t-Student (“Student” (1908a,b)) con 5 grados de libertad, en ambos casos puede demostrarse que µ3 = 0.

Gráfico 7 El gráfico 8 (Mood, Graybill and Boes (1974), p.-76) ofrece una impresión visual de lo que esperamos cuando pensamos en distribuciones asimétricas, así la densidad φ1(x) se dice que es asimétrica hacia la izquierda, la cola de la izquierda decae más lentamente que la de la derecha, y en este caso µ3 < 0; mientras que la densidad φ2(x) es asimétrica hacia la derecha, la cola de la derecha decae más lentamente que la de la izquierda, y puede demostrarse que ahora µ3 > 0. Sin embargo las medidas de asimetría deben interpretarse con cautela ya que el conocimiento de las mismas no proporciona realmente una información fiable acerca de la forma de la distribución. De hecho para una distribución simétrica µ3 = 0 pero lo contrario no es cierto, µ3 = 0 no implica que la distribución sea 61

Tambien la moda en el caso de distribuciones unimodales.

51

0

0.1

0.2

0.3

0.4

0.5

-4,0

-3,0

-2,0

T-Student (5)

-1,0

0,0

1,0

2,0

3,0

Normal (0,1)

4,0

Gráfico 7. Distribución Normal y t-Student

simétrica (Ord (1968)); por ejemplo, la densidad φ3(x) en el gráfico 8 tiene µ3 = 0, pero obviamente su forma está lejos de ser simétrica, además pequeños cambios en la curvatura de φ3(x) podrían proporcionar valores positivos o negativos de µ3.

Gráfico 8 El la práctica se utiliza como medida de asimetría el tercer momento convenientemente estandarizado,

µ3 , para librarlo de las unidades de medida, que es lo µ 32/ 2

que se conoce como el coeficiente de asimetría.

ASIMETRIA:

simple62

ponderado

COEFICIENTE DE

γ 1 = β1 =

µ3 µ3 = 3/ 2 µ2 SDω ( x )3

c1 = b1 =

m3 m3 = 3/ 2 m2 SD( x )3

(25)

• Medidas de curtosis: el cuarto momento alrededor de la media, µ4, es utilizado con frecuencia como medida del grado de curvatura de una distribución alrededor de su centro. En la práctica, puesto que µ4 tiene unidades de medida, lo que se utiliza es el coeficiente de curtosis63, que no es más que el cuarto momento estandarizado,

µ4 . Para µ 22

una distribución normal estándar, gráfico 7, el valor de dicho coeficiente es 3, por lo que normalmente el coeficiente de curtosis se define respecto a la normal como el coeficiente de exceso de curtosis, γ 2 =

µ4 − 3 . Distribuciones para las que γ 2 = 0 se denominan µ 22

meso-cúrticas, cuando γ 2 > 0 lepto-cúrticas y cuando γ 2 < 0 plati-cúrticas (Pearson

62

Al igual que sucede con la varianza simple el tercer momento simple, m3, puede incorporar un ajuste por n2 grados de libertad, k3 = . m3 , con lo que el coeficiente de simetría podría ser calculado como ( n − 1)( n − 2 ) k3 (Kendall y Stuart (1977, p.-73, 88 y 300), Doan (1992, p.-14-238)). k23/ 2 63 El coeficiente de curtosis fue introducido en estadística por Pearson (1895).

52

Asimétrica pero con el tercer momento igual a cero

µ3 = 0

φ3 ( x )

Asimétrica hacia la derecha

µ3 > 0

µ3 < 0

Asimétrica hacia la izquierda

φ2 ( x )

φ1 ( x )

Gráfico 8. Simetría

(1906)). Aunque estos nombres se aplican en la práctica al valor del coeficiente (de exceso) de curtosis su origen se debe a que para ciertas distribuciones simétricas regulares (unimodales), la normal es la referencia más evidente, valores de γ 2 > 0 indican una densidad más puntiaguda alrededor de su centro que la distribución normal; mientras que valores de γ 2 < 0 indican una densidad más plana alrededor de su centro que la distribución normal. Esto no es sin embargo necesario para otras distribuciones simétricas o para distribuciones asimétricas, por lo que el coeficiente (de exceso) de curtosis sufre del mismo defecto que las medidas de simetría, es decir que no siempre mide lo que se supone que debe de medir.

El gráfico 9 permite observar com más detalle la distribución t-Student con 5 grados de libertad en relación a la distribución normal estándar, observamos que la tStudent es ligeramente más puntiaguda que la normal, de hecho para esta distribución γ2 =

µ4 µ 6 − 3 = 6 > 0 . En general para la t-Student 42 = 3 + , siendo ν el número de 2 µ2 µ2 ν−4

grados de libertad. Observamos igualmente como esta distribución tiene más densidad en las colas que la normal.

Gráfico 9 simple64

COEFICIENTE DE

ponderado

CURTOSIS: γ 2 = β 2 − 3 =

µ4 µ4 −3= −3 2 µ2 Varω ( x )2

64

c2 = b2 − 3 =

m4 m4 −3= − 3 (26) 2 m2 Var ( x )2

En el caso del coeficiente de exceso de curtosis simple el numerador de c2 =

m4 − 3m22 , m4 − 3m22 , puede m22

incorporar un ajuste por grados de libertad, k4 =

n2 {( n + 1)m4 − 3( n − 1)m22 } ( n − 1)( n − 2 )( n − 3)

con lo que el coeficiente de exceso de curtosis podría ser calculado como 88 y 300), Doan (1992, p.-14-238)).

53

k4 (Kendall y Stuart (1977, p.-73, k22

-4,0

-2,0

0,0

2,0

4,0

T-Student (5)

Gráfico 9. Curtosis

Normal (0,1)

Es posible demostrar que β2 ≥ 1 siempre y que para distribuciones simétricas y unimodales β 2 ≥ 18 . , además se cumple que β2 > 1 + β1 (Kendall y Stuart (1977), p.-88 y 95). Puesto que el cuarto momento eleva a la cuarta potencia la distancia de las observaciones respecto a la media el coeficiente de curtosis es muy sensible a los outliers.

Hemos descrito un conjunto de estadísticos que nos permitirán una primera caracterización de nuestro objeto de estudio, φ(x), sin embargo esta caracterización será necesariamente incompleta, los momentos y los quantiles sólo proporcionan visiones parciales de la forma de φ(x), es posible encontrar densidades con formas muy diferentes pero con sus cuatro primeros momentos idénticos (Joiner y Rosenblatt (1971)). En términos prácticos los dos primeros momentos son de gran importancia puesto que normalmente es necesario conocer la posición de nuestra variable y tener alguna idea acerca de su dispersión, los quantiles pueden proporcionarnos una idea del comportamiento de nuestra variable en las colas de la distribución pero los momentos de orden tercero y cuarto son de poca utilidad ya que normalmente es difícil concluir algo acerca de la forma de φ(x) a partir de ellos. Una forma de resumir la información proporcionada por (casi) todos nuestros estadísticos será examinada en el epígrafe 5.6 pero el problema de como inferir la forma de φ(x) a partir de nuestras observaciones no será retomado hasta la sección 7.

Resultados Los cuadros A10 y A11 ofrecen los estadísticos que acabamos de describir para nuestro conjunto de datos y todos los años disponibles, el cuadro A10 ofrece los estadísticos no ponderados y el cuadro A11 los estadísticos ponderados. En estos cuadros debajo de los quantiles se ofrece, en pequeño, el quantil que correspondería a una distribución normal con la media y desviación típica observada en los datos, al mismo tiempo debajo del mínimo y del máximo se ofrece la provincia a la que corresponde el valor y en el caso del cuadro A11 el porcentaje de población que representa dicha provincia. La mayoría de estadísticos se han calculado para la variable zi =

54

xi , si bien µ

cuando el nivel es relevante se ofrece el correspondiente estadístico para xi65. Los cuadros 6 y 7 ofrecen una selección de estadísticos para los años de referencia, inpección de los mismos permite concluir lo siguiente:

Cuadros 6 y 7 1. El crecimiento de la renta per capita media es sostenido y considerable, µ se multiplica por más de 3.5 veces a lo largo del periodo considerado. Observamos que tanto la media como la mediana simple son siempre inferiores a los correspondientes estadísticos ponderados, lo que tiende a indicar que más de la mitad de las provincias tienen una renta per capita inferior a la media nacional. Esta tendencia, sin embargo, tiende a decrecer en el tiempo.

2. Otras medidas de posición como los medios-rangos, Mid−R(ξp), indican una distribución asimétrica hacia la derecha. Los medios-rangos, simples o ponderados, se sitúan prácticamente todos ellos por encima de la mediana, lo que en caso de los estadísticos ponderados es particularmente evidente hasta principios de los 70, ello indica que las observaciones que se sitúan por encima de la mediana tienden a estar más alejadas de este estadístico que las observaciones que se sitúan por debajo del mismo y en consecuencia una mayor masa de probabilidad debe estar situada en la parte derecha de la distribución. Esto es confirmado por los estadísticos de simetría, tanto S(z) como β1 son generalmente positivos o prácticamente nulos, sin embargo parece detectarse una cierta evolución en el tiempo hacia una distribución más simétrica que en el caso de los estadísticos ponderados es particularmente rápida.

3. La dispersión medida para los niveles de la variable, xi, tiende a aumentar con la media, pero en mucha menor medida que este estadístico, lo que hace que si medimos la dispersión en términos relativos, para zi, esta tienda a disminuir si utilizamos medidas de 65

Una interpretación literal de la distinción entre estadísticos ponderados y no ponderados llevaría al cálculo x de estadísticos no ponderados para la variable normalizada en términos de la media simple, i , sin embargo x xi hemos preferido calcularlos para z i = , puesto que la media del agregado es observable y coincide con µ; µ en consecuencia no encontramos mucho sentido a x como medida de posición de nuestras observaciones.

55

440.862

694.620

768.220

1,034.058

1,965

1,975

1,985

1,995

0.22

0.24

0.28

0.34

0.39

Coef. Variación

Badajoz

665.089

Badajoz

483.561

Badajoz

407.290

Badajoz

260.449

Cuenca

z

0.61

0.58

0.53

0.52

0.51

Mínimo

160.878

x

0.80

0.76

0.78

0.73

0.72

0.71

0.68

0.66

0.65

0.62

25%

499.676

775.342

826.953

1,095.521

1,965

1,975

1,985

1,995

0.23

0.23

0.28

0.37

0.44

Coef. Variación

0.61

1.69%

665.089

1.71%

Badajoz

0.58

483.561

1.90%

Badajoz

0.53

407.290

2.44%

Badajoz

0.52

260.449

1.13%

Badajoz

0.51

z

Cuenca

Mínimo

160.878

x

0.85

0.80

0.85

0.80

0.81

0.78

0.75

0.71

0.70

0.69

25%

1.00

1.00

1.00

1.02

1.00

1.01

1.00

0.89

1.00

0.83

1.41

1.48

1.49

1.65

1.93

z

Baleares

1,547.718

Baleares

1,225.137

Alava

1,158.058

Madrid

824.554

Madrid

614.786

Maximo x

1,106.403

854.349

782.674

542.501

1.01

1.03

1.01

1.09

1.22

0.94

0.90

0.87

0.86

0.84

Medios-Rangos z 25-75%

387.832

x

1.15

1.24

1.15

1.21

1.19

1.31

1.25

1.39

1.30

1.18

1.86%

1.41

1.74%

1.48

0.64%

1.49

9.43%

1.65

7.61%

1.93

z

Baleares

1,547.718

Baleares

1,225.137

Alava

1,158.058

Madrid

824.554

Madrid

614.786

Maximo x

1,106.403

854.349

782.674

542.501

1.01

1.03

1.01

1.09

1.22

1.02

1.01

1.04

1.05

0.93

Medios-Rangos z 25-75%

387.832

x

Cuadro 7: Estadísticos descriptivos ponderados

1.09

1.13

1.08

1.06

1.07

1.03

1.08

1.06

1.11

1.06

Quantiles Mediana 75%

Nota: Las magnitudes absolutas están en miles de pesetas de 1986.

318.405

1,955

Media x

0.94

0.91

0.93

0.92

0.90

0.83

0.88

0.80

0.88

0.77

Quantiles Mediana 75%

Nota: Las magnitudes absolutas están en miles de pesetas de 1986.

279.404

1,955

Media x

Cuadro 6: Estadísticos descriptivos simples

882.629

741.576

750.768

564.105

453.908

x

882.629

741.576

750.768

564.105

453.908

x

0.81

0.90

0.97

1.13

1.43

Rangos z

0.81

0.90

0.97

1.13

1.43

Rangos z

0.30

0.43

0.31

0.42

0.38

0.53

0.49

0.67

0.59

0.49

75-25%

0.28

0.37

0.30

0.33

0.34

0.32

0.40

0.40

0.46

0.44

75-25%

0.02

-0.08

-0.02

0.31

0.39

S

0.15

0.05

0.27

0.27

0.32

S

-0.77

-0.45

-0.55

-0.12

1.18

-0.07

-0.04

0.06

0.49

0.88

-1.32

-1.12

-1.31

-1.11

-0.46

Simetría Coef. de Coeficiente Curtosis

0.42

0.53

0.60

0.87

1.27

Simetría Coef. de Coeficiente Curtosis

dispersión globales, es decir para toda la distribución. Esta afirmación es válida, en general, tanto para los estadísticos simples como para los ponderados. Así por ejemplo la desviación típica se multiplica aproximadamente por un factor de 2 a lo largo del periodo, lo que hace que si medimos la dispersión en términos relativos mediante el coeficiente de variación, una medida utilizada con frecuencia para medir la σconvergencia, este presente una tendencia decreciente con pequeñas oscilaciones de poca importancia. El gráfico 10 (i) permite obtener una impresión visual de la evolución de este coeficiente y comparar las diferencias introducidas por la ponderación del estadístico. Se observa que el CV(z) decrece de forma importante hasta finales de los 70, la caída es mucho más pronunciada en términos del estadístico ponderado, relentizándose a partir de entonces; esta es la evolución destacada por la literatura de la convergencia regional en España (Cuadrado (1991), Mas, Maudos Pérez y Uriel (1995), Villaverde (1996, 1997), De la Fuente (1997a, 1998a,b)), y al mismo tiempo se observa que su evolución es muy similar a lo observado con los índices de desigualdad (Goerlich (1998,2000a), Goerlich y Mas (1998a)). Esto no hace más que reflejar que el proceso de convergencia, medido a través del coeficiente de variación, ha sido más acusado en términos ponderados que en términos de los datos provinciales simplemente; detrás de este fenómeno sólo puede estar la evolución de la población, y dado el nivel de desagregación utilizado, los movimientos migratorios (De la Fuente (1999)).

Gráfico 10 Idéntica evolución se observa para el rango de la renta per capita. Aunque en términos absolutos la distancia entre el los valores máximo, Madrid en 1955 y Baleares en 1997, y el mínimo, Cuenca en 1955 y Granada en 1997, ha aumentado, lo contrario sucede en términos relativos, produciéndose un acercamiento entre los extremos de la distribución realmente notable. De nuevo el gráfico 10 (ii) ofrece una impresión visual de la evolución de este índice y permite observar como la reducción del rango hasta mediados de los años 70 se logra sobre todo por el acercamiento del máximo hacia la media de la distribución.

4. En términos de los quantiles simples, la observación de los rangos y los percentiles, y su comparación con los de una distribución normal con la misma media y desviación 56

0.1 1 955

0.2

0.3

0.4

0.5

0.6

0.7

simple ponderado simple ponderado

1 975 Rango Intercuartílico 1 985

Coeficiente de Variación

1 965

1 995

(i) Medidas de dispersión: Coeficiente de Variación y Rango Intercuartílico

Gráfico 10. σ -convergencia

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

2.2

1 955

Minimo

1 965 Cuartíl .25 simple ponderado

1 975 Mediana simple ponderada

1 985 Cuartíl .75 simple ponderado

(ii) Cuartiles y valores extremos

1 995 Maximo

Gráfico 10. σ -convergencia (cont.)

típica que la observada, podemos concluir que la normal es una aproximación razonable a nuestro conjunto de observaciones excepto en los extremos, en concreto nuestros datos entán más concentrados en torno a un valor central de lo que correspondería a una distribución normal. Esta es la tendencia general, si bien es posible efectuar dos matizaciones: (i) En los últimos años en lo que hace referencia a R(ξ.25) los datos muestran una mayor dispersión, aunque pequeña, que lo que correspondería a una normal, lo que sin embargo no sucede al principio del periodo. Ello refleja importantes movimientos intradistribucionales que serán analizados en Goerlich (2000a). (ii) Los quantiles extremos, .01, .05, .90 y .99, al principio del periodo son bastante mayores de lo que correspondería a una distribución normal, ello muestra la importancia potencial de los posibles outliers, tema que será analizado en el epígrafe siguiente. De esta forma concluimos que la forma de la distribución, en términos de la renta per capita provincial, no se aleja en exceso de la normalidad salvo en los extremos. Estas conjeturas serán examinadas en la sección 7 cuando estudiemos más detenidamente la forma de φ(z).

Tanto los rangos, la observación de los valores extremos, máximo y mínimo, y los quantiles proporcionan una visión bastante clara de lo que ha sucedido con la dispersión de la renta per capita provincial en términos relativos. El gráfico 10 (ii) ilustra los valores extremos junto con los cuartiles, ξ.75, ξ.50 y ξ.25, tanto simples como ponderados, los estadísticos simples se ilustran mediante lineas continuas y los estadísticos ponderados mediante lineas discontinuas, centrándonos ahora en los cuartiles simples observamos perfectamente la asimetría en la distribución y como la dispersión en torno a un valor central, la mediana, se ha reducido tanto por arriba, máximo y ξ.75, como por debajo, mínimo y ξ.25, aunque la reducción por arriba tiende a estancarse a finales de los 70 o incluso presenta síntomas de divergencia en el caso de ξ.75, la reducción por debajo continua a lo largo de todo el periodo, con algunos años de estancamiento puntuales. La evolución de los rangos muestra tambien claramente esta reducción, que en el caso de R(ξ.25) es la menos acusada y muestra síntomas de divergencia al final del periodo, divergencia que es causada por ξ.75 (Gráfico 10 (i)).

57

5. Resulta interesante preguntarse ahora si estas características que hemos descrito para la distribución de nuestra variable, z, se mantienen cuando analizamos dicha variable en términos de la población subyacente a nuestras observaciones, es decir cuando estudiamos el comportamiento de z en términos de individuos y por tanto utilizamos estadísticos ponderados en lugar de estadísticos simples en la caracterización de φ(z).

Ya hemos observado como los estadísticos de posición ponderados se sitúan por encima de los mismos estadísticos en términos simples, lo que indica que provincias con importante peso demográfico tienen una renta per capita por encima de la media nacional. Lo mismo sucede con las medidas de dispersión habituales, CV(z) y los rangos de diversos órdenes, dichos estadísticos son mayores cuando consideramos estadísticos ponderados, sobre todo al principio del periodo, ello es consecuencia de la presencia de provincias con importante peso demográfico en el extremo superior de la distribución, basicamente Barcelona y Madrid, aunque tambien otras con menor peso relativo como Valencia y Vizcaya. Un ejemplo de la diferente visión que sobre la convergencia la pueden dar los estadísticos ponderados frente a los simples la podemos observar en el gráfico 10 (i) en que junto con el CV(z) se representa tambien el R(ξ.25), dicho estadístico en términos poderados muestra una importante divergencia en los primeros 10 años de la muestra, justo cuando el CV(z) muestra un proceso de intensa convergencia y cuando tambien el R(ξ.25) simple presenta síntomas de convergencia, divergencia de la que es responsable ξ.75 lo que indica que algunas provincias en el extremo superior del 25% de la distribución, donde se sitúan las provincias más densamente pobladas, están divergiendo respecto a la media y esto hace crecer la dispersión. El gráfico 10 ilustra por tanto, que no sólo la visión que tengamos acerca de los procesos de convergencia puede variar de acuerdo con el estadístico de dispersión que consideremos sino tambien con el hecho de si la variable analizada lo es en términos de áreas geográficas o en términos de individuos.

Otras características de la distribución de nuestra variable de interés, z, si se mantienen cuando analizamos dicha variable en términos de individuos. Así, por ejemplo, la asimetría detectada en la distribución parece reducirse en el tiempo de forma relativamente rápida y la referencia a la normal indica que esta es una aproximación

58

razonable a nuestros datos salvo por lo que hace referencia a los extremos de la distribución y a ξ.75, en cualquier caso la aproximación normal no parece tan adecuada como en el caso de la distribución de z en términos de provincias. Finalmente señalar que la conclusión general que hemos indicado al final del punto anterior acerca de que la convergencia se ha producido por ambos extremos de la distribución, aunque la reducción en la dispersión por la parte superior tiende a estancarse a finales de los 70, mientras que por la parte inferior de la distribución es más continuada a lo largo de todo el periodo, con algunos años de estancamiento puntuales, se mantiene tambien para los estadísticos ponderados. Por tanto dichos estadísticos no son, en nuestro caso, muy diferentes de su contrapartida no ponderada, pero ofrecen una mayor información de lo que ha sucedido con las desigualdades en determinados rangos de la distribución de la renta per capita provincial en términos de la población subyacente a nuestras observaciones. Una mayor concreción en la evolución de φ(x) debe esperar a los epígrafes siguientes y a la sección 7.

5.4 “Outliers”: Identificación. El papel de los “outliers” en la reducción de la dispersión en la distribución. Una primera aproximación a los “clubs de convergencia”. No existe un criterio universalmente aceptado para la definición de observaciones atípicas o outliers. Sin embargo la identificación de outliers es muy importante ya que pueden distorsionar gravemente los resultados de un estudio, las observaciones atípicas pueden deberse a errores en la construcción o publicación de estadísticas, en cuyo caso deberán subsanarse o de no ser posible eliminarse del análisis, pueden ser fenómenos puramente aleatorios o por el contrario pueden llevar consigo información genuina de interés acerca de determinados fenómenos que deben ser analizados con más cuidado o estudiados separadamente. Por ejemplo, Goerlich y Mas (1998c) muestran como sólo dos observaciones de una muestra de 24 son suficientes para generar los resultados de convegencia-σ observados en la muestra de paises de la OCDE.

59

Una regla utilizada con frecuencia para la definición de outliers se basa en el rango inter-cuartílico, R( ξ.25 ) = ξ.75 − ξ.25 , y considera observaciones atípicas todas aquellas que caen fuera del intervalo definido por ξ.25 − 15 . xR( ξ.25 ) , como límite inferior, y ξ.75 + 15 . xR( ξ.25 ) , como límite superiror (Tukey (1977)); es decir xi es considerado un outlier si xi < ξ.25 − 15 . xR( ξ.25 )

o

xi > ξ.75 + 15 . xR( ξ.25 )

Para una distribución normal estándar ξ.25 = −ξ.75 = −0.674 con lo que R(ξ.25) = 1.349 y por tanto los límites del intervalo representan 2.698 desviaciones típicas a ambos lados de la media o mediana, lo que cubre una probabilidad del 99.30% y en consecuencia representa una probabilidad de observar outliers del 0.70%.

Esto sugiere una regla alternativa para la definición de observaciones atípicas basada en la probabilidad de observación de las mismas a partir de la referencia a una normal, por ejemplo para una normal estándar 2.5 desviaciones típicas a ambos lados de la media cubren una probabilidad del 98.76%, dejando una probabilidad de observación de outliers del 1.24%; 3.0 desviaciones típicas cubren una probabilidad del 99.73%, lo que deja una probabilidad de observación de outliers del 0.27%. Todo se reduce por tanto a fijar a priori nuestra probabilidad subjetiva asociada a la observación de un suceso muy raro, de la misma forma en que fijamos el nivel de significación en un constraste de hipótesis, y obtener a partir de aquí los límites de un intervalo en términos de desviaciones típicas de una normal estándar. Así por ejemplo, si dicha probabilidad es fijada de forma arbitraria en un 0.1% entonces consideraríamos outliers a todas aquellas observaciones que cayeran fuera del intervalo definido por 3.29 desviaciones típicas a ambos lados de la media muestral, y si dicha probabilidad fueran fijada en el 1 por millón, 0.0001%, entonces consideraríamos observaciones atípicas todas aquellas cayeran fuera del intervalo definido por 4.89 desviaciones típicas a ambos lados de la media muestral. En términos prácticos consideraremos que estamos en presencia de un outlier cuando una observación caiga fuera del intervalo definido por 3.0 veces la desviación típica observada en los datos a ambos lados de la media muestral; es decir xi es considerado un outlier si

60

xi < µ − 3.0xSDω ( x )

o

xi > µ + 3.0xSDω ( x )

o

xi > x + 3.0xSD( x )

en términos de estadísticos ponderados o xi < x − 3.0xSD( x )

en términos de estadísticos simples, lo que como ya hemos dicho para una distribución normal representa una probabilidad de observación de outliers del 0.27%, es por tanto una regla algo más restrictiva que la basada en el rango inter-cuartílico.

Resultados El resultado de aplicar las dos reglas anteriores a nuestro conjunto de datos arrojó los siguientes resultados. Ninguna de las dos reglas identifica observaciones atípicas en la cola izquierda de la distribución, por el contrario, y utilizando estadísticos simples, la regla basada en R(ξ.25) indica la presencia de un outlier en la cola derecha de la distribución asociada a Madrid en los años 1955, 1957, 1959, 1961 y 1963, con valores de la renta per capita normalizada de 1.93, 1.89, 1.80, 1.83 y 1.71 respectivamente, así como una observación atípica asociada a Alava en 1977 con un valor de 1.48. La regla basada en ±3.0 desviaciones típicas a ambos lados de la media, al ser más restrictiva que la anterior, sólo detecta el outlier de Madrid en los años 1955 y 1957. Si nos centramos en estadísticos ponderados, dado que para estos las medidas de dispersión aumentan, sólo es posible detectar el outlier de Madrid en 1955 bajo la regla basada en R(ξ.25). En resumen, Madrid aparece como una observación atípica en el extremo superior de la distribución y a juzgar por la impresión visual del gráfico 10 (ii) es parcialmente causante de la asimetría en la distribución así como de la intensa convergencia observada al principio del periodo.

El anterior resultado nos permite en primer lugar preguntarnos hasta que punto Madrid, una única observación pero que representa el 7.61% de la población española en 1955 y el 12.82% en 1997, puede condicionar la visión que tenemos acerca de la evolución dinámica en la distribución de la renta per capita provincial y que hemos descrito en el 61

epígrafe siguiente. Para ello todos los estadísticos descritos anteriormente fueron calculados de nuevo con exclusión de la observación para Madrid66. Los resultados de este ejercicio se contienen de forma exhaustiva en los cuadros A12 y A13 y de forma resumida en los cuadros 8 y 9. El examen de los mismos permite concluir que la exclusión de Madrid únicamente no altera de forma sustancial la visión que hemos descrito en el epígrafe anterior acerca de la convergencia provincial, ciertamente la exclusión de Madrid favorece la simetría en la distribución al principio del periodo y aproxima la distribución hacia la normalidad, excepto en la cola izquierda, pero el perfil de reducción de las disparidades en renta per capita ya observado, es básicamente el mismo, tanto en términos simples como ponderados, tal y como ilustra el gráfico 11, es cierto no obstante que la intensa convergencia observada hasta mediados de los años 70 se debe en gran parte a la pérdida de posiciones relativas de Madrid, lo que refuerza lo ya ilustrado en el gráfico 10 (ii).

Cuadros 8 y 9 Gráfico 11 Finalmente realizamos un ejercicio adicional encaminado a arrojar una primera luz sobre la posible existencia de “clubs de convergencia”, es decir grupos de provincias que converjan dentro del grupo, pero no entre ellos. Hemos observado en el epígrafe anterior que el extremo superior de la distribución se ha comportado de forma sustancialmete diferente al extremos inferior, en particular los extremos evolucionan de forma muy diferente y tambien los cuartiles ξ.25 y ξ.75, así por ejemplo ξ.75 muestra divergencia en periodos de reducción de la dispersión global en la distribución, estas consideraciones sugieren clasificar las provincias según un criterio de riqueza, provincias pobres versus provincias ricas, y examinar la evolución de la distribución dentro de cada grupo y entre ambos grupos. De esta forma se tratará de arrojar luz sobre la idea de las “dos Españas” así como de si estos dos grupos parecen converger o permanecen distanciados. Ejercicios similares fueron realizados en Goerlich (1998, 1999a) aprovechando la descomponibilidad del índice de Theil (1967) donde utilizando diversos criterios de clasificación mostramos

66

Al igual que hicimos cuando excluimos las observaciones de Canarias los totales nacionales, y en consecuencia las desviaciones respecto al agregado, no han sido recalculadas; de esta forma z sigue representando la renta relativa respecto España.

62

433.031

686.583

762.256

1,027.393

1,965

1,975

1,985

1,995

0.22

0.23

0.28

0.32

0.36

Coef. Variación

Badajoz

665.089

Badajoz

483.561

Badajoz

407.290

Badajoz

260.449

Cuenca

z

0.61

0.58

0.53

0.52

0.51

Mínimo

160.878

x

0.80

0.76

0.78

0.73

0.72

0.71

0.68

0.66

0.65

0.62

25%

465.854

733.680

793.314

1,056.545

1,965

1,975

1,985

1,995

0.23

0.23

0.27

0.34

0.39

Coef. Variación

0.61

1.93%

665.089

1.96%

Badajoz

0.58

483.561

2.15%

Badajoz

0.53

407.290

2.70%

Badajoz

0.52

260.449

1.22%

Badajoz

0.51

z

Cuenca

Mínimo

160.878

x

0.82

0.76

0.81

0.75

0.77

0.76

0.72

0.66

0.68

0.63

25%

0.96

0.93

0.96

1.00

0.95

0.93

0.93

0.82

0.92

0.79

1.41

1.48

1.49

1.51

1.71

z

Baleares

1,547.718

Baleares

1,225.137

Alava

1,158.058

Guipúzcoa

754.100

Vizcaya

544.486

Maximo x

1,106.403

854.349

782.674

507.275

1.01

1.03

1.01

1.02

1.11

0.93

0.89

0.87

0.86

0.82

Medios-Rangos z 25-75%

352.682

x

882.629

741.576

750.768

493.651

383.609

x

1.11

1.15

1.11

1.11

1.12

1.17

1.15

1.10

1.17

1.10

2.13%

1.41

1.99%

1.48

0.72%

1.49

1.86%

1.51

2.41%

1.71

z

Baleares

1,547.718

Baleares

1,225.137

Alava

1,158.058

Guipúzcoa

754.100

Vizcaya

544.486

Maximo x

1,106.403

854.349

782.674

507.275

1.01

1.03

1.01

1.02

1.11

0.96

0.93

0.97

0.88

0.86

Medios-Rangos z 25-75%

352.682

x

882.629

741.576

750.768

493.651

383.609

x

Cuadro 9: Estadísticos descriptivos ponderados sin Madrid

1.08

1.10

1.07

1.06

1.05

1.03

1.05

1.06

1.06

1.02

Quantiles Mediana 75%

Nota: Las magnitudes absolutas están en miles de pesetas de 1986.

294.001

1,955

Media x

0.94

0.90

0.92

0.89

0.89

0.82

0.87

0.80

0.86

0.76

Quantiles Mediana 75%

Nota: Las magnitudes absolutas están en miles de pesetas de 1986.

272.559

1,955

Media x

Cuadro 8: Estadísticos descriptivos simples sin Madrid

0.81

0.90

0.97

0.99

1.20

Rangos z

0.81

0.90

0.97

0.99

1.20

Rangos z

0.30

0.40

0.29

0.36

0.35

0.41

0.43

0.43

0.49

0.47

75-25%

0.28

0.34

0.29

0.33

0.33

0.32

0.38

0.40

0.41

0.40

75-25%

0.15

-0.20

0.06

0.35

0.37

S

0.16

0.16

0.26

0.25

0.31

S

-0.66

-0.29

-0.43

-0.23

0.79

0.21

0.19

0.22

0.59

0.96

-1.11

-0.79

-1.08

-0.86

-0.11

Simetría Coef. de Coeficiente Curtosis

0.47

0.58

0.62

0.81

1.13

Simetría Coef. de Coeficiente Curtosis

0.15 1 955

0.20

0.25

0.30

0.35

0.40

0.45

0.50

1 985 sin Madrid sin Madrid simple ponderado

1 975

simple ponderado

1 965

Coeficiente de Variación sin observaciones atípicas: Madrid.

Gráfico 11. σ -convergencia

1 995

como no solo las diferencias entre ricos y pobres eran sustanciales, sino que tambien las pautas de comportamiento en el tiempo dentro de cada grupo eran notablemente diferentes.

La agrupación de provincias entre ricas y pobres exige un criterio de clasificación arbitrario lo que hace que los resultados puedan ser sensibles al criterio utilizado y por tanto poco robustos, no existe forma de escapar a este problema y optamos por utilizar un criterio fácilmente interpretable y que mantenga a las mismas provincias en ambos grupos a lo largo de todo el periodo analizado. Podríamos utilizar un criterio de localización espacial, ya que como observamos en la sección 4 la España rica tiene una configuración claramente geográfica, sin embargo hemos preferido emplear un criterio basado en un umbral de renta en el año inicial, 1955, de esta forma son definidas como ricas todas aquellas provincias que en 1955 tienen una renta per capita superior a la media nacional y como pobres todas aquellas provincias que en dicho año tienen una renta per capita inferior a dicha media. El resultado de aplicar dicho criterio se muestra en el cuadro 10, en el observamos que las denominadas provincias pobres son 35 y representan en 1955 un 60.87% del total de población, mientras que las provincias ricas son tan solo 15 pero representan el 39.13% de la población nacional. Esta agrupación se mantendrá a lo largo de todo el informe.

Cuadro 10 Obsérvese que puesto que el criterio mantiene fijas las provincias en cada grupo a lo largo del tiempo es posible observar transiciones si el mismo criterio hubiera sido aplicado año tras año, sin embargo estas no parecen ser numerosas para el conjunto del periodo según se ilustra en el cuadro 10, tan solo 4 provincias incluidas en el grupo inicial de pobres tenían en 1995 una renta per capita superior a la media nacional, Guadalajara, Burgos, Lérida y Huesca67, y sólo 2 provincias, Cantabria y Asturias, incluidas en el grupo inicial de ricos tenían en 1995 una renta per capita inferior a la media nacional; lo que no es constante, sin embargo, es la población subyacente a cada grupo, ya que en 1995 las provincias pobres representaban un 50.53% de la población mientras que las ricas habían incrementado su participación hasta el 49.47% del total.

67

Los valores para Las Palmas y Valladolid son en realidad ligeramente inferiores a la media nacional.

63

Cuadro 10: Provincias ricas versus provincias pobres Renta per capita normalizada Renta per capita 1955: Renta per capita 1995:

318.405 1,095.521

Provincia

Pobres 1955

1995

Cuenca Cáceres Jaén Avila Albacete Badajoz Orense Granada Almería Ciudad Real Lugo Toledo Soria Zamora Teruel Guadalajara Córdoba Murcia Málaga Salamanca Segovia Huelva Palencia La Coruña León SC de Tenerife Pontevedra Burgos Cádiz Lérida Las Palmas Huesca Sevilla Valladolid Alicante

0.51 0.52 0.52 0.52 0.53 0.54 0.54 0.57 0.57 0.57 0.58 0.58 0.62 0.63 0.63 0.68 0.69 0.71 0.72 0.73 0.73 0.74 0.76 0.76 0.76 0.78 0.79 0.79 0.80 0.86 0.91 0.92 0.93 0.96 0.96

0.71 0.81 0.64 0.79 0.70 0.61 0.76 0.62 0.74 0.77 0.74 0.85 0.92 0.73 0.99 1.17 0.67 0.84 0.75 0.89 0.90 0.83 0.95 0.86 0.81 0.99 0.86 1.09 0.70 1.14 1.00 1.02 0.72 1.00 0.93

42.78% 60.87%

41.13% 50.53%

Renta Población

Provincia Madrid Vizcaya Barcelona Guipúzcoa Alava Baleares Gerona Valencia Zaragoza Tarragona Navarra Cantabria Asturias La Rioja Castellón

Renta Población

Ricas 1955

1995

1.93 1.71 1.69 1.62 1.37 1.30 1.23 1.18 1.12 1.10 1.09 1.09 1.08 1.02 1.00

1.24 1.15 1.26 1.10 1.40 1.41 1.35 1.05 1.14 1.22 1.19 0.94 0.90 1.22 1.15

57.22% 39.13%

58.87% 49.47%

Nota: El criterio clasifica las provincias en ricas o pobres según su renta per capita sea superior o inferior a la media nacional en 1955.

A continuación calculamos los estadísticos descriptivos para los dos grupos de provincias, los resultados se ilustran en los cuadros A14, A15, A16 y A17 de forma exhaustiva y en los cuadros 11, 12, 13 y 14 de forma resumida.

Cuadros 11, 12, 13 y 14 La formación de dos grupos diferenciados permite examinar directamente si los niveles de renta per capita de ambos grupos han tendido a converger o no, es decir si se ha producido lo que podríamos denominar µ-convergencia, que no es más que el acercamiento de las rentas per capita medias de ambos grupos68, el gráfico 12 arroja luz sobre esta cuestión y nos indica como los valores medios de la renta per capita entre ricos y pobres han tendido a converger hasta principios de los 80, fecha a partir de la cual parece que se mantengan las distancias relativas entre ambos grupos de provincias, de esta forma el perfil mostrado por la µ-convergencia es similar al ilustrado por la σ-convergencia medida esta por el coeficiente de variación (gráfico 10 (i)), el mismo resultado se obtenía mediante la descomposición de los índices de desigualdad en Goerlich (1998). La mediana y los medios-rangos ilustran comportamientos similares aunque no totalmente uniformes en toda la distribución. Por otra parte podemos examinar la evolución de la dispersión o σ-convergencia dentro de ambos grupos y de esta forma tratar de entender mejor la evolución de la dispersión agregada (gráfico 10), el gráfico 13 ofrece el coeficiente de variación, simple y ponderado, para ambos grupos de provincias; llama poderosamente la atención que el comportamiento en cuanto a la dispersión de la distribución en ambos grupos no es uniforme, así podemos observar como para el conjunto del periodo tanto los pobres como los ricos disminuyen sus disparidades en términos de una medida de dispersión global, el coeficiente de variación, pero el grupo de provincias ricas lo hace solamente hasta principios de los 80, estabilizándose o incluso mostrando síntomas de divergencia a partir de entonces; por el contrario el grupo de provincias pobres presenta una reducción de sus

La relación entre la dispersión en la distribución, medida a través de la denominada σ-convergencia, y la convergencia en media, tiene relación tambien con el concepto de β-convergencia, que será analizado en la sección siguiente.

68

64

361.013

592.658

677.715

922.620

1,965

1,975

1,985

1,995

0.17

0.17

0.20

0.20

0.20

Coef. Variación

Badajoz

665.089

Badajoz

483.561

Badajoz

407.290

Badajoz

260.449

Cuenca

z

0.61

0.58

0.53

0.52

0.51

Mínimo

160.878

x

0.75

0.74

0.73

0.71

0.66

0.62

0.62

0.59

0.60

0.57

25%

0.84

0.83

0.82

0.80

0.76

0.76

0.72

0.73

0.70

0.71

0.94

0.94

0.91

0.95

0.87

0.87

0.82

0.81

0.79

0.78

Quantiles Mediana 75%

1.17

1.10

1.09

1.06

0.96

z

Guadalajara

1,279.225

Lérida

906.784

Huesca

848.653

Lérida

528.827

Alicante

304.871

Maximo x

361.670

593.509

669.520

891.803

1,965

1,975

1,985

1,995

0.16

0.17

0.19

0.19

0.20

Coef. Variación

0.61

3.34%

665.089

3.41%

Badajoz

0.58

483.561

3.70%

Badajoz

0.53

407.290

4.32%

Badajoz

0.52

260.449

1.85%

Badajoz

0.51

z

Cuenca

Mínimo

160.878

x

0.73

0.72

0.72

0.72

0.67

0.63

0.63

0.59

0.61

0.57

25%

0.81

0.80

0.81

0.80

0.77

0.78

0.72

0.73

0.70

0.72

0.90

0.90

0.90

0.91

0.86

0.85

0.82

0.81

0.80

0.79

Quantiles Mediana 75%

0.78%

1.17

1.85%

1.10

1.20%

1.09

1.88%

1.06

3.78%

0.96

z

Guadalajara

1,279.225

Lérida

906.784

Huesca

848.653

Lérida

528.827

Alicante

304.871

Maximo x

Nota: Las magnitudes absolutas están en miles de pesetas de 1986. El criterio clasifica como pobres a aquellas provincias que en 1955 tienen una renta per capita inferior a la media nacional.

223.797

1,955

Media x

972.157

695.173

627.971

394.638

0.89

0.84

0.81

0.79

0.73

0.84

0.83

0.75

0.70

0.67

Medios-Rangos z 25-75%

232.874

x

614.136

423.223

441.363

268.378

143.993

x

972.157

695.173

627.971

394.638

0.89

0.84

0.81

0.79

0.73

0.81

0.81

0.74

0.70

0.68

Medios-Rangos z 25-75%

232.874

x

614.136

423.223

441.363

268.378

143.993

x

Cuadro 12: Estadísticos descriptivos ponderados: Provincias pobres

Nota: Las magnitudes absolutas están en miles de pesetas de 1986. El criterio clasifica como pobres a aquellas provincias que en 1955 tienen una renta per capita inferior a la media nacional.

221.662

1,955

Media x

Cuadro 11: Estadísticos descriptivos simples: Provincias pobres

0.56

0.51

0.57

0.54

0.45

Rangos z

0.56

0.51

0.57

0.54

0.45

Rangos z

0.18

0.18

0.18

0.18

0.19

0.22

0.19

0.22

0.19

0.22

75-25%

0.19

0.20

0.19

0.24

0.20

0.25

0.20

0.22

0.19

0.21

75-25%

0.07

0.09

-0.10

-0.06

-0.10

S

0.10

0.17

0.04

-0.03

-0.10

S

-0.53

-1.00

-0.74

-0.54

-0.98

0.49

0.37

0.14

0.34

0.27

-0.33

-0.86

-0.70

-0.61

-1.05

Simetría Coef. de Coeficiente Curtosis

0.44

0.35

0.38

0.50

0.34

Simetría Coef. de Coeficiente Curtosis

627.175

932.531

979.399

1,294.082

1,965

1,975

1,985

1,995

0.12

0.12

0.14

0.17

0.22

Coef. Variación

Asturias

989.845

Cantabria

824.233

Cantabria

779.010

Castellón

481.027

Castellón

z

0.90

1.00

1.00

0.96

1.00

Mínimo

318.409

x

1.09

1.12

1.09

1.08

1.09

1.02

1.11

1.08

1.11

1.09

25%

1.18

1.19

1.18

1.13

1.20

1.29

1.26

1.14

1.30

1.18

1.28

1.25

1.28

1.30

1.32

1.33

1.40

1.47

1.49

1.49

Quantiles Mediana 75%

1.41

1.48

1.49

1.65

1.93

z

Baleares

1,547.718

Baleares

1,225.137

Alava

1,158.058

Madrid

824.554

Madrid

614.786

Maximo x

1,268.782

679.283

967.287

985.189

1,303.567

1,965

1,975

1,985

1,995

0.10

0.10

0.13

0.17

0.23

Coef. Variación

0.90

5.57%

989.845

2.75%

Asturias

1.00

824.233

2.83%

Cantabria

1.00

779.010

2.61%

Cantabria

0.96

481.027

2.92%

Castellón

1.00

z

318.409

Mínimo

Castellón

x

1.11

1.13

1.11

1.09

1.14

1.03

1.20

1.10

1.23

1.12

25%

1.16

1.24

1.25

1.31

1.18

1.19

1.18

1.27

1.29

1.19

1.24

1.19

1.21

1.25

1.31

1.36

1.48

1.46

1.53

1.27

1.26

1.27

1.27

1.35

1.40

1.52

1.51

1.69

1.70

Quantiles Mediana 75%

3.75%

1.41

3.49%

1.48

1.31%

1.49

21.70%

1.65

19.44%

1.93

z

Baleares

1,547.718

Baleares

1,225.137

Alava

1,158.058

Madrid

824.554

Madrid

614.786

Maximo x

1,268.782

1,024.685

968.534

652.791

1.16

1.24

1.25

1.31

1.47

1.20

1.18

1.22

1.30

1.41

Medios-Rangos z 25-75%

466.597

x

x

557.873

400.905

379.048

343.527

296.377

x

557.873

400.905

379.048

343.527

296.377

Cuadro 14: Estadísticos descriptivos ponderados: Provincias ricas

Nota: Las magnitudes absolutas están en miles de pesetas de 1986. El criterio clasifica como ricas a aquellas provincias que en 1955 tienen una renta per capita superior a la media nacional.

465.559

1,955

Media x

968.534

652.791

1.47

Medios-Rangos z 25-75%

466.597

x

1,024.685

Nota: Las magnitudes absolutas están en miles de pesetas de 1986. El criterio clasifica como ricas a aquellas provincias que en 1955 tienen una renta per capita superior a la media nacional.

414.134

1,955

Media x

Cuadro 13: Estadísticos descriptivos simples: Provincias ricas

0.51

0.48

0.49

0.69

0.93

Rangos z

0.51

0.48

0.49

0.69

0.93

Rangos z

0.16

0.13

0.16

0.18

0.21

0.37

0.32

0.41

0.45

0.58

75-25%

0.19

0.13

0.20

0.22

0.23

0.30

0.29

0.39

0.38

0.40

75-25%

-0.40

-0.20

-0.38

-0.50

-0.20

S

-0.06

0.35

-0.50

0.55

0.43

S

-0.46

-0.89

-1.55

-1.35

-0.57

-0.80

0.12

-0.56

-0.26

0.09

0.44

-0.51

-1.29

-1.51

-1.63

Simetría Coef. de Coeficiente Curtosis

-0.24

0.56

0.10

0.33

0.89

Simetría Coef. de Coeficiente Curtosis

disparidades mucho más lenta, pero sin embargo más continuada a lo largo de todo el periodo. Estos resultados apoyan la interpretación de que la evolución del coeficiente de variación agregado (gráfico 10 (i)) está dominado fundamentalmente por el grupo de provincias ricas, junto con el acercamiento en los niveles medios de la renta per capita en ambos grupos (gráfico 12), de forma que el estancamiento en la convergencia observado en las últimas dos décadas parece deberse al estancamiento entre los ricos, los pobres continúan convergiendo lenta y paulatinamente. Esta ilustración apoya la idea ya señalada de que la reducción de las disparidades en renta per capita provincial tiende a estancarse por arriba a finales de los 70, pero por debajo la reducción es continuada a lo largo de todo el periodo. Una observación detallada de los rangos de diversos órdenes en ambos grupos de provincias ilustran que el coefciente de variación no es representativo de lo que pasa en todo el rango de la distribución, donde observamos comportamientos no uniformes; así por ejemplo para el grupo de provincias clasificadas como pobres observamos una tendencia hacia la reducción de la dispersión en el 80% de la distribución comprendido entre los deciles 0.1 y 0.9, pero un incremento de la dispersión en términos de los extremos, por el contrario el grupo de provincias ricas registra una reducción general en todos sus rangos, si bien el comportamiento es diferenciado por periodos.

Gráficos 12 y 13

5.5 Un comentario sobre la transformación logarítmica. Entre los estadísticos analizados en el epígrafe 3 destaca el hecho de que no hemos incluido la varianza de los logaritmos como medida de dispersión, o más concretamente la desviación típica de los logaritmos, a pesar de que este es el estadístico más frecuentemente utilizado por la literatura del crecimiento para medir el concepto de σconvergencia69 y que como ya señalamos en Goerlich (1998) constituye una medida habitual de desigualdad al ser independiente de la escala. Su definición es sencilla y simplemente consiste en aplicar el concepto de varianza o desviación típica al logaritmo70 de nuestra variable de interés: De hecho Barro y Sala-i-Martín (1995, Cap.-11.1,p.-383-387) identifican el concepto de σ-convergencia con el de la desviación típica del logaritmo de la renta per capita. 70 Todos los logaritmos considerados son logaritmos neperianos. 69

65

0.6 1 955

0.8

1.0

1.2

1.4

1.6

1 965

Pobres

1 975 Ricos

1 985

1 995

Convergencia en niveles: Renta per capita media, ricos versus pobres

Gráfico 12. µ-convergencia

0.08 1 955

0.10

0.12

0.14

0.16

0.18

0.20

0.22

0.24

1 975

Ricos

1 985

simple ponderado simple ponderado

1 965 Pobres

Coeficiente de Variación: Ricos y pobres

Gráfico 13. σ -convergencia

1 995

ponderada

VARIANZA DE LOS

simple

n ~ 2 ~ )2 Var (log x ) = Σ i=1 (log xi − log x ) (27) Varω (log x ) = Σ in=1 pi (log xi − log µ n

LOGARITMOS:

~ = Σ n p log x y log ~ donde log µ x= i =1 i i

Σ in=1 log xi son el logaritmo de la media geométrica, n

ponderada o simple respectivamente. En consecuencia la desviación típica de los logaritmos se define como

DESVIACION TIPICA DE LOS

ponderada

simple

SDω (log x ) = + Varω (log x )

SD(log x ) = + Var (log x )

(28)

LOGARITMOS:

La razón de tal omisión es deliberada y responde al hecho de que lo que prentendemos analizar es la distribución de x, φ(x), no la distribución del logaritmo de x, φ(log x). Aunque evidentemente las dos distribuciones están relacionadas no constituyen el mismo objeto de estudio y no nos parece razonable tratar de caracterizar φ(x) por medio de la transformación logarítmica de x. Ciertamente la transformación logarítmica tiene propiedades útiles y muy deseables en ciertos contextos, por ejemplo, (i) la transformación logarítmica es monótonamente creciente y por tanto mantiene el ranking entre observaciones, (ii) los modelos teóricos son más facilmente resolubles mediante aproximaciones logarítmico lineales en torno al estado estacionario (Barro y Sala-i-Martín (1995)) y en consecuencia SD(log x ) puede tener un sentido concreto en un modelo particular, (iii) si log x tuviera una distribución normal entonces la distribución de x sería lognormal (Aitchison y Brown (1957), Nelson (1973, Cap.-6.7)) y esta es una distribución frecuentemente utilizada en el análisis de la distribución personal de la renta y la riqueza por algunas de sus especiales características (Cowell (1995)), (iv) si la dispersión en una variable es proporcional al nivel de la misma la transformación logarítmica estabiliza la varianza y reduce problemas de heterocedasticidad

66

(Spanos (1986, p.-487)), esta es una de las razones por la que la transformación logarítmica es tan popular en econometría aplicada, y (v) los logarítmos tienen una clara justificación en la literatura sobre índices de desigualdad, donde normalmente se desea dar más importancia a las transferencias de renta en el extremo inferior de la distribución, discriminando de esta forma positivamente hacia los pobres (Villar (sin fecha, p.-13)), sin embargo este no tiene por que ser el caso en el tema de la convergencia.

Es cierto que la transformación logarítmica libra a los estadísticos de las unidades de medida y los hace independientes de la escala, sin embargo no encontramos ninguna clara ventaja en esta transformación como forma de caracterizar φ(x), la reducción de los problemas de heterocedasticidad puede ser más un inconveniente que una ventaja al enmascarar características importantes en la evolución de φ(x) en el tiempo, especialmente en el extremo superior de la distribución; por otra parte no estamos interesados en discriminar a favor o en contra de la reducción en la dispersión en determinadas partes de la distribución y perdemos claramente intuición, ya que podemos examinar el rango de nuestra variable pero no está muy claro el significado que debemos otorgar a los logaritmos de las observaciones extremas de nuestra muestra. Sin embargo la razón más importante que encontramos para no utilizar la desviación típica de los logaritmos como medida de dispersión, al menos en un sentido único, es que como es bien conocido no verifica el principio de las transferencias de Pigou (1912)-Dalton (1920) (Cowell (1995, p.-149), por lo que tal y como han puntualizado acertamente Foster y Ok (1999) es posible encontrar casos de relevancia práctica en los que una reducción en la dispersión global en la distribución, en el sentido de dominancia de Lorenz (1905), vayan acompañados de un incremento en SD(log x ) .

Debemos observar además algunas peculiaridades de interés asociadas a esta medida. En primer lugar, tal y como ha sido utilizada por la literatura del crecimiento, se utiliza siempre la versión no ponderada del estadístico, por lo que implícitamente esta literatura está interesada en la distribución de la renta per capita de los países o las regiones y no de la población subyacente a los mismos. En segundo lugar el estadístico ponderado utiliza como ponderación para log xi la misma que para xi, lo que hace perder de

67

nuevo intuición y sugiere una agregación por medias geométricas en lugar de por medias aritméticas (Attanasio y Weber (1993)), sin embargo la media del agregado, que es ~ . Esta es la razón por la que en observable, es la media artimética, µ, no la geométrica, µ ocasiones la desviación de los logaritmos de x se realiza respecto al logaritmo de la media ~; aritmética, log µ, en lugar de respecto del logaritmo de la media geométrica, log µ generando de esta forma una medida alternativa de dispersión, la denominada varianza logarítmica (Cowell (1995), Goerlich (1998))71; sin embargo esta medida tampoco verifica el principio de las transferencias de Pigou (1912)-Dalton (1920) (Cowell (1995, p.-149)) y no será considerada.

En cualquier caso y a efectos comparativos se ha calculado la desviación típica de los logaritmos, simple y ponderada, para la renta per capita provincial; los resultados se ofrecen de forma exhaustiva en el cuadro A18 y de forma resumida en el cuadro 15, finalmente el gráfico 14 ofrece una impresión visual de los resultados. Podemos observar claramente como para nuestro conjunto de datos ambos estadísticos, ya se calculen de forma simple o ponderada, proporcionan la misma intuición acerca de la dispersión en nuestra variable, tendencia decreciente hasta finales de los 70 y estabilización a partir de entonces.

Cuadro 15 y Gráfico 14 Obsérvese que en términos cuantitativos los valores de la desviación típica de los logarítmos son similares a los valores del coeficiente de variación de los valores originales. En este sentido se puede demostrar que si la distribución de la renta per capita, x, fuera log-normal entonces log(1 + CV(x)2) = Var(log x), por lo que existe una relación uno a uno entre ambas medidas de dispersión (Aitchison y Brown (1957), Nelson (1973), Hart (1995)). En este caso ambos estadísticos proporcionan la misma información. Aitchison y

71

~ no es equivalente a considerar Obsérvese que centrar los logaritmos de xi en log µ en lugar de en log µ

Varω (log z i ) , ya que por definición Varω (log z i ) = Varω (log x i ) , independientemente de las ponderaciones. La varianza logarítmica quedaría definida en términos de los momentos centrales como Σ n (log x i − log x )2 µ 2 (log x , log µ ) = Σ in=1 pi (log x i − log µ )2 en el caso ponderado, y como m2 (log x , log x ) = i =1 n en el caso simple.

68

Cuadro 15: Desviación típica del logaritmo versus coeficiente de variación

1,955 1,965 1,975 1,985 1,995

Coeficiente de Variación simple ponderado

Desviación típica del logaritmo simple ponderado

0.3855 0.3365 0.2848 0.2357 0.2234

0.3479 0.3188 0.2794 0.2322 0.2220

0.4403 0.3668 0.2833 0.2292 0.2252

0.4138 0.3659 0.2975 0.2399 0.2352

0.10 1 955

0.20

0.30

0.40

0.50

0.60

0.70

simple ponderado simple ponderado

1 965 1 975Desviación típica 1 985 Coeficiente de Variación del logaritmo

Coeficiente de Variación versus Desviación Típica del logaritmo.

Gráfico 14. σ -convergencia

1 995

Brown (1957) Tabla A.1, p.-154 tabulan para la distribución log-normal la relación entre CV(x) y SD(log x) y resulta curioso observar como para el rango de valores en los que estos estadísticos se mueven en el cuadro A18 nuestros datos satisfacen aproximadamente la relación anterior, lo que puede tomarse como evidencia de que la distribución de x es, al menos aproximadamente, log-normal, una cuestión que será retomada en la sección 7.

Sin embargo la transformación logarítmica aunque no altere en este caso nuestra visión acerca de la σ-convergencia, si altera características importantes que podemos inferir acerca de φ(x) de los estadísticos calculados, por ejemplo la transformación logarítmica, al comprimir la escala de la variable tiene éxito en eliminar las observaciones atípicas, ninguna provincia aparece como outlier en ningún año, ni en términos simples ni en términos ponderados, esto puede ser una clara ventaja en ciertos contextos, por ejemplo en el análisis de regresión de las secciones 3 y 6, pero es en realidad un inconveniente en términos de la caracterización de φ(x), ya que podemos perder algunas de las características importantes de la distribución de nuestra variable, y el enmascaramiento de los outliers puede ser una de ellas72.

En este sentido la desviación típica de los logaritmos no proporcionan ninguna ventaja adicional sobre el coeficiente de variación como medida de dispersión invariante respecto a la escala, y aunque útil en ciertos contextos no parece presentar ventajas si lo que pretendemos es caracterizar la distribución de una variable, x o z en nuestro caso.

5.6 A modo de resumen: “Box-plots”. Ofrecemos en este epígrafe una forma gráfica y conveniente de resumir gran parte de la información suministrada por los estádisticos descriptivos que hemos ido calculando en esta sección, los denominados diagramas de caja o box-plots que proporcionan una forma rápida de examinar los datos.

72

En este sentido, por ejemplo, el ejercicio de Gardeazabal (1996) puede no proporcionar los mismos resultados si no tomamos logaritmos.

69

Un box-plot no es más que una representación plana de algunas de las características más sobresalientes de un conjunto de datos. Proporciona información que está a medio camino entre los estadísticos descriptivos y una representación de un histograma, su principal ventaja es que dado que es una representación plana pueden observarse simultáneamente varios box-plots en un mismo gráfico lo que permite el estudio dinámico de la evolución de algunas características importantes de la distribución de la variable en cuestión, por ejemplo existencia, aparición o desaparición de outliers, dispersión o concentración de los datos, así como la simetría o asimetría de la distribución. De hecho una de las utilidades básicas de los box-plots es el análisis gráfico de outliers.

A continuación describimos un box-plot estándar, que adopta la definición de outliers basada en el rango inter-cuartílico y examinada en el epígrafe 5.4, existen otros tipos de box-plots más completos o que adoptan otra definición de las observaciones atípicas pero no serán utilizados en este informe (Tukey (1977), McGill, Tukey y Larsen (1978), Velleman y Hoaglin (1981), Mills (1990, Cap.-3, Sec.-3.4), Cleveland (1993), Everitt (1994)).

Un box-plot, con todos sus elementos, puede examinarse en el gráfico 15. El eje horizontal carece de sentido y simplemente representa cada variable en cuestión, mientras que el eje vertical representa la escala de la variable, la renta per capita normalizada en nuestro caso. El cuadrado o caja, box, representa el rango inter-cuartílico, el cuartíl 0.75, ξ .75 , constituye la parte superior y el cuartíl 0.25, ξ.25 , constituye la parte inferior del cuadrado. Por construcción dentro del box está contenido el 50% de la masa de probabilidad de la distribución. La altura del box representa, por tanto, el rango intercuartílico, que como ya hemos indicado constituye una medida de dispersión habitual. Un rango inter-cuartílico mayor se visualizará mediante un box de mayor altura indicando que el 50% de la densidad de x está relativamente dispersa. Por el contrario, un rango intercuartílico menor se visualizará mediante un box de más corto, e indica que el 50% de la densidad de x está relativamente concentrada.

Gráfico 15

70

Escala de la variable

Variable

x

}

Outliers inferiores

Valor adyacente inferior

ξ.25

Media

Mediana

ξ.75

Outliers superiores Valor adyacente superior

Gráfico 15. Box-Plot

La linea horizontal dentro del box, es la mediana o cuartíl 0.50. Una medida de posición de la distribución de la variable. La localización de esta línea respecto a los límites superiores o inferiores del box proporciona información gráfica sobre la forma de la distribución, si la mediana no está en el centro del box la distribución es asimétrica. En el caso del gráfico 15 existe evidencia de asimetría hacia la izquierda, es decir hacia la parte inferior de la distribución. En ocasiones la linea que representa la mediana se complementa con una indicación de la media, una x en el gráfico 15; la relación entre la mediana y la media proporciona evidencia adicional sobre la simetría de la distribución, así en nuestro ejemplo del gráfico 15 la distancia entre la media y la mediana refuerza la evidencia sobre la asimetría mencionada anteriormente.

Dos lineas verticales aparecen en los límites superior e inferior del box, el final de estas lineas, dibujadas de forma horizontal, se conoce como valor adyacente, superior e inferior respectivamente. A partir del rango inter-cuartílico, R(ξ.25), el valor adyacente superior se define como el valor observado de la variable representada no mayor que ξ.75 + 15 . xR( ξ.25 ) , y el valor adyacente inferior como el valor observado de la variable representada no menor que ξ.25 − 15 . xR( ξ.25 ) . La máxima longitud entre valores adyacentes vendrá dada por el intervalo [ ξ.25 − 15 . xR( ξ.25 ) , ξ.75 + 15 . xR( ξ.25 )] pero en general presentará un recorrido menor ya que dentro de este intervalo buscaremos las observaciones extremas para determinar dichos valores. Los valores adyacentes son, por tanto, estadísticos de orden, x(s), que se corresponden con observaciones actuales de la variable en cuestión y que cubren el rango de observaciones que no consideraremos como outliers.

Finalmente, las observaciones más allá de los valores adyacentes son los outliers, superiores si son mayores que el valor adyacente superior, e inferiores si son menores que el valor adyacente inferior. Estos valores son representados de forma individual por pequeñas lineas horizontales, así en el ejemplo del gráfico 15 podemos observar 3 outliers superiores y 2 inferiores. Los valores adyacentes cumplen de esta forma una doble misión, por una parte nos delimitan el rango de observaciones que no consideraremos como atípicas y por otra nos indican la distancia entre los valores extremos de dichas observaciones y los outliers, lo que permite observar la lejanía o proximidad de

71

los mismos respecto a la mayor parte de la distribución. Es posible que no existan outliers, de forma que los valores adyacentes sean en realidad los valores extremos del conjunto de observaciones, el máximo y/o el mínimo de la distribución. Las diferentes posibilidades pueden examinarse en el gráfico 16.

Obviamente los box-plots pueden calcularse a partir de estadísticos simples o ponderados si bien en este último caso la existencia de observaciones atípicas no nos dice nada acerca de la masa de probabilidad asociada a dichas observaciones. En este caso se impone un tratamiento individualizado de los outliers. En resumen, dado el R(ξ.25), obtenido a partir de ξ.25 y ξ.75, calculamos el intervalo

[ξ.25 − 15. xR( ξ.25 ) , ξ.75 + 15. xR( ξ.25 )]

y determinamos los valores observados máximo y

mínimo dentro de dicho intervalo, estos valores constituyen los valores adyacentes, superior e inferior respectivamente. Todas las observaciones que caen fuera de dicho intervalo son considerados outliers. Los outliers se definen pues como aquellos valores que caen fuera de 1.5 veces R(ξ.25) por encima y por debajo del mismo. Por construcción si no existen outliers los valores adyacentes son los estadísticos de valor extremo de la distribución, y en este caso la distancia entre valores adyacentes representa el rango de las observaciones, R(x), otra medida de dispersión. En consecuencia los box-plots resumen gran parte de la información ofrecida anteriormente y son útiles fundamentalmente por dos motivos; (i) para la determinación y evolución de los outliers, y (ii) en relación al estudio de la dispersión o concentración de la distribución, más exactamente del 50% de la densidad de probabilidad asociada al R(ξ.25).

En la práctica se representan varios box-plots correspondientes a diferentes variables en un mismo gráfico de forma que podemos observar rápidamente las características principales de los datos, así como las diferencias entre variables. El gráfico 16 contiene box-plots para cuatro variables que cubren todos los casos posibles de relevancia práctica. Para la variable 1 observamos outliers, tanto superiores como inferiores, sin embargo mientras los outliers inferiores se encuentran relativamente cerca de su valor adyacente los outliers superiores están mucho más distanciados del valor adyacente superior lo que indica una mayor singularidad en estas observaciones. Para la

72

variable 2 sólo se observan outliers inferiores de forma que el valor adyacente superior se corresponde con el máximo de los valores observados, x(n); por el contrario para la variable 3 sólo se observan outliers superiores de forma que el valor adyacente inferior se corresponde con el mínimo de los valores observados, x(1). Finalmente para la variable 4 no se observan observaciones atípicas por lo que los valores adyacentes son en realidad el valor máximo y mínimo de la variable, x(n) y x(1), de esta forma observamos el rango de la variable. Dejando al margen los outliers sólo la variable 1 parece presentar una cierta asimetría hacia la derecha.

Gráfico 16

Resultados Los gráficos 17 y 18 ofrecen los box-plots simples y ponderados para la variable z y los años de referencia, ellos resumen convenientemente muchas de las características de nuestros datos mencionadas en epígrafes anteriores. En concreto podemos observar el outlier Madrid al principio del periodo que desaparece posteriormente, la asímetría hacia la derecha en la distribución que va eliminándose poco a poco, la mayor dispersión observada en términos de los estadísticos ponderados frente a los simples y la notable reducción en el rango de la distribución, que como ya hemos mencionado se observa que tiene lugar fundamentalmente por el extremo superior de la distribución, por lo tanto gran parte de la reducción en la dispersión global tiene lugar por un acercamiento hacia la media de los valores extremos, especialmente los situados en la cola de la derecha, la convergencia por la cola izquierda resulta ser más lenta, pero como ya mencionamos anteriormente más continua, en cualquier caso la convergencia de los extremos no parece haberse detenido, lo que no parece suceder con el 50% de la distribución comprendida dentro del R(ξ.25). La afirmación de Quah (1996c, p.-17) de que para España la dispersión va a la par con el crecimiento y por tanto que la distribución de la renta simplemente replica la escala parece

73

150 10

200 20

250 30

-30 0

-20 50

-10 100

Escala

VARIABLE_2

Variable 2

Variable 1

x

VARIABLE_1

x

Variable 3

VARIABLE_3

x

Variable 4

VARIABLE_4

x

Gráfico 16. Box-Plots - Ejemplos

estar limitada en el tiempo y no parece ser una conclusión válida en general, ya que Quah (1996c) sólo analiza la década de los 8073.

Gráficos 17 y 18 De esta forma una rápida mirada a estos gráficos permite observar algunas de las características más importantes de los datos.

73

Es necesario tener en cuenta, además, que los datos utilizados por Quah (1996c) no son directamente comparables con los nuestros; su apéndice de datos es bastante confuso y las fuentes no están descritas con precisión.

74

0.50 0.50

0.75 0.75

1.00 1.00

1.25 1.25

1.50 1.50

1.75 1.75

2.00 2.00

1955

x

RPC55M1

Madrid

1965

RPC65M1

x

1975

RPC75M1

x

1985

x

RPC85M1

Renta per capita normalizada

Gráfico 17. Box-Plots simples

1995

RPC95M1

x

0.50 0.50

0.75 0.75

1.00 1.00

1.25 1.25

1.50 1.50

1.75 1.75

2.00 2.00

1955

x

RPC55M1

Madrid

1965

RPC65M1

x

1975

RPC75M1

x

1985

RPC85M1

x

Renta per capita normalizada

1995

x

RPC95M1

Gráfico 18. Box-Plots ponderados