Story Transcript
Regresi6n multiple Esquema del capitulo 13.1.
EJ modele de regresion multiple Especificaci6n del modele Desarrollo del modele Graficos tridimensionales
13.2.
Estimaci6n de coeficienles
13.3. 13.4.
13.5.
Metoda de minimos cuadrados Poder explicativo de una ecuaci6n de regresi6n multiple Intervalos d e confianza y conlrastes de hip6tesis de coeficientes de regresion individuales Intervalos de confianza Contrastes de hip6tesis Contrastes de los coeficientes de regresi6n
Contrastes de lodos los coeficientes Contraste de un conjunto de coeficientes de regresi6n Comparaci6n de los contrastes F y t
13.6. 13.7.
Predicci6n Transformaciones de modelos de regresion no lineales
Transformaciones de modelos cuadralicos 13.8. 13.9.
Transformaciones logaritmicas Utilizaci6n de variables ficticias en modelos de regresi6n Diferencias entre las pendientes Metodo de aplicaci6n del analisis de regresi6n multiple Especificaci6n del modelo Regresi6n multiple Efecto de la eliminaci6n de una variable estadfsticamente significativa Analisis de los residuos
Introducci6n En el Capitulo 12 presentamos el metodo de regresi6n simple para obtener una ecuaci6n li neal que predice una variable dependiente 0 end6gena en funci6n de una unica variable independiente 0 ex6gena; por ejemplo, el numero total de art fculos vendidos en funci6n del precio. Sin embargo. en muchas situaciones, varias variables independ ientes influyen conjuntamente en una variable dependiente. La regresi6n multiple nos permite averiguar el efecto simultaneo de varias variables independientes en una variable dependiente utilizando el principio de los minimos cuadrados.
488
Estadfstica para administraci6n y economfa
Existen muchas aplicaciones importantes de la regresion multiple en al mundo de la emprasa y an la eeonomia. Entre estas aplicaciones se encuentran las siguientes:
1. La cantidad vendida de bianes es una funcion del precio, la renta, la publicidad, 2.
3. 4.
el precio de los bienes sustitutivos y otras variables. Existe inversion de capital cuando un empresario cree que puede obtaner un beneficia. Par 10 tanto, la inversion de capital es una tuncion de variables rel acionadas can las posibilidades de obtener beneficios , entre las que se encuenlran el tipo de interes, el producto interior bruto, las expectativas de los consumidores, la renta disponible y el nivel tecnol6gica. EI salano es una funcion de la experiencia, la educacion, la edad y el puesto de trabaja. Las grandes empresas del comercio al par menor y Ja hostelerfa deciden Ja localizacion de los nuevas establecimientos basandose en los ingresos previstos por ventas y/o en la rentabilidad. Utilizanda datos de localizaciones anteriores que han tenido exito y que no 10 han tenido, los analistas pueden construir modelos que predicen las vantas a los beneficios de una nueva 10calizaci6n posible.
EI analisis eeonomico y empresarial lien e algunas caracterfsticas unicas en comparaci6n can el analisis de olras disciplinas. Los cientificos naturales trabajan en un laboratorio en el que es posible controlar muchas variables, pero no todas . En cambia, eJ laboratorio del economista y del directiva as el mundo y las cond iciones no pueden controlarse. Por 10 tanto, necesitan instrumentos como la regresion multiple para eslimar el afeelo simultaneo de varias variables. La regresion mUltiple como «instrumenta de labarataria » as muy importante para el trabajo de los directivos y de los economistas. En esta capitulo ve remos muchas aplicaciones especificas en los ejemplos y los ejercicios . Los metodos para ajustar modelos de regresion multiple se basan en el mismo principia de los minimos cuadrados que aprendimos en el Capitu lo 12 y, par 10 tanto, las ideas presentadas en ese cap itulo se axtenderan directamente a la regresi6n multiple. Sin embargo, se intraducen algunas complejidades debido a las relaeiones entre las distintas variables ex6genas. Estas requieren nuevas ideas que se desarrollan en este capitulo.
13.1. EI modelo de regresion multi Ie N uestro objetivo es aprender a utilizar la regresi6n multiple para crear y analizar model os. Por 10 l anto, aprendemos co mo funciona la regresi6n multiple y alg unas directrices para i nlerpretaria. Comprendi endo perfectamente la regresi6 n multiple, es posible reso l ver una umplia variedad de problemas ap licac1os. Este estudio de los metodos de regresi6 n m(lItiple es paralelo al de la rcgresi6n simple. El primer paso para desarrol1ar un modele es la cs peeifieaci6 n de ese modelo, que consistc en la selecei6 n de las variables del modelo y de 13 forma del modelo. A conlinuaci6n, se estudia el metoda de millimos euadrados y se allali ~ za la variabilidad para identificar los efeetos de cada una de las va riables de predi cci6n . Despues se eswd ia 13 estimac ion, los inLervalos de confianza y cl contraste de hi potesis. Se uti l izan frecuentemenle apli cae iones informalicas para indicar como se apl ica la leOrla a problemas real istas. EI estud io de este capItulo sera mas facil si se ponen ell relaci6n sus ideas COil las que presenlamos en el CapItulo 12.
Especificacion del modelo Comenzamos con una ap li cac i6n que ill/stm la importante tarea de la espec ificaci6n del modele de regres i6n. L a espec i fi caci6 n del modelo cons iste en la selecc i6n de las variables ex6gcnas y l a forma funcional del mode 10.
Capitulo 13.
Regresi6n multiple
489
EJEMPLO 13.1. Proceso de produccion (especificacion del modelo de regresion) EI director de produccion de CircuilOs Flexibles. S.A., Ie ha pedido aYllda para estlldiar un proceso de produccion. Los circlli tos fle xibles se producen con un rollo con tinuo de resina flex ible que lleva adherida a su su perficie una Fina peifcll la de material conductor hecho de cobrc. El cobre se adhiere a la resina pasando la res ina por una solucion de cobre. EI grosor del cobre es fu ndamenta l para que los circuilos sean de buena calidad. Depende en parte de In temperatura de la so luci6n de cobre, de la velocidad de la [fnea de produccion, de la densi.dad de la soluc i6n Y del grosor de la resina flexib le. Para controlar el grosor del cebre adheride a la superficie, el director de producci6n necesi ta saber que efecto produce cada una de estas variables. Le ha ped ido ayuda para desarrollar un modele de regresion mu ltiple.
Solucion La regres ion multiple puede uti lizarsc para hacer cstimaciones de l efecto que produce cada variable en combinacion con las demas. El desan·ollo del modelo comienza con un ana lisis detenido de l contexto del problema. El primer paso en este ejemplo serfa una extensa conversacion con los ingenieros responsab les del disefio del producto Y de la produccion, con el fin de comprender detall adamente el proceso de l que se pretende desarrollar un modelo. En algu nos casos, se estud iarfa la literatura existente sabre el proceso. Este debe ser comprendido y aceptado per todos los interesados antes de poder desarrell ar Ull modelo util ut ilizando el anal is is de regresion mUltiple. En eSle ejemplo, la variable de pendiente, Y, es el greso!" del cobrc. Las valiables independientes son la temperatura de 1a solucio n de cobre. XI: la velocidad de la lfnea de produccion, X2; la dcnsidad de la solucion, XJ • y el grosor de la res ina fle xible, X4 . Los ingenieros y los cientfficos que comprendfan la tecnologfa de l proceso de recubrimiento identificaron estas variables como posibles predictores del grosor del cobre, Y. Basandose en el estudio del proceso, la especificacion del modele resu ltante es y ~ flo
+ {!,X, + {!2X, + P3X, + fi,X,
En el modelo lineal anterior, las Ii; son coeficienles lineales conSlanles de las Xj que indican el efecto condicionado de cada variable independienle en la determinacion de la variable dependieme, Y, en la poblacion. Por 10 tanIo, las P; son parametros en el modelo de regres i6n Itneal. A continuacion, se producirfa una serie de lotes para haccr mediciones de distintas combi naciones de las variables independientes y la variable depend icnte (vcasc el anaJi sis del diseno experimenta l en el apartado 14.2). EJEMPLO 13.2. Localizac ion de las l iendas (especificacion del modelo) El director de plani ficac i6n de una gran cadena dt{ comercio al por menor estaba insatisfecho con su experienc ia en la apel1ura de nuevas tiendas. En los cuatro ult imos afios, el 25 por ciento de las nuevas tiendas no habfa conseguido las ventas prev istas en e1 periodo de pmeba de dos afios y se habfa ccrrado con cuantiosas perdidas econ6mkas. El director querfa desarro ll ar mejores crilerios para elegir el empi azam iento de las tiendas y llego a la conclusion de que debfa estudiarse la experiencia hi st6rica de las tiendas que habfan tenido exi to y las que habfan fracasado.
490
Esladfslica para adminislraci6n y economia
Solucion Hablando con un consultor, lIeg6 a la conclusi6n de que pod ian uti li zarse los datos de las tiendas que habfan conseguido las venlas que estaball previ stas y los datos de las que no las habfan conseguido para desarroll ar un modelo de regresion multiple. El co n ~ suItor sugirio que debra lltil izarse como variable dependiente, y, las ventas del segundo ailo. Se em plearfa un modele de regresion para predec ir las venlas del segundo ailo en funcio n de varias variabl es illdependienles que dcfinen la zona que rodea a la tiencla. Solo se abrirfan tiendas en los lugares en los que las ventas predichas superaran un ni~ vel minima. EI mode lo tambie n indicarfa como afec tan varias variables independientes a las ventas. Tras hablar largo y tendi do con personas de la empresa, el consultor recomend6 las siguien les variables independ icntcs: 1. Xl = lamano de la tienda 2. X 2 = vol umen de trMico de la call e en la que se encuentra la tienda 3. X] = aperlura de la tienda so la a en un centro comercial 4. X4 = exislencia de una tienda rival a menos de 500 metros 5. X 5 = ren La per capita de la poblaci6n residente a menos de 8 kilometros 6. X6 = mitnero total de personas que residen a menos de 8 kjlometros 7. X7 = renta per capita de la poblacion que res ide a menos de 15 kilometros 8. Xl'. = ntimero total de personas que res iden a menos de 15 ki lometros
Se uti lizQ la regresi6n multi ple para esli mar los coeficienles del modelo de pre di c~ cion de las ventas a partir de datos recog idos en lodas las liendas abiertas en los ocho 6ltimos anos. En el conjunto de datos habra tiendas que segufan abiertas y tiendas que se habfan cerrado. Se desarro1l6 un modele que podfa utilizarse para predecir las ventas del segun do ano. Este modele contenfa estimadores, b), de los para metros del modelo, p). Para ap licar el modelo g
Yi =
bo +
L
bj xji
j= l
se hici eron mediciones de las variables independienles de cada nueva localizaci6n pro~ pLlesta y se calcu laron las ventas predichas de cada local izac ion. Se uti liz6 cJ nivel pre~ dicho de ven tas , junto con eJ cri terio de los anal istas de marketin g y de un co mite de directores de tiendas de ex iLo, para elegir el lugar en el que se abrirfan [iendas. En la estraleg ia para especificar un modelo influyen los objetivos de l modelo. Uno de los objetivos cs la pred iccion de una variable dependiente 0 «de resultado» . Entre las apli ~ caciones se encuentran la prediccion de las ventas, de la producci6n, del consumo total, de la invers ion total y otros muchos criterios de los resultados empresariales y economicos. EI seg undo objetivo es estimar el efecto marginal de cada variable independiente. Los eco no~ mi stas y los di recti vos neces ilan saber como cambian las medidas de los resultados cuando varian las variables independicn tes, Xj' donde j = I, .. ., K. Por ejemplo: L 2. 3.
l,Como varfan las ventas como consecllencia de una subi da del precio y de los gastos pllblicitarios? i..Como varia la producci6n cuando se alteran las cantidades de trabajo y de capi tal ? i.. Disminuye la mortalidad infantil cuando se illcremenlan los gastos en asistenc ia sanitaria y en servicios de saneamiento?
Capitulo 13.
Regresi6n multiple
491
Objetivos de la regresi6n La regresi6n multiple permite obtener dos importantes resultados: 1.
2.
Una ecuaci6n lineal estimada que predice la variable dependiente, Y, en funci6n de K variables independientes observadas, xi' donde j = 1, ...• K.
donde i = 1, "" n observaciones. La variaci6n marginal de la variable dependiente, Y, provocada por las variacionas de las variables independienles, que se eslima por medio de los coeficientes, bj. En la regresi6n multiple, estos coeficientes dependen de que otras variables se incluyan en al modelo. EI coeficiente bj indica la variaci6n de Y, dada una variaci6n unitaria de X;, descontando al mismo tiempo el efecto simultaneo de las demas variables independlentes.
En algunos problemas, ambos resultados son igual de importantes. Sin embargo, normalmente predomina uno de ellos (por ejemplo, la predicci6n de las ventas de las tiendas, y, en el ejemplo de la localizaci6n de las liendas).
La variaci6n margina l es mas diffei l de estimar porque las variab les independ ientes csHi.n relac ionadas no s610 con las variables depen dienles sino lam bien entre Sl. Si dos variubles independie ntes 0 mas varian en un a re lac i6n linea l directa entre sf, es dificil averiguar cI efecto que produce cada variable independienle en la variable dependiente. Exam inaremos delalladamen te el modelo del ejemplo 13.2. EI coeficien te de XI ---es decir, b J- indica la variaci6n que experimentan las ventas del segundo ana por cada variaci6n unitaria del tamano de la tienda. EI coeficiente de Xj indi ca la variaci6n que experi mentan las ventas por cada variaci6n unitari a de la rcnta per capita de la poblaci6n que reside a menos de 8 ki l6metros, miell(ras que la de X7 indica la variaci6n de las ventas por cada variaci6n de la renla per capita de la poblaci6n que res ide a menos de 15 ki l6metros. Es probable, pOI' supuesto, que las variables Xs Y X7 esten correlacionadas. Par 10 tanto, en la medida en que estas variables varfen am bas al mismo tiempo, es diffcil averiguar la contribucion de cada una de elias a la variacion de los ingresos generados por las ventas de las tiendas. Esta correlaci6n entre variables independientes comp lica e l modelo. Es importanle comprendcr que e l mode lo predice los ingresos generados por las ventas de las tiendas ulilizando la combinaci6n de variables que contielle el modelo. El efecto de una variable de prediccion es e l efecto que produce esa variab le cuando se combina con las demas. POI' 10 tanto, en general, el coeficiente de una vari ab le no indica el efecto que produce esa variable en todas las condiciones. Estas complcj idades se anal izanl n mas delen idamenle cuando se dcsarroll e el mode lo de rcgresi6n mUltiple.
Desarrollo del modelo Cuando aplicamos la regresi6n mUltiple, construimos un modelo para exp licar la variabilidad de la variable dependiente. Para eso queremos incluir las influencias simultaneas e in* dividuales de varias variables independientes. Supongamos, por ejemplo, que queremos desarrollar un modelo que pred iga el margen anua l de beneficios de las soc iedades de ahorra y cn!dilO in mob ili ari o ulili zando los dalos recog idos durante un periodo de anos. Una especificaci6n inicial del modelo indicaba que el margen an ual de beneficios eslaba relac ionado can los ingresos netos pOl' dolar depositado y el nLimero de oncinas. Se espera que el ingreso neta aumente el margen anua! de benefic ios y se preve que el nllmero de ofic in FK.n - K- l. rt) = rx La variable aleatoria calculada FK. n - K - l sigue una distribueion F con K grados de libertad en el numerador y (n - K - 1) grados de libertad en el denominador.
EJEMPLO
13.8.
Modelo de prediccion de los precios de la vivienda (contraste simultaneo de coeficientes)
Duranle el desarrollo del modelo de predicci6n de los precios de 1a vjvienda para NOfthem City, los analistas querfan saber si exjslian pruebas de que la combinaci6n de cuatro variables de predicci6n no era un predictor significativo de l precio de la vivienda. Es decir, querian contrastar la hip6tesis
Solucion
Citydat
Esle metoda de contraste puede ilustrarse mediante la regresi6n de los precios de la vivienda de la Figura 13.9 realizada uti lizando el fichero de datos Citydat. En la tabla del ao.11isis de la varianza, el estadislico F calculado es 19,19 can 4 grados de Iibertad en el numerador y 85 grados de libeltad en el denominador. EI calcu lo de F es F~
259,37 13,52
~ 1919
•
Este valor es mas alto que el valor crftico de F = 3,6 para rx = 0,0 1 de la Tabla 9 del apendice. Observese, ademas, que el Minitab -y la mayoria de los paquetes estadfsticos- caJcula cI p-valor, que en este ejcmplo es igua1 a 0,000. Por 10 tanto, rechazarfa· mos la hip6tesis de que todos los coeficientes son iguales a cero.
528
Estadistica para administraci6n y economfa
Contraste de un subconjunto de coeficientes de regresion En los apartados anteriores hemos desarrollado cOl1 trastes de hi p6tesis de panimetros de re ~ grcs i6n indiv iduales y de todos los panimetros en conjunto. A continuaci6n , desarrollamos un contraste de hip6tesis de un subconjunto de panimetros de regresi6n, como el ejemplo del conjunlo de precios que acabamos de anal izar. Utilizamos estc contraste para averiguar si el efecto conjunto de varias variab les independientes es signi ficativo en un mode lo de regresion. Consideremos un modclo de regresion que contiene las variables indepencli enles Xj Y
La hipotesis nula que se contrasla es j = 1, ... , K
Si Ho es verdadera, las variables Zj no deben inc\uirsc en el modelo de regresi6n porque 110 suministran ninguna informaci6n para explicar la conducta de la variable dependiente mas que la que su mini stran las variables Xj' EI metodo para reali zar este contrasle se resume en la ecuaci6n 13.24 y se analiza detalladamente a continuaci6n. EI contraste se reali za comparando la suma de los cuadrados de los en'ores, SCE, del modelo de regresi6n completo, que incluye tanto las variables X como las variables Z, con la SCE(r) de un mode lo restring ido que s610 incluye las vari ables X. Primero realizamos una regres i6n con respecto al modele de regresi6n co mpleto anterior y obtencmos la suma de los cuadrados de los errorcs, SCE. A continu acion realizamos la regresi6n restringida, que excl uye las variables Z (obscrvese que en esta regres i6n se apli ca la reslriccion de que los coefi cientes tY.j son iguales a 0):
A partir de esta regresi6n obtenemos la suma restringida de los cuadrados de los en'O~ res, SCE(r). A continuaci6n, calcu lamos cl estadfstico F con r grados de libertad en eI nu ~ merador (r es el numero dc variables elimin adas simulliineamente del modele restringido) Y Il - K - r - I grados de libertad en el denominador (los grados de libertad del error en el. modelo que induye lanto las variables independienles X como Z). EI estadfstico F cs
F
~ ~
(SC£(r)
~
SCEJ/r
2
S,
donde s~ cs la varian za estimada del error del modelo compl eto. Este estadfstico sigue L1na distribucion F con r grados de libertad en el numerador y 11 - K - r - 1 grados de liber~ tad en el denominador. Si el valor de F calcu lado es mayor que cJ valor crflico de F, enlonces se rechaza la hip6lesis nula y concluimos que las variables Z co mo conjunto deben incluirse en e l modelo. Obscrvcse que este contrasle no imp lica que las variabl es Z individuales no dcban exc\uirse, par ejemplo, utilizando el contraste f de Student antes ana li za~ do. Ademus, el contraste para lodas las Z no implica que no pueda excluirse un subconjunto de las variab les Z utili zando este metodo de contraste con un subconj unto diferente de vari ables Z.
Capitulo 13. Regresi6n multiple
529
Contraste de un subconjunto de los parametros de regresi6n Dado un modele de regresion con la descomposicion de las variables independienles en los subconjuntos X y Z,
Para contrastar la hip61esis nula
Ho: IX] =
1X2
=
... = IX,. =
0
de que los parametros de regresi6n de un subconjunto son simullaneamente iguales a 0, frente a la hip61esis alternativa HI: Al menos un
IXj
=f. 0
(j = I .... , r)
compararnos la surna de los cuadrados de los errares del modelo completo can la suma de los cuadrados de los errores del modelo restringido. Primero, hacemos una regresi6n para el mo~ delo complei0, que inciuye todas las variables independienles. y obtenernos la surna de los cuadrados de los errores, SeE. A continuaci6n, hacemos una regresion restringida, que excluye las variables Z cuyos coeficlenles son las a: el numero de variables excluidas es r. A parlir de esla regresion obtenemos la suma restringida de los cuadrados de los errares, SCE(i) . A continuacion, calculamos el estadfstico F y apHcamos la regia de declsi6n para el nivel de sig~ nificaci6n IX:
Rechazar Ho si
(SCE(r) - SCEJ /r
s:,
Comparacion de los contrastes Fy
>
F,..II - K- ,· - l.(l
(13.24)
t
Si util izaramos la ecuaci6n 13.24 can r = I, podrfamos contrastar la hip6tcsis de que una {mica variable, Xj' no mejora la pred icc ion de la variable depend icntc, dadas las demas variables independientes del modelo. Por 10 tanto, tenemos cl contraste de hip6tesis Ho : Pj ~ 0 I Ii, l' O,} l' I
H,:
Pj l' 0 111,1' O, }
1'1
Antes hemos visto que este contraste tambien podfa reali zarse util izando un contraste , de Student. Utilizando metodos que no presentamos en este libra. podemos demostrar que los con trastes F y f correspondienles pcrmiten lI egar exactamente a las mismas conclusiones sobre el contraste de hip6tesis de una unica variable. Ademas, el estadfstico I calculado para el coeficiente bj es igual a la raiz cuadrada del estad fstico F calculado correspond icnte. Es decir.
don de Fx., es el estad fslico F calculado utili zando la eCllacion 13.24 cuando se ex cluye la variable Xj del modelo y, por 10 tanto, r = I. Demostramos este resultado numerico en el ejemplo 13.9. La teoria estadfstica de la dislribucion tambicn dcmuestra que una variable aleatori a l' con 1 grado de libertad en el numerador es el cuadrado de una variable aleatoria t cuyos grados de libeltad son iguales al denominador de la variable aleatoria F. POI" 10 tanIO, los con trastes F y t siempre !levan a las mismas conc lusiones sobre el contraste de hipo(es is de una unica variab le independiente en un modele de regres ion multiple.
530
Esladfslica para administraci6n y econom ia
EJEMPLO
13.9. Predicci6n del precio de la vivienda en las pequenas cludades (contrastes de hip6tesis de sUbconjuntos de coeficientes)
Los promo rores de l modelo de predieei6 n del pree io de la vivienda de l ejemplo 13.8 querfan ave riguar si el e feelo eonjullio del lipo imposili vQ y del poreentaje de locl.lles eomereiales contribuye a la predi ee i6 n despues de inc1ui r previamente los efeelos del tamano de la vivienda y de la renla. Solucion Continuando con eI problema de los eje mpl os 13.7 y 13.8) tenemos un contraste condieionado de la hip6tesis de que dos variables no son predielores sign ifica livos, dado que las alras dos son prediclOres significativos:
ESle conlrasle se realiza uti lizando el metoda de la ecuaci6n 13.24. La Fig ura 13.9 presenLa la regresi6n del mode lo eompleto can las cuatro variables de predicc i6n. En esa regresi6n, SeE = 1.149, 14. En 13 Fi gura 13.11 tenemos 11.1 regresion reducida en la que las (micas variables de predicci6n son el tamano de la vi vienda y la renta. En esa regresi6n, SeE = L.426,93. La hip6tesis se contrasta primero calculando el estadfsti co F euyo nume rador es la suma de los euadrados de los errores del modela redueido [SCE(r )] me nos la SCE del modelo completo. F ~
( 1.426,93 - 1.1 49, 14)/2
13,52
10 27
~
'
Regression Analysis: hseval versus sizehse. income72
The regression equ~ tion is hseval = -42 . 2 + 91. 4 si zchse + 0 . 000393 i n com72
Predictor Cons tant Sizehse i ncom72
Coef - 42.208 9 . 135 0 . 003927
R-Sq :: 34 . 7%
S '" 4 . 04987 Analysis of
l'
p
- 4 . 30
0 . 000 0 . 000 0 . 009
4 . 71
2 . 67
R-Sq(ad j)
.
33 . 2%
Va ri~ncc
Source Regres sion Residua l Error Tot al Source s i zehse i ncom72
SE Coef 9 . 81 0 1 . 940 0 . 001473
OF 2 87 89
OF
Seq 55
1
643 . 12 116 . 58
1
SS 7 59. 70 4 26 . 9 2 186 . 63
MS
F
P
379 . 8 5 1 6 . 40
23.1 6
0 . 000
SCE(rl
Figura 13.11 . Regresion del precio de la vivienda: modelo reducido (salida Minitab).
Capitulo 13.
Regresion multiple
531
EI estadfstico F liene 2 grados de libenad ---colTespondientes a las dos vari ab les conl"rastadas simultaneamente- en el numerador y 85 grados de libertad en el denominador. Observese que e l estimador de la varianza, = 13,52, se obliene a pm1ir del modele completo de la Figura 13.9, en la que el error tiene 85 gracias de libertad. Vemos en la Tabla 9 del apcndice que e l valor crilieo de F can IX = 0,01 Y 2 Y 85 grados de Iibertad es aproximadamente 4,9. Como el valor calculado de F es mayor que el va· lor critico, rechazamos la hip61esis nula de que el tipo imposilivo y el porcenlaje de 10· cales comerciales no estan en la combinaci6n significati va. EI efecto conjunto de estas dos variables si mejora el modele que pred ice el precio de la vivienda. POI' 10 tanto, el tipo imposit ivo y el porcentaje de locales comerciales deben incill irse en el modelo.
s;
Tambicn hemos calcu lado esta regres i6n excluyendo la variable «compr» y hemos observado que 1a SeE resultante era SCE(I)
~
1.I 85,29
El estadfstico F calcu lado de esla variable era
F~
(1.I85,29 - 1.149,14)/ 1 13,52
~
2 674 '
La rafz cuadrada de 2,674 es 1,64, que es el estadfstico I calculado para la variabl e «compo> en la salida del am'ilis is de regresi6n de la Figura 13 .9. Util izando cl estadfsti co F calclil ado 0 c l cstadfsti co 1 calcu lado, obtendrfamos este resultado para las hi p6tcsis de esta variable:
Ho : /3compr
=
°I
111 oft 0, I #- compr
HI : /Jcompr #- 0 I /31 #- 0, I #-
COl1lpr
EJERC1CIOS
Ejercicios basicos
c) Analisis de Ia varianza
13.37. Suponga que ha estimado coelicientes para el siguiente modelo de regresi6n :
Source Regression Residual Error
DF 3
"
55 46000 25000
M5
5S 87000 48000
MS
d) Analisis de la varianza
Contraste la hip6tesis de que las tres variables de predicci6n son igllales a 0, dadas las siguientes tablas del amilisis de la varianza. a) Analisis de la varianza Source Reg ression Residual Error
OF 3 26
5S 4500
MS
SOD
b) AmiUsis de la varianzu Source Regression Residual Error
DF 3
"
SS
9780 2100
Source Regression Residua l Error
OF 3 26
Ejercicios ap1icados 13.38. Vuelva al eSludio del esfucr7.0 de diseno de aYiones de los ejercicios 13.6 y 13.19. u) Contraste la hip6tcsis nulu
MS
b) Muestre la tabla del amllisis de la varianza.
532
Estadistica para administraci6n y economfa
13.39. Para el e.-audio de la intlucncia de Ins instituciones finaneieras en los precios de las aeciones del ejercicio 13.7, se utilizaron 48 observaciones lrimestrales y se observo que cl codicicnte cOlTegido de determinuci6n era R2 = 0,463. Contraste lu hip6tcsis nuia.
13.40. Vllelva al estudio del consumo de leche, deserito en los ejercicios 13.8, 13.20 Y 13.28. a) Conrraste In hip6tesis nulo Ho'~' ~ ~,~O
b) Mllestre In tabla del anMisis de la varianza. 13.41. Vllelva al estudio del numento de peso, descrilO en los ejercicios 13.9. 13.21 Y 13.29. a) Contraste la hip6tesis nula
b) Muestre In tabla del analisis de la varianza. 13.42. Vuelva aJ ejercicio 13.32. Contraste la hip6tesis nula de que las cuatra variables independicnrcs. consideradas en conjunto, no inn uyen linealmente en los ingresos generados por las loterfas nacionales. 13.43. Vuelva al ejercicio 13.33. Contraste la hip61esis nula de que las tres variables independientes, consideradas en conjunto, 110 inlluyen linealmente en el precio de los hornos. 13.44. Vuclva al es\udio del cjercicio 13.34. Contraste la hip6tesis nula de que los gastos personales de eonsumo y el precio relativo de las importaeiones, eonsiderados en conjunto, no afectan linealmente a In demanda nigeriana de importac lones.
dependientc, dado que las de mas variables indcpendientes (K - KI ) lambien se ulilizan. Su. pongamos que se vllelve a estimar la regresi6n excluyendo las KI variables indepen-
-ri
-ri
C
:Q
u c
• c u•
• ,
, 0 0
"
0
u
~
•
0
~
~
" 0
u Precio, P
(,I
Numero de trabajadores, Xl (b)
Figura 13.13.
Producci6n total, Xl (0)
Ejemplos de funciones cuadraticas.
Transformaciones de model os cuadraticos Hemos ded ieado bastante liempo al desarro llo del anali sis de regres io n para esti mar eeuaciones lineales que rcprcsentan di versos procesos cmpresariales y econ6micos. Tam bien hay muchos procesos que pueden representa rse mejor mediante ecuaciones no li neales. EI ingreso total tiene una re laci6n cuadralica con el prcc io y el ingreso maxi mo se obliene en un ni vel intermedin de precios si la funci6 n de demanda tiene pendiente negativa. En muchos casos, el coste min imo de prod uec i6n pOl' unidad se obti ene en un nivel de producci6n inlermedio y cl coste por unidacl es decreciente a medida que nos aproximamos al coste mfnimo pa r unidad y despues aumenta a partir de ese coste minima par unidad. Podemos anali zar algun us de estas relaciones econ6 micas y cmpresaria les utili zando un modela cuaddtico: y = Po + p,X, + P,xi + ,
Capitulo 13.
Regresi6n multiple
537
Para eslimar los coe ricientes de un modele clladrati co para apl icac iones de este tipo, podemos transfonnar 0 modificar las variab les, co mo muestran las ec uHciones 13.26 y 13.27. De esta forma. un modelo cuadrat ico no li neal se convierte en un modele que es lineal en un conjunlo modifi cado de variabl es.
Transformaciones de modelos cuadraticos La funci6n cuadratica
y ~
Po+ /J,X, + p,X; + ,
(13.26)
puede transformarse en un modelo lineal de regresi6n multiple definiendo nuevas variables:
y despues especificando el modele
(13.27) que es lineal en las variables transformadas. Las variables cuadraticas transformadas pueden combinarse can olras variables en un modelo de regresi6n multiple. Por 10 lanto, podemos ajustar una regresi6n cuadratica multiple ulilizando variables transfonnadas. EI objetivo es encontrar modelos que sean lineales en otras formas matematicas de una variable.
Transfo nnando las variables. podemos estimar un modelo lineal de regresi6n multiple y utilizar los resultados como un mode lo no lineal. Los melodos de inferencia para los modclos elladdli cos transformados son los mi smos que hemos desarrollado para los modelos lineales. De esta fo rma, evitamos la confusi6n que se tendr!a si se utili zaran llnos metodos eSladfslicos para los rnodelos lineales y oLres para los mode los cli adrat icos. Los coefic ientes dcben combinarse para poder interprctarlos. Asi, si tenemos un modelo cuadra Ii co, e l efeeto de una variable. X. es ind icado por los cocficientes tanlo de los tenninos lineal es como de los termi nos cuadnitieos. Tambi en realizamos un scncill o contraste de hi p6tesis para averi guar s i un modelo cuadralico es una mejora can respecto a un modelo !inc.1!. La variable ~ 0 no es mas que una variable ad icional cuyo coefic iente puede contrastarse - Ho: {J2 = 0-- utili zando la / de Student co nd icionada 0 el estadfstico F. Si un modelo cuadratico se ajusta a los datos mejor que un modelo lineal , el coefi ciente de la variable cuadratica -~ = sera sign ifi cati vamen te diferente de O. EI melodo es e l mis mo si tenemos variables como 23 = X~ 0 2 4 = XTX2 .
xi
xi-
EJEMPLO 13.11. Costes de produccion (estimaclon de un modelo cuadratico)
Prod uction
Cost
Arnold Sorenson, director de producc i6n de New Front iers Instruments Inc., tenia interes en estimar la relaci6 n matema.tica entre el numero de montajes eleetro nicos producidos en un tu rno de 8 horas y el coste medio pOl' montaje. Esta funci6n se utilizarfa despues para estimar el coste de varios pedidos de producci6n y averiguar el ni vel de producci6n que minimizaria el cosle med io. Los datos se encllentran en el fi chere de datos Production Cost.
538
Estadistica para administraci6n yeconom fa
Solucion Arnold recogi6 datos de nueve turnos duran te los cual es el numero de monlajes oscil6 enlre 100 y 900. Tambien obluvo en el departamento de contabilidad eJ coste medio pa r un idad en que se incuni6 durante esos dlas. Estos datos se presentan en un diagrama de puntos dispersos realizado por media del programa Excel y mostrado en la Figura 13.14. Sus estudios de economfa y su exper ienc ia 10 !levaron a sospechar que la funci6n podr!a ser cuadr.:itica can un coste media min ima intennedio. Diseii6 Sll amil isis para cOlls iderar tanto lIna funci6n de cosle media de producci6n lineal como lI na cuadratica. La Figura 13.15 es la regresi6n si mple del cosLe como una funci6n lineal del nume· ro de unidades. Vemos que la relaci6n lineal cs cas i plana, 10 que indica que no ex iste un a relaci6n linea! entre el coste medio y e l numero de unidades producidas. Si Arno ld hubiera utili zado simplemente esta relaci6 n, habr!a cometido graves errores en sus me· todos de estirnaci6n del coste. La Fi gura 13.16 presenta la regresi6n cuadratica que muestra el coste media por unidad como una funci6n no lineal del numero de unidades producidas. Observese que b2 es diferente de 0 y, por 10 tanto, debe inclui rse en el modelo. Observese tambie n que el R2 del modelo cuadriitico es 0,962. mientras que en el modelo lineal es 0,174. Utilizan· do eJ modelo cuadnitico, Arnold ha elaborado un modelo de coste media mucho mas uti!. Numero de Coste med io Un idades por unidad
5,5 ~
100 210 290 415 509 613 697 806 908
5, 11 4,42 4,07
3,52 3,33 3,44
3,77 4,07
•
•
5
~
,
c
" 4,5
0
0.
•
0
'5
•E
4
~
•
3,5
"
3
•
•
•
0
4,28
•
o
200
600
400
800
1.000
Numero de unidades
Figura 13.14. Coste media de producci6n en funci6n del numero de unidades. Regression Analysis: Mean Cost per Unit versus Number of Units
The regress i on equation is Mean Co s t per Unit = 4 . 43 - 0 . 000 855 Numbe r of Units
Pred ictor Constant Numbe r of Un i t s
5 • 0.547614
Cocf 4 . 4330 -0 . 0008547
SI> Coe f 0 . 399 4 0 . 0007029
R- Sq = 17 .4\
R-Sq( a dj)
•
T
P
11.10 -1.22
0 . 000 0 . 263
5.6\
Analysis of varia n ce Source Regression Res i d u a l Error Tota l
DF 1
7 8
55 0 .44 33 2 . 0992 2.5425
M5
F
P
0 . 4 4 33 0 . 299 9
1 .48
0 . 263
Figura 13.15. Regresi6n linea! del coste medio en funci6n del numero de unidades (salida Minitab).
Capitulo 13.
Regresi6n multiple
539
Regression Analysis: Mean Cost per Unit versu s Number of Units, No Units Squared
The regression 0qu3tion is Mean Cost per Unit = 5 . 91 - 0.000884 Number of Units No Units Squ3red Predictor coef Const3nt 5.9084 Number of Units -0 .0088415 No Units Squared -0.00000793
SE Coef T 0.1614 36 . 60 0 . 0007344 - 12 . 0 4 0 . 00000071 11 . 15
S = 0 . 125875
R-Sq(adj)
R- Sq = 96.2\
0
+
0 . 000008
P
0.000 0.000 0.000
94 . 9%
Analysis o f Variance Sourc e Regress ion Residual Error Total
Figura 13.16.
,
OF
SS
MS
F
P
1 . 2230
75.97
O. 000
6
2 .44 59 0 . 0955 2.5425
8
0 . 0151
Modelo cuadratico del coste media en juncian del numero de unidades (salida Minitab).
Transformaciones logarftmicas Algunas relaciones econ6m icas pueden anali zarse mediante fu nciones exponenciales. Por ejcmplo, si la variaci6n porcentual de la cantidad vend ida de bienes varfa linealmente en respuesta a las variaciones porcentuales del precio, la funci6n de demanda tendnl una forma exponencial:
donde Q es la cantidad demandada y P es el precio por unidad. Las funciones de demanda exponenciaies tienen elasticidad constante y, pOl' 10 tanto, una variaci6n del prccio de un 1 pm ciento provoca la misma variaci6n porcentual de la cantidad demandada en todos los niveles de precios. En cambio, los modelos lineales de demanda indican que una variac i6n unitaria de la variable del preeio provoea la mi s ma variaci6n de la canlidad demandada en todos los nive les de precios. Los modelos exponenciales de demanda se ulilizan mucho en el amilisi s de la conducta del mercado. Una importante caracterfstica de estos modelos es que el coeficiente [lr es la c1asticidad constante, e, de la demanda Q con respecto al prec io P:
JQIQ
e= - =p, aplP Este resultado se desarrol1a en la mayorfa de los iibros de texto de microeconomfa. Los coeficientes del modelo exponenciai se estiman utili zando transformaciones logarft micas, como muestra la ecuac i6n 13.29. La transformaci6n logarftmica supone que el tennillo de error aleatorio multi plica el verdadero valor de Y para obtener el va lor observado. Por 10 tan to, en el mode lo exponen cial el error es un porcen taje del verdadero valor y la varianza de la distribuci6n de l error au menta cuando aumenta Y. Si este resu ltado no es cierto, la lrans rormacion logarft mica no es correcla. En ese caso, debe utili zarse una lecni ca de esti maci6n no lineal mucho rmis comp leja. Estas tecni cas eSlan fu era del alcance de este li bro.
540
Esladislica para administracion y economia
Transformaciones de model os exponenciales Los coeficientes de los modelos exponenciales de la forma
(13.28) pueden estimarse tomando primero el logaritmo de los dos miembros para obtener una ecuacion que es lineal en los logaritmos de las variables:
log (l') = log (Po)
+ fl,
log (X,)
+ II, log (X, ) + log (,)
(13.29)
Utilizando esla forma, podemos hacer una regresion del logaritmo de Y con respecto a los 10garitmos de las dos variables X y obtener estimaciones de los coeficientes PI y IJ 2 directamente del anal isis de regresi6n. Dado que los coeficientes son elasticidades, muchos economistas utilizan esla forma del modele en la que pueden suponer que las elasticidades son constantes en el rango de los datos. Observese que esle metoda de estimaci6n requiere que los errores alealorios sean multiplicativos en el modelo exponencial original. Par 10 tanto, el termino de error, c, sa 9xprasa como un aumento 0 una disminucion porcentual y no como la adici6n 0 la sustracci6n de un error aleatorio, como hemos vislo en los modelos lineales de regresi6n.
Otra importante aplicaci6n de los mode los exponenciales es la funci6n de producci6n Cobb-Douglas, que tiene la forma
donde Q es la cantidad producida, L es la cantidad utilizada de trabaja y K es la canLidad de capita l. PI Y P2 son las contribuciones relativas de las variaciones del tTabajo y de las variac iones del capital a las variaciones de la cant idad producida. En un caso especial, eorrespondiente a los rendimientos constan les de escala , sc plantea la restrieei6n de que la su ma de los coefic ientes sea igual a I. En ese caso, 111 Y 112 son las conlribuciones porcentualcs del lrabajo y cl capilal al au mento de la produclividad. La estimac i6n de los coeficientes cuando su suma cs iguaJ a I es un ejemp lo de est imaci6n rcstringida en los modelos de regrcsi6n. La ecuaci6n 13.29 es modificada par la restricc i6n fl, + #, = I y, pOl' 10 tanto, se incluye la sust ituci6n de la fo rma
II,
fl,
= I -
y la nueva ecuae i6n de estimaci6n se conv ierte en log(y) = log ({30) log(Y) - log (X, ) = log ({Io) log (;,) = log (Po)
+ /I,log(X,) + ( I - P,) log(X, ) + log (F.) + fl, [log(X,) -log(X, )] + log(") + p,log
G:)
+ log (to)
(13.30)
Vemos , pues, que el coeficiente PI se obticne haciendo una regres i6n de log (Y/X2 ) con respecto a log (X I/X2). A con linuaci6n , se calcu la 132 reSlando PI de 1,0. Todos los buenos paquetes estadfsticos pucden calc ular faci lmcnte las transformaciones necesarias de los 'datos para los modelos logarftmicos. En el ejemplo siguicntc utilizamos el programa Mi nitab, pero podrfan obtenerse resultados sim ilares ulilizando olros muchos paquetes.
Capitulo 13.
EJEMPLO
Regresi6n multiple
541
13.12. Funcion de produce ion de Minong Boat Works (estimacion del modelo exponencial)
Minong Boat Works comenz6 a producir pequcnos barcos de pesca a principios de la decada de 1970 para los pescadores del norte de Wisconsin. Sus propietarios desarro!Jaron un metoda de producci6n de bajo coste para producir barcos de cali dad. Como consecuenci a, ha aumentado Sli demanda con el paso de los aoos. EI metoda de producci6n utili za una terminal de trabajo con un conjunlo de planlill as y herramientas electrieas que pueden ser manejadas por un numero variable de trabajadores. EI numero de tenn inales (unidades de capital) ha aumentado can cl paso de [os anos de 1 a 20 para sati sfaeer la demanda de barcos. Al mismo tiempo, la plantilla se ha incrementado de 2 trabajadores al ailo a 25. Ahara los propietarios estan eonsiderando la posibi lidad de aumentar sus ventas en olros mereados de Michi gan y Minnesota. Por 10 tanto, neeesi[an saber cminto tienen que aumentar el numero de terminales y el numero de trabajadores para iograr diversos aumentos del nivel de producci6n.
Soluci6n
Boat Prodm:tion
Su hija, licenciada en economfa, sugiere que estinien una funci6n de producci6n CobbDouglas restringida utili zando datos de alios antcriorcs. Explica que esta fu nci6n de produccion les permilira predecir el numero de barcos producidos can diferentes ni ve les de term inales y de trabajadores. Los propielarios estan de acuerdo en que esc anal isis es una buena idea y Ie piden que 10 realice. Comienza el amili sis recogiendo los datos hi stOl'icos de produccion de la empresa, que se encuentran en el fichero de datos Boat Production. Para estimar los coeficientes, primero debe transformar la especificaci6n original del model a en una forma que pueda estimarse mediante una regresion par mInimal' cuadrados. EI modelo de la runcion de producci6n Cobb-Douglas es
can la restricci6n P2~ I - P,
donde Yes el numero de bareos prod ucidos al ana, K es el numero de terminales (uni dades de capital) ulili zadas cada ano y L es e[ numero de trabajadores utili zados cada ana . La funci6n de produccion Cobb-Douglas restringida se transforma en la forma de est imacio n:
para hacer una estimacion par mfnimos cuadrados. La est imaci6n del modelo de regresi6n se nluestra en la Figura 13.17 y la ecuacion resullanle es:
log
G) ~
3,02
+ 0,84510g (~)
(13.31)
En este resultado, vemos que el coeficiente del modelo estimado, bb es 0,845. Por 10 tanto, b2 = 1 ~ 0.845 = 0, 155. Par Ultimo, log (b o) = 3,02. Este ana li sis muestra que el 84,5 pOl' ciento del valor de la produccion procede del trabajo y el 15,5 por ciento del
542
Estadistica para administraci6n y economia
The regression equation is logbotunit 3 . 02 ~ 0 . 845 logworunit Predictor Constant logworun
Coef
SE Coef
T
p
3 . 02325 0 . 81\479
0 . 04387 0 . 09062
68.92 9.32
0 . 000 0 . 000
R- Sq", 79 . 8\
S " 0 . 1105
R-SQ(adj)
'" 78.9t;
Analysis of Variance Source Regression Residual Er r or Total
OF 1
SS 1 . 0618
22 23
0 . 2688 1.3306
MS
F
P
1 . 0618 0 . 0122
86.90
0 . 000
Figura 13.17. AnAlisis de regresi6n de la fu nci6n de producci6n restringida (salida Minitab).
capital. Tras rea lizar las oportunas transformaciones algebraicas, cl modele de la Fun ~ ci6n de producci6n es Y - 20.49K"·'4> LO.,,, (13.32) Esta Funci6n de producci6n puede util izarse para predecir la prod ucci6n esperada lItil i~ zando diversos niveles de capital y de tTabajo. La Fi gura 13. 18 muestra una comparaci6n del ntimero observado de barcos y el nil· mere predicho de barcos a partir de Ia ecuaci6n de regres i6n transformada. EI numero predi cho de barcos se ha calculado utili za ndo la ecuaci6n 13.32. Ese amllisis tambien indica que el R"l de In regresi6n del m1mero de barcos Con respecto al numero predicho de barcos es 0.973. Este R2 puede interpretarse exaclamente igual que el R2 de cualquier modelo de regresi6n lineal y, por 10 tanto, vemos que el mlmero predicho de barcos conslituye un buen aj uste de los datos observados sabre la producci6n de barcos. El R2 de los datos de la regresion transFormada de la Fi gura 13. 17 no puede interpretarse fucilmenle como un indicador de la relaci6n entre el numero de barcos producidos y las variabl es independientes del trabajo y el capital , ya que las unidades estan expresadas en logaritmos de cocientes. Number of Boats
= 11.82 + 1.199 Forecast Number of Boats
500
5 R·Sq
:
R-5q(adj)
400
.••• ~
• 300
~
...••E , z
•
200
•
••
•
•
• 100
•
••
0 0
100 200 300 Forecast Number of Boats
400
Figura 13.18. Comparaci6n de la producci6n observada y la predicha.
25.t 9t6 9 7.3%
97.2%
Capitulo 13,
543
Regresi6n multiple
EJERCICIOS
Ejercicios basicos 13.54. Considcrc las dos ccuaeiones siguienles eslimadas utilizando los tnelodos desarrollados en eSle apartado.
i. Yi
Segun los esludios recientes de una consultora nacionaI. los eoefieientes del modelo deben lener la siguiente restricei6n:
fl, + ii, ~ 2
= 4x u
ii. Yi = I
+ lx i + ~
Calcule los valores de y,. cuanda 8, 10.
Xi
= I, 2, 4, 6,
13.55. Considere las dos ecuaciancs siguientcs eSlimadas utilizando los mciodos desarrollados en este apanado. i. Yi = 4xl.~ ii. Yi = I + 2rj +2xt Calcule los valores de Yi cuando xi = 1, 2, 4, 6, 8, 10.
13.56. Considcre las dos ecuaciones siguientes estimadas utilizando los melodos desarrollados en este apartado. i. Yi = 4xu ii. Yi = 1 + lxi + 1,7x~ Ca1cule los valores de y,. cuando Xi = I, 2, 4, 6, 8, 10. 13.57. Considere las dos eeuaeiones siguientcs cSTimadas uti li zando los melodos desarrollados en este apartado. i. Yi = 3Xl ,2 ii. Yi = 1 + 5Xi + 1,5x~ Calcu le los valorcs dc Yi cuando Xi = 1, 2, 4, 6, 8, 10.
Ejercicios aplicados 13.58. Describa un ejempJo ex trafdo de su experiencia en el que un modelo cuadn'it ico sea mejor que un modelo lineal. 13.59. Juan Sanchez. presidcnte de Estudios de Mercado, S.A. , Ie ha pedido que estime los eoeficienles del modelo
Y = {Jo
+ {J1Xl + {J2X~ + {J1X2
donde Y son las vcntas esperadas de sumi nistros de oficina de un gran distribuidor minorisla de sum inistros de ofieina, X l es la renla total dispDnible de los residentes que viven a menos de 5 kil6metros de la tienda y X2 es eJ nutnero 10tal de personas cmpleadas en empresas euya actividad se basa en la informacion que se eneuentran a menos de 5 ki l6metros de la tienda.
Dcscriba como eSlimarfa los coeficientes de! mode!o utilizando el metodo de minimos cuadrados. 13.60. En un estudio de los dctcrminanles de los gastos de los hogares en viajes de vacaciones, se obtuvieron datos de una muestra de 2.246 hogares (vease la refcrencia bibliografiea). EI mode10 estimado era logy
=
- 4,054+ 1, 155610gxl -0,440Slogx2 (0.0546)
(0.0490)
R' ~ 0,168 donde Y = gasTo en viajes de vaeaciones = gasto total anual de eonsumo X 2 = numero de miembros del hogar
XI
Los nutneros entre paremcsis que se encucnlran debajo de los eocficientes son los errores tfpicos de los eoefidcntcs csti mad os. a) Interprete los coeficientes de regrcsi6n esti-
mados. b) imerprete el coeficiente de determinacion. c) Manteniendosc todo 10 demas eonstante, halie el intervalo de confianza al 95 par demo del aumento poreentual de los gastos en viajes de vacacioncs provocado por un aumenlo del gasto anual tolal de consumo de un I por eiento. d) Suponiendo que cl modelo eSla especificado correetamente, eonlraSle al nivel de significaei6n del I por ciento la hip6tesis nula de que, manteniendosc todo 10 demas constante, el numero de miembros de un hogar no afccta a los gastos en viajes de vacaciones fre nle a In hipotesis alternaliva de que cuanto mayor es el numero de miembros del hogar, menor es el gasto en viajes de vaeaciones. 13.61. En lin estud io. se estim6 el siguiente modelo para una muestra de 322 supermcrcados de grandes zonas metropolitanas (vease la referencia bibliografica 3):
Logy = 2,921
+ 0,680 logx (0.077)
f(2 =
0,19
544
Estadistica para adminlstracion y economia
glas- que prediga el numero de mi cro procc~a_ dores producidos por un fabricante. Y. Cll fUIl _ ci6n de las unidades de capital. Xl: las unidade~ de trabajo, X2, y el numero de informaticos que rcu1i7..un investi gaci6 n basica. X). Especifique la forma del modclo e indique con cuidado y exhausl ivamcntc c6mo estimarfa los coeficientes. Hugalo utilizando primcro un modelo sin rcstricciones y a conlinuaci6n incluyendo la restricci6n de que los cocficicntcs de las Ires vari ablcs deben sumar I.
donde y = tamai\o de la tienda x = renta mediana del distrito poslal cn el que se encuentm la tienda Los numeros entre parenlesis que figurnn dcba~ jo de los coefic ienles son los errores Ifpicos de los coeficientes eSlimados. a) interprcle el coeficienle estimado de log x. b) Contraslc la hip61csi s nula de que la renta no infiuye en el tamano de In ticnda frcntc a la hip6Lcs is al lernaLiva de que un aurnento de la ['emu tiende a ir acompufiado de un aume nto del tamano de la tienda.
13.64. Considere el sigui ente modelo no lineal COn crrores multiplicativos.
13.62. Un economisU\ agrfcola cree que la canti dad consumida de carne de vacuno (y) en toncladas al ano en Estados Unidos depende de su precio (XI) en d61ares por ki lo, del prccio de la carne de porci no (X2) en d61ares por kilo, del prccio del polio (x) en d61ares por kilo y de la renla por hagar (X4) en mi les de d6lares. Se ha oblenido la siguientc regrcsi6n muestrol POI' mfnimos cuadrados utili zando 30 observacioncs anuales:
y = fJoXf'X~XglXh;
p, + p,
+ O,416 10gx4
(0. 103)
1
113+P4 ~ 1
a) Muestre c6mo obrendria estimaciones de los cocfi cicnles. Deben satisfacerse las restricdalles de los coeficienles. Muestre lodo 10 que hace y explfq uelo. b) loCual es la elasticidad constanle de Y con rcspecto a X4 ?
Logy= - 0,024 - 0,529 10gx, + 0,217 logx2+ 0,193 logx3 (0.168)
~
(0.\06)
Sc rccom ienda que los siguiemcs cjercieios se resuelvan con la ayuda de un computador.
R2 = 0,683
(0. 163)
Los numerus entre parcntesis que se encuentran debajo de los cocfi cientes son los errores I{picos de los coeficientes estimados. Intcrprctc cI eocfici ente de log X I ' b) Interprete el coefic iente de log x2' c) Contraste al nivel de significac ion del I POI' d ento la hip61esis nula de que el coeficiente de logx4 en la regresi6n poblacional es 0 frente a la hip61esis altemativa de que e.. con una segunda variable, X2 , que lOrna dos valores:
o
Mujeres analistas Hombres analistas
El modelo de regresi6n multiple resullante
puede analizarse ulili zando los metodos que hemos aprendido, senalando que el coeticiente b] es una estimaci6n del aUlllent.o anual esperado del salario par ana de experien-
546
Esladislica para administraci6n y economia
Scatterplot of Annual Salary (Y) vs Years Experience (Xl) 110000
"""""
• 100000
)C
• •
90000
(X2)
O=fema le i - Male
• •
0
1
~
..
•.,i:" ,•<
80000
'"
60000
<
• •
70000
• •
•
•
50000 40000
•
•
• 5.0
7.5
10.0 12.5 Yers Experience (Xl)
15.0
175
Figura 13.19. Ejemplo de una paula de datos que indica la existencia de discriminaci6n salarial.
cia y b2 cs el au mcnto que experimenta eI salario medio cuando el analisla es un h OIl1~ bre en Jugar de una mujer. Si b2 es positivo, eso indica que los salarios de los hombres SOil un iformemenle mas altos. La Figura 13.20 presenta el anali sis de regresi6n multiple de Minitab para este pro~ blema. En este an6. li sis vemos que el coeficiente de Xl -gender- tiene un eSladfstico t de Student igual a 14,88 y un p-valor de 0, 10 que nos Ileva a rechazar la hi pOles is nul a de que el codiciente es igual a O. Este resu hado indica que los salarios de los hombres son sign ificati vamente mas altos. Tambien vemos que b2 = 4.076,5, 10 que indica que el valor esperado del aumento 8nual es 4.076,50 $ Y que b l = 14.638,7, 10 que indica que los salarios de los hombres son, en promedio, 14.683,70 $ m~1s altos. Este tipo de amilisis se ha util izado con exilo en algunos juicios sobre discriminaci6n salarial, por 10 que la mayoria de las empresas realizan anali sis parecidos a este para averiguar si existe algun a prueba de discriminaci6n salaria!. Esle tipo de ejemplos tiene numerosas apl icaciones en algunos problemas entre los que se encuenlran los sigu ientes:
1. 2.
3. 4.
Es probable que la relaci6n entre el numero de unidades vendidas y el precio se desplace si entra un nuevo competidor en el mercado. La relaci6n entre el consumo agregado y la renia di sponible agregada puede desplazarse en tiempos de guerra 0 como consecuencia de algun otro gran acon~ tecimi ento nacional. La relaci6n entre la producci6n total y el numero de trabajadores puede desplazar~ se como consecuencia de la introducci6n de una nueva tecnologia de produccion. La funci6n de demanda de un produclo puede variar como consecuencia de una nueva campana publicitaria 0 de la publi caci6n de una nOlicia relativa al producto.
Este anali sis ha in Lroducido el concepto de regresi6n l1ti lizando variables ficticias como un metodo para ampliar nueslra capacidad de anal isis. El metodo se resume a continuaci6n.
Capitulo 13.
Regresi6n multiple
54 7
The regression equation is Annual Salary (Y) = 23608 + 14684 Gender (X2) O=Fema l e l=Male + 4076 Years Experience (Xl) Predictor Constant Gender (X2) O=Female l =Male Year Experience (Xl)
S = 1709.48
R-Sq = 99 . H
Coef
T
p
1434 16.46 987 . 0 14.88 121.3 33 . 61
0 . 000 0 . 000 0 . 000
S8 Coef
23608 14683 . 7 407 6 . 5
R-Sq (adj) = 99.2%
Analysis of Variance Source Regression Residual Error Total
Figura 13.20.
DP 2 9 11
SS 39 4824096 26300913 3974541710
MS 1974120398 2922324
P 675 . 53
P 0 . 000
Analisis de regresion del ejemplo de la discriminacion salarial: salario anual en relacion can los anos de experiencia y el sexo (salida Minitab).
Analisis de regresi6n utilizando variables ficticias La relaci6n entre Y y X,
puede desplazarse en respuesta a un cambio de una determinada condicion. EI etecta del desplazamiento puede estimarse utilizando una variable ficticia que tiene el valor 0 (no se cum pie la condici6n) y 1 (se cumple la condicion). Como muestra la Figura 13.19, lodas las observaciones del conjunto superior de puntos de dalos lienen la variable ticlicia x2 = 1, Y las observaciones de los puntos inferiores tienen la variable ficlicia x2 = O. En estos casos, la relaci6n entre Y y X, es especificada por el modelo de regresion multiple
(13.33) EI coeficiente b2 represenla el desplazamiento de la funcion entre el conjunto de puntos inferior de la Figura 13.19 y el superior. Las funciones de cada conjunto de puntos son
y=
bo + bXI
cuando
Xl
=
0
y
cuando
X2
=
1
En la primera funci6n, la constante es bo' mientras que en la segunda es b o + b 2 • En el Capitulo 14 mostramos c6mo pueden utilizarse las variables ficticias para analizar problemas que lienen mas de dos categorfas discretas.
Esla sencilla espec ificaci6n del modelo de regresi6n lineal es un instrumento muy poderoso para resolver los problemas que implican un desplazamiento de la funci6n linea l provocado por factores discretos identificables. Ademas, la eSlruClura de regres i6n mUltiple es un metoda directo para realizar un contraste de hip6tcs is, como hemos hecho en el cjemplo 13.13. El contraste de hip6tesis es Ho: p, ~
0 III, '" 0 H,:P2",OIII, ,,, O
548
Esladfslica para adminislraci6n y econom(a
EI rechazo de la hipolesis nula, Ho, !leva a la conclusi6n de que la con stante de los dos subconjuntos de dalos es diferente. En el ejemplo 13. 13 hemos visto que esta difercncia entre las constantes lIevaba a la conclusion de que existia una diferencia sign ifica liva entre los salarios masc ulinos y los feme ni nos una vez eliminado e l efecto de los ailos de expe~ riencia.
Diferencias entre las pendientes Podemos utilizar variables ficticias para analiza!' y con lraSlar las diferenc ias entre las pen~ dientes aiiad iendo una variable de interacci 6n . La Figura 13.21 muestra un ejemplo repre~ se nlalivo. Para con trastar tanlo las diferenc ias enlre las constantes como las di ferenc ias e n ~ Ire las pendiellles, utili zamos un modelo de regres i6 n mas complejo. Gender (> O e interprete su resullado. f) Contraste al nivel del 10 por dento la hip6-
tesis nllia
Ho:fh=O frente a la hip6tesis alternaliva
Regresi6n multiple
567
-'"5 = tasa de accioncs disciplinarias .\"(, = lasa de absent ismo de los trabajadores
par hora x7 = attitudes de los trabajadores asalariados, desde baja (in satisfechos) hasta alta, medidas par media de un cuestionnrio. x8 = porcenlaje de (rabajadorcs par hom que haeen al menos una sugereneia en un ana al programa de sugerencias de la planta. Tambien se obtuvo por mfllimos cuadrados un modelo ajustado a partir de estos datos: y= 9 ,062 - 10,944xl + 0,320-"'2 +0,01 9X3
R2= 0,242
Las variables X4' -"'5' X6' X7 YX8 son medidas de los resultados de un sistema de relacioncs laborales de la planta. Contraste al nivcl del I por eiento la hip6tesis nula de que no contribuyen a explicar la eficiencia dirccta del trabajo, dado que tambien se utili zan XI ' x2 Y x3-
e interprete su resu ltado. 13.98. , . Al final de las dases, los profesores sao evaluados por sus estudiantes en una escala de I (malo) a 5 (excelellte). Tambiell se les pregunta a los esludiantes que ealifieaci6n csperan oblener y eSlas se codifiean de la forma siguiente: A = 4, B = 3, etc. EI fichero de datos Teacher Rating coilliene las evaluaciones de los profesores, las calificaciones medias esperadas y el numero de estudiantes de las clases de una muestra aleatoria de 20 clases. Calcule la rcgresi6n multiple de la evaluaci6n con respecto a la califieaci6n esperada y eJllumero de estudiantes y realice un informe sobre sus resultados.
13.99. Sistemas Informiiticos Voiadores, S.A., quiere saber c6mo afectan algullas variables a la eficiencia del Irabajo. Basandose en una muestra de 64 observaci ones, cstim6 ci siguicnlc mode10 por mfnimos cuadrados:
y= - 16,528 + 28.729xl + 0,022X2 -
0,023x) - 0,054x4 - 0,077X5 +0,411-"'6 + 0,349x7 + 0,028x 8 R2=0,467 donde y = fndiee de efieiencia directa del trabajo en la planta de produeci6n X l = eociente entre las homs extmordinarias y las horas ordinarias realizadas por todos los obreros -"'2 = numero medio de trabajadores por hora en la planta x ) = porcemaje dc asalariados que palticipan en algun programa de calidad de vida laboral X4 = numero de reclamaciones recibidas por cada 100 trabajadores
13.100. Basandose en las calificaciones obtenidas por 107 esrudiantes en el pri mer examen de un eurso de estadfstica para los ncgocios, se esti m6 el siguiente modelo por minimos cuadrados: y=2, 178+0,469x l + 3,369x2 + 3,054x3 (0.090)
(0.456)
(1.457)
donele y = calificaci6n efectiva del estudiante en el examen Xl = calificaci6n csperada por el estudiante en el examen X2 = hams semana1es dedicadas a estudiar para el curso xJ = ealifieaci6n media del estudianle
Los numeros entre parentesis situados debajo de los eoctieicnles son los errores t(picos de los eoeficientes estimados. a) Interprete la estimaci6n de (JI' b) Halle e inlcrprcte el inlervalo de confianza al 95 par ciento de P2' e) Contraste la hip6tesis nu la de que fh es 0 frellte a una hip6tesis altemati va bilateral e interprete Sll resultado. d) Interprete el eoeficiente de detenninaci6n. e) Contraste la hip6tesis nula de que
f) Halle e interprete el coeficiente de correla-
ci6n multiple. g) Prediga la califieaci6n de un estudiante que espera una calificaci6n de 80, estudia 8 horas a la semana y tiene una calificaci6n media de 3,0.
568
Esladislica para adminislracioo y economia
13.101. Basandose en 25 alios de datos aouales, se inlent6 cxplicar el uhorro en la India . EI modclo ajustado era
Yi = {Jo
+ fJlXli + rJ~2j + f:i
donde
y = variaci6n del tipo real de los dep6si tos XI = variaci6n de la renta real per capita X2 = variaci6n del ti po de intercs real Las estimaciones de los para metros por mfnimos cuadrados (con los crrores tfpicos entre parentesis) eran (vease la referencia bibliognifica I) b,
~
b,
0,0974(0,02 15)
~
0.374(0,209)
El coefici ente de dcterminaci6n corrcgido era
iP =
°
13.102. Basandose en datos de 2.679 j ugadorcs de balonceslo de centros de cnselianza secundaria, sc ajust6 el siguiente modclo: {J2-'f2i
+ ... + P9-'C91
+C
j
dondc y = minutos j ugados en 13 tcmporada XI = porcentaje de li ros de 2 puntos convertidos Xi = porecmaje de ti ros Iibres X3 = rebotes por minuto . 1."4 = puntos por minulo x~ = raltas por min u\o X6 = robos de bal6n por minuto X7 = lapones por mi nu to XII = perdidas de bal6n por minulo X9 = asistencias por minuto Las eSli maciones de los panl.metros por mfni mos cuadrados (con los errores Ifpicos entre parcnlcsis) son bo ~ b, ~ b, ~ b, ~ b, ~
358,848 (44,695) 0,2855 (0,0388) 504,95 (43,26) 480,04 (224,9) -89 1,67 (180,87)
b,
~
bJ ~ bs ~ b, ~ b, ~
R2 = 0,5239 a) Halle e inlcrprcte el inrervalo de confianl.:t al 90 por cienlo de (J6. b) Halle e interprete cl illlervalo de con fi:lIlz:I al 99 por ciento de (J7. c) COlllraste la hip6tesis nula de que /18 es 0 frente a 1a hip6tesis alteOlativa de que es negativo. Interprctc Sll resultado. d) Conlraste la hip6lcsis nula de que fi9 es 0 frente a b hip6tesis alLCrnativa de que e~ positivo. Intcrprete su resultado. e) Interprele el eocfieiente de determinaci6n. f) Halle e interprete el cocficienle de cOlrelilci6n multiple. 13.103. Basandosc en datos de 63 regiones, se cstim6 el siguientc modelo por mfnimos cuadrados:
0,9 1
a) Halle e interprete el intervalo de con fia nza al 99 POI" cicnto de [JI. b) Contrasle la hip61esis nula de que P2 es frenle a la hip6tcsis alternativa de quc cs positivo. c) Halle el coeficiente de delerminaci6n. d) Contrasle In hip6tesis nula de que Ii, ~ p, ~ O. e) Halle e interprete el coeficicntc de cOlrelaei6n multiple.
Yj = {Jo + PIXI; +
EI coef"icicnte de determinacion es
0,6742 (0,0639) 303 ,8 1 (77,73) - 3.923,5 ( 120.6) 1.350,3 (2 12.3) 722.95 ( 110,98)
y=
0,58 - 0,052x 1 - 0,005..1."2 (0,U I 9)
RZ = 0.1 7
(0.042)
donde y = tasa de crec imi enlo del produclo in terior bruto real XI = renta real per capita X2 = lipo impositivo medio en porcentaje del producto naciona l bruto
Los m"imeros entre parenlesis situados debajo de los coeficienles son los errores tfpicos de los coeficientcs est imados. a) Contraste la hip6tesis nula de que PI es 0 frent e a una hip6tesis alternativa bilatcral. Interprete Sll resultado. b) Contraste la hip6lesis nu la de que (J2 es 0 frente a una hip6tesis alternati va bilateral. Interprete su resultado. c) Inlerprete el cocficienle de determ inaci6n . d ) Halle e interprctc cl coefi cicntc de correlacion multiple . 13,104, En un cstudio, se ajust6 el siguicllte modelo de regresi6n a los datos de 60 golfi stas amateurs:
y=164.683 +34 1, IOX I + 170,02xz + 495,19x) -4,23x-I (10059)
( 167, t8)
(305.48)
- 136.04Oxs - 35.549x6 + 202,52x7 (25.634)
(16.240)
(90.0)
iP =0,5 16
( 106.20)
donde y = ganancias por torneo en d61arcs Xl = longitud med ia del golpe . 1."2 = porcentaje de veccs en que el golpe acuba en la pisla X3 = porccntajc de vcces en que se llega cn buena posici6n al ((green» (