ANÁLISIS DE REGRESIÓN

ANÁLISIS DE REGRESIÓN Edgar Acuña Fernandez Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez REGRESIÓN LINEA

5 downloads 137 Views 77KB Size

Recommend Stories


modelos aditivos y multiplicativos en el anlisis de matrices multitrazos-multimtodos de cuestionarios de intereses profesionales
´ tica: Teor´ıa y Aplicaciones 1998 5(1) : 49–56 Revista de Matema cimpa – ucr – ccss issn: 1409-2433 modelos aditivos y multiplicativos en el anlis

CAUSA DE CANONIZACIÓN DE LA SIERVA DE DIOS. (29 de Marzo de de Agosto de 2004)
CAUSA DE CANONIZACIÓN DE LA SIERVA DE DIOS MADRE MERCEDES DE JESÚS EGIDO IZQUIERDO IMPULSORA DE LA VUELTA A LAS FUENTES DE LA ORDEN DE LA INMACULADA

1999, de 23 de marzo, de ORDEN de 23 de marzo de 1999 por la que
13502 Sábado 10 abril 1999 CAPÍTULO 10 Instalaciones eléctricas 20. En el párrafo 10.2.3.4.2, segunda oración, se sustituye «a juicio de la Administ

PROYECTO DE ORDEN DE. DE
CONSEJERÍA DE JUSTICIA E INTERIOR Dirección General de Interior, Emergencias y Protección Civil PROYECTO DE ORDEN DE …. DE ........ DE 2016, POR LA Q

Story Transcript

ANÁLISIS DE REGRESIÓN Edgar Acuña Fernandez Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez

REGRESIÓN LINEAL SIMPLE • Regresión: conjunto de técnicas que son usadas para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes, llamadas predictoras. Estas deben ser por lo general cuantitativas, sin embargo usar predictoras que son cualitativas es permisible. Cuando hay solo una predictora se llama regresion simple. • Modelo de regresión. Ecuación que representa la relación entre las variables. Cuando el modelo es lineal se llama regresion lineal • Para estimar la ecuación del modelo se debe tener una muestra de entrenamiento. Edgar Acuña

Analisis de Regresion

Enero, 2013

Ejemplo 1 NACION %INMUNIZACION 1 "Bolivia" 77 2 "Brazil" 69 3 "Cambodia" 32 4 "Canada" 85 5 "China" 94 6 "Czech_Republic" 99 7 "Egypt" 89 8 "Ethiopia" 13 9 "Finland" 95 10 "France" 95 11 "Greece" 54 12 "India" 89 13 "Italy" 95 14 "Japan" 87 15 "Mexico" 91 16 "Poland" 98 17 "Russian_Federation" 73 18 "Senegal" 47 19 "Turkey" 76 20 "United_Kingdom" 90 Edgar Acuña

Analisis de Regresion

TASA_mor 118 65 184 8 43 12 55 208 7 9 9 124 10 6 33 16 32 145 87 9 Enero, 2013

ia op hi Et dia bo m Ca

l ga ne e S

ia liv Bo

100

tasa de mortalidad

150

200

Relacion de la tasa de mortalidad con el porcentaje de inmunizacion

a di In

ey rk Tu

50

il az Br

t yp Eg

ion at er d Fe n_ ia s s Ru

0

e ec re G

20

40

60

80

a in Ch o ic ex M l nd b m la epu do o g e n lycPd _R da Ki Itaan an h na an d_ Firnl zec Ca Jap te F i C Un

100

porcentaje de inmunizacion

Edgar Acuña

Analisis de Regresion

Enero, 2013

Ejemplo de una linea de Regresion ia op hi Et dia bo m Ca

l ga ne e S

ia liv Bo

100

tasademortalidad

150

200

Relacion de la tasa de mortalidad con el porcentaje de inmunizacion

^ y = 224.3163 + -2.135869x

ey rk Tu

50

il az Br

i ss Ru

t yp Eg

ion at er d e _F an

0

40

60

a in Ch o ic ex M li m nd b la epu do o g e cP ly in d _R da n n taa h Ia na pan _K Firnl zec Ca Ja ited F C n U

e ec re G

20

a di In

80

100

porcentaje de inmunizacion

Edgar Acuña

Analisis de Regresion

Enero, 2013

1.1.1Usos del análisis de regresión a) Predicción b) Descripción c) Control d) Selección de variables

Edgar Acuña

Analisis de Regresion

Enero, 2013

1.2 El modelo de Regresión Lineal simple

Y = α + βX + ε Considerando la muestra (Xi,Yi) para i=1,…n

Yi = α + βX i+ei • Suposiciones del modelo: La variable predictora X es no aleatoria Los errores ei son variables aleatorias con media 0 y varianza constante σ2. Los errores ei y e j (i≠j=1…,n) son independientes entre si Edgar Acuña

Analisis de Regresion

Enero, 2013

1.2.1Estimación de la línea de regresión

usando Mínimos Cuadrados Se debe Minimizar

Q(α, β ) = ∑ e = n

i =1

2 i

n

2 ( y − α − β x ) ∑ i i i =1

Derivando parcialmente con respecto a α y β se obtiene un par de ecuaciones normales para el modelo, cuya solucion produce

βˆ =

n

n

n

i=1

i=1 n

i=1

n∑xi yi − ∑xi ∑ yi n

n∑x − (∑xi ) i=1

Edgar Acuña

2 i

i=1

O equivalentemente

2

βˆ =

S xy S xx

αˆ = y − βˆx Analisis de Regresion

Enero, 2013

1.2.2 Interpretación de los coeficientes de regresión estimados )

La pendiente β indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. )

El intercepto α indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretación práctica si es irrazonable considerar que el rango de valores de x incluye a cero.

Edgar Acuña

Analisis de Regresion

Enero, 2013

1.2.3 Propiedades de los estimadores mínimos cuadráticos de regresión )

)

a) β es un estimador insegado de β. Es decir, E( β )=β ) es un estimador insegado de α. Es decir, E( α) )=α

b) α

)

c) La varianza de β es

σ2 Sxx

y la

)

de α

es

1 x2 σ ( + ) n Sxx 2

Edgar Acuña

Analisis de Regresion

Enero, 2013

1.2.4 Distribución de los estimadores mínimos cuadráticos Para efecto de hacer inferencia en regresión, se requiere asumir que los errores ei , se distribuyen en forma normal e 2 independientemente con media 0 y varianza constante σ . En consecuencia, también las yi ' s se distribuyen normalmente con 2 media α + βxi y varianza σ . Se puede establecer que: 2 2 σ x 1 βˆ ~ N(β , ) αˆ ~ N (α , ( + )σ 2 ) Sxx n S xx

Edgar Acuña

Analisis de Regresion

Enero, 2013

1.2.5 Propiedades de los residuales Los residuales son las desviaciones de los valores observados de la variables de respuesta con respecto a la línea de regresión. n

a)

ri = 0 La suma de los residuales es 0. Es decir, ∑ i =1 n

b)

∑r x i

i =1 n

c)

)

∑r y i =1

i

Edgar Acuña

i

i

=0 =0

Analisis de Regresion

Enero, 2013

1.2.7 Descomposición de la suma de cuadrados total La desviacion de un valor observado de la variable de respuesta con respecto a su media se puede escribir como: ) ) ( yi − y ) = ( yi − yi ) + ( yi − y ) n

n

∑ ( yi − y ) 2 =

) ∑ ( yi − yi ) 2 +

i =1

i =1

n

)

∑(y i =1

i

− y)2

SST = SSE + SSR Se puede deducir que

SSR = βˆ

n

2

2 ( x − x ) ∑ i i =1

Edgar Acuña

Analisis de Regresion

Enero, 2013

Se puede demostrar que:

E(SSR) = E(βˆ 2Sxx) = σ 2 + β 2Sxx Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y y por lo tanto se distribuyen como una Ji-cuadrado. Se pueden establecer los siguientes resultados: i)

SST

~ χ '(2n −1)

σ2 ii)

SSE

σ

2

SSR iii)

σ2

Edgar Acuña



2 ( n−2)

~ χ '(21)

(Ji-Cuadrado no central con n-1 g.l)

Equivalentemente

(n − 2) s 2

σ2

~ χ (2n − 2)

(Ji-Cuadrado no central con 1 g.l) Analisis de Regresion

Enero, 2013

1.2.6 Estimación de la varianza del error • Un estimador insesgado de σ 2 es: n

s2 =

) 2 ( y − y ∑ i i) i =1

n−2

n

=

∑r i =1

2

i

n−2

s 2 es tambien llamado el cuadrado medio del error

(MSE)

Edgar Acuña

Analisis de Regresion

Enero, 2013

1.2.8 El Coeficiente de Determinación R 2 Es una medida de la bondad de ajuste del modelo R

2

SSR * 100 % = SST 2

Un modelo de regresion con R mayor o igual a 75% se puede considerar bastante aceptable. 2

Nota: El valor de R es afectado por la presencia de valores anormales.

Edgar Acuña

Analisis de Regresion

Enero, 2013

1.3 Inferencia en Regresion Lineal Simple • Pruebas de hipótesis e intervalos de confianza acerca de los coeficientes de regresión del modelo de regresión poblacional. • Intervalos de confianza para un valor predicho y para el valor medio de la variable de respuesta

Edgar Acuña

Analisis de Regresion

Enero, 2013

1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t. La pendiente de regresión2 se distribuye como una normal con σ media β y varianza Sxx Un intervalo de confianza del 100(1-α)% para la pendiente poblacional β es de la forma: ) ( β − t ( n − 2,α / 2)

s Sxx

) , β + t ( n − 2,α / 2)

s Sxx

)

Donde α representa el nivel de significación.

Edgar Acuña

Analisis de Regresion

Enero, 2013

Intervalo de confianza para el intercepto α Un intervalo de confianza del 100(1-α)% para el intercepto α de la linea de regresión poblacional es de la forma:

1 x2 ) 1 x2 (α − t ( n − 2,α / 2 ) s + , α + t ( n − 2,α / 2 ) s + ) n Sxx n Sxx )

Edgar Acuña

Analisis de Regresion

Enero, 2013

Pruebas de hipótesis para la pendiente β (asumiendo que su valor es β* ) Caso I Ho: β=β* Ha: ββ*

)

β −β* s Sxx

~ t( n − 2)

Regla de Decisión Rechazar Ho, Rechazar Ho

Rechazar Ho

si |tcal |>t(α/2,n-2) si tcal>t(α,n-2) si tcal

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.