Análisis de Regresión y Correlación. Material Preparado por Olga Susana Filippini y Hugo Delfino 1

Análisis de Regresión y Correlación Material Preparado por Olga Susana Filippini y Hugo Delfino 1 ORIGEN HISTÓRICO DEL TÉRMINO REGRESlÓN El términ

Author: Victoria Vidal Montoya

0 downloads 86 Views 590KB Size

Report

DOWNLOAD PDF

Recommend Stories

Material preparado por

Material preparado por www.elacampante.com.ar CACTUS 1- Mencionar las principales características de un cacto. 2- Mencionar tres usos del cacto. 3- I

Material preparado por

Material preparado por FLORICULTURA

Material preparado por

Material preparado por:

AVICULTURA I. Material preparado por

Material preparado por www.elacampante.com.ar AVICULTURA I 1) Describir incubadoras, madres artificiales, gallineros sanitarios, perchas, bebederos,

Material preparado por TRABAJOS EN CUERO I

Material preparado por www.elacampante.com.ar TRABAJOS EN CUERO I 1. Haga una lista de las herramientas necesarias para un principiante en trabajos e

Por: SUSANA SIGNORELLI 1 (Argentina)

1 de Corintios. Por Daniel Hugo Fuente

1˚ de Corintios Por Daniel Hugo Fuente Introducción Algunos hablan de los primeros cristianos como si hubieran sido modelos de todas las virtudes. L

LEGISLACION LABORAL Material preparado por CP Ana Stella Mendoza Pinilla

Story Transcript

Análisis de Regresión y Correlación

Material Preparado por Olga Susana Filippini y Hugo Delfino

1

ORIGEN HISTÓRICO DEL TÉRMINO REGRESlÓN El término regresión fue introducido por Francis Galton. En un famoso artículo Galton plantea que, a pesar de la presencia de una tendencia en la que los padres de estatura alta tenían hijos altos y los padres de estatura baja tenían hijos bajos, la estatura promedio de los niños nacidos de padres de una estatura dada tendía a moverse o «regresar» hacia la estatura promedio de población total. En otras palabras, la estatura de los hijos inusualmente altos o de padres inusualmente bajos tiende a moverse hacia la estatura promedio de la población. La ley de regresón universal de Galton fue confirmada por su amigo Karl Pearson, quien reunió más de registros de estaturas de miembros de grupos familiares. Pearson encontró que la estatura promedio de los hijos de un grupo de padres de estatura alta era menor que la estatura de sus padres y la estatura promedio de los hijos de un grupo de padres de estatura baja era mayor que estatura de sus padres, generándose un fenómeno mediante el cual los hijos altos e hijos bajos «regresaban» en forma similar hacia la estatura promedio de todos los hombres. En palabras de Galton, se trataba de una «regresión hacia la mediocridad». Material Preparado por Olga Susana Filippini y Hugo Delfino

2

Introducción Muchas veces las decisiones gerenciales se basan en la relación entre dos o más variables • Ejemplos: • Después de revisar la relación entre los gastos de publicidad y las ventas, un gerente de marketing podría tratar de predecir las ventas para determinado nivel de gastos de publicidad.

• Se quiere estimar el consumo de un bien en función de los ingresos de la familia. Material Preparado por Olga Susana Filippini y Hugo Delfino

3

Ejemplos • Después de revisar la relación entre la dosis de fertilizante aplicado y el rendimiento de un cultivos ventas, un agricultor podría tratar de predecir el rendimiento del cultivo en qq/ha en función de la cantidad de fertilizante a aplicar. Teniendo en cuenta todos los gastos e ingresos esperados, establecer el punto optimo de dosis de fertilizante a utilizar. • Un ingeniero en alimentos puede ver la relación existente entre el tiempo y el número de bacterias que se producen. Material Preparado por Olga Susana Filippini y Hugo Delfino

4

Introducción En general uno desea conocer la relación existente entre las variables y cuantificarla. La representación gráfica es eficaz para obtener una información intuitiva sobre la relación entre variables. Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés. Material Preparado por Olga Susana Filippini y Hugo Delfino

5

Diagrama de dispersión Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.

Material Preparado por Olga Susana Filippini y Hugo Delfino

6

Conceptos básicos • Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos variables • Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables. Con el objeto de predecir una en función de la/s otra/s. Material Preparado por Olga Susana Filippini y Hugo Delfino

7

Conceptos básicos • Variable dependiente (Y): es la variable que se desea predecir o estimar

• Variables independientes (Xi ). Son las variables que proveen las bases para estimar. • Regresión simple: interviene una sola variable independiente • Regresión múltiple: intervienen dos o más variables independientes. • Regresión lineal: la función es una combinación lineal de los parámetros. • Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal Material Preparado por Olga Susana Filippini y Hugo Delfino

8

Coeficiente de correlación lineal • Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones · Varía entre -1.00 y 1.00. · Valores de -1.00 o 1.00 indican correlación perfecta. · Valor igual a 0.0 indica ausencia de correlación. · Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa

Material Preparado por Olga Susana Filippini y Hugo Delfino

9

Correlación Negativa Perfecta

Y

10 9 8 7 6 5 4 3 2 1 0 0

1

2

3

4

5 X

6

7

8

9

Material Preparado por Olga Susana Filippini y Hugo Delfino

10 10

Correlación Positiva Perfecta

Y

10 9 8 7 6 5 4 3 2 1 0 0

1

2

3

4

5 X

6

7

8

9

Material Preparado por Olga Susana Filippini y Hugo Delfino

10 11

Ausencia de Correlación

Y

10 9 8 7 6 5 4 3 2 1 0 0

1

2

3

4

5 X

6

7

8

9

Material Preparado por Olga Susana Filippini y Hugo Delfino

10 12

Correlación Fuerte y Positiva

Y

10 9 8 7 6 5 4 3 2 1 0 0

1

2

3

4

5 X

6

7

8

9

Material Preparado por Olga Susana Filippini y Hugo Delfino

10 13

Coeficiente de correlación (r) Pearson

r

r

Covarianci a ( XY ) Var ( X ) *Var (Y ) n( XY ) ( X )( Y ) 2

2

2

n( X ) ( X ) n( Y ) ( Y )

Material Preparado por Olga Susana Filippini y Hugo Delfino

2

14

Test de hipótesis del coeficiente de correlación 1.

Hipótesis: H0: la correlación en la población es 0. H1: la correlación en la población no es 0.

2.

Nivel de significación:

= 0.05. t

r

n

2

3.

Estadística de la prueba: se distribuye 1 r2 como un t de Student con n-2 grados de libertad.

4.

Regla de decisión: Rechazamos H0 si, y solo si, el valor de t calculado es mayor que el valor t teórico, o el valor p es menor que el fijado . En caso contrario, se acepta H0.

5.

Conclusión: Si rechazo H0 concluyo que hay evidencias de correlación entre las variables. En caso contrario no

Material Preparado por Olga Susana Filippini y Hugo Delfino

15

Modelo de Regresión Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística: • Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemática • Una dispersión de las observaciones alrededor de la curva de relación estadística Material Preparado por Olga Susana Filippini y Hugo Delfino

16

Modelo de Regresión Estas dos características están implícitas en un modelo de regresión, postulando que: • En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de probabilidades de Y para cada nivel de X. • Las medias de estas distribuciones varían de manera sistemática al variar X.

Material Preparado por Olga Susana Filippini y Hugo Delfino

17

Representación gráfica del modelo de Regresión Lineal

Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X Material Preparado por Olga Susana Filippini y Hugo Delfino

18

Análisis de Regresión • Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a la variable independiente (X). • Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación; dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión. Material Preparado por Olga Susana Filippini y Hugo Delfino

19

Proceso de estimación de la regresión lineal simple Modelo de regresión

y= 0+ 1x+ Ecuación de regresión

E(y)= 0+ 1x Parámetros desconocidos 0. 1

proporcionan estimados 1

x x1 x2 . . . xn

y y1 y2 . . . yn

Ecuación estimada de regresión

b0 y b 1 0y

Datos de la muestra

y=b0+b1x Estadísticos de la muestra

b0.b1 Material Preparado por Olga Susana Filippini y Hugo Delfino

20

Método de Mínimos Cuadrados • Considera la desviación de yi con respecto a su valor esperado: yi – ( 0 + 1·xi) • Se considera la suma de n desviaciones elevadas al cuadrado. Este criterio se denota como: n

Q

Yi

0

1

Xi

2

i 1

• Los estimadores de 0 y 1 son b0 y b1 que se obtienen minimizando las ecuaciones normales Yi X iYi

n b0 b1 b0

Xi X i b1

X i2

Material Preparado por Olga Susana Filippini y Hugo Delfino

21

Posibles modelos en la regresión lineal simple Sección B Sección A Relación lineal positiva Relación lineal negativa Ey

Ey Línea de regresión

*

La pendiente es positiva

*

La pendiente es negativa

Sección C No hay relación Ey

1

La pendiente es 0

1

*

1

Línea de regresión

x

x * Ordenada al origen

Línea de regresión

x

0

Material Preparado por Olga Susana Filippini y Hugo Delfino

22

Estimación de la ecuación de Regresión • yˆ i = b0 + b1xi, donde: •

yˆ i es el valor estimado de y para distintos x.

• b0 es la intersección o el valor estimado de y cuando x=0 • b1 es la pendiente de la línea, o el cambio promedio de y para cada cambio en una unidad de x • el principio de mínimos cuadrados es usado para obtener b0 y b1 : b1 b0

n(

xy) ( x)( y ) n( x 2 ) ( x ) 2 y

n

b1

x n

Material Preparado por Olga Susana Filippini y Hugo Delfino

23

Interpretación gráfica de coeficientes de regresión

Material Preparado por Olga Susana Filippini y Hugo Delfino

24

Regresión Lineal simple en términos matriciales Yi= 0+ 1xi+

i

Y1= 0+ 1x1+

donde i=1, .....,n 1

. .

Yn= 0+ 1xn+

Yi

n

Y1

1X 1

Y2

1X 2

. Yn

Xi

.. 1X n

1 0 i

2 i

1

. n

En términos matriciales Y=X + Material Preparado por Olga Susana Filippini y Hugo Delfino

25

Regresión Lineal simple en términos matriciales En términos matriciales encontrar el estimador de mínimos cuadrados implica resolver: b= (X´X)-1 X´Y Para producir las estimaciones Yˆi

Yˆ1 Yˆ

2

.

Xb

Yˆn

Los residuales se obtienen e Y Yˆ Y Xb Material Preparado por Olga Susana Filippini y Hugo Delfino

26

Prueba de Hipótesis Global • La prueba global es usada para investigar si la combinación lineal de variables independientes es significativa. • Las hipótesis son :

H0:

1

2

3

...

k

0

Ha : Al menos un coeficiente de regresión es distinto de cero. La distribución estadística F es usada en esta prueba ,con k (número de variables independientes) y n-(k+1) grados de libertad , donde n es el tamaño de muestra. Material Preparado por Olga Susana Filippini y Hugo Delfino

27

Prueba de Hipótesis Parciales • La prueba “t” de Student es utilizada para determinar cual variable independiente tiene coeficientes de de regresión distinto de cero. Son llamadas pruebas parciales. • Las variables con coeficiente de regresión cero son eliminadas. • La estadística “t” se utiliza en este caso con n (k+1) grados de libertad.

Material Preparado por Olga Susana Filippini y Hugo Delfino

28

Estimación de la variancia de los términos del error ( 2) Debe ser estimada por varios motivos

• Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y. • Para realizar inferencias con respecto a la función de regresión y la predicción de Y. • La lógica del desarrollo de un estimador de 2 para el modelo de regresión es la misma que cuando se muestrea una sola población • La variancia de cada observación Yi es 2, la misma que la de cada término del error Material Preparado por Olga Susana Filippini y Hugo Delfino

29

Estimación de la variancia de los términos del error ( 2) Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada Yˆi Por tanto, las desviaciones son los residuales

ˆi = ei Yi - Y Y la suma de cuadrados es: n

SCe i 1

(Yi Yˆi ) 2

n

n

(Yi b0 b1 X 1 ) 2 i 1

Material Preparado por Olga Susana Filippini y Hugo Delfino

ei2 i 1 30

Material Preparado por Olga Susana Filippini y Hugo Delfino

31

Estimación de la variancia de los términos del error ( 2) La suma de cuadrados del error, tiene n-(k+1) grados de libertad asociados con ella, ya que se tuvieron que estimar k parámetros. Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios 2 n

CM e

SCe n (k 1)

e i 1

i

n (k 1)

Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de 2 Material Preparado por Olga Susana Filippini y Hugo Delfino

32

Análisis de Variancia en el análisis de regresión • El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y. • La variación de los Yi se mide convencionalmente en términos de las desviaciones

(Yi

Yi )

• La medida de la variación total SCtot, es la suma de las desviaciones al cuadrado

(Yi

Yi )

2

Material Preparado por Olga Susana Filippini y Hugo Delfino

33

Variación Total

Material Preparado por Olga Susana Filippini y Hugo Delfino

34

Desarrollo formal de la partición Consideremos la desviación

(Yi

Podemos descomponerla en

Yi

Y

ˆi (Y

Yi )

Y) (Yi

ˆi ) Y

T R E (T): desviación total (R): es la desviación del valor ajustado por la regresión con respecto a la media general (E): es la desviación de la observación con respecto a la línea de regresión Material Preparado por Olga Susana Filippini y Hugo Delfino

35

Partición de la variación total

Material Preparado por Olga Susana Filippini y Hugo Delfino

36

Desarrollo formal de la partición Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen

Y

i

Y

2

ˆ (Y

i

Y)

2

(Y

i

ˆ) Y

2

i

SCtot SCreg SCer (SCtot): Suma de cuadrados total (SCreg): Suma de cuadrados de la regresión (SCer): Suma de cuadrados del error Dividiendo por los grados de libertad, (n-1), (k) y (n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia. Material Preparado por Olga Susana Filippini y Hugo Delfino

37

Coeficiente de Determinación • Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X. · El coeficiente de determinación es cuadrado del coeficiente de correlación, y varia entre 0 y 1.

Para calcular el R2 se utilizó la siguiente fórmula:

R

2

( yˆ c ( yo

2

y) 2 y)

Material Preparado por Olga Susana Filippini y Hugo Delfino

38

Supuestos • • • • •

Linealidad. Independencia de los residuos. Homocedasticidad Normalidad No colinealidad.

Material Preparado por Olga Susana Filippini y Hugo Delfino

39

Linealidad • La relación entre las variables independientes y dependientes es lineal. • ¿Cómo se prueba? • Diagrama de dispersión entre las variables

Material Preparado por Olga Susana Filippini y Hugo Delfino

40

Diagrama de dispersión Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.

Material Preparado por Olga Susana Filippini y Hugo Delfino

41

Independencia de los Residuos • Los residuos son una variable aleatoria. • No deben estar autocorrelacionados. Es común que ocurra en series temporales. • ¿Cómo diagnosticar? • Durbin Watson (e e ) n

2

i

DW

i 1

i 2 n

ei2 i 1

• Varia entre 0 y 4 alrededor de 2 significa independencia de los residuos. Material Preparado por Olga Susana Filippini y Hugo Delfino

42

Homocedasticidad • Para cada valor de la variable independiente la variación alrededor de la línea de regresión de la variable dependiente es constante. • ¿Cómo diagnosticar? • Gráfico de dispersión entre las valores pronosticados y los residuales (ambos estandarizados)

Material Preparado por Olga Susana Filippini y Hugo Delfino

43

Análisis de residuos

residuos estandarizados

valores pronosticados

Los residuos deberían estar: • Distribuidos aleatoriamente alrededor del 0, es decir que haya aproximadamente la misma cantidad de valores positivos y negativos. • Variar entre -3 y +3. Esto indica que el modelo que se especifico es correcto Material Preparado por Olga Susana Filippini y Hugo Delfino

44

Análisis de residuos

residuos estandarizados

valores pronosticados

Caso 1: Se requieren mas variables en el modelo. Caso 2: La relación no es lineal entre las variables. Caso 3: Hay heterocedasticidad.

Material Preparado por Olga Susana Filippini y Hugo Delfino

45

Normalidad de los Residuos • Residuo: ei Yi Y ei e • Residuo tipificado: zi • Los residuos deben seguir una distribución Normal. • ¿Cómo probarlo? • Histograma de los residuos. • Gráfico de probabilidad normal

Material Preparado por Olga Susana Filippini y Hugo Delfino

46

No colinealidad • Colinealidad lineal perfecta cuando una variable se relaciona de forma perfectamente lineal con otra. • Colinealidad perfecta: no se pueden estimar los parámetros. • Colinealidad parcial: aumenta los residuos tipificados y produce coeficientes de regresión inestables.

• ¿Cómo diagnosticar? • FIV (Factores de Inflación de la Variancia)

Material Preparado por Olga Susana Filippini y Hugo Delfino

47

Regresión múltiple • Para dos variables independientes, la forma general de la ecuación de Regresión múltiple es: • • •

•

Y ' a b1 X1 b2 X 2 X1 y X2 son las variables independientes . a es la intercepción con Y cuando X1 y X2 son iguales a cero . b1 es el porcentaje de cambio en Y por cada unidad de cambio en X1 manteniendo X2 constante. La misma interpretación se aplica a b2. b1. y b2. son llamados coeficientes de Regresión Parciales. Material Preparado por Olga Susana Filippini y Hugo Delfino

48

Proceso de estimación de la regresión múltiple Modelo de regresión múltiple

y= 0+ 1x1+

2x2+... +

Datos de la muestra

pxp +

Ecuación de regresión múltiple

E(y)=

0+ 1x1+

2x2+...

+

pxp

Son parámetros desconocidos 0. 1

2...

x1

x2

xp

y

.

.

.

.

.

.

.

.

.

.

.

.

p

b0.b1 .b2....bp proporcionan estimados 0. 1. 2..... . p

Ecuación estimada de regresión

y= b0.b1x1+b2x2+... +bpxp b0b1b2...bp son

estadísticos de la Material Preparado por Olga Susana Filippini y Hugo Delfino muestra

49

Modelo general • La Regresión Múltiple General con k variables independientes esta dada por:

Y'

a

b1 X1

b2 X 2 ... bk X k

• El criterio de Mínimos cuadrados es utilizado para estimar los parámetros de la ecuación. • Calcular b1, b2, etc.es muy tedioso. Hay software que puede utilizarse para resolver el algebra matricial que se usa en la estimación de los parámetros

Material Preparado por Olga Susana Filippini y Hugo Delfino

50

Inferencia en el análisis de Regresión

• Estimación por intervalo de los parámetros de la regresión, 0 y 1. • En todo lo que sigue, asumiremos el modelo de errores con distribución normal • Yi = 0 + 1·Xi + i [1] • donde 0 y 1 son parámetros, las Xi son constantes conocidas y los i son errores independientes con distribución N(0,1).

Material Preparado por Olga Susana Filippini y Hugo Delfino

51

Inferencias acerca de b1

1-

Distribución por muestreo de b1

Xi

X

Yi

Xi

X

Y 2

• La distribución por muestreo de b1 se refiere a los distintos valores de b1 que se obtendrían con muestras repetidas cuando los niveles de la variable independiente X se mantienen constantes de muestra en muestra. 2 2 b1 • E(b1) = 1 2 Xi

b1

1

b1 b1 s b1

1

X

N (0,1) necesitamos estimar (b1) mediante s(b1) tn

2

P t

Por lo tanto P b1

t1

2

;n 2

2

s b1

1

;n 2

b1

b1 s b1 t1

2

1

;n 2

t1

2

s b1

s 2 b1

CM E Xi

X

1

;n 2

1

Material Preparado por Olga Susana Filippini y Hugo Delfino

52

2

.

Inferencias acerca de

0-

Distribución por muestreo de b0

b0

Y

b1 X

• La distribución por muestreo de b0 se refiere a los distintos valores de b0 que se obtendrían con muestras repetidas cuando los niveles de la variable independiente X se mantienen constantes de muestra en muestra. 1 X2 2 2 b0 • E(b0) = 0 2 n Xi

b0

0

b0 b0 s b0

0

X

N (0,1) necesitamos estimar

(b0) mediante s(b0)

Por lo tanto

b0 s b0

tn

2

P t 2

P b0 t1

2

;n 2

s b0

1

;n 2

b0 t1

2

0

;n 2

t1

2

s b0

2

s b0

CM E

1 n

X2 Xi

1

;n 2

1

Material Preparado por Olga Susana Filippini y Hugo Delfino

53

X

2

Estimación por intervalo de E(Yi) - Distribución por muestreo de Yˆi . Yˆi

b0 b1 X i

• La distribución por muestreo de Yˆi se refiere a los distintos valores de Yˆi que se obtendrían con muestras repetidas cuando los niveles de la variable independiente X se mantienen constantes de muestra en muestra. X X 1 Yˆ • E(Yˆi ) = E(Yi) n X X 2

2

2

i

i

2

i

Yˆi Yˆh

E Yi Yˆi E Yh s Yˆh

necesitamos estimar (Yˆi) mediante s(Yˆi )

Por lo tanto

Yˆh

P t 2

P Yˆi t1

2

;n 2

s Yˆi

;n 2

E Yi

1

E Yh s Yˆh

Yˆi t1

2

;n 2

s Yˆi 2

t1

s Yˆi

2

;n 2

CM E

1 n

Xi Xi

X

2

X

2

1

1

Material Preparado por Olga Susana Filippini y Hugo Delfino

54