TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE LECTURA OBLIGATORIA Regresión Lineal Múltiple. En Rial, A. y Varela, J. (2008). Estadística Práct

2 downloads 82 Views 713KB Size

Recommend Stories


TEMA 4 PROGRAMACIÓN LINEAL
Tema 4 – Programación lineal – Ejercicios resueltos - Matemáticas CCSSII – 2º Bach 1 TEMA 4 – PROGRAMACIÓN LINEAL INECUACIONES DE PRIMER GRADO CON U

TEMA 6 EL LINEAL. 6.2 Análisis del lineal. 6.1 Definición y funciones del lineal. 6.1 Definición y funciones del lineal
6.1 Definición y funciones del lineal TEMA 6 EL LINEAL Getafe, 27 de febrero de 2009 † H. salen: “El lineal se puede definir como todo el espacio de

Tema 4 Álgebra Lineal Numérica
Introducci´ on M´ etodos directos: Descomposici´ on M´ etodos iterativos C´ alculo de autovalores Ejercicios Tema 4 ´ Algebra Lineal Num´erica Angel

Filosofía Política. tema iii.2
tema iii.2 Filosofía Política “Con toda finura y profundidad le respondió al célebre Alejandro Magno un pirata caído prisionero. El rey en persona le

Story Transcript

TEMA III

EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

LECTURA OBLIGATORIA Regresión Lineal Múltiple. En Rial, A. y Varela, J. (2008). Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo. Páginas 199-223.

Modelos Multivariantes

2

LA CORRELACIÓN LINEAL COEFICIENTE DE CORRELACIÓN de PEARSON Es una medida del grado de asociación entre dos variables de intervalo o razón Una manera útil de examinar la relación entre dos variables de intervalo es mediante un DIAGRAMA DE DISPERSIÓN Tendencia lineal Y

A valores altos de Y le corresponden valores altos de X rxy > 0, directa rxy = 0, ausencia de relación rxy < o, inversa

X Modelos Multivariantes

3

COVARIANZA Y CORRELACIÓN La correlación es una medida estandarizada de la Covarianza  -1 < rxy < + 1: es una medida tanto de la dirección como de la fuerza de la relación Permite que se compare la relación entre pares de variables independientemente de las unidades en que se midan

Cov ( X , Y )

(Xi

X )( Yi n

Y)

rxy

Modelos Multivariantes

(Xi

X )(Yi

Y)

(n) S x S y 4

REGRESIÓN LINEAL SIMPLE ¿QUÉ ES? Un tipo de análisis que permite conocer en qué medida una VD o criterio puede ser explicada o predicha a partir de una VI o predictora, siendo ambas de intervalo o razón Y 100

EJEMPLO : V.D. V.I.

Aciertos test

90 80

Aciertos en un Test (Y) Horas de estudio (X)

70 60 50 50

60

70

80

90

100

Horas de estudio

Modelos Multivariantes

5

X

Método de MÍNIMOS CUADRADOS Podríamos intentar ajustar una línea a ojo, por la mitad del diagrama de dispersión, para obtener una relación lineal entre X e Y Pero vamos a hacerlo siguiendo un procedimiento matemático, definiendo una recta en el plano X,Y, con unos parámetros concretos. Tenemos que buscar la ecuación que minimice los errores de predicción.

Para ello tenemos que calcular la Ecuación de la recta (Y=a+bX), donde: a= valor de la intersección con el eje Y b= la pendiente de la recta Debe minimizar el error o la desviación no explicada

Mínimos cuadrados

(Yi

Yˆi ) 2 =ei ;

Modelos Multivariantes

e mínimo i 2

6

Método de MÍNIMOS CUADRADOS Los valores de a y b que minimizan la suma del cuadrado de los (Yi Yˆi ) 2 son: errores a

Y

b

bX

r xy

Sy Sx

En el caso de que…

b=

0.93

Predeciríamos un incremento de 0.93 en los aciertos del test por cada hora de estudio. Un signo negativo de b indicaría que a más horas de estudio menos aciertos. Modelos Multivariantes

7

Interpretación de los coeficientes a indica

el valor pronosticado de Y cuando X es cero (“intercepto”)

b representa

la cantidad de cambio que pronosticaríamos en Y para un cambio de una unidad en X (pendiente de la recta) La ecuación de regresión (Y’=6.16+0.93X) puede utilizarse para generar pronósticos de Y a partir de X Además se cumple que la diferencia entre los valores observados y pronosticados elevados al cuadrado es mínima

SC error

Yi

Yˆi

2

ei

2

mínimo

Ningún otro valor de a y b daría este SCerror tan pequeño Modelos Multivariantes

8

FUENTES DE VARIACIÓN Desviación total= Desviación debido a X + Desviación debido al error

SCtotal = Scexplicada por la regresión + Scno explicada por la regresión (Yi

ˆ (Y i

Y )2

Variación Total

=

Y )2

Variación. explicada por la regresión

Modelos Multivariantes

(Yi +

Yˆi ) 2

Variación.no explicada por la regresión

9

GRÁFICAMENTE (Yi Yˆi )

Y

no explicada

(Yi total

y=a+bX

Y)

(Yˆi Y ) explicada

Y

X

Modelos Multivariantes

La predicción más sencilla sería asignarle la media global. La parte explicada por el modelo es justamente la cantidad en que se reduce la desviación total debido a nuestro conocimiento de otras variables y su relación con la VD (ecuación de regresión)

10

Varianza explicada  Se le llama también coeficiente de determinación (R2)  Es una proporción entre la variación explicada por la ecuación de regresión, con respecto a la variación total R 2 xy

variac.exp licada variac.total

R 2 xy

SC explicada SC total

variac.error 1 variac.total

SC error SC total

Modelos Multivariantes

(Yˆi

Y i )2

(Y

Yi ) 2

(Y

Yˆi ) 2

(Y

Yi ) 2

11

EJEMPLO El objetivo del responsable de MKT de una estación de esquí es

determinar cuáles son las variables que mejor explican que un sujeto esquíe mucho o poco en su estación

Trató de explicar el nº de días que los esquiadores iban a su estación durante una temporada (V1). Para ello registró  Edad de los esquiadores (V2)  Años de práctica (V3)

 Ingresos económicos (V4)  Satisfacción general (V5)  Nº de personas con las que esquía (V6) Modelos Multivariantes

12

DISEÑO Prestar especial atención a varios elementos:

Fijar bien los objetivos Todas las variables deben ser métricas (de ESCALA) Especificar correctamente el modelo:

Especificar la VD y las VI No omitir variables relevantes ni incluir irrelevantes Utilizar herramientas adecuadas para recoger (medir) los datos

Garantizar que se cumplen una serie de Supuestos: NORMALIDAD DE LAS Vs LINEALIDAD (relación lineal entre predictores y criterio) Ausencia de MULTICOLINEALIDAD INDEPENDENCIA de los errores (no correlacionados) NORMALIDAD de los errores (residuos aleatorios, media de errores = 0) Modelos Multivariantes

13

Interpretación de Resultados BONDAD DE AJUSTE R esumen del mod elo

,819a

R cuadrado ,670

R cuadrado corregida ,656

Error típ. de la estimación 1,478

2

,879b

,773

,752

1,254

3

c

,841

,818

1,075

M odelo 1

R

,917

a. Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS b. Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS, AÑOS PR ACTIC ANDO ESQUÍ c. Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS, AÑOS PR ACTIC ANDO ESQUÍ, SAT ISFACC IÓN GENERAL

Modelos Multivariantes

14

Interpretación de Resultados SIGNIFICACIÓN DEL MODELO (contraste global: F) Se comprueba hasta qué punto la Variación Explicada por la Regresión es significativa. Se trata de un cociente o proporción con relación a la varianza de error. Cuanto más grande sea con los datos muestrales, menor probabilidad habrá de que en la población ese cociente sea 0. d AN OVA

M odelo 1

1

M edia cuadrática 101,995

50,245

23

2,185

Total

152,240

24

Regresión

117,619

2

58,809 1,574

Regresión Residual

2

Residual

3

Suma de cuadrados 101,995

gl

34,621

22

Total

152,240

24

Regresión

127,987

3

42,662

24,253

21

1,155

152,240

24

Residual Total

F 46,689

Sig. ,000a

37,370

,000b

36,940

,000c

a. Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS b. Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS, AÑOS PR ACTICAND O ESQU Í c. Variables predictoras: (Constante), IN GRESOS EC ONÓMICOS, AÑOS PR ACTICAND O ESQU Í, SATISFACC IÓN GEN ERAL d. Variable dependiente: Nº D ÍAS QUE ESQU ÍA POR TEMPORADA

15

Interpretación de Resultados SIGNIFICACIÓN DE LOS PARÁMETROS (contraste particular: t) Para comprobar si cada V.I. por influye significativamente sobre la V.D., comprobando si se trata de un predictor estadísticamente significativo (“significativamente distinto de 0”) H0: BP = 0 H1: BP 0 C oefici entes a

Coeficientes no estandarizados M odelo 1

2

B ,343

Error típ. ,813

IN GRESOS EC ONÓM IC OS

2,922E-03

,000

(Constante)

9,728E-02

,695

IN GRESOS EC ONÓM IC OS

2,153E-03

,000

,603 ,386

(Constante)

AÑOS PR ACTIC ANDO ESQUÍ 3

Coeficientes estandarizados

,227

,072

-2,244

,982

2,075E-03

,000

AÑOS PR ACTIC ANDO ESQUÍ

,201

SATISFACCIÓN GEN ERAL

,388

(Constante) IN GRESOS EC ONÓM IC OS

Beta

t ,819

Sig. ,422

,677

6,833

,000

,140

,890

4,924

,000

3,151

,005

-2,285

,033

,581

5,526

,000

,062

,341

3,215

,004

,129

,268

2,996

,007

Bp

t

Se B p

a. Variable dependiente: Nº D ÍAS QUE ESQUÍA POR TEMPOR ADA

Modelos Multivariantes

16

Interpretación de Resultados INDICADORES DE BONDAD DE AJUSTE: SC Re gr 2 0.84 a) El cuadrado del Coeficiente de Correlación Múltiple (R2 ) R SCY b) El % de varianza explicada (R2x100). 84% c) R2 ajustado, porque R2 aumenta en función del número de V.I. y con un “n” pequeño P (1 R 2 ) 2 2 R

aj .

R

n P 1

0.81

LOS PARÁMETROS • “a” es la constante, el intercepto, valor de Y cuando X=0 • P, indica la dirección de la relación y la intensidad de la relación Si P > 0: un incremento en una unidad, de la variable asociada XP implica un incremento en Y en unidades (Si se incrementa en un punto la satisfacción se incrementará la estancia en 0.338 días) Si P < 0: incremento en una unidad, de la variable asociada XP implica 17 una disminución en Y en unidades

Interpretación de Resultados b vs.  Como las XP fueron medidas en escalas diferentes (años, euros, número personas, etc.) los coeficientes “b” NO SON COMPARABLES ENTRE SÍ  Para saber qué predictor es más importante hay que normalizar los coeficientes b. SXp bp p SY

Modelos Multivariantes

18

Razones por las que Bp puede no ser significativo Tamaño de la muestra inadecuado. Solución: ampliar el “n” (arma de doble filo)

Especificación incorrecta del modelo (la relación entre x e Y no es lineal). Solución: transformar las variables.

Poco recorrido de los valores de X e Y. Solución: Recurrir al

Análisis Discriminante o a la Regresión Logística (“Grupos Polares”)

Existencia de multicolinealidad. VI en principio importantes no entran en la ecuación porque ya lo hicieron antes otras con las que guarda mucha relación. Puede derivar también en resultados contradictorios (B negativos cuando las correlaciones son positivas). Soluciones: prescindir de alguna variable, análisis de correlaciones previo, … Modelos Multivariantes

19

La selección de variables VARIOS MÉTODOS A la hora de realizar el análisis de regresión mediante SPSS existen diferentes métodos para seleccionar los predictores a incluir en el modelo de regresión. Las opciones son fundamentalmente dos:  MÉTODO INTRODUCIR (ENTER). Construye la ecuación utilizando todos los predictores. Se utiliza por defecto. No aconsejable: R2 está inflado.  MÉTODOS POR PASOS (STEPWISE). Se van incorporando o eliminando variables paso a paso,si cumplen unos criterios de selección. El objetivo es siempre maximizar el ajuste del modelo utilizando el menor nº de predictores posible. Hacia delante vs. hacia atrás. ¡No olvidar la Parsimonia! Modelos Multivariantes

20

La selección de variables CRITERIOS ESTADÍSTICOS:

 Significación  Mayor correlación con el criterio  Mayor correlación parcial (eliminando influencia del resto)  Cambio en R2 (selecciona la variable que maximice el cambio)  Tolerancia alta (una VI no puede ser explicada por las otras VI) Modelos Multivariantes

21

EL ERROR EN LA REGRESIÓN ¿QUÉ ES?

Y - Y’ = e

¿A qué puede deberse?  Variables relevantes omitidas en el modelo  Mala especificación del modelo (relaciones no lineales)  Errores en la medición (recogida de datos)  Comportamiento cambiante de los sujetos  Falta de recorrido en la VD o en las VI

Modelos Multivariantes

22

¿Cómo mejorar el ajuste del modelo? Y

Tratamiento de los Outliers Sujetos que estropean el ajuste del modelo

100 90 80 70

Se detectan en base a los residuos

60 50

 Brutos (no tipificados) 50 60  Tipificados (divididos por Se - nunca superior a 3, incluso 2)

70

80

90

100

X

Otros indicadores  Distancia de Cook (valores >1 gran importancia de un sujeto en los parámetros del modelo)  Distancia de Mahalanobis (valores altos, sujetos distintos al resto)

Modelos Multivariantes

23

Comprobación de supuestos  Normalidad de cada VI (Lilliefors)  Linealidad Diagramas de dispersión particulares (de cada VI con la VD)  Ausencia de Multicolinealidad TOLERANCIA. Una tolerancia alta indica que la VI es independiente del resto de variables del modelo.  Independencia de los errores (residuos) Estadístico Durbin-Watson  Normalidad de los residuos Histograma, Gráfico de probabilidad normal, K-S Modelos Multivariantes

24

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.