4.1 Análisis bivariado de asociaciones

4.1 Análisis bivariado de asociaciones  Los gerentes posiblemente estén interesados en el grado de asociación entre dos variables  Las técnicas e
Author:  Carla Duarte Silva

10 downloads 52 Views 1MB Size

Recommend Stories


41
RUBRO CODIGO DESCRIPCION MEDIDAS BAZAR Y COCINA 25405 TENEDOR 19.3CM 19.3CM BAZAR Y COCINA 35936 DELANTAL DE COCINA DE TELA LISO 55*70CM B

:41
Foro Ahorristas - www.ahorristas.es - el club de los ahorradores Generado: 3 August, 2016, 05:15 LOS CATALANES TENDRAN SU PROPIA IDENTIDAD EN EL CODI

Norma de Contabilidad 41 NC 41 Agricultura
ÍNDICE  Párrafos  INTRODUCCIÓN  Norma de Contabilidad 41  NC 41 Agricultura  OBJETIVO  ALCANCE  1­4  DEFINICIONES  5­9  Agricultura – definicione

Story Transcript

4.1 Análisis bivariado de asociaciones

 Los gerentes posiblemente estén interesados

en el grado de asociación entre dos variables  Las técnicas estadísticas adecuadas para realizar este tipo de análisis se llaman técnicas bivariadas y cuando participan más de dos variables, se emplean técnicas multivariadas.

Grado de Asociación:  Se clasifican como:  Variable independiente (el factor de predicción)  Variable dependiente (el criterio)

VARIABLE INDEPENDIENTE:  Son las que se piensa que afectan el valor

de la

variable dependiente  Ejemplos: precio, gastos de publicidad o cantidad de tiendas detallistas— se emplean a menudo para predecir y explicar las ventas o la participación del mercado de una marca, que es la VARIABLE DEPENDIENTE

TIPOS DE PROCEDIMIENTOS BIVARIADOS  Definición de regresión bivariada 





Procedimiento estadístico que sirve para estudiar la relación entre dos variables cuando una se considera como variable dependiente y la otra como variable independiente Por ejemplo, podría ser de interés analizar la relación entre las ventas (variable dependiente) y la publicidad (variable independiente) Si el investigador estima la relación entre los gastos publicitarios y las ventas mediante el análisis de regresión, podrá predecir las ventas para diferentes niveles publicitarios. Cuando se emplean dos o más variables independientes en el problema (como publicidad y precio) para pronosticar la variable dependiente de interés, conviene aplicar el análisis de regresión múltiple

NATURALEZA DE LA RELACIÓN  La variable dependiente Y se grafica en el eje vertical y la

variable independiente X, en el eje horizontal  Al examinar el diagrama de dispersión, se ve si la relación entre las dos variables, en caso de que exista, es lineal o curva  Si la relación parece lineal o está cerca de ella, puede aplicarse la regresión lineal  Cuando se observa una relación no lineal en el diagrama de dispersión, se emplean técnicas de regresión no lineal para adaptación a una curva, aunque estas técnicas se encuentran más allá del alcance de este análisis

Ejemplos de la regresión bivariada

EJEMPLO:  Las tiendas Stop ‘N Go llevaron a cabo recientemente una

investigación con el fin de medir el efecto del tráfico vehicular en las cercanías de ciertas tiendas sobre sus ventas anuales  se identificaron 20 tiendas prácticamente idénticas en cuanto a las demás variables con efecto significativo sobre las ventas (como superficie, disponibilidad de estacionamiento, datos demográficos de la colonia en que se ubican, entre otros)  Este análisis específico forma parte del esfuerzo general que realiza Stop ‘N Go para identificar y cuantificar los efectos de los diversos factores que ejercen impacto sobre las ventas de sus tiendas  Su meta final es desarrollar un modelo para evaluar sitios potenciales a fin de ubicar tiendas, con el fin de analizarlos y elegir los más convenientes y que produzcan mayores niveles de ventas, comprar el terreno y construirla tienda.

 Tras

identificar 20 sitios; la empresa realizó recuentos diarios del tráfico en cada punto durante 30 días. Además, obtuvo de sus registros internos los datos de ventas totales de cada una de las 20 tiendas, de prueba en los 12 meses anteriores Se advierte que las ventas totales aumentan a medida que el tráfico vehicular diario se incrementa.  Ahora es necesario caracterizar esta relación de manera más explícita, en forma cuantitativa.

Ventas anuales y tráfico vehicular diario promedio Número de tiendas (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Conteo vehicular diario promedio de miles (Xi) 62 35 36 72 41 39 49 25 41 39 35 27 55 38 24 28 53 55 33 29

Ventas anuales en miles de dólares (Yi) 1,121 766 701 1.304 832 782 977 503 773 839 893 588 957 703 497 657 1.209 997 844 883

PROCEDIMIENTO PARA ESTIMAR MÍNIMOS CUADRADOS  El método de los mínimos cuadrados da lugar a la

línea recta que se ajusta mejor a las observaciones (puntos) que cualquier otra  En otras palabras, la suma de las desviaciones al cuadrado con respecto a esta línea (las diferencias al cuadrado entre los puntos y la línea) será menor que para cualquier otra línea adaptable a las observaciones  La ecuación general para la línea es Y= a + bX. La ecuación que se emplea en análisis de regresión es:

Diagrama de dispersión de ventas anuales en relación con el tráfico

Los valores de a + b se calcula como sigue:

Con los datos de la siguiente tabla s calcula el valor de b: Tienda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 (suma) (media)

X 62 35 36 72 41 39 49 25 41 39 35 27 55 38 24 28 53 55 33 29 816 40.8

Y 1,121 766 701 1.304 832 782 977 503 773 839 893 588 957 703 497 657 1.209 997 844 883 16,826 841.3

X2 3,844 1,225 1,296 5,184 1,681 1,521 2,401 625 1,681 1,521 1,225 729 3,025 1,444 576 784 2,809 3,025 1,089 841 36,526

Y2 1,256,641 586,756 491,401 1,700,416 692,224 611,524 954,529 253,009 597,529 703,921 797,449 345,744 915,849 494,209 247,009 431,649 1,461,681 994,009 712,336 779,689 15,027,574

XY 69,502 26,810 25,236 93,888 34,112 30,498 47,873 12,575 31,693 32,721 31,225 15,876 52,635 26,714 11,928 18,396 64,077 54,835 27,852 25,607 734,083

Fórmulas aplicadas:

CONCLUSIÓN:  Según la función de regresión estimada, por cada

1000 vehículos adicionales por día de tráfico (X), el total de ventas anuales aumentará 14 720 dólares (valor estimado de b)  El valor de a es 240.86  Técnicamente, un sombrero es el valor estimado de la variable dependiente (Y o las ventas anuales) cuando el valor de la variable independiente (X o el tráfico vehicular diario promedio) es cero

La línea de regresión

La fuerza de asociación: R2

Valores de predicción y errores para cada observación Tienda

X

Y

Ŷ

Y –Ŷ

(Y –Ŷ)2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 (suma) (media)

62 35 36 72 41 39 49 25 41 39 35 27 55 38 24 28 53 55 33 29 816 40.8

1,121 766 701 1.304 832 782 977 503 773 839 893 588 957 703 497 657 1.209 997 844 883 16,826 841.3

1,153.3 755.9 770.7 1,300.5 844.2 814.8 962.0 608.8 844.2 814.8 755.9 635.2 1,050.3 800.1 594.1 652.9 1,020.8 1,050.3 726.5 667.6 16,826.0

-32,2951 10.05716 -69.6596 3.537362 -12.2434 -32.8098 15.02264 -105.775 -71.2434 24.19015 137.0572 -50.2088 -93.2779 -97.0931 -97.0586 4.074415 188.1556 -53.2779 117.4907 215.3577

1,043 101 4,852 13 150 1,076 226 11,188 5,076 585 18,785 2,521 8,701 9,427 9,420 17 35,403 2,839 13,804 46,379 171,604.8

(Ỹ- Y)2 78,232 5,670 19,984 214,091 86 3,516 18,414 114,447 4,665 5 2,673 64,161 13,386 19,127 118,542 33,966 135,203 24,242 7 1,739 871,860.2

Significado estadístico de los resultados de regresión Al calcular R2, la variación total de Y se dividió en dos sumas de cuadrados componentes: Variación total = Variación explicada + variación no explicada La variación total mide la variación de los valores de Y observados, en torno a la Y media. Mide la variación de los valores de Y sin tomar en cuenta los valores de X. La variación total, llamada suma total de cuadrados (SST), se obtiene así:

La variación explicada o suma de cuadrados debida a la regresión (SSR, por sus siglas en inglés) se obtiene de este modo

La variación no explicada, o error de suma de cuadrados (SSE), se obtiene de:

TABLA 3: Valores de predicción y errores para cada observación 2 Tienda X Y Ŷ Y –Ŷ (Y –Ŷ) 2 (Ỹ - Y ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 (suma)

62 35 36 72 41 39 49 25 41 39 35 27 55 38 24 28 53 55 33 29 816

1,121 766 701 1.304 832 782 977 503 773 839 893 588 957 703 497 657 1.209 997 844 883 16,826

(media)

40.8

841,3

1153,3 755,9 770,7 1300,5 844,2 814,8 962 608,8 844,2 814,8 755,9 635,2 1050,3 800,1 594,1 652,9 1020,8 1050,3 726,5 667,6 16,826.0

-32,2951 1.005.716 -696.596 3.537.362 -122.434 -328.098 1.502.264 -105.775 -712.434 2.419.015 1.370.572 -502.088 -932.779 -970.931 -970.586 4.074.415 1.881.556 -532.779 1.174.907 2.153.577

1,043 101 4,852 13 150 1,076 226 11,188 5,076 585 18,785 2,521 8,701 9,427 9,42 17 35,403 2,839 13,804 46,379 171,604.8

SSE

78,232 5,67 19,984 214,091 86 3,516 18,414 114,447 4,665 5 2,673 64,161 13,386 19,127 118,542 33,966 135,203 24,242 7 1,739 871,860.2 SST

97344 7293,16 4984,36 210864,64 8,41 702,25 14568,49 54056,25 8,41 702,25 7293,16 42477,21 43681 1697,44 61107,84 35494,56 32220,25 43681 13179,04 30171,69 701535,41 SSR

Medidas de variación: Fuente de variación Debido a la regresión (explicado) Residual (no explicado)

Grados de libertad

Suma de cuadrados

1

SSR

n–2

SSE

Total

n-1

SST

Media al cuadrado

Valor estadístico de F

Fuente de variación Debido a la regresión (explicado) Residual (no explicado) Total

TABLA 4: Análisis de varianza (continuación) Grados de Suma de Media al libertad cuadrados cuadrado

1

701,535.41 SSR

MSR = 701,535.41

n–2

170,324.79 SSE

MSE = 9,462.48

n-1

871,860.2 SST

Valor estadístico de F F = 74.13

F se calcula como sigue:

F = MSR/MSE = 701,535.41/ 9,462.48 = 74.13

Medidas de variación: Fuente de variación Debido a la regresión (explicado) Residual (no explicado)

Grados de libertad

Suma de cuadrados

1

SSR

n–2

SSE

Total

n-1

SST

Media al cuadrado

Valor estadístico de F

Hipótesis con respecto a la regresión total  A continuación se analiza la hipótesis del valor

calculado de R2 para el problema  ¿La varianza explicada por el resultado (por nuestro modelo) es significativamente mayor de lo que cabe esperar debido a la casualidad?  Si se emplean diversas pruebas estadísticas, ¿Hasta qué grado se puede descartar el error de muestreo como explicación de los resultados obtenidos?  El análisis de la varianza (prueba de la F) se emplea para probar el significado de los resultados

Las hipótesis son:  Hipótesis nula H0: no hay relación lineal entre X

(tráfico vehicular diario promedio) y Y (ventas anuales)  Hipótesis alterna Ha: hay una relación lineal entre X y Y

Medidas de graduación en una regresión

 Como en tras pruebas estadísticas, es preciso elegir

el valor de a  Ésta es la probabilidad de que el resultado observado se deba a la casualidad, o la probabilidad de rechazar de manera incorrecta la hipótesis nula  En este caso se decidió emplear un nivel de significado bastante común, a = .05  Esto significa que si el valor calculado para F excede al valor tabulado, estamos dispuestos a aceptar un 5 por ciento de probabilidad de rechazar incorrectamente la hipótesis nula

Hipótesis sobre el coeficiente de regresión (b)  Formularemos una hipótesis sobre b, el coeficiente

de regresión  Como usted recordará, b estima el efecto de un cambio unitario de X sobre Y  Las hipótesis son  

Hipótesis nula H0: b = 0 Hipótesis alterna Ha: b ≠ 0

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.