Story Transcript
CURS 2014-15
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA
Block 6 : Problemes de Teoria de Mostreig PROFESSOR: Lídia Montero Setembre 2014 – Versió 1.2
MASTER’S DEGREE IN SUPPLY CHAIN, TRANSPORT AND LOGISTICS
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
TAULA DE CONTINGUTS 6.2-1. PROBLEMES DE MOSTREIG (AUTORS: DROESBEKE I FINE) _____________________________________________________________________ 3 6.2-1.1 6.2-1.2 6.2-1.3 6.2-1.4 6.2-1.5 6.2-1.6 6.2-1.7 6.2-1.8 6.2-1.9 6.2-1.10 6.2-1.11 6.2-1.12 6.2-1.13 6.2-1.14 6.2-1.15 6.2-1.16 6.2-1.17 6.2-1.18 6.2-1.19
Prof.
DESPESES FAMILIARS ___________________________________________________________________________________________________________ 4 ELS PROPIETARIS DE VEHICLES MARCA A __________________________________________________________________________________________ 6 RENDIMENT D´UNA OPERACIÓ DE MARKETING _____________________________________________________________________________________ 10 SONDEIG D´OPINIÓ PRE-ELECTORAL ______________________________________________________________________________________________ 13 L’AUDITORIA COMPTABLE _____________________________________________________________________________________________________ 15 UN MÉS DIFÍCIL DE MOSTREIG ALEATORI SIMPLE__________________________________________________________________________________ 19 UN D´ESTRATIFICACIÓ PER EDATS _______________________________________________________________________________________________ 23 UN D´ESTRATIFICACIÓ MÉS TEÓRIC ______________________________________________________________________________________________ 27 INDEX DE SATISFACCIÓ (ESTRATIFICAT) __________________________________________________________________________________________ 31 ELS COMPTES DEUDORS: CLIENTS MOROSOS ... ____________________________________________________________________________________ 35 L’EXPLOTACIÓ RAMADERA (ESTRATIFICAT) _____________________________________________________________________________________ 39 ELS PROPIETARIS DE LLARS ____________________________________________________________________________________________________ 43 LES COMPRES DE REVISTES SETMANALS__________________________________________________________________________________________ 48 L’ANIMACIÓ SONORA ALS SUPERS_______________________________________________________________________________________________ 51 L’ESTUDI D´AUDIOMETRIA ____________________________________________________________________________________________________ 54 LA IMATGE DE CORREUS ______________________________________________________________________________________________________ 59 UN DE NOU DE MOSTREIG EN CONGLOMERATS ____________________________________________________________________________________ 61 UN DE MOSTREIG A 2 NIVELLS _________________________________________________________________________________________________ 64 ELS LECTORS RURALS I URBANS (UN DE POST-ESTRATIFICACIÓ) ______________________________________________________________________ 69
Lídia Montero
Pàg.
6. 2- 2
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1. PROBLEMES DE MOSTREIG (AUTORS: DROESBEKE I FINE)
Aquesta llista conté majoritàriament una colecció de problemes desenvolupada pels autors per un curs de formació a Amèrica Llatina. Originàriament estaven escrits en castellà, amb certes deficiències de sintaxi, però constitueixen un recull molt adecuat pel nivell presentat al nostre curs. Els professors de l´assignatura hem preferit traduir el text original i els autors han donat autorització a la publicació dels problemes a la nostra Universitat amb finalitats estrictament docents.
Prof.
Lídia Montero
Pàg.
6. 2- 3
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.1
Despeses Familiars
En una regió de França, 145 famílies de turistes han gastat en mitjana diàriament 830 Euros. La desviació estándar de les 145 despeses familiars diàries puja a 210 Euros. Sabent que la regió on es duu a terme l´enquesta va rebre 50 000 famílies de turistes, què pot dir-se de la despesa global diària del conjunt d´aquestes famílies? Calculeu el seu interval de confiança al 90%. Suposeu que el mostreig és ASSR. Solució: Sigui Y v.a “Despesa familiar diària”, la població son N=50.000 famílies i la mostra ASSR de n=145 famílies proporciona les dades y = 830 s 'y = 210 , es vol estimar τ Y , la despesa familiar total diària. L´estimador puntual de τ Y , notat τˆY o TY = N y és de TY = N y = 50.000 ⋅ 830 = 41.500.000 Euros . Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E[ y ] = µ Y i també n´és l´estimador del total E[TY ] = τ Y . Per calcular l´interval de confiança al 90% cal disposar de la variança de l´estimador TY , V [TY ] o en el seu defecte d´un estimador d´aquesta variança Vˆ [TY ] , '2 n sy 2 ˆ 2 ˆ ˆ V [TY ] = V [N y ] = N V [ y ] = N 1 − N n
Prof.
Lídia Montero
Pàg.
6. 2- 4
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC '2 y
145 210 n s i en el nostre cas, Vˆ [TY ] = N 2 1 − = (50.000)2 1 − = 871.000 2 .
N n
2
50.000 145
En general, sigui un estimador no biaixat de θ , assumit normalment distribuit θˆ i la seva desviació estàndard es nota sθˆ , aleshores es contrueix un interval de confiança bilateral al nivel de confiança α = 0,1 a partir de l’expressió: θˆ − z
1−α
2
sθˆ ≤θ ≤θˆ + z1−α sθˆ 2
[]
n sY'2 2 2 ˆ ˆ ˆ → θ = TY , θ = τ Y , V θ = sθˆ = N 1 − N n
TY − z 0,95 Vˆ [TY ] ≤ τ Y ≤ TY + z 0,95 Vˆ [TY ]
41.500.000 − 1,645 ⋅ 871.000 ≤ τ Y ≤ 41.500.000 + 1,645 ⋅ 871.000
40.070.000 ≤ τ Y ≤ 42.930.000
Prof.
Lídia Montero
Pàg.
6. 2- 5
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.2
Els propietaris de vehicles Marca A
Una mostra ASAR està composada per 400 propietaris de vehicles d´un pais donat, dels quals 40 són propietaris d´un vehicle de marca A. Es demana: 1) Construir un interval de confiança, a un nivell de confiança del 95% per la veritable proporció de propietaris de vehicles de marca A en aquell pais. 2) Suposeu que l´extracció és ASSR i N=5.000: contruir l´interval de confiança al 95% per la veritable proporció de propietaris de vehicles de marca A. 3) Suposeu que l´extracció és ASSR i N=1.000.000: contruir l´interval de confiança al 95% per la veritable proporció de propietaris de vehicles de marca A. 4) Si es desitgés un error absolut del 1% (1 punt), quins haurien de ser els tamanys mostrals d’extraccions ASSR per poblacions de tamany N=5.000 i N=1.000.000 ? Solució: 1) Sigui Y v.a “Propietari d´un vehicle de marca A”. És una variable aleatória Bernoulli de paràmetre p desconegut i que es vol estimar, per punt i per interval (nivell de confiança 95%).
∑i =1 yi = 40 n
∑ pˆ =
n
i =1
yi
= y = 0,1
n i d´aquí , es vol estimar La mostra ASAR de n=400 propietaris proporciona les dades µ Y = p , la veritable proporció de propietaris de vehicles marca A. L´estimador puntual de p és pˆ = 0,1 .
Per tractar-se d´una extracció ASAR sabem que l’estimador mitjana mostral és centrat E [ y ] = µ Y o en termes de proporcions E[ pˆ ] = p .
Prof.
Lídia Montero
Pàg.
6. 2- 6
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte ˆ d´un estimador d´aquesta variança V [ pˆ ] , p (1 − p ) pˆ (1 − pˆ ) i V [ pˆ ] = n n −1 n 0,1⋅ 0,9 Vˆ [ pˆ ] = = 0,015 2 399 . i en el nostre cas,
Vˆ [ pˆ ] = Vˆ [ y ] =
s 'y2
=
En general, sigui un estimador no biaixat de θ , assumit normalment distribuit θˆ i la seva desviació estàndard es s nota θˆ , aleshores es contrueix un interval de confiança bilateral al nivel de confiança α = 0,05 a partir de l’expressió: pˆ (1 − pˆ ) θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = pˆ , θ = p, Vˆ θˆ = sθ2ˆ = 2
2
[]
n −1
pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ] 0,1 − 1,96 ⋅ 0,015 ≤ p ≤ 0,1 + 1,96 ⋅ 0,015 0,071 ≤ p ≤ 0,129 al nivell de confiança del 95%.
2) Ara suposem que l’extracció és ASSR i N=5.000, per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E[ y ] = µ Y o en termes de proporcions E[ pˆ ] = p . Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte ˆ d´un estimador d´aquesta variança V [ pˆ ] , '2 n sy n pˆ (1 − pˆ ) ˆ ˆ ˆ = 1 − V [ p ] = V [ y ] = 1 − N n N n −1
Prof.
Lídia Montero
Pàg.
6. 2- 7
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
400 0,1(1 − 0,1) Vˆ [ pˆ ] = 1 − = 0,0144 2 5 . 000 399 i en el nostre cas, d’on l´interval de confiança al 95% és, n pˆ (1 − pˆ ) θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = pˆ , θ = p, Vˆ θˆ = sθ2ˆ = 1 − 2 2 N n −1
[]
pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ] 0,1 − 1,96 ⋅ 0,0144 ≤ p ≤ 0,1 + 1,96 ⋅ 0,0144
0,072 ≤ p ≤ 0,128 al nivell de confiança del 95%.
3) Ara suposem que l’extracció és ASSR i N=1.000.000, per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E[ y ] = µ Y o en termes de proporcions E[ pˆ ] = p . Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte ˆ d´un estimador d´aquesta variança V [ pˆ ] , '2 n pˆ (1 − pˆ ) n sy ˆ ˆ = 1 − V [ pˆ ] = V [ y ] = 1 − N n N n −1
400 0,1(1 − 0,1) Vˆ [ pˆ ] = 1 − = 0,0150 2 1.000.000 399 i en el nostre cas, d’on l´interval de confiança al 95% és, n pˆ (1 − pˆ ) θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = pˆ , θ = p, Vˆ θˆ = sθ2ˆ = 1 − 2 2 N n −1
[]
Prof.
Lídia Montero
Pàg.
6. 2- 8
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ] 0,1 − 1,96 ⋅ 0,0150 ≤ p ≤ 0,1 + 1,96 ⋅ 0,0150 0,071 ≤ p ≤ 0,129 al nivell de confiança del 95%.
4) Un error absolut d´un punt, 1%, a un nivell de confiança del 95% vol dir, p ∈ pˆ ± z 0,975 Vˆ [ pˆ ] → z 0,975 Vˆ [ pˆ ] = 0,01
n? i treballant una mica l´expressió de l´estimador de la variança de pˆ ,
n −1 n = 0 ˆ ˆ n p(1 − p ) n = 0,01 = β 1 − 1− N n −1 N i s’eleva al quadrat l´expressió anterior, Si es defineix pˆ (1 − pˆ ) → n0 = z 02,975 2
z 0,975 Vˆ [ pˆ ] = z 0,975
z 02,975
pˆ (1 − pˆ ) =β2 n0
β
i aplicant l’expressió a les nostres dades, n0 = z 02,975
pˆ (1 − pˆ )
β2
n0 + 1 0,1 ⋅ 0,9 = 3 . 458 i n = n 0,012 1+ 0 N n0 + 1 = 2.045 n= n0 1+ N .
= 1,96 2
Per a N=5.000,
n=
Per N=1.000.000, Prof.
Lídia Montero
n0 + 1 = 3.447 n0 n0 →0 1+ N . S’usa que N . Pàg.
6. 2- 9
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.3
Rendiment d´una operació de marketing
Una empresa de marketing té accés a un fitxer amb N=200.000 individus. Sigui pel rendiment desconegut del fitxer a una oferta d´inscripció a preu reduit, és a dir, p és la proporció d´individus que s´inscriurien si se’ls proposés l´oferta a tots els individus del fitxer. Per estimar el rendiment p, diem-li pˆ , es sol procedir a partir d’un test sobre una petita mostra de n individus, triats amb probabilitats iguals i sense reemplaçament. L’experiència de l´empresa és que el rendiment en aquests tipus d´oferta no sol superar el 3%. 1) Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,5% a un nivell de confiança del 95%? 2) Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,3% a un nivell de confiança del 95%? 3) Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,1% a un nivell de confiança del 95%? 4) Si finalment la mostra tingué un tamany n=10.000 i es comptabilitzaren 230 inscripcions, quin és l´interval de confiança bilateral al 95% pel rendiment p i pel número total d´abonats al proposar l´oferta al total del fitxer?
Prof.
Lídia Montero
Pàg.
6. 2- 1 0
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Solució: 1) L’extracció és ASSR amb N=200.000 i l’incógnita és el tamany mostral n, però es poden usar dades històriques i suposar que el rendiment p=0,03. La condició que ha de satisfer la mostra es poder assolir un error absolut del 0,5% o en tant per 1 del 0,005. Un error absolut de mig punt 0,5% a un nivell de confiança del 95% vol dir, p ∈ pˆ ± z 0,975 V [ pˆ ] → z 0,975 V [ pˆ ] = 0,005 = β
i treballant una mica l´expressió de l´estimador de la variança de pˆ , n0 =
z 0,975 V [ pˆ ] = z 0,975
N n p(1 − p ) =β 1 − N −1 N n −1
n −1 p(1 − p ) p(1 − p ) N n z 02,975 = β 2 → n0 = z 02,975 1 − n0 β2 N − 1 N i s’eleva al quadrat l´expressió anterior,
Si es defineix i aplicant l’expressió a les nostres dades, n0 = z 02,975
p(1 − p )
β
2
= 1,96 2
2) Com l´apartat anterior, però ara β = 0,003 . n0 = z 02,975
p(1 − p )
β
2
= 1,96 2
n +1 0,03 ⋅ 0,97 N = 4374,8 → 4375 ≈1 n = 0 = 4.471,6 i com 2 n0 N −1 0,005 1+ N .
n +1 0,03 ⋅ 0,97 N =12.421,2 i com ≈1 n = 0 = 11.695,8 → 11.696 2 n0 N −1 0,003 1+ N
3) Prof.
Lídia Montero
Pàg.
6. 2- 1 1
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Com l´apartat anterior, però ara β = 0,001 . n0 = z 02,975
p(1 − p )
β
2
= 1,96 2
n +1 0,03 ⋅ 0,97 N = 71.709,4 → 71.710 ≈1 n = 0 =111.790,6 i com 2 n0 N −1 0,001 1+ N
4) Finalment, n=10.000 i s’obté un total de 230 subscripcions, per tant l’estimador puntual del rendiment és pˆ =
230 = 0,023 10.000 . Ara cal calcular l´interval de confiança al nivell de confiança del 95% pel rendiment p i pel número
total d´inscripcions a la població. p ∈ pˆ ± z 0,975 Vˆ [ pˆ ]
al 95%
10.000 0,023(1 − 0,023) n pˆ (1 − pˆ ) = 1,96 ⋅ 0,001461 = 1,96 ⋅ 1 − z 0,975 Vˆ [ pˆ ] = z 0,975 1 − 9999 N n −1 200.000 p ∈0,023 ± 0,029 al 95%
El total d´inscripcions s´estima com TY = N pˆ , doncs τ Y = N p , i per tant TY = N pˆ = 200.000 ⋅ 0,023 = 4.600 . Pel càlcul de l’estimador per interval cal estimar V [TY ] per 10.000 0,023(1 − 0,023) n pˆ (1 − pˆ ) = 292,2 2 = N 2 ⋅ 1 − Vˆ [TY ] = Vˆ [N pˆ ] = N 2Vˆ [ pˆ ] = N 2 1 − 9999 200.000 N n −1 τ ∈T ± z Vˆ [T ] → τ ∈ 4.600 ± 1,96 ⋅ 292,2 → τ ∈ 4.600 ± 573 Y
Prof.
Y
0 , 975
Lídia Montero
Y
Y
al 95%
Y
Pàg.
6. 2- 1 2
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.4
Sondeig d´opinió pre-electoral
Es desenvolupa un sondeig d´opinió pre-electoral per recaptar informació sobre l’opinió general d´una personalitat política i s’obté un percentatge d´opinions favorables del 20%, pˆ = 0,2 . 1) Si l’extracció és ASAR, quantes persones han estat interrogades per poder dir amb un nivell de confiança del 95% que el veritable percentatge d´opinions favorables en la població no es desvia més de 2 punts de pˆ ? 2) Si l’extracció és ASSR, quantes persones han estat interrogades per poder dir amb un nivell de confiança del 95% que el veritable percentatge d´opinions favorables en la població no es desvia més de 2 punts de pˆ ? (N=5.000.000) Solució: S’observa pˆ = 0,2 . Un error absolut del 2% a un nivell de confiança del 95% vol dir, p ∈ pˆ ± z 0,975 Vˆ [ pˆ ] → z 0,975 Vˆ [ pˆ ] = 0,02 = β
i treballant una mica l´expressió de l´estimador de la variança de pˆ :
n pˆ (1 − pˆ ) =β z 0,975 Vˆ [ pˆ ] = z 0,975 1 − − N n 1 Cas ASSR :
Cas ASAR:
z 0,975 Vˆ [ pˆ ] = z 0,975
pˆ (1 − pˆ ) =β n −1
n −1 n 1 − N en l’expressió del ASSR i s’eleva al quadrat l´expressió anterior, Si es defineix pˆ (1 − pˆ ) pˆ (1 − pˆ ) z 02,975 = β 2 → n0 = z 02,975 n0 β2 n0 =
i aplicant l’expressió a les nostres dades: Prof.
Lídia Montero
Pàg.
6. 2- 1 3
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Cas ASAR: n0 = z 02,975
pˆ (1 − pˆ )
β
2
= 1,96 2
0,2 ⋅ 0,8 = 1.536,6 i n = n0 + 1 = 1.537,6 → 1.538 0,02 2
Cas ASSR: n0 = z 02,975
Prof.
pˆ (1 − pˆ )
β
2
Lídia Montero
= 1,96 2
n +1 0,2 ⋅ 0,8 =1.536,6 i n = 0 = 1.537,2 → 1.538 2 n0 0,02 1+ N
Pàg.
6. 2- 1 4
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.5
L’Auditoria Comptable
Un auditor comptable controla un stock composat per N=2000 referències amb un valor real total τ Y desconegut. Les escriptures de propietat proporcionen un valor total inventariat τ X = 5447560 ptes, el que suposa un valor mig inventariat de µ X = 2723,78 ptes. Per tal d´estimar el valor real total l´auditor selecciona una mostra ASSR de n=160 referències. Sigui yi el valor real de la referència i-éssima seleccionada i sigui xi el seu valor inventariat. y = 2705,64 s 'y =1527,31
Siguin la mitjana i la desviació tipus mostrals obtingudes: . Es defineix l´error constatat en cada referència com a la diferència entre el valor real i el valor inventariat, ei = y i − xi i = 1, , n . S´han trobat els següents valors mostrals e = − 70,02 y s e' = 274,29 .
1) Calculeu un interval de confiança bilateral simètric a un nivell de confiança del 99% per la mitjana i el total de la població, µ Y ,τ Y . 2) Quin és el valor de E[x ] y E [e ]? Doneu l´expressió de V [e ] . 3) Si s´escriu z = µ X + e = µ X + y − x , calculeu E[z ] y V [z ] . Valoreu la qualitat de z com estimador de µ Y . 4) Determineu z i un interval de confiança simètric a un nivell de confiança del 99% per µ Y .
Prof.
Lídia Montero
Pàg.
6. 2- 1 5
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Solució: 1) El tamany de la població és N=2000 i es coneixen tant el total inventariat com la seva esperança matemàtica τ X = 5.447.560 i µ X = 2.723,78 . L’extracció descrita configura una mostra ASSR de tamany n=160. L’interval de confiança al 99% per la mitjana del veritable valor µ Y s’estima a partir de la mitjana mostral de les yi’s,
∑ y=
n
i =1
n
yi
'2 160 1.527,312 n sy ˆ [ ] 1 1 = 115,812 − = = − y V = 2.705,64 N n 2.000 160 i de l’estimació de la variança de la mitjana mostral .
Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E[ y ] = µ Y i també n´és l´estimador del total E[TY ] = τ Y . L´estimador puntual de τ Y , notat τˆY o TY = N y és de TY = N y = 2.000 ⋅ 2.705,64 = 5.411.280 . Per calcular l´interval de confiança al 99% cal disposar de la variança de l´estimador TY , V [TY ] o en el seu defecte
ˆ d´un estimador d´aquesta variança V [TY ] , '2 n sy 2 ˆ 2 ˆ ˆ V [TY ] = V [N y ] = N V [ y ] = N 1 − N n
'2 160 1527,312 n sy 2 = 231.620 2 = (2.000 ) 1 − Vˆ [TY ] = N 2 1 − 2.000 160 N n . i en el nostre cas,
En general, sigui un estimador no biaixat de θ , assumit normalment distribuit θˆ i la seva desviació estàndard es s nota θˆ , aleshores es contrueix un interval de confiança bilateral al nivel de confiança α = 0,01 a partir de l’expressió:
Prof.
Lídia Montero
Pàg.
6. 2- 1 6
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
[]
n s θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = TY , θ = τ Y , Vˆ θˆ = sθ2ˆ = N 2 1 − 2
2
'2 Y
N n
TY − z 0,995 Vˆ [TY ] ≤ τ Y ≤ TY + z 0,995 Vˆ [TY ] 5.411.280 − 2,575 ⋅ 231.620 ≤ τ Y ≤ 5.411.280 + 2,575 ⋅ 231.620 4.814.860 ≤ τ Y ≤ 6.007.702 al 99%
De la mateixa manera, per la mitjana de la població l´interval de confiança al nivell de confiança del 99% és, y − z 0,995 Vˆ [ y ] ≤ µ Y ≤ y + z 0,995 Vˆ [ y ] 2.705,64 − 2,575 ⋅115,81 ≤ µ Y ≤ 2.705,64 + 2,575 ⋅115,81 2.407,42 ≤ µ Y ≤ 3.003,86 al 99%
2) La mitjana mostral és un estimador centrat de la mitjana poblacional en mostreig ASSR: E[ y ] = µ Y i E [x ] = µ X .
(
' µX n σ '2 n σ '2 + σ X'2 − 2σ YX V [e ] = 1 − e ≈ 1 − Y n N n N Per altra banda, E[e ] = E[ y − x ] = E[ y ] − E[x ] = µ Y − 2.723,78 i
)
3)
'2 n σ Y'2 + σ X'2 − 2σ YX n σ Y'2 =V [y ] V [e ] = V [z ] = 1 − < 1 − '2 ' n N n N Observeu que V [z ] = V [µ X + e ]= V [e ] i si σ X − 2σ YX < 0 aleshores , però z és un estimador no biaixat de E[z ] = µ X + E[e ] = µ X + µ Y − µ X = µ Y i sota la condició anterior és més eficient que
la mitjana mostral (de menor variança).
Prof.
Lídia Montero
Pàg.
6. 2- 1 7
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
4) 160 274,29 2 n s e'2 ˆ [ ] 1 1 = 20,8 2 = − V e = − ' s = 274 , 29 e = − 70 , 02 2 . 000 160 N n S´han trobat els següents valors mostrals y e . i d´aquí el cálcul de l´interval de confiança al 99% per la mitjana real µ Y mitjançant l´estimador z resulta,
[]
n s '2 θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = z , θ = µ Y , Vˆ θˆ = s e2 = 1 − e 2
2
N n
z − z 0,995 Vˆ [z ] ≤ µ Y ≤ z + z 0,995 Vˆ [z ]
Com µ X = 2723,78
µ X + e − z 0,995 Vˆ [e ] ≤ µ Y ≤ µ X + e + z 0,995 Vˆ [e ]
2.653,76 − 2,575 ⋅ 20,8 ≤ µ Y ≤ 2.653,76 + 2,575 ⋅ 20,8 2.600,20 ≤ µ Y ≤ 2.707,32 al 99%
Prof.
Lídia Montero
Pàg.
6. 2- 1 8
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.6
Un més Difícil de Mostreig Aleatori Simple
Un Club de venda d’obres musicals per catàleg té un fitxer de N=500.000 clients, que es renoven en un 25% cada any. Cada mes s´envia un catàleg amb 10 obres musicals, presentades en disc, CD i cassette, és a dir, un total de 30 productes diferents a oferir que a partir d´ara es denominaran registres. Un registre es considera de alta demanda si els encàrrecs mensuals són com a mínim de 12000 unitats, i de demanda mitja, si els encàrrecs són com a mínim de 8000 unitats. Els membres del club han de comprar un mínim de 3 registres per any i com a màxim una unitat de cada registre. Els registres s´encarreguen a la firma productora un mes abans de publicar el catàleg (segons criteris de previsió d´algú), i si hi han més comandes d´un producte que stock (unitats encarregades a la firma productora) se’ls envia al mes següent. Aquest mètode és ineficaç i condueix sovint a la ruptura d´stock. L´experiència diu que si la revista s´envia a n1 clients, un 30% retorna la resposta de comanda en 15 dies (n2=0.3n1). La millora que s’intenta introduir parteix de l’idea d´enviar el catàleg a una mostra n1 de clients 15 dies abans que a la resta, i amb els resultats d’encàrrecs dels n1 clients, fer una comanda complementària per poder satisfer les comandes dels clients durant el mateix mes. L´objectiu és estimar n1 a partir d’uns certs requeriments de precisió absoluta i relativa. 1) Determinar n1 per estimar les vendes dels registres de demanda alta amb un error absolut de 1500 unitats a un grau de confiança del 95% (unitats). 2) Quina precisió absoluta comporta el tamany mostral n1 sobre els registres de demanda mitja? 3) Comparant 1 amb 2, es constata que la precisió absoluta és millor a 2 que a 1. Verifiqueu que amb precisió relativa és a l´inrevés. 4) Quin és el tamany mostral n1 per assolir en registres de demanda mitja la mateixa precisió relativa la obtinguda en registres de demanda alta pel tamany mostral calculat a l´apartat 1 ? Prof.
Lídia Montero
Pàg.
6. 2- 1 9
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Solució: 1) L’extracció és ASSR i N és 500.000, per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E [ y ] = µ Y o en termes de proporcions E[ pˆ ] = p . L’estimador puntual de la proporció de vendes que van bé és
pˆ =
12.000 = 0,024 500.000
Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte
ˆ d´un estimador d´aquesta variança V [ pˆ ] i a partir d´aquí és podrà imposar la condició de precisió absoluta de
1.500 = 0,003 1.500 exemplars, que representa un 0,3% ( 500.000 ),
n pˆ (1 − pˆ ) Vˆ [ pˆ ] = 1 − 1 N n1 − 1 Es defineix r com
i en el nostre cas,
r=
n1 − 1 n1 pˆ (1 − pˆ ) pˆ (1 − pˆ ) n = 1 − 1 Vˆ [ pˆ ] = 1 − N n1 − 1 r N i ,
n1 0,024(1 − 0,024) 0,024(1 − 0,024 ) 1,96 Vˆ [ pˆ ] = 1,96 1 − = 1,96 = 0,003 2 n1 r 500.000 on l´interval de confiança és al 95% .
D’aquí surt n1 =
Prof.
r=
1,96 ⋅ pˆ (1 − pˆ ) 1,96 ⋅ 0,024(1 − 0,024 ) = = 9998,4 ≈ 9.999 0,003 2 0,003 2 i ara es pot calcular 2
2
n2 = 0,3 ⋅ n1 =
r +1 = 9.804 r 1 + N i per tant
n2 = 32.680 0,3 és el tamany mostral per garantir la precisió absoluta requerida.
Lídia Montero
Pàg.
6. 2- 20
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
2) L’estimador puntual de la proporció de vendes de 8.000 exemplars és
pˆ =
8.000 = 0,016 500.000
Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte
d´un estimador d´aquesta variança V [ pˆ ] i a partir d´aquí es pot calcular la precisió absoluta de 8.000 exemplars amb una mostra de n1 = 9.998 individus que responen, ˆ
9.998 0,016(1 − 0,016 ) n pˆ (1 − pˆ ) Vˆ [ pˆ ] = 1 − 1 = 1 − = 0,00124 2 N n − 1 500 . 000 9 . 997 1
i en el nostre cas, 1,96 Vˆ [ pˆ ] = 1,96 ⋅ 0,00124 = 0,00243 on l´interval de confiança és al 95% i suposa en número de exemplars una precisió absoluta de 12.000 ⋅ 0,00243 = 1.215 .
Per tant la precisió absoluta de les vendes de 8.000 exemplars és millor (té magnitut inferior) a la precisió absoluta de les vendes que van bé (12.000 exemplars): 0,24% en front de 0,3% o 1.214 en front de 1.500. 3) En aquest apartat s´ilustra que malgrat que la precisió absoluta de 2 (8.000 exemplars) és millor que la de 1 (12.000 exemplars), la precisió relativa de 2 és pitjor que la de 1. Sigui δ 1 la precisió relativa de les vendes de 12.000 exemplars, Sigui δ 2 la precisió relativa de les vendes de 8.000 exemplars,
Prof.
Lídia Montero
Pàg.
6. 2- 21
δ1 =
δ2 =
1.500 = 0,125 12.000 .
1.215 = 0,153 8.000 .
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
El tamany que hauria de tenir la mostra per garantir una precisió relativa en les vendes de 8.000 exemplars de 1.000 = 0,002 0 ⋅ = , 125 500 . 000 1 . 000 exemplars o en termes percentuals de 500.000 . 0.125 és a dir una precisió absoluta de
Emprant les mateixes fórmules que en l’apartat 1 s´obté el tamany mostral requerit. n pˆ (1 − pˆ ) Vˆ [ pˆ ] = 1 − 1 N n1 − 1 r=
Es defineix r com i en el nostre cas,
n1 − 1 n1 pˆ (1 − pˆ ) pˆ (1 − pˆ ) n = 1 − 1 Vˆ [ pˆ ] = 1 − N n1 − 1 r N i ,
n1 0,016(1 − 0,016) 0,016(1 − 0,016 ) 1,96 Vˆ [ pˆ ] = 1,96 1 − = 1,96 = 0,002 2 n1 r 500.000 on l´interval de confiança és al 95% .
1,96 ⋅ pˆ (1 − pˆ ) 1,96 2 ⋅ 0,016(1 − 0,016 ) r= = ≈ 15.121 0,002 2 0,002 2 i ara es pot calcular D’aquí surt n n1 = 2 = 48.927 0,3 és el tamany mostral per garantir la precisió relativa requerida. 2
Prof.
Lídia Montero
Pàg.
6. 2- 22
n2 = 0,3 ⋅ n1 =
r +1 = 14.679 r 1 + N i per tant
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.7
Un d´Estratificació per Edats
Una empresa realitza una enquesta sobre el conjunt del seu personal composat per 10.000 persones. Uns estudis preliminars han demostrat que les variables d’interès estan fortament correlacionades amb l’edat dels individus i que es poden establir tres categories d´edat, cadascuna de les quals constitueix un estrat. Es proposa un plan de sondeig com si es volés estudiar l’edat dels individus i es coneix l´edat de tot el personal, informació que es pot sintetitzar en la següent taula: Estrat
Proporció l´estrat h
' de s h
edats a l’estrat h 1 0,2 18 2 0,3 12 3 0,5 3,6 Conjunt 1,0 16 1) Sigui µ l’edat mitjana de la població i y l’estimador mitjana mostral procedent d’una extracció ASSR de n=100 individus. Quin és l‘error estàndar de y ? 2) Es decideix efectuar l’extracció dels n=100 individus de manera estratificada segons les 3 categories del personal. Quina és la repartició representativa o proporcional? Quina és la desviació estándar de l´estimador y SP de µ resultant? Comparar els resultats amb l´apartat anterior.
3) Quina seria la repartició óptima de la mostra? Quina seria la desviació estàndar de l´estimador y SO de µ resultant? Comparar els resultats amb els apartats anteriors.
Solució: Prof.
Lídia Montero
Pàg.
6. 2- 23
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
1) Tenim un tamany poblacional de N=10.000 i un tamany mostral ASSR de n=100. Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E [ y ] = µ Y .
ˆ La variança de l´estimador y , V [ y ] o en el seu defecte d´un estimador d´aquesta variança V [ y ] que no és el cas en aquest enunciat, doncs es coneix l´edat a nivell poblacional, resulta, 100 16 2 n σ y =1,59 2 = 1 − V [ y ] = 1 − 10.000 100 N n '2
2) Mostreig estratificat proporcional vol dir que el tamany mostral a cada estrat ha de ser proporcional al tamany
poblacional de l’estrat, n=100 d’on la taxa de mostreig
n1 = 0,2n = 20 Nh nh = n → n2 = 0,3n = 30 n 100 N f = = = 0,01 n3 = 0,5n = 50 N 10.000 ,
y SP = ∑h =1 H
Per teoria es sap que l’estimador estratificat proporcional de la mitjana poblacional ,
Nh yh N
mitjana mostral habitual dins l´estrat h, suposant mostreig ASSR a cada estrat, és centrat: E[ y SP ] = µ Y .
on y h és la
ˆ La variança de l´estimador y SP , V [ y SP ] o en el seu defecte d´un estimador d´aquesta variança V [ y SP ] que no és el cas en aquest enunciat, doncs es coneix l´edat a nivell poblacional, resulta, 2 2 H N H N H N V [ y SP ] = V ∑h =1 h y h = ∑h =1 h2 V [ y h ] = ∑h =1 h2 N N N nh n H Nh '2 '2 = = ∀h f σ int ≈ σ ∑h=1 N h ra N N h i on
V [ y SP ] = ∑h =1 3
Prof.
N h2 N2
Lídia Montero
σ '2 n σ '2 1 − h h = = (1 − f ) int ra N h nh n
n σ '2 20 18 2 30 12 2 50 3,6 2 2 2 1 − h h = 0,2 2 1 − + 0 , 3 1 − + 0 , 5 1 − = 1,06 2 N h nh 2.000 20 3.000 30 5.000 50 Pàg.
6. 2- 24
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC '2 σ int ra ≈ ∑h =1 3
o bé, calculat amb la fórmula alternativa, V [ y SP ] = (1 − f )
'2 σ int ra
n
= (1 − 0,01)
N h '2 σ h = 0,2 ⋅ 18 2 + 0,3 ⋅ 12 2 + 0,5 ⋅ 3,6 2 =10,7 2 N i d´aquí,
10,7 2 = 1,06 2 100
3) Mostreig estratificat óptim de Neyman vol dir que el tamany mostral a cada estrat ha de ser tal que minimitza la variança global de l’estimador de µ , per n=100 d’on la taxa de mostreig
f =
n 100 = = 0,01 N 10.000 ,
Nh ' n1 = 0,4 n = 40 σh N n → n2 = 0,4 n = 40 nh = H Nh ' n3 = 0,2 n = 20 ∑h=1 N σ h
σ ' = ∑h =1 H
Al denominar se’l sol notar σ ' = ∑h =1 3
Nh ' σh N i en el nostre cas,
Nh ' σ h = 0,2 ⋅ 18 + 0,3 ⋅ 12 + 0,5 ⋅ 3,6 = 9 N . y SO = ∑h =1 H
Per teoria es sap que l’estimador estratificat óptim de la mitjana poblacional ,
Nh yh N
on y h és la mitjana
mostral habitual dins l´estrat h, suposant mostreig ASSR a cada estrat, és centrat: E[ y SO ] = µ Y . La variança de
ˆ l´estimador y SO , V [ y SO ]o en el seu defecte d´un estimador d´aquesta variança V [ y SO ] que no és el cas en aquest enunciat, doncs es coneix l´edat a nivell poblacional, resulta, 2 2 H Nh H Nh H Nh V [ y SO ] = V ∑h =1 y h = ∑h =1 2 V [ y h ] = ∑h =1 2 N N N H Nh '2 σ int σ h'2 ra ≈ ∑h =1 N on
Prof.
Lídia Montero
'2 nh σ h'2 σ '2 σ int ra 1 − == − N n n N h h
Pàg.
6. 2- 25
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
V [ y SO ] = ∑h =1 3
N N
2 h 2
n σ 40 18 40 12 20 3,6 2 1 − h = 0,89 2 + 0,5 2 1 − + 0,3 2 1 − = 0,2 2 1 − 2 . 000 40 3 . 000 40 5 . 000 20 N n h h '2 h
2
2
o bé, calculat amb la fórmula alternativa, '2 σ σ int 92 10,7 2 N h '2 ra 2 2 2 2 [ ] V y SO = − = − = 0,89 2 ≈ ∑h =1 σ h = 0,2 ⋅ 18 + 0,3 ⋅ 12 + 0,5 ⋅ 3,6 =10,7 n N 100 10.000 N i d´aquí, '2
σ
'2 int ra
Prof.
3
Lídia Montero
Pàg.
6. 2- 26
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.8
Un d´Estratificació més Teóric
Una determinada població d´estudi es composa de 2 estrats dels quals es coneix el seu tamany ( N h h = 1, 2 ) i la seva ' ' variança poblacional corregida σ h h = 1, 2 i σ .
Es disposa d´un pressupost C per obtenir una estimació de µ , que notarem y SOC , la funció de cost s´escriu C (n) = C1 n1 + C 2 n2 i n1 + n2 = n i es proposa una extracció ASSR a cada estrat.
1) Calcular l´expressió de y SOC estimador centrat de µ i la seva variança.
2) Quina repartició de la mostra en els estrats fa mínima la variança de l’estimador y SOC ? Quina és l´expressió óptima de la variança de y SOC . 3) Si en comptes d´aplicar una repartició óptima en costos, s’hagués aplicat la repartició proporcional, quins serien els tamanys mostrals a cada estrat? Quina l’expressió de l´estimador centrat de µ (notat y SP ) i la seva variança?
' ' 4) Si N1 = 10.000 N 2 = 20.000 σ 1 = 2 σ 2 =1 C1 = 4 C 2 = 9 C =1.000 calculeu la repartició óptima en costos de la mostra en els
estrats i la variança de l´estimador y SOC . Apliqueu les dades a la repartició proporcional i evalueu la pérdua de precissió relativa entre la repartició óptima en costos i la repartició proporcional.
Prof.
Lídia Montero
Pàg.
6. 2- 27
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Solució: y SOC = ∑h =1 H
1) Per teoria es sap que l’estimador estratificat óptim per costos de la mitjana poblacional ,
Nh yh N
és la mitjana mostral habitual dins l´estrat h, suposant mostreig ASSR a cada estrat, és centrat: E[ y SOC ] = µ Y .
on y h
ˆ La variança de l´estimador y SOC , V [ y SOC ] o en el seu defecte d´un estimador d´aquesta variança V [ y SOC ] que no és el cas en aquest enunciat, doncs es coneixen dades a nivell poblacional, resulta, 2 2 H N H N H N V [ y SOC ] = V ∑h =1 h y h = ∑h =1 h2 V [ y h ] = ∑h =1 h2 N N N
2 '2 '2 n σ '2 σ int H N σ ra 1 − h h = ∑h =1 h2 h − N n n N N h h h
'2 σ int ra ≈ ∑h =1 H
N h '2 σh N
on 2) Si es planteja un problema de programació matemàtica adreçat a trobar els valors n1 ,, n H tals que donat un cost total C i coneguts els costos unitaris per estrat (Ch) i la desviació estàndard corregida de la variable no depend nh
' d´interès a cada estrat ( σ h ), s´obtingui la menor variança de l´estimador de µ , aleshores la partició de la mostra
nh =
en estrats repon a la fòrmula:
N hσ h' C h H
∑N σ h =1
h
' h
Ch
C Ch
I ara substituint n1 ,, n H a la fòrmula de V [ y SOC ] s’obté,
V [ y SOC
( ]= ∑
N hσ h' C h h =1 H
N 2C
) −σ 2
'2 int ra
N
3) Si s´hagués aplicat un repartiment proporcional, però mantenint les condicions de cost limitat i conegut C i coneguts els costos unitaris per estrat (Ch) i la desviació estàndard corregida de la variable d´interès a cada estrat ( σ h ) podem deduir quina hauria estat la repartició de la mostra per estrats, '
Prof.
Lídia Montero
Pàg.
6. 2- 28
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Nh n N CN N → C = ∑ h Ch n → n = N C = ∑ C h nh h ∑ N hCh nh =
h
h
i a partir del tamany mostral n es podria calcular, 2 N h2 H Nh V [ y SP ] = ∑h =1 2 V [ y h ] = ∑h =1 2 N N H
n σ '2 σ '2 n 1 − h h = (1 − f ) int ra = 1 − N h nh n N
(∑
h
N hCh
'2 σ int ra
) CN
'2 σ int ra ≈ ∑h =1 H
on
N h '2 σh N
4) Procedim a la comparació de les dues estratègies mitjançant un exemple numèric amb les dades, N 1 = 10.000 N 2 = 20.000 σ 1' = 2 σ 2' =1 C1 = 4 C 2 = 9 C =1.000 .
Càlcul de la repartició i la variança de l’estimador de la mitjana poblacional en la repartició óptima per costos: nh =
10.000 ⋅ 2 ⋅ 2 1000 n1 = =100 C ⋅ ⋅ + ⋅ ⋅ 10 . 000 2 2 20 . 000 1 3 4 → 20.000 ⋅ 1 ⋅ 3 1000 Ch n2 = = 67 Ch 10.000 ⋅ 2 ⋅ 2 + 20.000 ⋅ 1 ⋅ 3 9
N hσ h' C h H
∑N σ h =1
h
' h
I ara substituint n1 ,, n H a la fòrmula de V [ y SOC ] s’obté, V [ y SOC
a on Prof.
( ]= ∑
'2 σ int ra
N hσ h' C h h =1 H
)
2
−
'2 σ int ra
2 ( 10.000 ⋅ 2 ⋅ 2 + 20.000 ⋅ 1 ⋅ 3) = −
N N C 30.000 ⋅1000 10.000 2 20.000 2 H N 2 + 1 =2 ≈ ∑h =1 h σ h'2 = 30.000 30.000 N
Lídia Montero
2
2
Pàg.
2 = 0,112 30.000
6. 2- 29
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Càlcul de la repartició i la variança de l’estimador de la mitjana poblacional en la repartició proporcional donat un cost C fixat:
n=
1.000 ⋅ 30.000 CN = 137 = ∑ N h C h 10.000 ⋅ 4 + 20.000 ⋅ 9 h
σ
'2 int ra
N 10.000 2 20.000 2 ≈ ∑h =1 h σ h'2 = 2 + 1 =2 N 30.000 30.000 H
V [ y SP ] = (1 − f )
'2 σ int ra
n
137 2 = 0,12 2 = 1 − 20 . 000 137
Ara cal comparar la pérdua de precisió relativa de l’estimador proporcional enfront de l’estimador de la mostra óptima per costos: V [ y SP ] 0,12 2 = =1,32 ⇒ V [ y SOC ] 0,112
Prof.
Lídia Montero
pérdua relativa de precisió del 32%.
Pàg.
6. 2- 30
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.9
Index de Satisfacció (Estratificat)
Una empresa que està constituida per 400 persones de suport i 100 directius vol evaluar l´index de satisfacció (Y) del seu personal a partir d’un conjunt de preguntes en una mostra de n=100 individus. Es suposa que la dispersió de la variable satisfacció és la mateixa en els 2 estrats del personal. 1) Quin és el métode de mostreig indicat si es vol obtenir la millor precisió possible sobre el valor mig de l´índex de satisfacció del personal? 2) Quin és el métode de mostreig indicat si es vol obtenir la mateixa precisió sobre el valor mig de l´índex de satisfacció del personal a cadascun dels estrats? 3) Quin és el métode de mostreig indicat si es vol obtenir la millor precisió possible sobre la diferència dels valors mitjos de l´índex de satisfacció del personal a cadascun dels estrats? 4) Finalment es realitza l´enquesta segons l´objectiu 2, tot obtenint els següents resultats: y1 = 13 y 2 =15 s1'2 = 9 s 2'2 = 36 . Calculeu els intervals de confiança al nivell de confiança del 95% per la mitjana de la
satisfacció a cada estrat. La diferència entre les satisfaccions mitjanes és significativament diferent de 0?
Prof.
Lídia Montero
Pàg.
6. 2- 31
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Solució: 1) Per teoria es sap que l’estimador estratificat de mínima variança de la mitjana poblacional prové del mostreig y SO = ∑h =1 H
estratificat de Neyman,
Nh yh N
on y h és la mitjana mostral habitual dins l´estrat h, suposant mostreig
ASSR a cada estrat, és centrat: E[ y SO ] = µ Y .
ˆ La variança de l´estimador y SO , V [ y SO ] o en el seu defecte d´un estimador d´aquesta variança V [ y SO ] que no és el cas ' ' ' en aquest enunciat, doncs es coneix (suposa) σ 1 = σ 2 = σ el que fa que resulti equivalent a un mostreig estratificat proporcional doncs,
Nh ' σh Nh N nh = n N N H Nh n= h n → nh = ' σ H Nh N ∑h=1 N h ∑ = 1 h N σ 1' = σ 2' = σ '
i per tant en aquest cas,
'2 nh σ n σ int n σ ra H Nh '2 1 − = 1 − ≅ 1 − =V [y ] σ int σ h'2 ≅ σ '2 ra ≅ ∑h =1 N n N n N n h h N on '2 100 σ = 0,008 ⋅ σ '2 V [ y SO ] = V [ y SP ] ≅ V [ y ] = 1 − 500 100 A més a més equival al mostreig aleatori simple.
N V [ y SO ] = V [ y SP ] = ∑h =1 N H
2 h 2
'2
'2 h
2) Si l´objectiu és assolir la mateixa precisió en l’estimació de la mitjana de la satisfacció en tots dos estrats ' ' ' subjecte a σ 1 = σ 2 = σ , aleshores cal plantejar el següent sistema d´equacions:
N = 400 '2 '2 V [ y1 ] = V [ y 2 ] 1 n1 σ n2 σ 3n12 + 500n1 − 40.000 = 0 V [ y1 ] = 1 − = V [ y 2 ] = 1 − → '2 '2 '2 σ 1 =σ 2 = σ → N 1 n1 N 2 n2 n1 + n2 = 100 N 2 = 100 n1 + n2 = n n1 + n2 = n
Prof.
Lídia Montero
Pàg.
6. 2- 32
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
La
resolució
de
l´equació
de
segon
grau
dona
n1 = 59
i
d´on
n2 = 41
i
n σ n σ 59 σ = 0,07 ⋅ σ '2 = 1 − = 1 − 2 V [ y1 ] = V [ y 2 ] = 1 − 1 400 59 N n N n 1 1 2 2 '2
'2
'2
3) Si l’objectiu és assolir la millor precisió possible en l´estimador de la diferència entre les satisfaccions mitjanes dels estrats aleshores cal definir un estadístic δ = µ1 − µ 2 i el seu estimador centrat si les extraccions als estrats són ASSR: d = y1 − y 2 , la variança del qual és: n σ '2 2 V [d ] = V [ y1 − y 2 ] = V [ y1 ] + V [ y 2 ] = ∑h =1 1 − h h N h nh
Ara bé, la partició n1 + n2 =100 que fa mínima V [d ] es pot calcular aplicant les técniques de programació no lineal amb restriccions d´igualtat i comprovant que la partició indicada per la següent fórmula satisfà les condicions de mínim amb restriccions d’igualtat de Karush-Khuni-Tucker: nh =
σ h'
∑ j =1σ 'j H
n
i a més aquí σ 1 = σ 2 = σ i per tant, n1 = n2 = 50 . La variança de l´estimador de la diferència de les satisfaccions mitjanes entre estrats pren per valor, '
'
'
nh σ h'2 50 σ 50 σ = 0,0275 ⋅ σ '2 V [d ] = V [ y1 − y 2 ] = V [ y1 ] + V [ y 2 ] = ∑h =1 1 − + 1 − = 1 − N h nh 400 50 100 50 '2
'2
2
4) Els resultats segons el pla de mostreig 2 que assoleix igual precisió en l´estimació de la satisfacció mitjana en tots dos estrats són: y1 = 13 y 2 =15 s1 = 9 s 2 = 36 . D´entrada si usessim els coneixements d´inferència estadística per tal de contrastar la hipòtesi de la igualdad de la variança dels 2 estrats via l´estadístic de Fisher-Snedecor tindriem: '2
Prof.
Lídia Montero
'2
Pàg.
6. 2- 33
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
s f =
'2 2
σ 2 = 36 = 4 > F 0, 05 =1,65 ⇒ 40 , 58 '2
s1
9
hi ha evidència per rebutjar la hipótesi nul.la σ 1 = σ 2 = σ . Aquesta és la causa de que les variances dels estimadors a cadascun dels estrats siguin diferentes: σ
'2
2
Vˆ [ y1 ] = 1 − Vˆ [ y 2 ] = 1 −
'2
'2
n1 s1'2 59 9 = 0,130 = 1 − N 1 n1 400 59 n2 s 2'2 41 36 = 0,518 = 1 − N 2 n2 100 41
L’interval de confiança al nivell del 95% per µ1 és: y1 − z 0,975 Vˆ [ y1 ] ≤ µ1 ≤ y1 + z 0,975 Vˆ [ y1 ]
13 − 1,96 ⋅ 0,13 ≤ µ1 ≤ 13 + 1,96 ⋅ 0,13 L’interval de confiança al nivell del 95% per µ 2 és:
y 2 − z 0,975 Vˆ [ y 2 ] ≤ µ 2 ≤ y 2 + z 0,975 Vˆ [ y 2 ]
15 − 1,96 ⋅ 0,518 ≤ µ 2 ≤15 + 1,96 ⋅ 0,518
12,3 ≤ µ1 ≤13,7 13,6 ≤ µ 2 ≤16,4
Falta respondre el darrer punt: si és significativament diferent la mitjana de les satisfaccions a tots dos estrats. A partir de les dades mostrals es calcularà l´estimador de δ , la seva variança i es construirà un interval de confiança al 95% on s´observarà si el zero hi pertany o no. d = y1 − y 2 =13 − 15 = − 2
59 9 41 36 Vˆ [d ] = Vˆ [ y1 − y 2 ] = Vˆ [ y1 ] + Vˆ [ y 2 ] = 1 − + 1 − = 0,648 400 400 100 100 L’interval de confiança al nivell del 95% per δ = µ1 − µ 2 és:
d − z 0,975 Vˆ [d ] ≤ δ ≤ d + z 0,975 Vˆ [d ]
− 2 − 1,96 ⋅ 0,648 ≤ δ ≤ − 2 + 1,96 ⋅ 0,648
− 3,6 ≤ δ ≤ − 0,4
Per tant al no pertanyer el 0 a l´interval de confiança hi ha evidència per considerar les satisfaccions mitjanes dels 2 estrats diferentes. Prof.
Lídia Montero
Pàg.
6. 2- 34
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.10
Els comptes deudors: clients morosos ...
Una empresa té 14.133 clients dels quals és possible saber, informàticament, quin és l´estat de comptes: si deuen diners (deudors) o si l’empresa els deu (acreedors). Un inspector vol verificar l’estat de comptes i d´entrada se li faciliten les següents dades: Número d’acreedors: 865. Número de deudors inferiors a 5000 Euros: 13.226. Número de deudors de gran magnitud: 42. L’inspector decideix examinar per mostreig els comptes deudors inferiors a 5000 Euros, doncs n´hi han massa per fer un examen detallat un per un. L’objectiu consisteix en determinar amb molta precissió quin és el valor real (Y) mig del comptes deudors inferiors a 5000 Euros: µ Y . Les següents dades aporten una estratificació d’aquests comptes (assolible informàticament) segons una variable X: ‘Valor comptable d’un compte deudor’: Estrat 1 2 3 4 Total
Prof.
Lídia Montero
Rangs de X Euros) 1 a 500 501 a 1.000 1.001 a 2.500 2.501 a 5.000
(en Nh 1.124 2.741 5.815 3.546 13.226
Pàg.
6. 2- 35
Valor Comptable τ X 292.630 2.103.480 10.178.650 13.254.820 25.829.580
h
Desviació Corregida σ 82 156 346 881 σ X' ?
Curs 2. 01 4- 2. 01 5
Tipus ' Xh
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
1) Calculeu la desviació tipus conjunta del valor comptable σ X a partir de les dades de la taula. 2) Si es suposa que la desviació tipus conjunto del valor real dels comptes deudors (Y) és molt semblant a la desviació tipus conjunta del valor comptable dels comptes deudors (X), calculeu el tamany que hauria de tenir una mostra ASSR per estimar µ Y amb un interval de confiança de ± 50 Euros a un nivell de confiança del 95%. '
N −n 1 ≅ n. Considereu per simplificar que Nn
3) Si suposem que els costos de mostreig són els mateixos a tots quatre estrats, determineu quina és la repartició óptima de Neyman d´una mostra estratificada de tamany genèric n. ' ' 4) Si suposem que les desviacions tipus dels estrats són molt similars tant per Y com per X, és a dir σ X ≅ σ Y calculeu quina és la repartició óptima de Neyman d´una mostra estratificada de tamany genèric n. h
h
N h − nh 1 ≅ nh , calculeu quin és el tamany mostral necessari per estimar µ Y amb un 5) Si es fa una aproximació N h nh interval de confiança de ± 50 Euros a un nivell de confiança del 95% segons el repartiment mostral indicat a
l´apartat anterior.
Solució: 1) Sabem que µX =
τX
, µ Xh =
N
2 σ int ra = ∑h
τX
N −1 Nh 2 σ X h = ∑h h σ X'2h N N ,
µY =
h
N h i el mateix per la Y
τY N
, µ Yh =
τY
h
Nh .
Ara bé recordem la fórmula de descomposició de la variança que apareix en anàlisi ANOVA: SQT = ∑∑ ( x hi − µ ) =∑∑ ( x hi − x h + x h − µ ) =∑∑ ( x hi − x h ) + ∑∑ ( x h − µ ) = 2
h
i
h
=∑
Nh Nh
Prof.
Lídia Montero
h
∑ (x i
2
− xh ) + ∑ N h 2
hi
i
h
2
h
i
2
h
i
N (xh − µ )2 =∑ N hσ h2 + Nσ int2 er N h Pàg.
6. 2- 36
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
N SQT 2 2 2 = σ 2 = ∑ h σ h2 + σ int er = σ int ra + σ int er N h N
En el nostre cas, σ
2 int er
2 σ int ra = ∑h
N N 2 = ∑h h ( x h − µ ) = ∑h h N N
N = ∑h h N
τ Xh N h
2
− 1.952,9 2 =
2 2 2 i d’aquí la fórmula habitual σ X = σ int ra + σ int er .
N h − 1 '2 1.123 2 2.740 5.814 3.545 σ Xh = 82 + 156 2 + 346 2 + 8812 = 266.274,86 N 13.226 13.226 13.226 13.226 2 τ Xh τ X N = ∑ h − h N N N h
( (
)
(
τ Xh Nh
)
(
2
25.829.580 2 − = 13.226
)
(
) )−
1.124 292.630 2 2.741 2.103.480 2 5.815 10.178.650 2 3.546 13.254.820 2 + + + 3.546 13.226 5.815 13.226 2.741 13.226 13.226 1.124
σ X2 = σ int2 ra + σ int2 er = 266.274,86 + 1.407.053,52 =1.673.328,38
i
σ X'2 =
1.952 , 9
2
= 1.407.053,52
N σ X2 =1.297 2 N −1 .
2) La mitjana mostral és un estimador centrat de la mitjana poblacional en mostreig ASSR: E[ y ] = µ Y i E [x ] = µ X . Suposem σ Y ≅ σ X . La mitjana de la població l´interval de confiança del 95% és, '2
'2
σ X'2 1.297 n σ '2 =1,96 ⋅ = 50 → n = 2.585 z 0,975 V [ y ] = z 0,975 1 − Y ≅ 1,96 ⋅ n n N n
y − z 0,975 V [ y ] ≤ µ Y ≤ y + z 0,975 V [ y ] → z 0,975 V [ y ] = 50
3)
Per teoria es sap que l’estimador estratificat de mínima variança de la mitjana poblacional prové del mostreig y SO = ∑h =1 H
estratificat de Neyman,
Nh yh N
on y h és la mitjana mostral habitual dins l´estrat h, suposant mostreig
ASSR a cada estrat, és centrat: E[ y SO ] = µ Y .
La variança de l´estimador y SO , V [ y SO ] i per tant en aquest cas, Prof.
Lídia Montero
Pàg.
6. 2- 37
N2 V [ y SO ] = ∑h =1 h2 N H
n σ 1 − h Yh N h nh
'2
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
La repartició óptima de Neyman respon a la fórmula: Nh ' σ Yh N nh = n H Nh ' ∑h=1 N σ Yh
per un n donat hi calen les desviacions tipus de la Y a cada estrat.
'2 '2 4) Suposem σ Y ≅ σ X ∀ h en les fórmules del repartiment anteriors, h
h
1.124 ⋅ 82 n 5.655.780 Nh ' σY 2.741 ⋅ 156 N h n = n n 1 nh = H ' 5 . 655 . 780 H Nh → ∑h =1 N hσ Yh = 5.655.780 → 5.815 ⋅ 346 ∑h=1 N σ Y' h n1 = n 5 . 655 . 780 '2 '2 σ Yh ≅ σ X h 3.546 ⋅ 881 n1 = n 5.655.780 H N H ' σ ' = ∑h =1 h σ X' h N σ = 5 . 655 . 780 N i a més . i s´ha usat ∑h =1 h X h n1 =
= 0,0163 n = 0,0756 n = 0,3557 n = 0,5524 n
ˆ 5) La variança de l´estimador y SO , V [ y SO ] o en el seu defecte d´un estimador d´aquesta variança V [ y SO ] és amb el
'2 '2 repartiment óptim calculat l´apartat anterior i la hipótesi σ Y ≅ σ X ,
N2 V [ y SO ] = ∑h =1 h2 N H
'2 '2 2 2 nh σ X H H N H Nh σ XH 1 − = ∑h =1 2 = ∑h =1 h2 N h nh N nh N
σ X'2 n
H
N hσ X' h
∑
H h =1
N ∑h h σ X' H N = n
2
N hσ X' h
La mitjana de la població l´interval de confiança del 95% és, y SO − z 0,975 V [ y SO ] ≤ µ Y ≤ y SO + z 0,975 V [ y SO ] → z 0,975 V [ y SO ] = 50 2
z 0,975 V [ y SO ] = z 0,975 Prof.
Lídia Montero
N ∑h h σ X' H ' N ≅ 1,96 ⋅ σ X =1,96 ⋅ 428,38 = 50 → n = 282 n n n Pàg.
6. 2- 38
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.11
L’Explotació Ramadera (Estratificat)
Una empresa especialitzada en sondetjos es encarregada de realitzar un mostreig en dues regions sobre una mostra total de n=500 explotacions ramaderes amb la finalitat d´avaluar el nombre mig d´animals per explotació µ . El número d’explotacions total és de 50.000, distribuïdes en 40.000 en la regió 1 i 10.000 a la regió 2 i es disposa de la base de sondeig amb l´adreça de cada explotació. Dades històriques sobre les regions mostren que la desviació del nombre d´animals per explotació a la regió 1 era de 20 i en la regió 2 de 40. 1) Descriure amb precisió com es construiria una mostra estratificada proporcional prenent com criteri d´estratificació la regió. Quina seria la diferència d´haver considerat una mostra ASSR sense estratificació pel conjunt del territori? 2) Quina és la precisió de la mitjana d´animals per explotació a cada regió segons el mostreig estratificat proporcional a un nivell de confiança del 95%? 3) Quina seria la repartició a considerar si es vol obtenir la mateixa precisió en l’estimació del nombre mig d´animals per explotació a cada regió? Quina seria la precisió de l’estimador del nombre mig d´animals per explotació al conjunt del territori a un nivell de confiança del 95%? 4) Quina seria la repartició a considerar si es vol obtenir una precisió óptima en l´estimació de µ ? Quina seria aquesta precisió a un nivell de confiança del 95%? 5) Avaluant el cost de l´enquesta, l´empresa detecta que el cost unitari per cada unitat mostrejada no és el mateix en totes dues regions i de fet N 1 = 40.000 N 2 = 10.000 σ 1 = 20 σ 2 = 40 C1 = 200 C 2 = 300 . Quin seria el tamany mostral total i la repartició en les regions que garanteix un cost global mínim per una variança de l´estimador de µ fixada a 1,139? Deduiu el cost global de l´enquesta, C? Compareu quin seria el cost de l´enquesta resultant del punt 4. '
Prof.
Lídia Montero
Pàg.
6. 2- 39
'
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Solució: 1) Y variable d´estudi és “Nombre d´animals per explotació ramadera”. La mostra estratificada representativa o proporcional seria: n1 = 0,8n = 400 Nh nh = n → n2 = 0,2n =100 N n = 500
'2 '2 '2 Si N és gran i σ 1 = σ 2 = σ aleshores el mostreig estratificat proporcional donaria els mateixos resultats en '2 2 '2 2 l´estimació dels paràmetres habituals, però aquest no és el nostre cas σ 1 = 20 ≠ σ 2 = 40
Veiem perquè si N és gran i σ 1 = σ 2 = σ aleshores la variança de l’estimador de la mitjana poblacional és equivalent a la variança de l´estimador equivalent del ASSR: '2
'2
'2
2 '2 n N σ int n σ int ra ra V [ y SP ] = 1 − = 1 − = 1 − N N −1 n N n n N σ2 ≅ 1 − N N −1 n
Nh 2 n N σ2 n N 1 ∑ σ h = 1 − N N − 1 n N N −1 n h N n σ '2 =V [y ] = 1 − N n
∑
h
Nh ≅ N
2) Es demanen els intervals de confiança al 95% per les mitjanes (poblacionals) de les dues regions, a partir de les dades del mostreig anterior, que són ASSR a nivell de cada estrat: n1 σ 1'2 400 20 2 = 0,995 2 = 1 − V [ y1 ] = 1 − 40.000 400 N 1 n1 '2 n σ 100 40 2 = 3,98 2 V [ y 2 ] = 1 − 2 2 = 1 − N 2 n2 10.000 100
L’interval de confiança al nivell del 95% per µ1 és:
y1 − z 0,975 V [ y1 ] ≤ µ1 ≤ y1 + z 0,975 V [ y1 ]
y1 − 1,96 ⋅ 0,995 ≤ µ1 ≤ y1 + 1,96 ⋅ 0,995
y1 − 1,95 ≤ µ1 ≤ y1 + 1,95
L’interval de confiança al nivell del 95% per µ 2 és: y 2 − z 0,975 V [ y 2 ] ≤ µ 2 ≤ y 2 + z 0,975 V [ y 2 ] Prof.
Lídia Montero
y 2 − 1,96 ⋅ 3,98 ≤ µ 2 ≤ y 2 + 1,96 ⋅ 3,98 Pàg.
6. 2- 40
y 2 − 7,8 ≤ µ 2 ≤ y 2 + 7,8 Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
L’interval de confiança al nivell del 95% per la mitjana poblacional del conjunt µ és: y SP − z 0,975 V [ y SP ] ≤ µ ≤ y SP + z 0,975 V [ y SP ]
V [ y SP ] = ∑h =1
y SP − 1,96 ⋅ 1,126 ≤ µ ≤ y SP + 1,96 ⋅ 1,126
2
N h2 n h σ h'2 400 20 2 100 40 2 2 2 1 = 0 , 8 1 − + 0 , 2 1 − = 1,126 2 − 40.000 400 N h n h N 2 10.000 100
y SP − 2,206 ≤ µ ≤ y SP + 2,206
3) La repartició a considerar si es vol obtenir la mateixa precisió en l’estimació del nombre mig d´animals per explotació a cada regió hauria de satisfer: '2 V [ y1 ] = V [ y 2 ] n1 20 n V [ y1 ] = 1 − = 1 − 2 → N 1 n1 N2 n1 + n 2 = 500 n1 + n 2 = n
N 1 = 40.000 '2 40 160.000n1 + 40.000n 2 − 15 = 0 = V [ y 2 ] → n2 n1 + n 2 = 500 N 2 = 10.000
2 n1 σ 1'2 n2 σ 2'2 100 20 V [ y1 ] = V [ y 2 ] = 1 − = 1 − = 1 − = 1,998 2 N 1 n1 N 2 n2 40.000 100 La resolució de l´equació dona n1 =100 i d´on n2 = 400 i
En aquest cas la precisió de l’estimador del nombre mig d´animals per explotació al conjunt i que no és l’estimador estratificat proporcional sinó un altre que anomenarem y ≡ del territori a un nivell de confiança del 95% és: 1,96 V [ y ≡ ] = 1,96
∑
N h2 n h σ h'2 100 20 2 400 40 2 2 2 1 1 , 96 0 , 8 1 0 , 2 1 = − + − = 1,96 ⋅ 2,71 = 3,22 − h =1 40.000 100 N h n h N 2 10.000 400
2
4) La repartició a considerar si es vol obtenir una precisió óptima en l´estimació de µ és la repartició resultant de les fórmules de Neyman
nh =
∑
16 n1 = 24 n = 333 → → 8 N 2 n j ' ' n2 = n =167 σ σ = = ⋅ + ⋅ = 0 , 8 20 0 , 2 40 24 on 24 ∑ j =1 N j σ 'j = 500 n N
Nh ' σh N 2 Nj j =1
La precisió de la repartició óptima a un nivell de confiança del 95% seria: Prof.
Lídia Montero
Pàg.
6. 2- 41
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
1,96 V [ y SO ] = 1,96
5)
∑
N h2 n h σ h'2 333 20 2 167 40 2 2 2 1 = 1 , 96 0 , 8 1 − + 0 , 2 1 − = 1,96 ⋅ 1,067 = 2,092 − h =1 40.000 333 N h n h N 2 10.000 167
2
El cost unitari per cada unitat mostrejada no és el mateix en totes dues regions i de fet
N 1 = 40.000 N 2 = 10.000 σ 1' = 20 σ 2' = 40 C1 = 200 C 2 = 300 aleshores el tamany mostral total i la repartició en les regions 2 que garanteix un cost global mínim per una variança de l´estimador de µ fixada a 1,139 =1,067 (les incógnites)
haurien de satisfer:
N hσ h' C h H
nh =
N hσ h' C h H
∑N σ j =1
j
' j
Cj
n C → h= Ch n
∑N σ j
h =1
∑
' j
Cj
C Ch =
N j σ 'j C j j H
∑N σ j =1
j
' j
Cj
C Cj
N hσ h'
∑
j
Ch
N j σ 'j
Cj
Però V [ y SOC ] ha de valer 1,139, V [ y SOC
( ]= ∑
N hσ h' C h h =1 H
2
N C
)
2
−
'2 σ int ra
N
=1,139
'2 σ int ra ≈ ∑h =1 H
a on
N h '2 40.000 2 10.000 2 σh = 20 + 40 = 640 N 50.000 50.000
I d’on surt el cost C en funció de V [ y SOC ] i n1 ,, n H a partir de la primera fòrmula,
n1 = H N ∑h =1 h σ h' C h N C = σ '2 V [ y SOC ] + int ra N
2
= 40.000 ⋅ 20 ⋅ 200 + 10.000 ⋅ 40 ⋅ 300 640 50.000 2 1,139 + 50.000
(
)
2
= 115.900
nh =
N hσ h' C h H
∑N σ j =1
j
' j
Cj
C → Ch
40.000 ⋅ 20 ⋅ 200 C = 359 H 200 ' ∑ N jσ j C j j =1
10.000 ⋅ 40 ⋅ 300 C = 147 n2 = H 300 ' ∑ N jσ j C j j =1
Per finalitzar cal comparar quin seria el cost de l´enquesta resultant del punt 4: C 4 = 200 ⋅ 333 + 300 ⋅ 167 = 116.700 , més car que l’òptim en cost per la precisió fixada. Prof.
Lídia Montero
Pàg.
6. 2- 42
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
6.2-1.12
Els propietaris de llars
Un diari compta amb 40.000 abonats que serveix diàriament per transportistes i vol coneixer el nombre d´abonats que són propietaris de la seva residència habitual per una operació de marketing. La direcció del diari encarrega una enquesta a 800 abonats, triats en conglomerats de 10 (propers geogràficament). El responsable del pla de mostreig considera els M=4.000 conglomerats de 10 unitats cadascun com la base pel mostreig d’on es seleccionen segons un procediment sistemàtic (ASSR), 80 conglomerats entre els 4.000. Sigui τ i 80
∑τ i =1
i
= 370
el número total de propietaris del conglomerat i-éssim. Els resultats de l´enquesta són: 80
∑τ i =1
2 i
= 2.536
.
1) Calculeu un interval de confiança al 95% pel nombre total de propietaris de la llar entre els abonats al diari. 2) Si p indica la proporció de propietaris en els conjunt dels abonats, quin és el valor del estimador de p, notat pˆ . Doneu un interval de confiança al 95% per p. 3) Si l’estimador puntual de l´apartat anterior pˆ s´hagués obtingut a partir d´un mostreig aleatori simple sense reemplaçament entre els 40.000 abonats, quin seria l´interval de confiança que s´hagués obtingut per p? 4) Com explicarieu la diferència en la precisió obtinguda entre els dos apartats anteriors? Quins suggeriments farieu per millorar la qualitat del procediment de mostreig?
Prof.
Lídia Montero
Pàg.
6. 2- 43
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
Solució: 1) Per fixar la notació detallem les dades: N=40.000 Ni=10=N0 n=800 M=4.000 m=80, donat que M =
N 40.000 = = 4.000 N0 10 .
Sigui τ i : Nombre total de propietaris al conglomerat i-èssim. L’estimador del total de propietaris en la població d’abonats del diari i la seva variança estimada respon a les fòrmules: m
M τˆ = m
m
∑τ i =1
i
=M t
on
t =
2 ∑ (τ i − t )
80
sτ'2 =
i =1
m −1
=
∑τ i =1
V (τˆ ) = V ( Mt ) = M 2V (t ) = M ( M − m)
i =1
m
Amb les nostres dades: 80
m
∑τ i τˆ =
M m
80
∑τ i =1
i
= 4.000 ⋅
σ τ'2 m
m −1
−
m 2 2.536 80 − 4,63 2 = 3,22 2 t = 79 79 m −1 i per tant,
N
=
'2
.
2
τ
18.500 − z 0,975 1.474,24 ≤ τ ≤18.500 + z 0,975 1.474,24
és: 15.703 ≤ τ ≤ 21.297 al 95% de confiança
p=
τ N
i per tant es pot estimar
m
M M τi = t ∑ Nm i =1 N .
Lídia Montero
2
m −1
Mt M2 M ( M − m) σ τ'2 τˆ V ( pˆ ) = V = V ( ) = 2 V (t ) = N m N N2 N La variança de l’estimador de p és :
Prof.
−t)
s 3,22 =1.427,24 2 Vˆ (τˆ ) = M ( M − m) τ = 4.000 (4.000 − 80 ) 80 m .
La proporció de propietaris en la població d´abonats al diari és
τˆ
i =1
i
2 i
τˆ − z 0,975 Vˆ [τˆ] ≤ τ ≤ τˆ + z 0,975 Vˆ [τˆ]
pˆ =
s sτ'2 = Vˆ (τˆ ) = M ( M − m) τ m on i d’aquí
∑ (τ
370 =18.500, 80 d’on t = 4,63 .
L’interval de confiança al nivell del 95% pel total de propietaris
2)
'2
Pàg.
6. 2- 44
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
M ( M − m) sτ Vˆ ( pˆ ) = m . N2 L’estimador de la variança de p és '2
Aplicat a les dades del problema: τˆ
18.500 = 0,463 N 40.000 M ( M − m) sτ'2 4.000 (4.000 − 80) 3,22 2 Vˆ ( pˆ ) = = = 0,0357 2 2 2 m 80 N 40.000 . pˆ =
=
L’interval de confiança al nivell del 95% per la proporció de propietaris p és: pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ]
0,463 − 1,96 ⋅ 0,0357 ≤ p ≤ 0,463 + 1,96 ⋅ 0,0357
0,393 ≤ p ≤ 0,533 al 95% de confiança
3) Ara es suposa que l´estimador pˆ = 0,463 de la proporció de propietaris p s´ha obtingut a partir d’un ASSR i es demana calcular l’estimador per interval de p. n pˆ (1 − pˆ ) = 0,0244 2 Vˆ ( pˆ ) = 1 − N n −1 . Per ASSR
L’interval de confiança al nivell del 95% per la proporció de propietaris p (ASSR) és: pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ]
0,463 − 1,96 ⋅ 0,0244 ≤ p ≤ 0,463 + 1,96 ⋅ 0,0244
0,415 ≤ p ≤ 0,511 al 95% de confiança
4) El ASSR és generalment millor que el mostreig bietàpic (i per conglomerats). “Los conglomerados han de ser: Los más hetereogeneos posibles, para mejorar la representatividad de la población total.
Prof.
Lídia Montero
Pàg.
6. 2- 45
Curs 2. 01 4- 2. 01 5
ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC
El tamaño de los conglomerados ha de ser pequeño y similar entre ellos. Las familias europeas tienen pocos miembros y el tamaño es muy regular, entre 2 y 5 miembros en el 95% de los casos. Cuantos más conglomerados se muestreen, mejor, la calidad de los estimadores depende más de m (número de conglomerados o UP) que de n (número de individuos o US). El efecto del conglomerado se puede medir por un coeficiente llamado coeficiente de correlación intraconglomerado:
f=
m
Ni
Ni
i =1
j =1
k =1 y k ≠ j Ni m
∑∑ ∑
( yij − y )( yik − y )
∑ ∑(y i =1
j =1
. ij
− y)2
1 N −1 n = N=
N M .
donde
Ni: número de individuos del conglomerado i y
Si >> 0 Si