MASTER S DEGREE IN SUPPLY CHAIN, TRANSPORT AND LOGISTICS

CURS 2014-15 ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA Block 6 : Problemes de Teoria de Mostreig PROFESSOR: Lídia Montero Setembre 2014 – Versió 1.2

Author: Sebastián Ortiz Caballero

0 downloads 225 Views 1006KB Size

Report

DOWNLOAD PDF

Recommend Stories

FORWARDING YOUR PARTNER IN INTERNATIONAL TRANSPORT AND LOGISTICS

FORWARDING YOUR PARTNER IN INTERNATIONAL TRANSPORT AND LOGISTICS Content 04. 06. 08. Company Presentation Mission and Vision 10. 12. 24. Our Comm

Supply Chain Management

Gaullar. news corporate advisory experts LOGISTICS AND TRANSPORT

Lean supply chain DOSSIER 2016

MASTER'S DEGREE IN PHONETICS AND PHONOLOGY ( )

RESUMEN COMPETITIVENESS AND SUPPLY CHAIN IN THE PRODUCTIVE SECTOR OF VALLE DEL CAUCA, COLOMBIA ABSTRACT

Revista Global de Negocios Vol. 4, No. 1, 2016, pp. 77-87 ISSN: 2328-4641 (print) ISSN: 2328-4668 (online) www.theIBFR.com COMPETITIVIDAD Y CADENAS

Degree in Law

Curso Académico: 2016-2017 Asignatura: Derecho Concursal Código: 17886 Titulación: Grado en Derecho Tipo: Optativa del Itinerario de Derecho privado y

TRANSPORT CHAIN ANALYSIS, PROJECTION AND INTERNATIONAL DISTRIBUTION OF MANUFACTURING PAINT ENCOURAGING IN THE INTEGRITY OF THE GOODS

Labor Supply in the Dominican Republic: Trends and Determinants

M PRA Munich Personal RePEc Archive Labor Supply in the Dominican Republic: Trends and Determinants Francisco A. Ramirez July 2013 Online at http://

&logistics CONTENEDOR. Sistema &logistics

Story Transcript

CURS 2014-15

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA

Block 6 : Problemes de Teoria de Mostreig PROFESSOR: Lídia Montero Setembre 2014 – Versió 1.2

MASTER’S DEGREE IN SUPPLY CHAIN, TRANSPORT AND LOGISTICS

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

TAULA DE CONTINGUTS 6.2-1. PROBLEMES DE MOSTREIG (AUTORS: DROESBEKE I FINE) _____________________________________________________________________ 3 6.2-1.1 6.2-1.2 6.2-1.3 6.2-1.4 6.2-1.5 6.2-1.6 6.2-1.7 6.2-1.8 6.2-1.9 6.2-1.10 6.2-1.11 6.2-1.12 6.2-1.13 6.2-1.14 6.2-1.15 6.2-1.16 6.2-1.17 6.2-1.18 6.2-1.19

Prof.

DESPESES FAMILIARS ___________________________________________________________________________________________________________ 4 ELS PROPIETARIS DE VEHICLES MARCA A __________________________________________________________________________________________ 6 RENDIMENT D´UNA OPERACIÓ DE MARKETING _____________________________________________________________________________________ 10 SONDEIG D´OPINIÓ PRE-ELECTORAL ______________________________________________________________________________________________ 13 L’AUDITORIA COMPTABLE _____________________________________________________________________________________________________ 15 UN MÉS DIFÍCIL DE MOSTREIG ALEATORI SIMPLE__________________________________________________________________________________ 19 UN D´ESTRATIFICACIÓ PER EDATS _______________________________________________________________________________________________ 23 UN D´ESTRATIFICACIÓ MÉS TEÓRIC ______________________________________________________________________________________________ 27 INDEX DE SATISFACCIÓ (ESTRATIFICAT) __________________________________________________________________________________________ 31 ELS COMPTES DEUDORS: CLIENTS MOROSOS ... ____________________________________________________________________________________ 35 L’EXPLOTACIÓ RAMADERA (ESTRATIFICAT) _____________________________________________________________________________________ 39 ELS PROPIETARIS DE LLARS ____________________________________________________________________________________________________ 43 LES COMPRES DE REVISTES SETMANALS__________________________________________________________________________________________ 48 L’ANIMACIÓ SONORA ALS SUPERS_______________________________________________________________________________________________ 51 L’ESTUDI D´AUDIOMETRIA ____________________________________________________________________________________________________ 54 LA IMATGE DE CORREUS ______________________________________________________________________________________________________ 59 UN DE NOU DE MOSTREIG EN CONGLOMERATS ____________________________________________________________________________________ 61 UN DE MOSTREIG A 2 NIVELLS _________________________________________________________________________________________________ 64 ELS LECTORS RURALS I URBANS (UN DE POST-ESTRATIFICACIÓ) ______________________________________________________________________ 69

Lídia Montero

Pàg.

6. 2- 2

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1. PROBLEMES DE MOSTREIG (AUTORS: DROESBEKE I FINE)

Aquesta llista conté majoritàriament una colecció de problemes desenvolupada pels autors per un curs de formació a Amèrica Llatina. Originàriament estaven escrits en castellà, amb certes deficiències de sintaxi, però constitueixen un recull molt adecuat pel nivell presentat al nostre curs. Els professors de l´assignatura hem preferit traduir el text original i els autors han donat autorització a la publicació dels problemes a la nostra Universitat amb finalitats estrictament docents.

Prof.

Lídia Montero

Pàg.

6. 2- 3

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.1

Despeses Familiars

En una regió de França, 145 famílies de turistes han gastat en mitjana diàriament 830 Euros. La desviació estándar de les 145 despeses familiars diàries puja a 210 Euros. Sabent que la regió on es duu a terme l´enquesta va rebre 50 000 famílies de turistes, què pot dir-se de la despesa global diària del conjunt d´aquestes famílies? Calculeu el seu interval de confiança al 90%. Suposeu que el mostreig és ASSR. Solució: Sigui Y v.a “Despesa familiar diària”, la població son N=50.000 famílies i la mostra ASSR de n=145 famílies proporciona les dades y = 830 s 'y = 210 , es vol estimar τ Y , la despesa familiar total diària. L´estimador puntual de τ Y , notat τˆY o TY = N y és de TY = N y = 50.000 ⋅ 830 = 41.500.000 Euros . Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E[ y ] = µ Y i també n´és l´estimador del total E[TY ] = τ Y . Per calcular l´interval de confiança al 90% cal disposar de la variança de l´estimador TY , V [TY ] o en el seu defecte d´un estimador d´aquesta variança Vˆ [TY ] , '2 n  sy 2 ˆ 2 ˆ ˆ V [TY ] = V [N y ] = N V [ y ] = N 1 −   N n

Prof.

Lídia Montero

Pàg.

6. 2- 4

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC '2 y

145  210 n s i en el nostre cas, Vˆ [TY ] = N 2 1 −  = (50.000)2 1 − = 871.000 2 .  

N n

2

50.000  145



En general, sigui un estimador no biaixat de θ , assumit normalment distribuit θˆ i la seva desviació estàndard es nota sθˆ , aleshores es contrueix un interval de confiança bilateral al nivel de confiança α = 0,1 a partir de l’expressió: θˆ − z

1−α

2

sθˆ ≤θ ≤θˆ + z1−α sθˆ 2

[]

n  sY'2 2 2 ˆ ˆ ˆ → θ = TY , θ = τ Y , V θ = sθˆ = N 1 −   N n

TY − z 0,95 Vˆ [TY ] ≤ τ Y ≤ TY + z 0,95 Vˆ [TY ]

41.500.000 − 1,645 ⋅ 871.000 ≤ τ Y ≤ 41.500.000 + 1,645 ⋅ 871.000

40.070.000 ≤ τ Y ≤ 42.930.000

Prof.

Lídia Montero

Pàg.

6. 2- 5

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.2

Els propietaris de vehicles Marca A

Una mostra ASAR està composada per 400 propietaris de vehicles d´un pais donat, dels quals 40 són propietaris d´un vehicle de marca A. Es demana: 1) Construir un interval de confiança, a un nivell de confiança del 95% per la veritable proporció de propietaris de vehicles de marca A en aquell pais. 2) Suposeu que l´extracció és ASSR i N=5.000: contruir l´interval de confiança al 95% per la veritable proporció de propietaris de vehicles de marca A. 3) Suposeu que l´extracció és ASSR i N=1.000.000: contruir l´interval de confiança al 95% per la veritable proporció de propietaris de vehicles de marca A. 4) Si es desitgés un error absolut del 1% (1 punt), quins haurien de ser els tamanys mostrals d’extraccions ASSR per poblacions de tamany N=5.000 i N=1.000.000 ? Solució: 1) Sigui Y v.a “Propietari d´un vehicle de marca A”. És una variable aleatória Bernoulli de paràmetre p desconegut i que es vol estimar, per punt i per interval (nivell de confiança 95%).

∑i =1 yi = 40 n

∑ pˆ =

n

i =1

yi

= y = 0,1

n i d´aquí , es vol estimar La mostra ASAR de n=400 propietaris proporciona les dades µ Y = p , la veritable proporció de propietaris de vehicles marca A. L´estimador puntual de p és pˆ = 0,1 .

Per tractar-se d´una extracció ASAR sabem que l’estimador mitjana mostral és centrat E [ y ] = µ Y o en termes de proporcions E[ pˆ ] = p .

Prof.

Lídia Montero

Pàg.

6. 2- 6

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte ˆ d´un estimador d´aquesta variança V [ pˆ ] , p (1 − p ) pˆ (1 − pˆ ) i V [ pˆ ] = n n −1 n 0,1⋅ 0,9 Vˆ [ pˆ ] = = 0,015 2 399 . i en el nostre cas,

Vˆ [ pˆ ] = Vˆ [ y ] =

s 'y2

=

En general, sigui un estimador no biaixat de θ , assumit normalment distribuit θˆ i la seva desviació estàndard es s nota θˆ , aleshores es contrueix un interval de confiança bilateral al nivel de confiança α = 0,05 a partir de l’expressió: pˆ (1 − pˆ ) θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = pˆ , θ = p, Vˆ θˆ = sθ2ˆ = 2

2

[]

n −1

pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ] 0,1 − 1,96 ⋅ 0,015 ≤ p ≤ 0,1 + 1,96 ⋅ 0,015 0,071 ≤ p ≤ 0,129 al nivell de confiança del 95%.

2) Ara suposem que l’extracció és ASSR i N=5.000, per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E[ y ] = µ Y o en termes de proporcions E[ pˆ ] = p . Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte ˆ d´un estimador d´aquesta variança V [ pˆ ] , '2 n  sy  n  pˆ (1 − pˆ )  ˆ ˆ ˆ = 1 −  V [ p ] = V [ y ] = 1 −   N  n  N  n −1

Prof.

Lídia Montero

Pàg.

6. 2- 7

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

400  0,1(1 − 0,1)  Vˆ [ pˆ ] = 1 − = 0,0144 2  5 . 000 399   i en el nostre cas, d’on l´interval de confiança al 95% és, n  pˆ (1 − pˆ )  θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = pˆ , θ = p, Vˆ θˆ = sθ2ˆ = 1 −  2 2  N  n −1

[]

pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ] 0,1 − 1,96 ⋅ 0,0144 ≤ p ≤ 0,1 + 1,96 ⋅ 0,0144

0,072 ≤ p ≤ 0,128 al nivell de confiança del 95%.

3) Ara suposem que l’extracció és ASSR i N=1.000.000, per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E[ y ] = µ Y o en termes de proporcions E[ pˆ ] = p . Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte ˆ d´un estimador d´aquesta variança V [ pˆ ] , '2 n  pˆ (1 − pˆ ) n  sy   ˆ ˆ = 1 −  V [ pˆ ] = V [ y ] = 1 −   N  n  N  n −1

400  0,1(1 − 0,1)  Vˆ [ pˆ ] = 1 − = 0,0150 2   1.000.000  399 i en el nostre cas, d’on l´interval de confiança al 95% és, n  pˆ (1 − pˆ )  θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = pˆ , θ = p, Vˆ θˆ = sθ2ˆ = 1 −  2 2  N  n −1

[]

Prof.

Lídia Montero

Pàg.

6. 2- 8

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ] 0,1 − 1,96 ⋅ 0,0150 ≤ p ≤ 0,1 + 1,96 ⋅ 0,0150 0,071 ≤ p ≤ 0,129 al nivell de confiança del 95%.

4) Un error absolut d´un punt, 1%, a un nivell de confiança del 95% vol dir, p ∈ pˆ ± z 0,975 Vˆ [ pˆ ] → z 0,975 Vˆ [ pˆ ] = 0,01

n? i treballant una mica l´expressió de l´estimador de la variança de pˆ ,

n −1 n = 0 ˆ ˆ n  p(1 − p )  n = 0,01 = β 1 −  1− N  n −1  N i s’eleva al quadrat l´expressió anterior, Si es defineix pˆ (1 − pˆ ) → n0 = z 02,975 2

z 0,975 Vˆ [ pˆ ] = z 0,975

z 02,975

pˆ (1 − pˆ ) =β2 n0

β

i aplicant l’expressió a les nostres dades, n0 = z 02,975

pˆ (1 − pˆ )

β2

n0 + 1 0,1 ⋅ 0,9 = 3 . 458 i n = n 0,012 1+ 0 N n0 + 1 = 2.045 n= n0 1+ N .

= 1,96 2

Per a N=5.000,

n=

Per N=1.000.000, Prof.

Lídia Montero

n0 + 1 = 3.447 n0 n0 →0 1+ N . S’usa que N . Pàg.

6. 2- 9

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.3

Rendiment d´una operació de marketing

Una empresa de marketing té accés a un fitxer amb N=200.000 individus. Sigui pel rendiment desconegut del fitxer a una oferta d´inscripció a preu reduit, és a dir, p és la proporció d´individus que s´inscriurien si se’ls proposés l´oferta a tots els individus del fitxer. Per estimar el rendiment p, diem-li pˆ , es sol procedir a partir d’un test sobre una petita mostra de n individus, triats amb probabilitats iguals i sense reemplaçament. L’experiència de l´empresa és que el rendiment en aquests tipus d´oferta no sol superar el 3%. 1) Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,5% a un nivell de confiança del 95%? 2) Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,3% a un nivell de confiança del 95%? 3) Quin és el tamany mostral n necessari per estimar p amb una precissió absoluta del 0,1% a un nivell de confiança del 95%? 4) Si finalment la mostra tingué un tamany n=10.000 i es comptabilitzaren 230 inscripcions, quin és l´interval de confiança bilateral al 95% pel rendiment p i pel número total d´abonats al proposar l´oferta al total del fitxer?

Prof.

Lídia Montero

Pàg.

6. 2- 1 0

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Solució: 1) L’extracció és ASSR amb N=200.000 i l’incógnita és el tamany mostral n, però es poden usar dades històriques i suposar que el rendiment p=0,03. La condició que ha de satisfer la mostra es poder assolir un error absolut del 0,5% o en tant per 1 del 0,005. Un error absolut de mig punt 0,5% a un nivell de confiança del 95% vol dir, p ∈ pˆ ± z 0,975 V [ pˆ ] → z 0,975 V [ pˆ ] = 0,005 = β

i treballant una mica l´expressió de l´estimador de la variança de pˆ , n0 =

z 0,975 V [ pˆ ] = z 0,975

N  n  p(1 − p ) =β 1 −  N −1 N  n −1

n −1 p(1 − p ) p(1 − p ) N  n z 02,975 = β 2 → n0 = z 02,975 1 −  n0 β2 N − 1  N  i s’eleva al quadrat l´expressió anterior,

Si es defineix i aplicant l’expressió a les nostres dades, n0 = z 02,975

p(1 − p )

β

2

= 1,96 2

2) Com l´apartat anterior, però ara β = 0,003 . n0 = z 02,975

p(1 − p )

β

2

= 1,96 2

n +1 0,03 ⋅ 0,97 N = 4374,8 → 4375 ≈1 n = 0 = 4.471,6 i com 2 n0 N −1 0,005 1+ N .

n +1 0,03 ⋅ 0,97 N =12.421,2 i com ≈1 n = 0 = 11.695,8 → 11.696 2 n0 N −1 0,003 1+ N

3) Prof.

Lídia Montero

Pàg.

6. 2- 1 1

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Com l´apartat anterior, però ara β = 0,001 . n0 = z 02,975

p(1 − p )

β

2

= 1,96 2

n +1 0,03 ⋅ 0,97 N = 71.709,4 → 71.710 ≈1 n = 0 =111.790,6 i com 2 n0 N −1 0,001 1+ N

4) Finalment, n=10.000 i s’obté un total de 230 subscripcions, per tant l’estimador puntual del rendiment és pˆ =

230 = 0,023 10.000 . Ara cal calcular l´interval de confiança al nivell de confiança del 95% pel rendiment p i pel número

total d´inscripcions a la població. p ∈ pˆ ± z 0,975 Vˆ [ pˆ ]

al 95%

10.000  0,023(1 − 0,023) n  pˆ (1 − pˆ )   = 1,96 ⋅ 0,001461 = 1,96 ⋅ 1 − z 0,975 Vˆ [ pˆ ] = z 0,975 1 −   9999 N  n −1  200.000   p ∈0,023 ± 0,029 al 95%

El total d´inscripcions s´estima com TY = N pˆ , doncs τ Y = N p , i per tant TY = N pˆ = 200.000 ⋅ 0,023 = 4.600 . Pel càlcul de l’estimador per interval cal estimar V [TY ] per 10.000  0,023(1 − 0,023) n  pˆ (1 − pˆ )   = 292,2 2 = N 2 ⋅ 1 − Vˆ [TY ] = Vˆ [N pˆ ] = N 2Vˆ [ pˆ ] = N 2 1 −   9999  200.000   N  n −1 τ ∈T ± z Vˆ [T ] → τ ∈ 4.600 ± 1,96 ⋅ 292,2 → τ ∈ 4.600 ± 573 Y

Prof.

Y

0 , 975

Lídia Montero

Y

Y

al 95%

Y

Pàg.

6. 2- 1 2

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.4

Sondeig d´opinió pre-electoral

Es desenvolupa un sondeig d´opinió pre-electoral per recaptar informació sobre l’opinió general d´una personalitat política i s’obté un percentatge d´opinions favorables del 20%, pˆ = 0,2 . 1) Si l’extracció és ASAR, quantes persones han estat interrogades per poder dir amb un nivell de confiança del 95% que el veritable percentatge d´opinions favorables en la població no es desvia més de 2 punts de pˆ ? 2) Si l’extracció és ASSR, quantes persones han estat interrogades per poder dir amb un nivell de confiança del 95% que el veritable percentatge d´opinions favorables en la població no es desvia més de 2 punts de pˆ ? (N=5.000.000) Solució: S’observa pˆ = 0,2 . Un error absolut del 2% a un nivell de confiança del 95% vol dir, p ∈ pˆ ± z 0,975 Vˆ [ pˆ ] → z 0,975 Vˆ [ pˆ ] = 0,02 = β

i treballant una mica l´expressió de l´estimador de la variança de pˆ :

n  pˆ (1 − pˆ )  =β z 0,975 Vˆ [ pˆ ] = z 0,975 1 −  − N n 1   Cas ASSR :

Cas ASAR:

z 0,975 Vˆ [ pˆ ] = z 0,975

pˆ (1 − pˆ ) =β n −1

n −1 n  1 −   N  en l’expressió del ASSR i s’eleva al quadrat l´expressió anterior, Si es defineix pˆ (1 − pˆ ) pˆ (1 − pˆ ) z 02,975 = β 2 → n0 = z 02,975 n0 β2 n0 =

i aplicant l’expressió a les nostres dades: Prof.

Lídia Montero

Pàg.

6. 2- 1 3

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Cas ASAR: n0 = z 02,975

pˆ (1 − pˆ )

β

2

= 1,96 2

0,2 ⋅ 0,8 = 1.536,6 i n = n0 + 1 = 1.537,6 → 1.538 0,02 2

Cas ASSR: n0 = z 02,975

Prof.

pˆ (1 − pˆ )

β

2

Lídia Montero

= 1,96 2

n +1 0,2 ⋅ 0,8 =1.536,6 i n = 0 = 1.537,2 → 1.538 2 n0 0,02 1+ N

Pàg.

6. 2- 1 4

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.5

L’Auditoria Comptable

Un auditor comptable controla un stock composat per N=2000 referències amb un valor real total τ Y desconegut. Les escriptures de propietat proporcionen un valor total inventariat τ X = 5447560 ptes, el que suposa un valor mig inventariat de µ X = 2723,78 ptes. Per tal d´estimar el valor real total l´auditor selecciona una mostra ASSR de n=160 referències. Sigui yi el valor real de la referència i-éssima seleccionada i sigui xi el seu valor inventariat. y = 2705,64 s 'y =1527,31

Siguin la mitjana i la desviació tipus mostrals obtingudes: . Es defineix l´error constatat en cada referència com a la diferència entre el valor real i el valor inventariat, ei = y i − xi i = 1,  , n . S´han trobat els següents valors mostrals e = − 70,02 y s e' = 274,29 .

1) Calculeu un interval de confiança bilateral simètric a un nivell de confiança del 99% per la mitjana i el total de la població, µ Y ,τ Y . 2) Quin és el valor de E[x ] y E [e ]? Doneu l´expressió de V [e ] . 3) Si s´escriu z = µ X + e = µ X + y − x , calculeu E[z ] y V [z ] . Valoreu la qualitat de z com estimador de µ Y . 4) Determineu z i un interval de confiança simètric a un nivell de confiança del 99% per µ Y .

Prof.

Lídia Montero

Pàg.

6. 2- 1 5

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Solució: 1) El tamany de la població és N=2000 i es coneixen tant el total inventariat com la seva esperança matemàtica τ X = 5.447.560 i µ X = 2.723,78 . L’extracció descrita configura una mostra ASSR de tamany n=160. L’interval de confiança al 99% per la mitjana del veritable valor µ Y s’estima a partir de la mitjana mostral de les yi’s,

∑ y=

n

i =1

n

yi

'2 160  1.527,312 n  sy   ˆ [ ] 1 1 = 115,812 − = = − y V     = 2.705,64  N  n  2.000  160 i de l’estimació de la variança de la mitjana mostral .

Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E[ y ] = µ Y i també n´és l´estimador del total E[TY ] = τ Y . L´estimador puntual de τ Y , notat τˆY o TY = N y és de TY = N y = 2.000 ⋅ 2.705,64 = 5.411.280 . Per calcular l´interval de confiança al 99% cal disposar de la variança de l´estimador TY , V [TY ] o en el seu defecte

ˆ d´un estimador d´aquesta variança V [TY ] , '2 n  sy 2 ˆ 2 ˆ ˆ V [TY ] = V [N y ] = N V [ y ] = N 1 −   N n

'2 160  1527,312 n  sy  2 = 231.620 2 = (2.000 ) 1 − Vˆ [TY ] = N 2 1 −    2.000  160  N n . i en el nostre cas,

En general, sigui un estimador no biaixat de θ , assumit normalment distribuit θˆ i la seva desviació estàndard es s nota θˆ , aleshores es contrueix un interval de confiança bilateral al nivel de confiança α = 0,01 a partir de l’expressió:

Prof.

Lídia Montero

Pàg.

6. 2- 1 6

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

[]

n s  θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = TY , θ = τ Y , Vˆ θˆ = sθ2ˆ = N 2 1 −  2

2



'2 Y

N n

TY − z 0,995 Vˆ [TY ] ≤ τ Y ≤ TY + z 0,995 Vˆ [TY ] 5.411.280 − 2,575 ⋅ 231.620 ≤ τ Y ≤ 5.411.280 + 2,575 ⋅ 231.620 4.814.860 ≤ τ Y ≤ 6.007.702 al 99%

De la mateixa manera, per la mitjana de la població l´interval de confiança al nivell de confiança del 99% és, y − z 0,995 Vˆ [ y ] ≤ µ Y ≤ y + z 0,995 Vˆ [ y ] 2.705,64 − 2,575 ⋅115,81 ≤ µ Y ≤ 2.705,64 + 2,575 ⋅115,81 2.407,42 ≤ µ Y ≤ 3.003,86 al 99%

2) La mitjana mostral és un estimador centrat de la mitjana poblacional en mostreig ASSR: E[ y ] = µ Y i E [x ] = µ X .

(

' µX n  σ '2  n  σ '2 + σ X'2 − 2σ YX      V [e ] = 1 −  e ≈ 1 −  Y n  N n  N Per altra banda, E[e ] = E[ y − x ] = E[ y ] − E[x ] = µ Y − 2.723,78 i

)

3)

'2 n  σ Y'2 + σ X'2 − 2σ YX n  σ Y'2   =V [y ] V [e ] = V [z ] = 1 −  < 1 −  '2 ' n  N n  N Observeu que V [z ] = V [µ X + e ]= V [e ] i si σ X − 2σ YX < 0 aleshores , però z és un estimador no biaixat de E[z ] = µ X + E[e ] = µ X + µ Y − µ X = µ Y i sota la condició anterior és més eficient que

la mitjana mostral (de menor variança).

Prof.

Lídia Montero

Pàg.

6. 2- 1 7

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

4) 160  274,29 2 n  s e'2   ˆ [ ] 1 1 = 20,8 2 = − V e = −     ' s = 274 , 29 e = − 70 , 02 2 . 000 160 N n     S´han trobat els següents valors mostrals y e . i d´aquí el cálcul de l´interval de confiança al 99% per la mitjana real µ Y mitjançant l´estimador z resulta,

[]

n  s '2  θˆ − z1−α sθˆ ≤θ ≤θˆ + z1−α sθˆ → θˆ = z , θ = µ Y , Vˆ θˆ = s e2 = 1 −  e 2

2



N n

z − z 0,995 Vˆ [z ] ≤ µ Y ≤ z + z 0,995 Vˆ [z ]

Com µ X = 2723,78

µ X + e − z 0,995 Vˆ [e ] ≤ µ Y ≤ µ X + e + z 0,995 Vˆ [e ]

2.653,76 − 2,575 ⋅ 20,8 ≤ µ Y ≤ 2.653,76 + 2,575 ⋅ 20,8 2.600,20 ≤ µ Y ≤ 2.707,32 al 99%

Prof.

Lídia Montero

Pàg.

6. 2- 1 8

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.6

Un més Difícil de Mostreig Aleatori Simple

Un Club de venda d’obres musicals per catàleg té un fitxer de N=500.000 clients, que es renoven en un 25% cada any. Cada mes s´envia un catàleg amb 10 obres musicals, presentades en disc, CD i cassette, és a dir, un total de 30 productes diferents a oferir que a partir d´ara es denominaran registres. Un registre es considera de alta demanda si els encàrrecs mensuals són com a mínim de 12000 unitats, i de demanda mitja, si els encàrrecs són com a mínim de 8000 unitats. Els membres del club han de comprar un mínim de 3 registres per any i com a màxim una unitat de cada registre. Els registres s´encarreguen a la firma productora un mes abans de publicar el catàleg (segons criteris de previsió d´algú), i si hi han més comandes d´un producte que stock (unitats encarregades a la firma productora) se’ls envia al mes següent. Aquest mètode és ineficaç i condueix sovint a la ruptura d´stock. L´experiència diu que si la revista s´envia a n1 clients, un 30% retorna la resposta de comanda en 15 dies (n2=0.3n1). La millora que s’intenta introduir parteix de l’idea d´enviar el catàleg a una mostra n1 de clients 15 dies abans que a la resta, i amb els resultats d’encàrrecs dels n1 clients, fer una comanda complementària per poder satisfer les comandes dels clients durant el mateix mes. L´objectiu és estimar n1 a partir d’uns certs requeriments de precisió absoluta i relativa. 1) Determinar n1 per estimar les vendes dels registres de demanda alta amb un error absolut de 1500 unitats a un grau de confiança del 95% (unitats). 2) Quina precisió absoluta comporta el tamany mostral n1 sobre els registres de demanda mitja? 3) Comparant 1 amb 2, es constata que la precisió absoluta és millor a 2 que a 1. Verifiqueu que amb precisió relativa és a l´inrevés. 4) Quin és el tamany mostral n1 per assolir en registres de demanda mitja la mateixa precisió relativa la obtinguda en registres de demanda alta pel tamany mostral calculat a l´apartat 1 ? Prof.

Lídia Montero

Pàg.

6. 2- 1 9

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Solució: 1) L’extracció és ASSR i N és 500.000, per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E [ y ] = µ Y o en termes de proporcions E[ pˆ ] = p . L’estimador puntual de la proporció de vendes que van bé és

pˆ =

12.000 = 0,024 500.000

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte

ˆ d´un estimador d´aquesta variança V [ pˆ ] i a partir d´aquí és podrà imposar la condició de precisió absoluta de

1.500 = 0,003 1.500 exemplars, que representa un 0,3% ( 500.000 ),

 n  pˆ (1 − pˆ ) Vˆ [ pˆ ] = 1 − 1  N  n1 − 1 Es defineix r com 

i en el nostre cas,

r=

n1 − 1  n1  pˆ (1 − pˆ ) pˆ (1 − pˆ )  n  = 1 − 1  Vˆ [ pˆ ] = 1 −  N  n1 − 1 r N i   ,

n1  0,024(1 − 0,024) 0,024(1 − 0,024 )  1,96 Vˆ [ pˆ ] = 1,96 1 − = 1,96 = 0,003 2  n1 r  500.000  on l´interval de confiança és al 95% .

D’aquí surt n1 =

Prof.

r=

1,96 ⋅ pˆ (1 − pˆ ) 1,96 ⋅ 0,024(1 − 0,024 ) = = 9998,4 ≈ 9.999 0,003 2 0,003 2 i ara es pot calcular 2

2

n2 = 0,3 ⋅ n1 =

r +1 = 9.804 r   1 +  N  i per tant

n2 = 32.680 0,3 és el tamany mostral per garantir la precisió absoluta requerida.

Lídia Montero

Pàg.

6. 2- 20

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

2) L’estimador puntual de la proporció de vendes de 8.000 exemplars és

pˆ =

8.000 = 0,016 500.000

Per calcular l´interval de confiança al 95% cal disposar de la variança de l´estimador pˆ , V [ pˆ ] o en el seu defecte

d´un estimador d´aquesta variança V [ pˆ ] i a partir d´aquí es pot calcular la precisió absoluta de 8.000 exemplars amb una mostra de n1 = 9.998 individus que responen, ˆ

9.998  0,016(1 − 0,016 )  n  pˆ (1 − pˆ )  Vˆ [ pˆ ] = 1 − 1  = 1 − = 0,00124 2  N n − 1 500 . 000 9 . 997     1

i en el nostre cas, 1,96 Vˆ [ pˆ ] = 1,96 ⋅ 0,00124 = 0,00243 on l´interval de confiança és al 95% i suposa en número de exemplars una precisió absoluta de 12.000 ⋅ 0,00243 = 1.215 .

Per tant la precisió absoluta de les vendes de 8.000 exemplars és millor (té magnitut inferior) a la precisió absoluta de les vendes que van bé (12.000 exemplars): 0,24% en front de 0,3% o 1.214 en front de 1.500. 3) En aquest apartat s´ilustra que malgrat que la precisió absoluta de 2 (8.000 exemplars) és millor que la de 1 (12.000 exemplars), la precisió relativa de 2 és pitjor que la de 1. Sigui δ 1 la precisió relativa de les vendes de 12.000 exemplars, Sigui δ 2 la precisió relativa de les vendes de 8.000 exemplars,

Prof.

Lídia Montero

Pàg.

6. 2- 21

δ1 =

δ2 =

1.500 = 0,125 12.000 .

1.215 = 0,153 8.000 .

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

El tamany que hauria de tenir la mostra per garantir una precisió relativa en les vendes de 8.000 exemplars de 1.000 = 0,002 0 ⋅ = , 125 500 . 000 1 . 000 exemplars o en termes percentuals de 500.000 . 0.125 és a dir una precisió absoluta de

Emprant les mateixes fórmules que en l’apartat 1 s´obté el tamany mostral requerit.  n  pˆ (1 − pˆ ) Vˆ [ pˆ ] = 1 − 1  N  n1 − 1  r=

Es defineix r com i en el nostre cas,

n1 − 1  n1  pˆ (1 − pˆ ) pˆ (1 − pˆ )  n  = 1 − 1  Vˆ [ pˆ ] = 1 −  N  n1 − 1 r N i   ,

n1  0,016(1 − 0,016) 0,016(1 − 0,016 )  1,96 Vˆ [ pˆ ] = 1,96 1 − = 1,96 = 0,002 2  n1 r  500.000  on l´interval de confiança és al 95% .

1,96 ⋅ pˆ (1 − pˆ ) 1,96 2 ⋅ 0,016(1 − 0,016 ) r= = ≈ 15.121 0,002 2 0,002 2 i ara es pot calcular D’aquí surt n n1 = 2 = 48.927 0,3 és el tamany mostral per garantir la precisió relativa requerida. 2

Prof.

Lídia Montero

Pàg.

6. 2- 22

n2 = 0,3 ⋅ n1 =

r +1 = 14.679 r   1 +  N  i per tant

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.7

Un d´Estratificació per Edats

Una empresa realitza una enquesta sobre el conjunt del seu personal composat per 10.000 persones. Uns estudis preliminars han demostrat que les variables d’interès estan fortament correlacionades amb l’edat dels individus i que es poden establir tres categories d´edat, cadascuna de les quals constitueix un estrat. Es proposa un plan de sondeig com si es volés estudiar l’edat dels individus i es coneix l´edat de tot el personal, informació que es pot sintetitzar en la següent taula: Estrat

Proporció l´estrat h

' de s h

edats a l’estrat h 1 0,2 18 2 0,3 12 3 0,5 3,6 Conjunt 1,0 16 1) Sigui µ l’edat mitjana de la població i y l’estimador mitjana mostral procedent d’una extracció ASSR de n=100 individus. Quin és l‘error estàndar de y ? 2) Es decideix efectuar l’extracció dels n=100 individus de manera estratificada segons les 3 categories del personal. Quina és la repartició representativa o proporcional? Quina és la desviació estándar de l´estimador y SP de µ resultant? Comparar els resultats amb l´apartat anterior.

3) Quina seria la repartició óptima de la mostra? Quina seria la desviació estàndar de l´estimador y SO de µ resultant? Comparar els resultats amb els apartats anteriors.

Solució: Prof.

Lídia Montero

Pàg.

6. 2- 23

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

1) Tenim un tamany poblacional de N=10.000 i un tamany mostral ASSR de n=100. Per tractar-se d´una extracció ASSR sabem que l’estimador mitjana mostral és centrat E [ y ] = µ Y .

ˆ La variança de l´estimador y , V [ y ] o en el seu defecte d´un estimador d´aquesta variança V [ y ] que no és el cas en aquest enunciat, doncs es coneix l´edat a nivell poblacional, resulta, 100  16 2 n σ y   =1,59 2 = 1 − V [ y ] = 1 −    10.000  100  N n '2

2) Mostreig estratificat proporcional vol dir que el tamany mostral a cada estrat ha de ser proporcional al tamany

poblacional de l’estrat, n=100 d’on la taxa de mostreig

n1 = 0,2n = 20 Nh nh = n → n2 = 0,3n = 30 n 100 N f = = = 0,01 n3 = 0,5n = 50 N 10.000 ,

y SP = ∑h =1 H

Per teoria es sap que l’estimador estratificat proporcional de la mitjana poblacional ,

Nh yh N

mitjana mostral habitual dins l´estrat h, suposant mostreig ASSR a cada estrat, és centrat: E[ y SP ] = µ Y .

on y h és la

ˆ La variança de l´estimador y SP , V [ y SP ] o en el seu defecte d´un estimador d´aquesta variança V [ y SP ] que no és el cas en aquest enunciat, doncs es coneix l´edat a nivell poblacional, resulta, 2 2 H N H N  H N  V [ y SP ] = V ∑h =1 h y h  = ∑h =1 h2 V [ y h ] = ∑h =1 h2 N N N   nh n H Nh '2 '2 = = ∀h f σ int ≈ σ ∑h=1 N h ra N N h i on

V [ y SP ] = ∑h =1 3

Prof.

N h2 N2

Lídia Montero

 σ '2 n  σ '2 1 − h  h =  = (1 − f ) int ra N h  nh n 

 n  σ '2 20  18 2 30  12 2 50  3,6 2 2 2 1 − h  h = 0,2 2 1 − + 0 , 3 1 − + 0 , 5 1 − = 1,06 2      N h  nh  2.000  20  3.000  30  5.000  50  Pàg.

6. 2- 24

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC '2 σ int ra ≈ ∑h =1 3

o bé, calculat amb la fórmula alternativa, V [ y SP ] = (1 − f )

'2 σ int ra

n

= (1 − 0,01)

N h '2 σ h = 0,2 ⋅ 18 2 + 0,3 ⋅ 12 2 + 0,5 ⋅ 3,6 2 =10,7 2 N i d´aquí,

10,7 2 = 1,06 2 100

3) Mostreig estratificat óptim de Neyman vol dir que el tamany mostral a cada estrat ha de ser tal que minimitza la variança global de l’estimador de µ , per n=100 d’on la taxa de mostreig

f =

n 100 = = 0,01 N 10.000 ,

Nh ' n1 = 0,4 n = 40 σh N n → n2 = 0,4 n = 40 nh = H Nh ' n3 = 0,2 n = 20 ∑h=1 N σ h

σ ' = ∑h =1 H

Al denominar se’l sol notar σ ' = ∑h =1 3

Nh ' σh N i en el nostre cas,

Nh ' σ h = 0,2 ⋅ 18 + 0,3 ⋅ 12 + 0,5 ⋅ 3,6 = 9 N . y SO = ∑h =1 H

Per teoria es sap que l’estimador estratificat óptim de la mitjana poblacional ,

Nh yh N

on y h és la mitjana

mostral habitual dins l´estrat h, suposant mostreig ASSR a cada estrat, és centrat: E[ y SO ] = µ Y . La variança de

ˆ l´estimador y SO , V [ y SO ]o en el seu defecte d´un estimador d´aquesta variança V [ y SO ] que no és el cas en aquest enunciat, doncs es coneix l´edat a nivell poblacional, resulta, 2 2 H Nh H Nh  H Nh  V [ y SO ] = V ∑h =1 y h  = ∑h =1 2 V [ y h ] = ∑h =1 2 N N N   H Nh '2 σ int σ h'2 ra ≈ ∑h =1 N on

Prof.

Lídia Montero

'2  nh  σ h'2 σ '2 σ int ra 1 −  == − N n n N h  h 

Pàg.

6. 2- 25

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

V [ y SO ] = ∑h =1 3

N N

2 h 2

 n σ 40  18 40  12 20  3,6 2    1 − h  = 0,89 2 + 0,5 2 1 − + 0,3 2 1 − = 0,2 2 1 −    2 . 000 40 3 . 000 40 5 . 000 20 N n       h  h  '2 h

2

2

o bé, calculat amb la fórmula alternativa, '2 σ σ int 92 10,7 2 N h '2 ra 2 2 2 2 [ ] V y SO = − = − = 0,89 2 ≈ ∑h =1 σ h = 0,2 ⋅ 18 + 0,3 ⋅ 12 + 0,5 ⋅ 3,6 =10,7 n N 100 10.000 N i d´aquí, '2

σ

'2 int ra

Prof.

3

Lídia Montero

Pàg.

6. 2- 26

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.8

Un d´Estratificació més Teóric

Una determinada població d´estudi es composa de 2 estrats dels quals es coneix el seu tamany ( N h h = 1, 2 ) i la seva ' ' variança poblacional corregida σ h h = 1, 2 i σ .

Es disposa d´un pressupost C per obtenir una estimació de µ , que notarem y SOC , la funció de cost s´escriu C (n) = C1 n1 + C 2 n2 i n1 + n2 = n i es proposa una extracció ASSR a cada estrat.

1) Calcular l´expressió de y SOC estimador centrat de µ i la seva variança.

2) Quina repartició de la mostra en els estrats fa mínima la variança de l’estimador y SOC ? Quina és l´expressió óptima de la variança de y SOC . 3) Si en comptes d´aplicar una repartició óptima en costos, s’hagués aplicat la repartició proporcional, quins serien els tamanys mostrals a cada estrat? Quina l’expressió de l´estimador centrat de µ (notat y SP ) i la seva variança?

' ' 4) Si N1 = 10.000 N 2 = 20.000 σ 1 = 2 σ 2 =1 C1 = 4 C 2 = 9 C =1.000 calculeu la repartició óptima en costos de la mostra en els

estrats i la variança de l´estimador y SOC . Apliqueu les dades a la repartició proporcional i evalueu la pérdua de precissió relativa entre la repartició óptima en costos i la repartició proporcional.

Prof.

Lídia Montero

Pàg.

6. 2- 27

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Solució: y SOC = ∑h =1 H

1) Per teoria es sap que l’estimador estratificat óptim per costos de la mitjana poblacional ,

Nh yh N

és la mitjana mostral habitual dins l´estrat h, suposant mostreig ASSR a cada estrat, és centrat: E[ y SOC ] = µ Y .

on y h

ˆ La variança de l´estimador y SOC , V [ y SOC ] o en el seu defecte d´un estimador d´aquesta variança V [ y SOC ] que no és el cas en aquest enunciat, doncs es coneixen dades a nivell poblacional, resulta, 2 2 H N H N  H N  V [ y SOC ] = V ∑h =1 h y h  = ∑h =1 h2 V [ y h ] = ∑h =1 h2 N N N  

2 '2 '2  n  σ '2 σ int H N σ ra 1 − h  h = ∑h =1 h2 h − N n n N N h  h h  

'2 σ int ra ≈ ∑h =1 H

N h '2 σh N

on 2) Si es planteja un problema de programació matemàtica adreçat a trobar els valors n1 ,, n H tals que donat un cost total C i coneguts els costos unitaris per estrat (Ch) i la desviació estàndard corregida de la variable no depend nh

' d´interès a cada estrat ( σ h ), s´obtingui la menor variança de l´estimador de µ , aleshores la partició de la mostra

nh =

en estrats repon a la fòrmula:

N hσ h' C h H

∑N σ h =1

h

' h

Ch

C Ch

I ara substituint n1 ,, n H a la fòrmula de V [ y SOC ] s’obté,

V [ y SOC

( ]= ∑

N hσ h' C h h =1 H

N 2C

) −σ 2

'2 int ra

N

3) Si s´hagués aplicat un repartiment proporcional, però mantenint les condicions de cost limitat i conegut C i coneguts els costos unitaris per estrat (Ch) i la desviació estàndard corregida de la variable d´interès a cada estrat ( σ h ) podem deduir quina hauria estat la repartició de la mostra per estrats, '

Prof.

Lídia Montero

Pàg.

6. 2- 28

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Nh n N CN N → C = ∑ h Ch n → n = N C = ∑ C h nh h ∑ N hCh nh =

h

h

i a partir del tamany mostral n es podria calcular, 2 N h2 H Nh V [ y SP ] = ∑h =1 2 V [ y h ] = ∑h =1 2 N N H

 n  σ '2 σ '2 n 1 − h  h = (1 − f ) int ra = 1 −  N h  nh n N  

(∑

h

N hCh

'2 σ int ra

) CN

'2 σ int ra ≈ ∑h =1 H

on

N h '2 σh N

4) Procedim a la comparació de les dues estratègies mitjançant un exemple numèric amb les dades, N 1 = 10.000 N 2 = 20.000 σ 1' = 2 σ 2' =1 C1 = 4 C 2 = 9 C =1.000 .

Càlcul de la repartició i la variança de l’estimador de la mitjana poblacional en la repartició óptima per costos: nh =

10.000 ⋅ 2 ⋅ 2 1000 n1 = =100 C ⋅ ⋅ + ⋅ ⋅ 10 . 000 2 2 20 . 000 1 3 4 → 20.000 ⋅ 1 ⋅ 3 1000 Ch n2 = = 67 Ch 10.000 ⋅ 2 ⋅ 2 + 20.000 ⋅ 1 ⋅ 3 9

N hσ h' C h H

∑N σ h =1

h

' h

I ara substituint n1 ,, n H a la fòrmula de V [ y SOC ] s’obté, V [ y SOC

a on Prof.

( ]= ∑

'2 σ int ra

N hσ h' C h h =1 H

)

2

−

'2 σ int ra

2 ( 10.000 ⋅ 2 ⋅ 2 + 20.000 ⋅ 1 ⋅ 3) = −

N N C 30.000 ⋅1000 10.000 2 20.000 2 H N 2 + 1 =2 ≈ ∑h =1 h σ h'2 = 30.000 30.000 N

Lídia Montero

2

2

Pàg.

2 = 0,112 30.000

6. 2- 29

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Càlcul de la repartició i la variança de l’estimador de la mitjana poblacional en la repartició proporcional donat un cost C fixat:

n=

1.000 ⋅ 30.000 CN = 137 = ∑ N h C h 10.000 ⋅ 4 + 20.000 ⋅ 9 h

σ

'2 int ra

N 10.000 2 20.000 2 ≈ ∑h =1 h σ h'2 = 2 + 1 =2 N 30.000 30.000 H

V [ y SP ] = (1 − f )

'2 σ int ra

n

137  2  = 0,12 2 = 1 −  20 . 000 137  

Ara cal comparar la pérdua de precisió relativa de l’estimador proporcional enfront de l’estimador de la mostra óptima per costos: V [ y SP ] 0,12 2 = =1,32 ⇒ V [ y SOC ] 0,112

Prof.

Lídia Montero

pérdua relativa de precisió del 32%.

Pàg.

6. 2- 30

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.9

Index de Satisfacció (Estratificat)

Una empresa que està constituida per 400 persones de suport i 100 directius vol evaluar l´index de satisfacció (Y) del seu personal a partir d’un conjunt de preguntes en una mostra de n=100 individus. Es suposa que la dispersió de la variable satisfacció és la mateixa en els 2 estrats del personal. 1) Quin és el métode de mostreig indicat si es vol obtenir la millor precisió possible sobre el valor mig de l´índex de satisfacció del personal? 2) Quin és el métode de mostreig indicat si es vol obtenir la mateixa precisió sobre el valor mig de l´índex de satisfacció del personal a cadascun dels estrats? 3) Quin és el métode de mostreig indicat si es vol obtenir la millor precisió possible sobre la diferència dels valors mitjos de l´índex de satisfacció del personal a cadascun dels estrats? 4) Finalment es realitza l´enquesta segons l´objectiu 2, tot obtenint els següents resultats: y1 = 13 y 2 =15 s1'2 = 9 s 2'2 = 36 . Calculeu els intervals de confiança al nivell de confiança del 95% per la mitjana de la

satisfacció a cada estrat. La diferència entre les satisfaccions mitjanes és significativament diferent de 0?

Prof.

Lídia Montero

Pàg.

6. 2- 31

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Solució: 1) Per teoria es sap que l’estimador estratificat de mínima variança de la mitjana poblacional prové del mostreig y SO = ∑h =1 H

estratificat de Neyman,

Nh yh N

on y h és la mitjana mostral habitual dins l´estrat h, suposant mostreig

ASSR a cada estrat, és centrat: E[ y SO ] = µ Y .

ˆ La variança de l´estimador y SO , V [ y SO ] o en el seu defecte d´un estimador d´aquesta variança V [ y SO ] que no és el cas ' ' ' en aquest enunciat, doncs es coneix (suposa) σ 1 = σ 2 = σ el que fa que resulti equivalent a un mostreig estratificat proporcional doncs,

Nh ' σh Nh N nh = n N N H Nh n= h n → nh = ' σ H Nh N ∑h=1 N h ∑ = 1 h N σ 1' = σ 2' = σ '

i per tant en aquest cas,

'2  nh  σ n  σ int n σ   ra H Nh '2 1 −  = 1 −  ≅ 1 −  =V [y ] σ int σ h'2 ≅ σ '2 ra ≅ ∑h =1 N n N n N n     h  h  N on '2  100  σ = 0,008 ⋅ σ '2 V [ y SO ] = V [ y SP ] ≅ V [ y ] = 1 −   500  100 A més a més equival al mostreig aleatori simple.

N V [ y SO ] = V [ y SP ] = ∑h =1 N H

2 h 2

'2

'2 h

2) Si l´objectiu és assolir la mateixa precisió en l’estimació de la mitjana de la satisfacció en tots dos estrats ' ' ' subjecte a σ 1 = σ 2 = σ , aleshores cal plantejar el següent sistema d´equacions:

N = 400 '2 '2 V [ y1 ] = V [ y 2 ]   1   n1  σ n2  σ 3n12 + 500n1 − 40.000 = 0   V [ y1 ] = 1 − = V [ y 2 ] = 1 − → '2 '2 '2  σ 1 =σ 2 = σ  →   N 1  n1  N 2  n2  n1 + n2 = 100 N 2 = 100    n1 + n2 = n n1 + n2 = n  

Prof.

Lídia Montero

Pàg.

6. 2- 32

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

La

resolució

de

l´equació

de

segon

grau

dona

n1 = 59

i

d´on

n2 = 41

i

  n σ n σ 59  σ  = 0,07 ⋅ σ '2 = 1 − = 1 − 2  V [ y1 ] = V [ y 2 ] = 1 − 1   400 59 N n N n   1  1 2  2   '2

'2

'2

3) Si l’objectiu és assolir la millor precisió possible en l´estimador de la diferència entre les satisfaccions mitjanes dels estrats aleshores cal definir un estadístic δ = µ1 − µ 2 i el seu estimador centrat si les extraccions als estrats són ASSR: d = y1 − y 2 , la variança del qual és: n  σ '2 2  V [d ] = V [ y1 − y 2 ] = V [ y1 ] + V [ y 2 ] = ∑h =1 1 − h  h N h  nh 

Ara bé, la partició n1 + n2 =100 que fa mínima V [d ] es pot calcular aplicant les técniques de programació no lineal amb restriccions d´igualtat i comprovant que la partició indicada per la següent fórmula satisfà les condicions de mínim amb restriccions d’igualtat de Karush-Khuni-Tucker: nh =

σ h'

∑ j =1σ 'j H

n

i a més aquí σ 1 = σ 2 = σ i per tant, n1 = n2 = 50 . La variança de l´estimador de la diferència de les satisfaccions mitjanes entre estrats pren per valor, '

'

'

 nh  σ h'2  50  σ 50  σ   = 0,0275 ⋅ σ '2 V [d ] = V [ y1 − y 2 ] = V [ y1 ] + V [ y 2 ] = ∑h =1 1 − + 1 − = 1 −    N h  nh  400  50  100  50 '2

'2

2

4) Els resultats segons el pla de mostreig 2 que assoleix igual precisió en l´estimació de la satisfacció mitjana en tots dos estrats són: y1 = 13 y 2 =15 s1 = 9 s 2 = 36 . D´entrada si usessim els coneixements d´inferència estadística per tal de contrastar la hipòtesi de la igualdad de la variança dels 2 estrats via l´estadístic de Fisher-Snedecor tindriem: '2

Prof.

Lídia Montero

'2

Pàg.

6. 2- 33

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

s f =

'2 2

σ 2 = 36 = 4 > F 0, 05 =1,65 ⇒ 40 , 58 '2

s1

9

hi ha evidència per rebutjar la hipótesi nul.la σ 1 = σ 2 = σ . Aquesta és la causa de que les variances dels estimadors a cadascun dels estrats siguin diferentes: σ

'2

2

 Vˆ [ y1 ] = 1 −   Vˆ [ y 2 ] = 1 − 

'2

'2

n1  s1'2  59  9  = 0,130 = 1 −  N 1  n1  400  59 n2  s 2'2  41  36  = 0,518 = 1 −  N 2  n2  100  41

L’interval de confiança al nivell del 95% per µ1 és: y1 − z 0,975 Vˆ [ y1 ] ≤ µ1 ≤ y1 + z 0,975 Vˆ [ y1 ]

13 − 1,96 ⋅ 0,13 ≤ µ1 ≤ 13 + 1,96 ⋅ 0,13 L’interval de confiança al nivell del 95% per µ 2 és:

y 2 − z 0,975 Vˆ [ y 2 ] ≤ µ 2 ≤ y 2 + z 0,975 Vˆ [ y 2 ]

15 − 1,96 ⋅ 0,518 ≤ µ 2 ≤15 + 1,96 ⋅ 0,518

12,3 ≤ µ1 ≤13,7 13,6 ≤ µ 2 ≤16,4

Falta respondre el darrer punt: si és significativament diferent la mitjana de les satisfaccions a tots dos estrats. A partir de les dades mostrals es calcularà l´estimador de δ , la seva variança i es construirà un interval de confiança al 95% on s´observarà si el zero hi pertany o no. d = y1 − y 2 =13 − 15 = − 2

59  9 41  36   Vˆ [d ] = Vˆ [ y1 − y 2 ] = Vˆ [ y1 ] + Vˆ [ y 2 ] = 1 − + 1 − = 0,648    400  400  100  100 L’interval de confiança al nivell del 95% per δ = µ1 − µ 2 és:

d − z 0,975 Vˆ [d ] ≤ δ ≤ d + z 0,975 Vˆ [d ]

− 2 − 1,96 ⋅ 0,648 ≤ δ ≤ − 2 + 1,96 ⋅ 0,648

− 3,6 ≤ δ ≤ − 0,4

Per tant al no pertanyer el 0 a l´interval de confiança hi ha evidència per considerar les satisfaccions mitjanes dels 2 estrats diferentes. Prof.

Lídia Montero

Pàg.

6. 2- 34

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.10

Els comptes deudors: clients morosos ...

Una empresa té 14.133 clients dels quals és possible saber, informàticament, quin és l´estat de comptes: si deuen diners (deudors) o si l’empresa els deu (acreedors). Un inspector vol verificar l’estat de comptes i d´entrada se li faciliten les següents dades: Número d’acreedors: 865. Número de deudors inferiors a 5000 Euros: 13.226. Número de deudors de gran magnitud: 42. L’inspector decideix examinar per mostreig els comptes deudors inferiors a 5000 Euros, doncs n´hi han massa per fer un examen detallat un per un. L’objectiu consisteix en determinar amb molta precissió quin és el valor real (Y) mig del comptes deudors inferiors a 5000 Euros: µ Y . Les següents dades aporten una estratificació d’aquests comptes (assolible informàticament) segons una variable X: ‘Valor comptable d’un compte deudor’: Estrat 1 2 3 4 Total

Prof.

Lídia Montero

Rangs de X Euros) 1 a 500 501 a 1.000 1.001 a 2.500 2.501 a 5.000

(en Nh 1.124 2.741 5.815 3.546 13.226

Pàg.

6. 2- 35

Valor Comptable τ X 292.630 2.103.480 10.178.650 13.254.820 25.829.580

h

Desviació Corregida σ 82 156 346 881 σ X' ?

Curs 2. 01 4- 2. 01 5

Tipus ' Xh

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

1) Calculeu la desviació tipus conjunta del valor comptable σ X a partir de les dades de la taula. 2) Si es suposa que la desviació tipus conjunto del valor real dels comptes deudors (Y) és molt semblant a la desviació tipus conjunta del valor comptable dels comptes deudors (X), calculeu el tamany que hauria de tenir una mostra ASSR per estimar µ Y amb un interval de confiança de ± 50 Euros a un nivell de confiança del 95%. '

N −n 1 ≅ n. Considereu per simplificar que Nn

3) Si suposem que els costos de mostreig són els mateixos a tots quatre estrats, determineu quina és la repartició óptima de Neyman d´una mostra estratificada de tamany genèric n. ' ' 4) Si suposem que les desviacions tipus dels estrats són molt similars tant per Y com per X, és a dir σ X ≅ σ Y calculeu quina és la repartició óptima de Neyman d´una mostra estratificada de tamany genèric n. h

h

N h − nh 1 ≅ nh , calculeu quin és el tamany mostral necessari per estimar µ Y amb un 5) Si es fa una aproximació N h nh interval de confiança de ± 50 Euros a un nivell de confiança del 95% segons el repartiment mostral indicat a

l´apartat anterior.

Solució: 1) Sabem que µX =

τX

, µ Xh =

N

2 σ int ra = ∑h

τX

N −1 Nh 2 σ X h = ∑h h σ X'2h N N ,

µY =

h

N h i el mateix per la Y

τY N

, µ Yh =

τY

h

Nh .

Ara bé recordem la fórmula de descomposició de la variança que apareix en anàlisi ANOVA: SQT = ∑∑ ( x hi − µ ) =∑∑ ( x hi − x h + x h − µ ) =∑∑ ( x hi − x h ) + ∑∑ ( x h − µ ) = 2

h

i

h

=∑

Nh Nh

Prof.

Lídia Montero

h

∑ (x i

2

− xh ) + ∑ N h 2

hi

i

h

2

h

i

2

h

i

N (xh − µ )2 =∑ N hσ h2 + Nσ int2 er N h Pàg.

6. 2- 36

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

N SQT 2 2 2 = σ 2 = ∑ h σ h2 + σ int er = σ int ra + σ int er N h N

En el nostre cas, σ

2 int er

2 σ int ra = ∑h

N N 2 = ∑h h ( x h − µ ) = ∑h h N N

 N =  ∑h h  N 

 τ Xh  N  h

   

2

  − 1.952,9 2 =  

2 2 2 i d’aquí la fórmula habitual σ X = σ int ra + σ int er .

N h − 1 '2 1.123 2 2.740 5.814 3.545 σ Xh = 82 + 156 2 + 346 2 + 8812 = 266.274,86 N 13.226 13.226 13.226 13.226 2   τ Xh τ X  N   = ∑ h − h N   N N   h 

( (

)

(

 τ Xh    Nh

)

   

(

2

  25.829.580  2 − =   13.226  

)

(

) )−

1.124 292.630 2 2.741 2.103.480 2 5.815 10.178.650 2 3.546 13.254.820 2 + + + 3.546 13.226 5.815 13.226 2.741 13.226 13.226 1.124

σ X2 = σ int2 ra + σ int2 er = 266.274,86 + 1.407.053,52 =1.673.328,38

i

σ X'2 =

1.952 , 9

2

= 1.407.053,52

N σ X2 =1.297 2 N −1 .

2) La mitjana mostral és un estimador centrat de la mitjana poblacional en mostreig ASSR: E[ y ] = µ Y i E [x ] = µ X . Suposem σ Y ≅ σ X . La mitjana de la població l´interval de confiança del 95% és, '2

'2

σ X'2 1.297 n  σ '2  =1,96 ⋅ = 50 → n = 2.585 z 0,975 V [ y ] = z 0,975 1 −  Y ≅ 1,96 ⋅ n n  N n

y − z 0,975 V [ y ] ≤ µ Y ≤ y + z 0,975 V [ y ] → z 0,975 V [ y ] = 50

3)

Per teoria es sap que l’estimador estratificat de mínima variança de la mitjana poblacional prové del mostreig y SO = ∑h =1 H

estratificat de Neyman,

Nh yh N

on y h és la mitjana mostral habitual dins l´estrat h, suposant mostreig

ASSR a cada estrat, és centrat: E[ y SO ] = µ Y .

La variança de l´estimador y SO , V [ y SO ] i per tant en aquest cas, Prof.

Lídia Montero

Pàg.

6. 2- 37

N2 V [ y SO ] = ∑h =1 h2 N H

 n σ 1 − h  Yh  N h  nh

'2

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

La repartició óptima de Neyman respon a la fórmula: Nh ' σ Yh N nh = n H Nh ' ∑h=1 N σ Yh

per un n donat hi calen les desviacions tipus de la Y a cada estrat.

'2 '2 4) Suposem σ Y ≅ σ X ∀ h en les fórmules del repartiment anteriors, h

h

1.124 ⋅ 82 n 5.655.780 Nh ' σY 2.741 ⋅ 156 N h n = n n 1 nh = H ' 5 . 655 . 780 H Nh → ∑h =1 N hσ Yh = 5.655.780 → 5.815 ⋅ 346 ∑h=1 N σ Y' h n1 = n 5 . 655 . 780 '2 '2 σ Yh ≅ σ X h 3.546 ⋅ 881 n1 = n 5.655.780 H N H ' σ ' = ∑h =1 h σ X' h N σ = 5 . 655 . 780 N i a més . i s´ha usat ∑h =1 h X h n1 =

= 0,0163 n = 0,0756 n = 0,3557 n = 0,5524 n

ˆ 5) La variança de l´estimador y SO , V [ y SO ] o en el seu defecte d´un estimador d´aquesta variança V [ y SO ] és amb el

'2 '2 repartiment óptim calculat l´apartat anterior i la hipótesi σ Y ≅ σ X ,

N2 V [ y SO ] = ∑h =1 h2 N H

'2 '2 2 2  nh  σ X H H N H Nh σ XH 1 −  = ∑h =1 2 = ∑h =1 h2 N h  nh N nh N 

σ X'2 n

H

N hσ X' h

∑

H h =1

N    ∑h h σ X' H  N  = n

2

N hσ X' h

La mitjana de la població l´interval de confiança del 95% és, y SO − z 0,975 V [ y SO ] ≤ µ Y ≤ y SO + z 0,975 V [ y SO ] → z 0,975 V [ y SO ] = 50 2

z 0,975 V [ y SO ] = z 0,975 Prof.

Lídia Montero

N    ∑h h σ X' H  ' N   ≅ 1,96 ⋅ σ X =1,96 ⋅ 428,38 = 50 → n = 282 n n n Pàg.

6. 2- 38

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.11

L’Explotació Ramadera (Estratificat)

Una empresa especialitzada en sondetjos es encarregada de realitzar un mostreig en dues regions sobre una mostra total de n=500 explotacions ramaderes amb la finalitat d´avaluar el nombre mig d´animals per explotació µ . El número d’explotacions total és de 50.000, distribuïdes en 40.000 en la regió 1 i 10.000 a la regió 2 i es disposa de la base de sondeig amb l´adreça de cada explotació. Dades històriques sobre les regions mostren que la desviació del nombre d´animals per explotació a la regió 1 era de 20 i en la regió 2 de 40. 1) Descriure amb precisió com es construiria una mostra estratificada proporcional prenent com criteri d´estratificació la regió. Quina seria la diferència d´haver considerat una mostra ASSR sense estratificació pel conjunt del territori? 2) Quina és la precisió de la mitjana d´animals per explotació a cada regió segons el mostreig estratificat proporcional a un nivell de confiança del 95%? 3) Quina seria la repartició a considerar si es vol obtenir la mateixa precisió en l’estimació del nombre mig d´animals per explotació a cada regió? Quina seria la precisió de l’estimador del nombre mig d´animals per explotació al conjunt del territori a un nivell de confiança del 95%? 4) Quina seria la repartició a considerar si es vol obtenir una precisió óptima en l´estimació de µ ? Quina seria aquesta precisió a un nivell de confiança del 95%? 5) Avaluant el cost de l´enquesta, l´empresa detecta que el cost unitari per cada unitat mostrejada no és el mateix en totes dues regions i de fet N 1 = 40.000 N 2 = 10.000 σ 1 = 20 σ 2 = 40 C1 = 200 C 2 = 300 . Quin seria el tamany mostral total i la repartició en les regions que garanteix un cost global mínim per una variança de l´estimador de µ fixada a 1,139? Deduiu el cost global de l´enquesta, C? Compareu quin seria el cost de l´enquesta resultant del punt 4. '

Prof.

Lídia Montero

Pàg.

6. 2- 39

'

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Solució: 1) Y variable d´estudi és “Nombre d´animals per explotació ramadera”. La mostra estratificada representativa o proporcional seria: n1 = 0,8n = 400 Nh nh = n → n2 = 0,2n =100 N n = 500

'2 '2 '2 Si N és gran i σ 1 = σ 2 = σ aleshores el mostreig estratificat proporcional donaria els mateixos resultats en '2 2 '2 2 l´estimació dels paràmetres habituals, però aquest no és el nostre cas σ 1 = 20 ≠ σ 2 = 40

Veiem perquè si N és gran i σ 1 = σ 2 = σ aleshores la variança de l’estimador de la mitjana poblacional és equivalent a la variança de l´estimador equivalent del ASSR: '2

'2

'2

2 '2 n  N σ int n  σ int    ra ra V [ y SP ] = 1 −  = 1 − = 1 −    N  N −1 n  N n n  N σ2  ≅ 1 −   N  N −1 n

Nh 2  n  N σ2 n N 1  ∑ σ h = 1 − N  N − 1 n N  N −1 n h N n  σ '2  =V [y ] = 1 −   N n

∑

h

Nh ≅ N

2) Es demanen els intervals de confiança al 95% per les mitjanes (poblacionals) de les dues regions, a partir de les dades del mostreig anterior, que són ASSR a nivell de cada estrat:  n1  σ 1'2  400  20 2   = 0,995 2 = 1 − V [ y1 ] = 1 −    40.000  400  N 1  n1 '2  n σ 100  40 2  = 3,98 2 V [ y 2 ] = 1 − 2  2 = 1 −   N 2  n2  10.000  100

L’interval de confiança al nivell del 95% per µ1 és:

y1 − z 0,975 V [ y1 ] ≤ µ1 ≤ y1 + z 0,975 V [ y1 ]

y1 − 1,96 ⋅ 0,995 ≤ µ1 ≤ y1 + 1,96 ⋅ 0,995

y1 − 1,95 ≤ µ1 ≤ y1 + 1,95

L’interval de confiança al nivell del 95% per µ 2 és: y 2 − z 0,975 V [ y 2 ] ≤ µ 2 ≤ y 2 + z 0,975 V [ y 2 ] Prof.

Lídia Montero

y 2 − 1,96 ⋅ 3,98 ≤ µ 2 ≤ y 2 + 1,96 ⋅ 3,98 Pàg.

6. 2- 40

y 2 − 7,8 ≤ µ 2 ≤ y 2 + 7,8 Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

L’interval de confiança al nivell del 95% per la mitjana poblacional del conjunt µ és: y SP − z 0,975 V [ y SP ] ≤ µ ≤ y SP + z 0,975 V [ y SP ]

V [ y SP ] = ∑h =1

y SP − 1,96 ⋅ 1,126 ≤ µ ≤ y SP + 1,96 ⋅ 1,126

2

N h2  n h  σ h'2 400  20 2 100  40 2 2 2   1 = 0 , 8 1 − + 0 , 2 1 − = 1,126 2 −     40.000  400 N h  n h N 2    10.000  100

y SP − 2,206 ≤ µ ≤ y SP + 2,206

3) La repartició a considerar si es vol obtenir la mateixa precisió en l’estimació del nombre mig d´animals per explotació a cada regió hauria de satisfer: '2 V [ y1 ] = V [ y 2 ]   n1  20 n    V [ y1 ] = 1 − = 1 − 2  →  N 1  n1 N2   n1 + n 2 = 500 n1 + n 2 = n 

N 1 = 40.000 '2   40 160.000n1 + 40.000n 2 − 15 = 0  = V [ y 2 ] →    n2 n1 + n 2 = 500   N 2 = 10.000 

2  n1  σ 1'2  n2  σ 2'2  100  20   V [ y1 ] = V [ y 2 ] = 1 − = 1 − = 1 − = 1,998 2    N 1  n1  N 2  n2  40.000  100 La resolució de l´equació dona n1 =100 i d´on n2 = 400 i

En aquest cas la precisió de l’estimador del nombre mig d´animals per explotació al conjunt i que no és l’estimador estratificat proporcional sinó un altre que anomenarem y ≡ del territori a un nivell de confiança del 95% és: 1,96 V [ y ≡ ] = 1,96

∑

N h2  n h  σ h'2 100  20 2 400  40 2 2 2   1 1 , 96 0 , 8 1 0 , 2 1 = − + − = 1,96 ⋅ 2,71 = 3,22 −     h =1 40.000  100 N h  n h N 2    10.000  400

2

4) La repartició a considerar si es vol obtenir una precisió óptima en l´estimació de µ és la repartició resultant de les fórmules de Neyman

nh =

∑

16  n1 = 24 n = 333 →  → 8 N 2 n j ' ' n2 = n =167 σ σ = = ⋅ + ⋅ = 0 , 8 20 0 , 2 40 24 on 24 ∑ j =1 N j  σ 'j = 500 n  N 

Nh ' σh N 2 Nj j =1

La precisió de la repartició óptima a un nivell de confiança del 95% seria: Prof.

Lídia Montero

Pàg.

6. 2- 41

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

1,96 V [ y SO ] = 1,96

5)

∑

N h2  n h  σ h'2 333  20 2 167  40 2 2 2   1 = 1 , 96 0 , 8 1 − + 0 , 2 1 − = 1,96 ⋅ 1,067 = 2,092 −     h =1 40.000  333 N h  n h N 2    10.000  167

2

El cost unitari per cada unitat mostrejada no és el mateix en totes dues regions i de fet

N 1 = 40.000 N 2 = 10.000 σ 1' = 20 σ 2' = 40 C1 = 200 C 2 = 300 aleshores el tamany mostral total i la repartició en les regions 2 que garanteix un cost global mínim per una variança de l´estimador de µ fixada a 1,139 =1,067 (les incógnites)

haurien de satisfer:

N hσ h' C h H

nh =

N hσ h' C h H

∑N σ j =1

j

' j

Cj

n C → h= Ch n

∑N σ j

h =1

∑

' j

Cj

C Ch =

N j σ 'j C j j H

∑N σ j =1

j

' j

Cj

C Cj

N hσ h'

∑

j

Ch

N j σ 'j

Cj

Però V [ y SOC ] ha de valer 1,139, V [ y SOC

( ]= ∑

N hσ h' C h h =1 H

2

N C

)

2

−

'2 σ int ra

N

=1,139

'2 σ int ra ≈ ∑h =1 H

a on

N h '2 40.000 2 10.000 2 σh = 20 + 40 = 640 N 50.000 50.000

I d’on surt el cost C en funció de V [ y SOC ] i n1 ,, n H a partir de la primera fòrmula,

n1 =  H N  ∑h =1 h σ h' C h N C =  σ '2 V [ y SOC ] + int ra  N 

2

   = 40.000 ⋅ 20 ⋅ 200 + 10.000 ⋅ 40 ⋅ 300 640    50.000 2 1,139 +   50.000    

(

)

2

= 115.900

nh =

N hσ h' C h H

∑N σ j =1

j

' j

Cj

C → Ch

40.000 ⋅ 20 ⋅ 200 C = 359 H 200 ' ∑ N jσ j C j j =1

10.000 ⋅ 40 ⋅ 300 C = 147 n2 = H 300 ' ∑ N jσ j C j j =1

Per finalitzar cal comparar quin seria el cost de l´enquesta resultant del punt 4: C 4 = 200 ⋅ 333 + 300 ⋅ 167 = 116.700 , més car que l’òptim en cost per la precisió fixada. Prof.

Lídia Montero

Pàg.

6. 2- 42

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

6.2-1.12

Els propietaris de llars

Un diari compta amb 40.000 abonats que serveix diàriament per transportistes i vol coneixer el nombre d´abonats que són propietaris de la seva residència habitual per una operació de marketing. La direcció del diari encarrega una enquesta a 800 abonats, triats en conglomerats de 10 (propers geogràficament). El responsable del pla de mostreig considera els M=4.000 conglomerats de 10 unitats cadascun com la base pel mostreig d’on es seleccionen segons un procediment sistemàtic (ASSR), 80 conglomerats entre els 4.000. Sigui τ i 80

∑τ i =1

i

= 370

el número total de propietaris del conglomerat i-éssim. Els resultats de l´enquesta són: 80

∑τ i =1

2 i

= 2.536

.

1) Calculeu un interval de confiança al 95% pel nombre total de propietaris de la llar entre els abonats al diari. 2) Si p indica la proporció de propietaris en els conjunt dels abonats, quin és el valor del estimador de p, notat pˆ . Doneu un interval de confiança al 95% per p. 3) Si l’estimador puntual de l´apartat anterior pˆ s´hagués obtingut a partir d´un mostreig aleatori simple sense reemplaçament entre els 40.000 abonats, quin seria l´interval de confiança que s´hagués obtingut per p? 4) Com explicarieu la diferència en la precisió obtinguda entre els dos apartats anteriors? Quins suggeriments farieu per millorar la qualitat del procediment de mostreig?

Prof.

Lídia Montero

Pàg.

6. 2- 43

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

Solució: 1) Per fixar la notació detallem les dades: N=40.000 Ni=10=N0 n=800 M=4.000 m=80, donat que M =

N 40.000 = = 4.000 N0 10 .

Sigui τ i : Nombre total de propietaris al conglomerat i-èssim. L’estimador del total de propietaris en la població d’abonats del diari i la seva variança estimada respon a les fòrmules: m

M τˆ = m

m

∑τ i =1

i

=M t

on

t =

2 ∑ (τ i − t )

80

sτ'2 =

i =1

m −1

=

∑τ i =1

V (τˆ ) = V ( Mt ) = M 2V (t ) = M ( M − m)

i =1

m

Amb les nostres dades: 80

m

∑τ i τˆ =

M m

80

∑τ i =1

i

= 4.000 ⋅

σ τ'2 m

m −1

−

m 2 2.536 80 − 4,63 2 = 3,22 2 t = 79 79 m −1 i per tant,

N

=

'2

.

2

τ

18.500 − z 0,975 1.474,24 ≤ τ ≤18.500 + z 0,975 1.474,24

és: 15.703 ≤ τ ≤ 21.297 al 95% de confiança

p=

τ N

i per tant es pot estimar

m

M M τi = t ∑ Nm i =1 N .

Lídia Montero

2

m −1

Mt M2 M ( M − m) σ τ'2  τˆ  V ( pˆ ) = V   = V ( ) = 2 V (t ) = N m N N2 N La variança de l’estimador de p és :

Prof.

−t)

s 3,22 =1.427,24 2 Vˆ (τˆ ) = M ( M − m) τ = 4.000 (4.000 − 80 ) 80 m .

La proporció de propietaris en la població d´abonats al diari és

τˆ

i =1

i

2 i

τˆ − z 0,975 Vˆ [τˆ] ≤ τ ≤ τˆ + z 0,975 Vˆ [τˆ]

pˆ =

s sτ'2 = Vˆ (τˆ ) = M ( M − m) τ m on i d’aquí

∑ (τ

370 =18.500, 80 d’on t = 4,63 .

L’interval de confiança al nivell del 95% pel total de propietaris

2)

'2

Pàg.

6. 2- 44

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

M ( M − m) sτ Vˆ ( pˆ ) = m . N2 L’estimador de la variança de p és '2

Aplicat a les dades del problema: τˆ

18.500 = 0,463 N 40.000 M ( M − m) sτ'2 4.000 (4.000 − 80) 3,22 2 Vˆ ( pˆ ) = = = 0,0357 2 2 2 m 80 N 40.000 . pˆ =

=

L’interval de confiança al nivell del 95% per la proporció de propietaris p és: pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ]

0,463 − 1,96 ⋅ 0,0357 ≤ p ≤ 0,463 + 1,96 ⋅ 0,0357

0,393 ≤ p ≤ 0,533 al 95% de confiança

3) Ara es suposa que l´estimador pˆ = 0,463 de la proporció de propietaris p s´ha obtingut a partir d’un ASSR i es demana calcular l’estimador per interval de p. n  pˆ (1 − pˆ )  = 0,0244 2 Vˆ ( pˆ ) = 1 −   N  n −1 . Per ASSR

L’interval de confiança al nivell del 95% per la proporció de propietaris p (ASSR) és: pˆ − z 0,975 Vˆ [ pˆ ] ≤ p ≤ pˆ + z 0,975 Vˆ [ pˆ ]

0,463 − 1,96 ⋅ 0,0244 ≤ p ≤ 0,463 + 1,96 ⋅ 0,0244

0,415 ≤ p ≤ 0,511 al 95% de confiança

4) El ASSR és generalment millor que el mostreig bietàpic (i per conglomerats). “Los conglomerados han de ser: Los más hetereogeneos posibles, para mejorar la representatividad de la población total.

Prof.

Lídia Montero

Pàg.

6. 2- 45

Curs 2. 01 4- 2. 01 5

ANÀLISI DE DADES EN TRANSPORT I LOGÍSTICA – BARCELONATECH- UPC

El tamaño de los conglomerados ha de ser pequeño y similar entre ellos. Las familias europeas tienen pocos miembros y el tamaño es muy regular, entre 2 y 5 miembros en el 95% de los casos. Cuantos más conglomerados se muestreen, mejor, la calidad de los estimadores depende más de m (número de conglomerados o UP) que de n (número de individuos o US). El efecto del conglomerado se puede medir por un coeficiente  llamado coeficiente de correlación intraconglomerado:

f=

m

Ni

Ni

i =1

j =1

k =1 y k ≠ j Ni m

∑∑ ∑

( yij − y )( yik − y )

∑ ∑(y i =1

j =1

. ij

− y)2

1 N −1 n = N=

N M .

donde

Ni: número de individuos del conglomerado i y

Si >> 0 Si 