Story Transcript
Ռեգրեսիոն վերլուծություն
Թեմայի նպատակը ➢
Նախորդ թեմաներում որպես վերլուծության առարկա` հանդես էին գալիս առանձին թվային փոփոխականները։
➢
Տվյալ թեմայի շրջանակներում ուսումնասիրվելու են թվային փոփոխականի արժեքների կանխատեսման մեթոդները` կախված մեկ այլ թվային փոփոխականի արժեքներից։
Կապերի վիճակագրական ուսումնասիրության փուլերը ◼
◼
◼
Որակական վերլուծություն, որը կապված է ուսումնասիրվող երևույթի բնույթի վերլուծության հետ Մոդելի կառուցում, որը հիմնված է վիճակագրության մեթոդների կիրառության վրա Արդյունքների մեկնաբանում, որը նորից կապված է ուսումնասիրվող երևույթի որակական առանձնահատկությունների հետ
Երևույթների և հատկանիշների միջև կապերի դասակարգումը Հատկանիշները, ըստ փոխկապվածության ուսումնասիրության, բաժանվում են երկու խմբի, ➢
➢
✓ ✓ ✓ ✓
գործոնային (անկախ) հատկանիշներ, որոնք պայմանավորում են իրենց հետ կապված հատկանիշների փոփոխությունը, արդյունքային (կախյալ), որոնք փոփոխվում են գործոնային հատկանիշների ազդեցությամբ:
Երևույթների և դրանց հատկանիշների միջև կապը դասակարգվում է․ ըստ բնույթի, ըստ սերտության աստիճանի, ըստ ուղղության վերլուծական արտահայտության:
Երևույթների և հատկանիշների միջև կապերի դասակարգումն ըստ բնույթի Վիճակագրությունում
տարբերում
են
ֆունկցիոնալ
կապ
և
ստոխաստիկ
կախվածություն հասկացությունները: Ֆունկցիոնալ են անվանում այն կապը, որի դեպքում գործոնային հատկանիշի որոշակի արժեքին համապատասխանում է արդյունքային հատկանիշի մեկ և միայն մեկ արժեք: Եթե պատճառային կախվածությունը դրսևորվում է ոչ թե յուրաքանչյուր առանձին դեպքում, այլ ընդհանուր, միջին ձևով մեծ թվով դիտարկումների ժամանակ, ապա այդպիսի կախվածությունը կոչվում է ստոխաստիկ:
Ստոխաստիկ կապի մասնավոր դեպքն է կոռելյացիոն կապը, որի ժամանակ արդյունքային հատկանիշի միջին արժեքի փոփոխությունը պայմանավորված է գործոնային հատկանիշների փոփոխությամբ:
Երևույթների և հատկանիշների միջև կապերի դասակարգումն ըստ ուղղության Ըստ ուղղության՝ ընդգծում են ուղիղ և հակադարձ կապ: Ուղիղ կապի դեպքում գործոնային հատկանիշի արժեքների ավելացմանը կամ նվազմանը զուգընթաց ավելանում կամ նվազում են արդյունքային հատկանիշի
արժեքները: Հակադարձ կապի դեպքում արդյունքային հատկանիշի արժեքները փոխվում են հակառակ ուղղությամբ՝ գործոնային հատկանիշի փոփոխության համեմատությամբ:
Երևույթների և հատկանիշների միջև կապերի դասակարգումն ըստ վերլուծական արտահայտության Ըստ վերլուծական արտահայտության՝ տարբերում են ուղղագիծ (գծային) և ոչ գծային կապ: Գծային կապի դեպքում երևույթների միջև կապը մոտավորապես արտահայտվում է ուղիղ գծի հավասարման միջոցով:
Ոչ գծային կամ կորագծային կապի դեպքում երևույթների միջև կապն արտահայտվում է որևէ
կոր
գծի
հավասարմամբ
(պարաբոլ,
հիպերբոլ,
աստիճանային,
ցուցչային,
էքսպոնենցիալ):
Հավասարման տեսակի որոշումը կարելի է իրականացնել՝ ուսումնասիրելով փոփոխականների ցրվածության դիագրամը, որտեղ X փոփոխականի արժեքները տեղադրված են հորիզոնական առանցքի վրա, իսկ Y փոփոխականի արժեքները` ուղղահայաց։
Տարբեր տեսակի կախվածություններ արտացոլող ցրվածության դիագրամներ
Երևույթների և հատկանիշների միջև կապերի դասակարգումն ըստ սերտության աստիճանի Կապի սերտությունը գծային կախվածության դեպքում չափվում է կոռելյացիայի գծային գործակցի միջոցով: Վիճակագրության տեսության մեջ մշակվել և գործնականում կիրառվում են տվյալ գործակցի հաշվարկման բանաձևի տարբեր ձևափոխություններ, որոնցից առավել կիրառելի է հետևյալը.
r xy = Սերտ բացասական կոռելյացիա -1,00
xy − x y
x y
Կոռելյացիոն կապի բացակայություն 0,00
Սերտ դրական կոռելյացիա 1,00
Կապի սերտության գնահատման քանակական չափանիշները
Տարբեր կոռելյացիոն կախվածություններ արտացոլող ցրվածության դիագրամներ r = 0,90
r = 0,50
r = 0,00
r = -0,90
r = -0,50
r = 0,00
Ռեգրեսիոն վերլուծություն Ռեգրեսիոն վերլուծության գլխավոր խնդիրը փոփոխականների փոխկապվածությունը բնութագրող մոդելի կառուցումն է, որը թույլ կտա կանխատեսել կախյալ փոփոխականի կամ արդյունքի արժեքներն ըստ անկախ կամ բացատրող փոփոխականների արժեքների։ Ռեգրեսիայի ֆունկցիան կարելի է ներկայացնել տեսքով,
Y = f ( X1, X 2 , , X k ) Դրանում ներառված գործոնների թվից կախված՝ տարբերում են, ◼
միագործոն կամ զույգային ռեգրեսիայի մոդել
բազմագործոն կամ բազմաչափ ռեգրեսիայի մոդել Ռեգրեսիոն ֆունկցիայի տեսքից կախված՝ տարբերում են, ◼
◼
գծային ռեգրեսիոն մոդել
◼
ոչ գծային ռեգրեսիոն մոդել
Գծային ռեգրեսիոն մոդելը Զույգային գծային ռեգրեսիան բնութագրում է երկու հատկանիշների (գործոնային և արդյունքային) միջև գծային կապը, որը նկարագրվում է հետևյալ հավասարման միջոցով․
y i = a 0 + a1x + i
Բազմակի գծային ռեգրեսիան բնութագրում է արդյունքային և մի քանի գործոնային հատկանիշների միջև գծային կապը, որը նկարագրվում է հետևյալ հավասարման միջոցով,
y i = a 0 + a1x 1 + a 2 x 2 + + a k x k + i որտեղ՝ a j - երը ռեգրեսիայի գործակիցներն են ( j = 1, k), i - ն՝ Y փոփոխականի պատահական սխալը i-րդ հետազոտության ժամանակ:
Ռեգրեսիայի գործակիցների մեկնաբանությունը Ռեգրեսիայի հավասարումներում a 0
գործակիցը, որը կոչվում է նաև ազատ անդամ
ցույց է տալիս արդյունքային հատկանիշի վրա հաշվի չառած (հետազոտման մեջ չընդգրկված) գործոնների միջինացված ազդեցությունը,
a j գործակիցը ցույց է տալիս, թե որքանով միջինում կփոխվի արդյունքային հատկանիշի արժեքը, եթե x j գործոնը
փոխվի իր չափման մեկ միավորով` մոդելում ներառված մյուս
փոփոխականների ֆիքսված արժեքների դեպքում: Ռեգրեսիայի գործակիցների և կոռելյացիայի գծային գործակցի միջև գոյություն ունի
հետևյալ կախվածությունը․
r xy = a j
x y
j
Ռեգրեսիայի գործակիցների գնահատումը Ռեգրեսիոն մոդելի անհայտ պարամետրերը գնահատվում են ընտրանքային դիտարկումների հիման վրա, ըստ այդմ էլ ստացված հաշվարկային ցուցանիշները հանդիսանում են ռեգրեսիայի գործակիցների վիճակագրական գնահատականները: Ռեգրեսիայի
հավասարման
պարամետրերի
գնահատումը
կատարվում
է
փոքրագույն քառակուսիների մեթոդով, որի դեպքում նվազեցվում է արդյունքային հատկանիշի
էմպիրիկ
(փաստացի)
և
տեսական
տարբերությունների քառակուսիների գումարը,
S = (y i − yˆ i ) 2 → min
(հաշվարկային)
արժեքների
Դետերմինացիայի գործակիցը Դետերմինացիայի գործակիցը ցույց է տալիս արդյունքային փոփոխականի վարիացիայում
հետազոտվող
գործոնների
ազդեցությամբ
պայմանավորված
վարիացիայի
մասնաբաժինը, այսինքն բնութագրում է, թե Y-ի վարիացիայի որ մասն է հաշվի առնված մոդելում և պայմանավորված մոդելում ներառված գործոնների ազդեցությամբ: n
(
ˆ −Y Y i
R2 =
i =1 n
)
2
(Yi − Y )
i
2
i =1
0 R2 1 2 R Որքան -ն մոտ է 1-ին, այնքան մոդելի որակը բարձր է:
Մնացորդների վերլուծություն ◼
◼
◼
◼
Փաստացի տվյալներին ռեգրեսիայի մոդելի համապատասխանության ստուգումն իրականացվում է մնացորդների վերլուծության հիման վրա, ei = y i − y i Մնացորդների վերլուծությունը գրաֆիկական մեթոդ է, որի դեպքում աբսցիսների առանցքի վրա տեղադրվում են անկախ փոփոխականի արժեքները, իսկ օրդինատների առանցքի վրա` մնացորդները: Մնացորդների վերլուծությունը թույլ է տալիս պատկերացում կազմել այն մասին, թե որքանով է ճշգրիտ ընտրված մոդելը կամ ռեգրեսիայի գործակիցների գնահատման մեթոդը: Ռեգրեսիոն վերլուծության ընդհանուր կանխադրույթների համաձայն` մնացորդները պետք է դրսևորեն անկախ (իրականում` գրեթե անկախ), միատեսակ բաշխված պատահական մեծությունների վարքագիծ:
Տատանման գնահատումը ռեգրեսիոն վերլուծությունում Y Yi
(Yi - Yi )2
Y
_
Y
(Yi - Y)2
_ (Yi - Y)2
_ Y
Xi
_ Y
X
Գնահատականի ստանդարտ սխալը ◼
◼
Գնահատականի ստանդարտ սխալը բնութագրում է փաստացի տվյալների տատանումը ռեգրեսիայի գծի շուրջ։ Այն չափվում է նույն միավորներով, ինչ որ Y փոփոխականը։ n
e =
ei
n
2
i =1
n − k −1
=
2 ˆ ( Y − Y ) i i
i =1
n − k −1
Ռեգրեսիայի հավասարման նշանակալիության ստուգումը ◼
◼
Ռեգրեսիայի հավասարման նշանակալիության գնահատումն իրականացվում է պարզելու համար, թե արդյոք ռեգրեսիայի հավասարումը պիտանի է գործնական կիրառության (օրինակ` կանխատեսումների) համար: Ռեգրեսիայի մոդելի նշանակալիության ստուգման համար օգտագործվում է Ֆիշերի F-հայտանիշը, R2 / k F= (1 − R 2 ) /(n − k − 1)
◼
Եթե հայտանիշի p-արժեքը փոքր է ընտրած α նշանակալիության մակարդակից, ապա մոդելը համարվում է նշանակալի:
Ռեգրեսիայի հավասարման պարամետրերի նշանակալիության ստուգումը ◼
◼
Ռեգրեսիայի առանձին գործակիցների գնահատականների նշանակալիությունը ստուգվում է ըստ t-չափանիշի՝ ռեգրեսիայի հավասարման j-րդ պարամետրի (ազատ անդամից բացի) զրոյական լինելու մասին վարկածի ստուգման միջոցով: Եթե հայտանիշի p-արժեքը փոքր է ընտրած α նշանակալիության մակարդակից, ապա ռեգրեսիայի գործակցի գնահատականը համարվում է նշանակալի: Հակառակ դեպքում ոչ նշանակալի գործակցին համապատասխանող գործոնը դուրս է բերվում մոդելից:
Պարզ գծային ռեգրեսիոն վերլուծության օրինակ Դիցուք, խանութների տարածքների և դրանց տարեկան վաճառքի ծավալի միջև կախվածությունը գնահատելու նպատակով կատարվել է ընտրանք և 14 խանութների վերաբերյալ ստացվել են հետևյալ արդյունքները, Տարեկան վաՏարեկան վաԽանութ- Տարածքը Խանութ- Տարածքը ճառքի ծավալը ճառքի ծավալը ները (հազ, ք,մ,) ները (հազ, ք,մ,) (մլն դրամ) (մլն դրամ) 1 2 3 4 5 6 7
1,7 1,6 2,8 5,6 1,3 2,2 1,3
3,7 3,9 6,7 9,5 3,4 5,6 3,7
8 9 10 11 12 13 14
1,1 3,2 1,5 5,2 4,6 5,8 3,0
2,7 5,5 2,9 10,7 7,6 11,8 4,1
Խանութների վերաբերյալ տվյալների ցրվածության դիագրամը՝ կառուցված MS Excel ծրագրի օգնությամբ
Ռեգրեսիոն վերլուծության արդյունքները՝ ստացված MS Excel ծրագրի օգնությամբ
ˆ = 0.964 + 1.670 X Y i i