Kritériá pre hodnotenie kvality regresného modelu alebo ktorý model je dobrý a ktorý lepší. Posúdenie štatistickej významnosti modelu

  • 01.05.2019

Výpočet parametrov a konštrukcia regresných modelov

Korelačná analýza

Jeho účelom je vymedziť povaha komunikácie(dopredu, dozadu) a pevnosť spoja (neexistuje spojenie, spojenie je slabé, mierne, nápadné, silné, veľmi silné, úplné spojenie). Korelačná analýza vytvára informácie o povahe a závažnosti vzťahu (korelačný koeficient), ktoré sa používajú na výber významných faktorov a na plánovanie efektívnej postupnosti pre výpočet parametrov regresných rovníc. Pri jednom faktore sa vypočíta korelačný koeficient a za prítomnosti viacerých faktorov sa zostrojí korelačná matica, z ktorej sa objasnia dva typy vzťahov: (1) vzťah závislej premennej s nezávislým, (2) vzťah medzi nezávislými.

Úvaha o matici umožňuje, po prvé, identifikovať faktory skutočne ovplyvňuje skúmanú závislú premennú a zostavuje (zaraďuje) ich v zostupnom poradí vzťahu; Po druhé, minimalizovať počet faktorov v modeli, s vylúčením niektorých faktorov, ktoré silno alebo funkčne súvisia s inými faktormi (hovoríme o vzťahoch medzi nezávislými premennými).

Je známe, že najspoľahlivejšie v praxi sú jedno- a dvojfaktorové modely.

Ak sa zistí, že dva faktory majú navzájom silný alebo úplný vzťah, potom stačí zahrnúť jeden z nich do regresnej rovnice.

Tu sa snažia nájsť najviac presná miera identifikovaný vzťah, aby bolo možné predpovedať, predpovedať hodnoty závislej veličiny Y, ak sú známe hodnoty nezávislých veličín X 1, X 2, .... X n

Toto opatrenie je všeobecne vyjadrené matematickým modelom závislosti lineárnej viacnásobnej regresie:

Y \u003d a 0 + b 1 X 1 + b 2 X 2 + ... + b n X n

Počítač počíta parametre modelu: voľný termín a 0 (konštanta alebo križovatka) a koeficienty b str (regresné koeficienty). Množstvo o sa nazýva odpoveď a X 1, X 2, ..., X n - faktory alebo prediktory.

Po získaní každej verzie rovnice je povinným postupom vyhodnotiť jej štatistickú významnosť, pretože hlavným cieľom je získať rovnicu s najvyššou významnosťou. Avšak vzhľadom na skutočnosť, že výpočty sú vykonávané počítačom a výskumný pracovník robí rozhodnutie na základe posúdenia významnosti rovnice (rovnicu prijme alebo zahodí), možno tretiu etapu tejto technológie človek-stroj podmienene rozlíšiť ako inteligentnú nestrojovú fázu, pretože takmer všetky údaje o vyhodnotení významnosti rovnice sú pripravené počítačom.

Štatistická významnosť, to znamená vhodnosť postulovaného modelu na použitie pri predpovedaní hodnôt odozvy. Na posúdenie kvality výsledného modelu program tiež vypočítal množstvo koeficientov, ktoré musí výskumník zohľadniť, porovnal ich so známymi štatistickými kritériami a vyhodnotil model z pohľadu zdravého rozumu.



V tejto fáze zohráva mimoriadne dôležitú úlohu koeficient determinácie a F-kritérium dôležitosti regresie.

R na druhú (R 2) - koeficient determinácie - je štvorec viacnásobného korelačného koeficientu medzi pozorovanou hodnotou Y. a jeho teoretická hodnota vypočítaná na základe modelu s určitým súborom faktorov. Koeficient determinácie meria platnosť modelu. Môže sa pohybovať od 0 do 1. Táto hodnota je obzvlášť užitočná na porovnanie množstva rôznych modelov a výber najlepšieho modelu.

R2 je podiel variácie predpovedanej (teoretickej) hodnoty Y vo vzťahu k pozorovaným hodnotám Y, vysvetlený faktormi zahrnutými do modelu. Je veľmi dobré, ak R2\u003e \u003d 80%. Zvyšok teoretických hodnôt Y závisí od ďalších faktorov, ktoré nie sú súčasťou modelu. Úlohou výskumného pracovníka je nájsť faktory, ktoré pribúdajú R2, k vysvetliť predikčné variácie s cieľom získať ideálnu rovnicu. Koeficient R 2 nanajvýš môže dosiahnuť hodnotu 1 (alebo 100%), keď sú všetky hodnoty faktorov odlišné. A ak sú v údajoch opakované experimenty, potom hodnota R 2 nemôže dosiahnuť 1, bez ohľadu na to, aký dobrý je model. Preto by sa pred začatím regresného výpočtu mali z pôvodnej tabuľky odstrániť duplicitné údaje. Niektoré softvérové \u200b\u200bbalíky duplikát automaticky odstraňujú a ponechávajú iba jedinečné údaje. Opakovanie rovnakých údajov znižuje spoľahlivosť odhadov modelu. R2 \u003d 1 iba ak sú experimentálne (pozorované) a teoretické (vypočítané) údaje v úplnej zhode, t. j. keď sa teoretické hodnoty presne zhodujú s pozorovanými. Toto sa však považuje za veľmi nepravdepodobnú udalosť.

Pomocou regresnej analýzy vč. Excel, vypočítané F-test významnosti regresie pre rovnicu ako celok. Táto hodnota sa počíta z pozorovaných údajov Fp (F vypočítaná, pozorovaná) by sa mala porovnať so zodpovedajúcou kritickou hodnotou Fk, (F. kritické, tabuľkové) (pozri prílohu A). Vedec si z publikovaných štatistických tabuliek vyberie Fk s danou úrovňou pravdepodobnosti (pri ktorej boli vypočítané parametre modelu napríklad 95%).

Ak je pozorovaná hodnota Fp sa ukáže byť menšou ako kritická hodnota Fk, potom nemožno rovnicu považovať za významnú. V inej terminológii je možné povedať to isté: nulová hypotéza týkajúca sa dôležitosti všetkých regresných koeficientov v postulovanom modeli nie je odmietnutá, t. J. Koeficienty sú prakticky nulové.

Elektronická technológia korelácie a regresnej analýzy sa stáva úplne zbytočnou, ak vypočítané údaje nie sú úplne interpretované.

Ak je výsledný model štatisticky významný, používa sa na predikciu (predikciu), kontrolu alebo vysvetlenie.

Ak sa zistí nepodstatnosť, potom sa model odmietne za predpokladu, že bude platiť iná forma spojenia, ktorú je potrebné hľadať.

Úloha... Pre teritóriá regiónu sú uvedené údaje pre 199X;
Číslo regiónu Priemerné životné minimum na obyvateľa za deň u jednej práceschopnej osoby, rubľov, x Priemerné denné mzdy, ruble, o
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Požadovaný:
1. Z x vytvorte lineárnu párovú regresnú rovnicu y.
2. Vypočítajte korelačný koeficient lineárnych párov a priemernú chybu aproximácie.
3. Vyhodnoťte štatistickú významnosť regresných a korelačných parametrov.
4. Vykonať predpoveď miezd y pri predpokladanej hodnote priemerného životného minima na obyvateľa x, čo je 107% priemeru.
5. Posúďte presnosť prognózy výpočtom chyby prognózy a jej intervalu spoľahlivosti.

Rozhodnutie nájsť pomocou kalkulačky.
Pomocou grafickej metódy .
Táto metóda slúži na vizualizáciu formy komunikácie medzi študovanými ekonomickými ukazovateľmi. Za týmto účelom sa graf vynesie do pravouhlého súradnicového systému, jednotlivé hodnoty efektívneho atribútu Y sa vynesú pozdĺž osi súradnice a jednotlivé hodnoty faktorového atribútu X sa vynesú pozdĺž osi vodorovnej osi.
Súbor bodov účinných a faktoriálnych znamienok sa nazýva korelačné pole.
Na základe korelačného poľa možno predpokladať (pre bežnú populáciu), že vzťah medzi všetkými možnými hodnotami X a Y je lineárny.
Rovnica lineárnej regresie je y \u003d bx + a + ε
Tu ε je náhodná chyba (odchýlka, rušenie).
Dôvody existencie náhodnej chyby:
1. Nezaradenie významných vysvetľujúcich premenných do regresného modelu;
2. Agregácia premenných. Napríklad funkcia celkovej spotreby je pokusom o všeobecné vyjadrenie súhrnu rozhodnutí jednotlivcov o výdavkoch. Toto je len aproximácia jednotlivých pomerov, ktoré majú rôzne parametre.
3. Nesprávny popis štruktúry modelu;
4. nesprávna funkčná špecifikácia;
5. Chyby merania.
Pretože odchýlky ε i pre každé konkrétne pozorovanie i sú náhodné a ich hodnoty vo vzorke nie sú známe, potom:
1) z pozorovaní x i a y i, iba odhady parametrov α a β
2) Odhady parametrov α a β regresného modelu sú hodnoty a a b, ktoré sú náhodnej povahy, pretože zodpovedajú náhodnej vzorke;
Potom bude mať odhadovaná regresná rovnica (skonštruovaná zo vzorových údajov) tvar y \u003d bx + a + ε, kde e i sú pozorované hodnoty (odhady) chýb ε i, respektíve b, odhady parametrov α a β regresného modelu, ktoré by sa mali nájsť.
Na odhad parametrov α a β - použite metódu najmenších štvorcov (metóda najmenších štvorcov).
Sústava normálnych rovníc.
Pre naše údaje má sústava rovníc tvar
Z prvej rovnice vyjadríme a a dosadíme ju do druhej rovnice
Získame b \u003d 0,92, a \u003d 76,98
Regresná rovnica:
y \u003d 0,92 x + 76,98

1. Parametre regresnej rovnice.
Vybrané priemery.



Ukážky odchýlok:


Štandardná odchýlka


Korelačný koeficient
Vypočítame indikátor tesnosti komunikácie. Tento ukazovateľ je selektívny lineárny korelačný koeficient, ktorý sa vypočíta podľa vzorca:

Lineárny korelačný koeficient nadobúda hodnoty od –1 do +1.
Spojenia medzi značkami môžu byť slabé a silné (tesné). Ich kritériá sa hodnotia na stupnici Čaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
V našom príklade je vzťah medzi priemernou dennou mzdou a priemerom životného minima na obyvateľa vysoký a priamy.
1.2. Regresná rovnica (odhad regresnej rovnice).

Rovnica lineárnej regresie je y \u003d 0,92 x + 76,98
Koeficientom lineárnej regresnej rovnice možno priradiť ekonomický význam.
Koeficient b \u003d 0,92 ukazuje priemernú zmenu efektívneho ukazovateľa (v merných jednotkách y) so zvýšením alebo znížením hodnoty faktora x na jednotku merania. V tomto príklade s nárastom o 1 rubľ. na obyvateľa životné minimum na deň sa priemerná denná mzda zvyšuje v priemere o 0,92.
Koeficient a \u003d 76,98 formálne zobrazuje predikovanú úroveň priemerných denných miezd, ale iba ak x \u003d 0 je blízko k vzorkovaným hodnotám.
Dosadením zodpovedajúcich hodnôt x do regresnej rovnice môžete pre každé pozorovanie určiť zarovnané (predpovedané) hodnoty efektívneho ukazovateľa y (x).
Vzťah medzi priemernou dennou mzdou a priemerom životného minima na obyvateľa za deň určuje znak regresného koeficientu b (ak\u003e 0 - priamy vzťah, inak - inverzný). V našom príklade je spojenie priame.
Koeficient pružnosti.
Regresné koeficienty (v príklade b) je nežiaduce použiť na priame hodnotenie vplyvu faktorov na efektívny indikátor, ak existuje rozdiel v jednotkách merania efektívneho indikátora y a indikátora faktora x.
Na tieto účely sa vypočítajú koeficienty pružnosti a beta. Koeficient pružnosti nájdeme podľa vzorca:


Ukazuje, o koľko percent sa v priemere zmení efektívny atribút y, keď sa faktorový atribút x zmení o 1%. Nezohľadňuje mieru variability faktorov.
Koeficient pružnosti je menší ako 1. Ak sa teda priemerné životné minimum na obyvateľa za deň zmení o 1%, priemerná denná mzda sa zmení o menej ako 1%. Inými slovami, vplyv priemerného životného minima na obyvateľa X na priemernú dennú mzdu Y nie je významný.
Koeficient beta ukazuje, o akú časť hodnoty jeho štandardnej odchýlky sa hodnota efektívneho ukazovateľa v priemere zmení, keď sa faktorový ukazovateľ zmení o hodnotu jeho štandardnej odchýlky s hodnotou zostávajúcich nezávislých premenných ustálených na konštantnej úrovni:

Tých. zvýšenie x o hodnotu štandardnej odchýlky tohto ukazovateľa povedie k zvýšeniu priemernej dennej mzdy Y o 0,721 štandardnej odchýlky tohto ukazovateľa.
1.4. Chyba aproximácie.
Odhadnime kvalitu regresnej rovnice pomocou absolútnej chyby aproximácie.


Pretože chyba je menšia ako 15%, možno túto rovnicu použiť ako regresiu.
Koeficient determinácie.
Druhá mocnina (viacnásobného) korelačného koeficientu sa nazýva koeficient determinácie, ktorý ukazuje podiel zmeny efektívnej vlastnosti vysvetlený zmenou faktorovej vlastnosti.
Najčastejšie sa interpretácia koeficientu determinácie vyjadruje v percentách.
R2 \u003d 0,72 2 \u003d 0,5199
tie. v 51,99% prípadov zmeny priemerného životného minima na obyvateľa x viedli k zmene priemernej dennej mzdy y. Inými slovami, presnosť prispôsobenia regresnej rovnice je priemerná. Zvyšných 48,01% zmeny priemernej dennej mzdy Y je vysvetlených faktormi nezahrnutými do modelu.

x r x 2 y 2 x o y y (x) (y i -y cp) 2 (y-y (x)) 2 (x i -x cp) 2 | y - y x |: y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Odhad parametrov regresnej rovnice.
2.1. Dôležitosť korelačného koeficientu.

Podľa Študentovej tabuľky s hladinou významnosti α \u003d 0,05 a stupňami voľnosti k \u003d 10 nájdeme tkrit:
tkrit \u003d (10; 0,05) \u003d 1,812
kde m \u003d 1 je počet vysvetľujúcich premenných.
Ak je t obs\u003e t kritické, potom sa získaná hodnota korelačného koeficientu uzná ako významná (nulová hypotéza, že korelačný koeficient je nulový, je odmietnutá).
Pretože t obs\u003e tkrit, odmietame hypotézu, že korelačný koeficient sa rovná 0. Inými slovami, korelačný koeficient je štatisticky významný.
V párovej lineárnej regresii je t 2 r \u003d t 2 b a následné testovanie hypotéz o význame regresných a korelačných koeficientov ekvivalentné testovaniu hypotézy o význame lineárnej regresnej rovnice.

2.3. Analýza presnosti určovania odhadov regresných koeficientov.
Objektívny odhad rozptylu porúch je hodnota:


S 2 y \u003d 157,4922 - nevysvetlená odchýlka (miera rozšírenia závislej premennej okolo regresnej čiary).

12,5496 je štandardná chyba odhadu (štandardná chyba regresie).
S a - štandardná odchýlka náhodnej premennej a.


S b - štandardná odchýlka náhodnej premennej b.


2.4. Intervaly spoľahlivosti pre závislú premennú.
Ekonomické prognózy založené na skonštruovanom modeli predpokladajú, že pre vedúce obdobie sú zachované predtým existujúce vzťahy premenných.
Pre predikciu závislej premennej efektívneho ukazovateľa je potrebné poznať predikované hodnoty všetkých faktorov zahrnutých do modelu.
Predikované hodnoty faktorov sú nahradené modelom a sú získané bodové prediktívne odhady študovaného indikátora.
(a + bx p ± ε)
kde

Vypočítajme hranice intervalu, v ktorom bude 95% možných hodnôt Y koncentrovaných s neobmedzeným počtom pozorovaní a X p \u003d 94

(76,98 + 0,92 * 94 ± 7,8288)
(155.67;171.33)
S pravdepodobnosťou 95% je možné zaručiť, že hodnota Y pre neobmedzený počet pozorovaní neprekročí zistené intervaly.
2.5. Testovanie hypotéz o koeficientoch lineárnej regresnej rovnice.
1) t-štatistika. Kritérium študenta.
Vyskúšajme hypotézu H 0 o rovnosti jednotlivých regresných koeficientov na nulu (alternatíva H 1 sa nerovná) na hladine významnosti α \u003d 0,05.
tkrit \u003d (10; 0,05) \u003d 1,812


Od 3,2906\u003e 1,812 sa potvrdzuje štatistická významnosť regresného koeficientu b (odmietame hypotézu, že tento koeficient je nulový).


Od 3,1793\u003e 1,812 sa potvrdzuje štatistická významnosť regresného koeficientu a (odmietame hypotézu, že tento koeficient je nulový).
Interval spoľahlivosti pre koeficienty regresnej rovnice.
Určme intervaly spoľahlivosti pre regresné koeficienty, ktoré s 95% spoľahlivosťou budú nasledovné:
(b - t kritérium S b; b + t kritérium S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang \u003d SV\u003e a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
S pravdepodobnosťou 95% možno tvrdiť, že hodnota tohto parametra bude ležať v nájdenom intervale.
2) F-štatistika. Fisherovo kritérium.
Významnosť regresného modelu sa kontroluje pomocou Fisherovho F-testu, ktorého vypočítaná hodnota sa zistí ako pomer rozptylu počiatočnej série pozorovaní študovaného ukazovateľa a nestranný odhad rozptylu zvyškovej sekvencie pre tento model.
Ak je vypočítaná hodnota s k1 \u003d (m) a k2 \u003d (n-m-1) stupňov voľnosti väčšia ako tabuľková hodnota pre danú hladinu významnosti, potom sa model považuje za významný.

kde m je počet faktorov v modeli.
Štatistická významnosť párovej lineárnej regresie sa odhaduje pomocou nasledujúceho algoritmu:
1. Navrhuje sa nulová hypotéza, že rovnica ako celok je štatisticky nevýznamná: H 0: R 2 \u003d 0 na hladine významnosti α.
2. Ďalej sa určí skutočná hodnota kritéria F:


kde m \u003d 1 pre párovú regresiu.
3. Tabuľková hodnota je určená z Fisherových distribučných tabuliek pre danú hladinu významnosti, pričom sa berie do úvahy, že počet stupňov voľnosti pre celkový súčet štvorcov (väčšia variancia) je 1 a počet stupňov voľnosti zvyškového súčtu štvorcov (menšia variancia) pre lineárnu regresiu je n-2. ...
4. Ak je skutočná hodnota F-kritéria nižšia ako tabuľkové, potom hovoria, že nie je dôvod odmietnuť nulovú hypotézu.
Inak je nulová hypotéza odmietnutá a s pravdepodobnosťou je akceptovaná alternatívna hypotéza o štatistickej významnosti rovnice ako celku (1-α).
Tabuľková hodnota kritéria so stupňami voľnosti k1 \u003d 1 a k2 \u003d 10, Fkp \u003d 4,96
Od skutočnej hodnoty F\u003e Fkp je koeficient determinácie štatisticky významný (nájdený odhad regresnej rovnice je štatisticky spoľahlivý).

Na vyhodnotenie významnosti parametrov rovnice viacnásobnej regresie sa použije Studentov test. Pripomeňme si to význam parametrov znamená ich rozdiel od nuly s vysokou mierou pravdepodobnosti. Nulovou hypotézou je v tomto prípade výrok

Skutočná hodnota kritéria t je určená vzorcom

(2.27)

Vo vzorci (2.27) sa odhadom parametra rozumie regresný koeficient aj voľný člen (at). Hodnota štandardnej odchýlky odhadovaného parametra sa stanoví ako koreň rozptylu vypočítaného vzorcom (2.25). Množstvo sa volá štandardná chyba parameter.

Vzorec na odhad regresného koeficientu (t. J. Pre) je možné zredukovať na formu

(2.28)

kde je štandardná odchýlka výslednej premennej; - štandardná odchýlka vysvetľujúcej premennej, ktorá je koeficientom koeficientu; - koeficient determinácie, zistený pre rovnicu závislosti premennej od premenných, vrátane; Je zistený koeficient determinácie pre rovnicu závislosti premennej od iných premenných zahrnutých do uvažovaného modelu viacnásobnej regresie.

Teoretická hodnota t-testu sa nachádza z tabuľky hodnôt Študentovho testu pre hladinu významnosti a a počet stupňov voľnosti. Hladina významnosti a je pravdepodobnosť chyby typu I, t.j. pravdepodobnosť odmietnutia hypotézy, ak je správna. Spravidla sa volí a rovné 0,1; 0,05 alebo 0,01.

Nulová hypotéza, že parameter je nevýznamný: odmietnutá, ak je nerovnosť

(2.29)

kde je teoretická hodnota testu študenta.

Na základe výrazu (2.29) je tiež možné zostaviť interval spoľahlivosti pre odhadovaný parameter:

Výraz (2.30) umožňuje jednak odhadnúť významnosť parametra, jednak podať jeho ekonomickú interpretáciu (ak sa odhaduje regresný koeficient). Je zrejmé, že parameter bude významný, ak interval spoľahlivosti (2.30) nebude obsahovať nulu, t.j. s vysokou mierou pravdepodobnosti nie je odhadovaný parameter nulový.

Pretože je regresný koeficient absolútnym indikátorom sily vzťahu, hranice intervalu spoľahlivosti preň možno interpretovať rovnakým spôsobom: s pravdepodobnosťou jednej zmeny nezávislej premennej, závislej premennej o sa nezmení o nič menej a viac ako.

Zvážte výsledky vyhodnotenia významnosti parametrov, napríklad 2.1. Štandardné chyby parametrov sú

Pripomeňme, že pod koreňovým znakom v hranatých zátvorkách je prvok matice, ktorý sa nachádza na križovatke

nii j-tého riadku a j-tého stĺpca, číslo; sa rovná počtu hodnoteného parametra.

Skutočná hodnota študentovho kritéria je

Tabuľková hodnota t-testu pre a úroveň významnosti je 2,0153, preto sú všetky parametre, s výnimkou voľného termínu, významné.

Nájdite hranice intervalov spoľahlivosti pre regresné koeficienty.

Upozorňujeme, že na základe hodnôt hraníc intervalov spoľahlivosti možno vyvodiť rovnaké závery o dôležitosti regresných koeficientov (pretože nula nespadá do intervalu spoľahlivosti). Závery v tomto prípade nemôžu byť odlišné ako pri porovnaní skutočných a tabuľkových hodnôt Studentovho kritéria, pretože vzorec (2.30) je dôsledkom vzorca (2.29). Dajme ekonomickú interpretáciu hraníc intervalov spoľahlivosti pre regresné koeficienty.

Koeficient je charakteristický pre pevnosť vzťahu medzi objemom daňových príjmov a počtom zamestnancov. Ak vezmeme do úvahy hodnoty hraníc intervalu spoľahlivosti pre, dá sa povedať, že zmena počtu zamestnaných na 1 000 ľudí povedie k zmene (s pravdepodobnosťou 0,95 ()) daňových príjmov najmenej o 3,56 milióna rubľov. a nie viac ako 21,34 milióna rubľov. so stálym objemom zásielok vo výrobe a výrobe energie. Pre ďalšie dva regresné koeficienty sú závery nasledovné.

Zmena objemu zásielok vo výrobe o 1 milión rubľov. povedie k zmene (s pravdepodobnosťou 0,95 ()) daňových príjmov najmenej o 0,028 milióna rubľov. a nie viac ako 0,092 milióna rubľov. so stálymi hodnotami počtu zamestnancov a výroby energie.

So zmenou výroby energie o 1 milión rubľov. daňové príjmy sa zmenia (s pravdepodobnosťou 0,95 ()) najmenej o 0,13 milióna rubľov. a nie viac ako 0,18 milióna rubľov. pri nezmenených hodnotách počtu zamestnancov a objemu prepravy vo výrobe.

Ako je uvedené v časti 2.2, pri zostavovaní regresného modelu pomocou premenné na stred regresné koeficienty sa nelíšia od naturálnych regresných koeficientov. Toto tvrdenie sa vzťahuje aj na veľkosť štandardných chýb regresných koeficientov, a teda na skutočné hodnoty Studentovho testu.

Použitím štandardizované premenné stupnica ich zmien v meraní, ktorá vedie k iným ako v pôvodnej regresii, hodnoty parametrov (štandardizované regresné koeficienty) a ich štandardné chyby. Skutočné hodnoty Študentovho kritéria pre parametre rovnice na štandardizovanej škále sa však zhodujú s tými hodnotami, ktoré boli získané z rovnice v prirodzenej mierke.

Na posúdenie významnosti celej regresnej rovnice ako celku použijeme fisherov test (F-test), ktoré sa v tomto prípade tiež nazýva spoločné F-kritérium. Nevýznamnosť regresnej rovnice znamená súčasnú nulu (s vysokou pravdepodobnosťou) všetkých regresných koeficientov v bežnej populácii:

Skutočná hodnota F-kritéria je definovaná ako pomer faktoriálneho a zvyškového súčtu štvorcov, vypočítaný pomocou regresnej rovnice a korigovaný na počet stupňov voľnosti:

(2.31)

kde je faktoriálny súčet štvorcov; - zostatkový súčet štvorcov.

Teoretická hodnota F-kritéria je uvedená v tabuľke hodnôt Fisherovho kritéria pre hladinu významnosti α, počet stupňov voľnosti atď. Nulová hypotéza je odmietnutá, ak

kde je teoretická hodnota Fisherovho kritéria.

Upozorňujeme, že ak je model nevýznamný, potom sú aj ním vypočítané korelačné ukazovatele nevýznamné. Skutočne, ak

a regresná priamka je rovnobežná s osou úsečky. Zo sústavy normálnych rovníc získaných metódou najmenších štvorcov (2.8) to navyše vyplýva.

Pri nulových hodnotách všetkých regresných koeficientov máme výraz

tie. ak sú všetky regresné koeficienty rovné nule (ich štatistická nevýznamnosť), bude koeficient determinácie tiež rovný nule (štatisticky nevýznamný).

Vzorec (2.31) na výpočet F-kritéria možno transformovať vydelením faktoriálneho a zvyškového súčtu štvorcov celkovým súčtom štvorcov:

Po jednoduchých transformáciách dostaneme výraz

Výpočet všeobecného F-kritéria je možné vykonať vo forme tabuľky analýzy odchýlok (tabuľka 2.2).

Tabuľka 2.2.Analýza štatistickej významnosti modelu viacnásobnej regresie

Zdroje variácií

Počet stupňov voľnosti df

Súčet štvorcov SS

Disperzia na stupeň voľnosti MS \u003d SS / df

Fisherov F test

skutočná hodnota

tabuľková hodnota pre a \u003d 0,05

Podobnú tabuľku analýzy odchýlok možno vidieť vo výsledkoch počítačového spracovania údajov. Jeho rozdiel

z vyššie uvedenej tabuľky je obsah posledného stĺpca. V našom prípade ide o teoretickú hodnotu Fisherovho kritéria. V počítačových verziách uvádza posledný stĺpec hodnotu pravdepodobnosti chyby prvého druhu (odmietnutie správnej nulovej hypotézy), ktorá zodpovedá skutočnej hodnote F-kritéria. IN Excel táto hodnota sa nazýva „významnosť F“. Označme hodnotu danú počítačom v tabuľke ANOVA ako. Jeho hodnotu možno interpretovať nasledovne: ak sa teoretická hodnota kritéria F rovná jeho skutočnej hodnote, potom je pravdepodobnosť chyby typu I (hladina významnosti).

Ak zvolíme určitú hladinu významnosti pre určenie tabuľkovej hodnoty kritéria, súhlasíme s chybovou hodnotou rovnajúcou sa. Preto, ak, potom bude skutočná chyba menšia ako plánovaná a môžeme hovoriť o význame regresnej rovnice na danej hladine významnosti.

Skontrolujte štatistickú významnosť regresnej rovnice získanej v príklade 2.1. Skutočná hodnota kritéria F je

Tabuľková hodnota Fisherovho kritéria pre a \u003d 0,05, počet stupňov voľnosti, sa rovná 2,82. Pretože skutočná hodnota kritéria F je väčšia ako tabuľkové, regresná rovnica je s pravdepodobnosťou významná. Preto je tiež významný koeficient determinácie, t. je s najväčšou pravdepodobnosťou nenulová.

Pri použití možnosti „Regresia“ v RFP Excel pre tento príklad bola získaná nasledujúca tabuľka analýzy odchýlok (tabuľka 2.3).

Tabuľka 2.3.Tabuľka ANOVA získaná pri použití možnosti „Regresia“ v RFP Excel

Skutočná hodnota F-testu je uvedená v predposlednom stĺpci tejto tabuľky. Upozorňujeme, že táto hodnota sa líši od vyššie uvedenej kvôli chybám zaokrúhľovania. V poslednom stĺpci tabuľky. 2.3 ukazuje pravdepodobnosť chyby prvého druhu. Rovná sa 1,10224E -12, t.j. 0,00000000000110224. Nastavili sme maximálnu hodnotu tejto pravdepodobnosti na 0,05. Pretože skutočná hodnota pravdepodobnosti chyby prvého druhu je menšia (oveľa menšia) ako nami stanovené maximum, mala by sa odmietnuť nulová hypotéza, že regresná rovnica je zanedbateľná.

Hodnotenie kvality modelu podľa Študentových a Fisherových kritérií sa uskutoční porovnaním vypočítaných hodnôt s tabuľkovými hodnotami.

Na posúdenie kvality modelu podľa študentovho kritéria skutočná hodnota tohto kritéria (t obs)

v porovnaní s kritickou hodnotou t kr ktorý je prevzatý z tabuľky hodnôt t zohľadňujúc danú hladinu významnosti ( a \u003d 0,05) a počet stupňov voľnosti (n - 2).

Ak t obs\u003e t cr,potom sa získaná hodnota párového korelačného koeficientu považuje za významnú.

Kritická hodnota pri a je .

Poďme skontrolovať významnosť koeficientu určenia pomocou F- Fisherov test.

Poďme vypočítať štatistiku F podľa vzorca:

m \u003d 3 - počet parametrov v regresnej rovnici;

N \u003d 37 - počet pozorovaní vo vzorke.

Matematický model štatistického rozdelenia F-statistika je Fisherovo rozdelenie sa stupne voľnosti. Kritická hodnota tejto štatistiky pri a stupňoch voľnosti je rovnaká.

Fisherovo kritérium
F vypočít F kr Regresná rovnica
8916.383 3.276 adekvátne

Model teda vysvetľuje 99.8% celková odchýlka prvku Y.... To naznačuje, že namontovaný model je primeraný.


Výpočet predpokladaných hodnôt a súčtu druhých mocnín odchýlok.

Vložte do bunky Q2 vzorec \u003d $ F $ 54 * N2 + $ E $ 54 $ * O2 (výpočet predpovedaných hodnôt), potom ho skopírujte do buniek Q3: Q38... Do bunky R2 vzorec \u003d (P2-Q2) ^ 2 (výpočet súčtu štvorcových odchýlok), potom ho skopírujte do buniek R3: R38a vypočítajte súčet získaných hodnôt v bunke R39.

X 2 X 5 Y. y (x) (Y - y (x)) 2
605.1 2063.2 1626.7 1589.7 1367.523
620.1 2143.7 1602.5 1650.5 2303.318
2447.7 1880.7 1914.5 1144.709
862.1 2406.4 1982.7 1876.9 11189.53
958.4 2592.9 2026.7 106.5821
1488.9 2193.9 2180.4 182.342
1231.5 2529.7 2152.1 2020.4 17335.88
1429.6 2644.9 2133.1 8814.026
1679.5 2793.7 2344.4 2277.8 4436.216
1326.2 2669.2 2341.7 2135.8 42415.15
1456.8 2211.9 2282.7 5014.463
2523.6 2990.5 2629.8 2543.9 7377.384
2659.8 2017.5 2059.0 1722.637
923.8 2636.6 2009.4 2053.4 1939.955
1173.3 2943.1 2312.8 2792.24
1156.7 2890.9 2400.1 2272.4 16298.85
1450.2 3051.5 2508.1 2432.0 5784.146
1845.2 2684.1 2633.3 2581.453
1566.4 3052.6 2736.6 2449.8 82275.65
1729.7 3349.7 2824.5 2689.8 18152.31
1987.3 3456.3 2880.2 2804.9 5676.928
1902.7 3731.2 2812.9 2992.6 32297.9
1839.1 3517.8 2704.2 2828.0 15336.69
3953.7 3823.1 3224.2 3358.1 17922.28
1351.2 3482.9 2584.7 2731.6 21584.07
1185.3 3347.6 2466.7 2609.0 20246.66
1715.5 3585.4 2928.3 2859.2 4768.047
1536.4 3678.3 3036.4 2900.8 18389.81
1823.1 3801.6 3021.1 3032.3 124.6986
2452.1 4002.1 3237.6 3269.8 1034.273
2076.6 3990.3 3247.1 3206.5 1647.633
2129.2 3436.9 3375.5 3767.099
2502.7 4154.2 3472.8 3387.8 7220.377
2238.7 4322.7 3504.1 3472.0 1028.291
2417.6 4623.1 3357.1 3716.7 129321.2
3838.4 4817.9 4034.7 4065.3 937.7363
1468.6 3450.4 3585.0 18128.14
532666.2



Formulár správy

možnosti

Ceny reklamy a charakteristiky časopisov
Názov vestníka Y, tarifa (jedna strana farebnej reklamy), USD X 1, plánované publikum, tisíc ľudí X 2, percento mužov X 3, medián rodinného príjmu, USD
Audubon 25 315 51,1 38 787
Lepšie domy a záhrady 198 000 34 797 22,1
Pracovný týždeň 68,1 63 667
Kozmopolitný 15 452 17,3 44 237
Elle 55 540 12,5 47 211
Podnikateľ 40 355 2 476 60,4 47 579
Esquire 71,3 44 715
Rodinný kruh 147 500 24 539 38 759
najskôr pre ženy 28 059 3 856 3,6 43 850
Forbes 59 340 68,8 66 606
Šťastie 3 891 68,8 58 402
Glamour 85 080 7,8
Goff digest 6 250 78,9
Dobré upratovanie 166 080 25 306 12,6 38 335
Gurmán 49 640 29,6 57 060
Harperov bazár 52 805 2 621 11,5 44 992
Inc. 70 825 66,9
Kiplingerove osobné financie 65,1 63 876
Dámy, domáci vestník 127 000 6,8
Život 63 750 14 220 46,9
Mademoiselle 55 910
Život Marthy Stewartovej 93 328 4 849 16,6
McCalls 7,6 33 823
Peniaze 98 250 60,6
Motorický trend 79 800 5 281 88,5 48 739
National Geographic 44 326
Prírodná história
Newsweek 148 800 20 720 53,5 53 025
Časopis pre rodičov 72 820 18,2
PC 40 675 57 916
Ľudia 125 000 33 668
Populárna mechanika 86,9
Čitateľský prehľad 42,4 38 060
Červená kniha 95 785 13 212 8,9 41 156
Valiaci sa kameň 78 920 8 638 59,8 43 212
Bežecký svet 36 850 2 078 62,9 60 222
Vedecké americké 37 500 2 704
Sedemnásť 71 115 5 738 37 034
Lyžovačka 32 480 2 249 64,5 58 629
Inteligentné peniaze 42 900 2 224 63,4
Smithsonian 73 075 8 253 47,9
Digest mydlovej opery 35 070 7 227 10,3
Sports Illustrated 162 000 78,8 45 897
Západ slnka 56 000 5 276 38,7 52 524
Teen 53 250 3 057 15,4
Nový yorker 62 435 3 223 48,9
Čas 162 000 22 798 52,4
Pravdivý príbeh 12,2
Sprievodca TV 42,8 37 396
USA Správa a správa zo sveta 98 644 9 825 57,5 52 018
Veľtrh márnosti 67 890 4 307 27,7
Vogue 63 900 12,9 44 242
Deň žien 137 000 22 747 6,7
Pracujúca žena 87 500 6,3 44 674
YM 73 270 14,4 43 696
Zlý 83 534 39,7 47 710
Štandardná odchýlka 25,9 10 225

testové otázky

Párová regresia

1. Čo sa myslí regresiou párov?

2. Aké úlohy sa riešia pri zostavovaní regresnej rovnice?

3. Aké metódy sa používajú na výber typu regresného modelu?

4. Aké funkcie sa najčastejšie používajú na zostavenie rovnice

5. žiadny regres?

6. Aká je forma sústavy normálnych rovníc metódy najmenšej

7. štvorce v prípade lineárnej regresie?

8. Ako sa počíta a určuje index určenia?

9. Ako sa kontroluje významnosť regresnej rovnice?

10. Ako sa kontroluje významnosť koeficientov regresnej rovnice?

11. Koncept intervalu spoľahlivosti pre regresné koeficienty.

12. Koncept predpovedania bodov a intervalov podľa lineárnej regresnej rovnice.

13. Ako sa počíta koeficient pružnosti a čo ukazuje? E, priemerný koeficient pružnosti Ý ?

Viacnásobná regresia

1. Čo sa rozumie pod viacnásobnou regresiou?

2. Aký je rozdiel medzi viacnásobným lineárnym regresným modelom a spárovaným lineárnym regresným modelom? Zapíšte si rovnicu viacnásobnej lineárnej regresie.

3. Aké úlohy sa riešia pri zostavovaní regresnej rovnice?

4. Aké úlohy sa riešia počas špecifikácie modelu?

5. Aké sú požiadavky na faktory zahrnuté v regresnej rovnici?

6. Čo sa myslí kolinearitou faktorov?

7. Ako sa kontroluje kolineárnosť?

8. Aké prístupy sa používajú na prekonanie korelácie interferónov?

9. Aké funkcie sa najčastejšie používajú na zostavenie viacnásobnej regresnej rovnice?

10. Aký je vzorec pre výpočet indexu viacnásobnej korelácie?

11. Ako sa počíta index viacnásobného určenia?

12. Aký je koeficient determinácie? Ako sa odhaduje primeranosť modelu s jeho pomocou?

13. Čo znamená nízka hodnota koeficientu viacnásobnej korelácie?

14. Ako sa kontroluje významnosť regresnej rovnice a jednotlivých koeficientov?

15. Ako sú zostavené hypotézy o testovaní významnosti parametrov modelu?

16. Ako sa vytvárajú rovnice čiastočnej regresie?

17. Ako sa počítajú priemerné čiastočné pružnosti?

18. Ako sú zostavené intervaly spoľahlivosti pre parametre modelu?

19. Čo sa myslí pod homoscedasticitou množstva zvyškov?

20. Aká je hypotéza homoscedasticity mnohých testovaných zvyškov?

21. Aký je názov závislej premennej v modeli?

22. Ako sa v modeli volajú nezávislé premenné?

23. Aká je hlavná metóda stavby modelu.

24. Napíšte všeobecný viacnásobný regresný model s 3 nezávislými premennými

25. Napíšte súčet druhých mocnín odchýlok modelu (vzorec)

26. Čo je to RSS? (Definícia a vzorec)

27. Ako skontrolovať význam zostaveného modelu ako celku?

28. Ako skontrolovať významnosť koeficientu pre premennú X_3?

29. Sformulujte ekonomický význam koeficientu, napríklad pomocou premennej X_5

30. Čo je „krátky model“ viacnásobnej regresie

Literatúra

1. Shanchenko, N. I. Ekonometria: laboratórna prax: učebnica / N. I. Šančenko. - Uljanovsk: UlSTU, 2011. - 117 s.

2. Davnis V.V., Tinyakova V.I. Počítačový workshop o ekonometrickom modelovaní. Voronež, 2003. - 63 s.


Počiatočné údaje charakterizujú predajnú cenu určitého produktu v určitých časových okamihoch. Je potrebné zostaviť regresný model dynamiky zmien tohto ukazovateľa. Medzi faktory, ktoré pravdepodobne ovplyvňujú túto sumu, patria predajná cena náhradného produktu, objem predaja produktu, objem reklamných nákladov a priemerné reklamné náklady.

Predajná cena je závislé množstvo, označme ju Y.

Faktory ovplyvňujúce (pravdepodobne) hodnotu Y budeme označovať X i: X 1 je cena náhradného produktu, X 2 je objem predaja, X 3 je objem reklamných nákladov, X 4 sú priemerné náklady na reklamu.

Počiatočné údaje

Koeficient determinácie je štatistický údaj, pretože jeho hodnoty sa počítajú z pozorovaných údajov. Na základe koeficientu determinácie sa zostaví štatistický postup, ktorý kontroluje, aký významný je lineárny vzťah medzi faktormi.

Štatistika, ktorá kontroluje významnosť celej regresnej rovnice, je:

Dostaneme:

Zvyšujúce sa hodnoty štatistiky zodpovedajú zvyšujúcim sa hodnotám štatistiky, preto hypotéza, ktorá sa neakceptuje na \u003d, sa neakceptuje, ak platí nerovnosť, kde

Pravdepodobnosť mylného odmietnutia hypotézy je.

Vypočítajme kritické hodnoty pre iný počet pozorovaní.

Zvážte jednoduchú lineárnu regresiu

Kritické hodnoty získané v závislosti od počtu pozorovaní:

To znamená, že pri značnom počte pozorovaní sú aj malé odchýlky skutočnej hodnoty od 0 významné pre rozpoznanie štatistickej významnosti regresného koeficientu so zmysluplnou vysvetľujúcou premennou.

Hodnota sa zhoduje s druhou mocninou korelačného koeficientu medzi premennými, rovnaký záver platí pre korelačný koeficient:

Uvažujme teraz o koeficientoch určenia R 2 pre úplné a zmenšené modely. V celom modeli je hodnota R 2 vždy vyššia ako v redukovanom v kompletnom modeli s vysvetľujúcimi premennými m minimalizujeme súčet

pre všetky hodnoty koeficientov. Keď uvažujeme napríklad o zmenšenom modeli bez m-tej vysvetľujúcej premennej, hľadáme minimum súčtu

pre všetky hodnoty koeficientov nemôže byť výsledná minimálna hodnota väčšia ako hodnota získaná minimalizáciou súčtu odchýlok pre všetky hodnoty vrátane hodnôt. Preto nasleduje vlastnosť koeficientu.

Pre uľahčenie postupu pri výbere modelu sa navrhuje použiť jeho upravenú formu

ktorý zavádza pokutu spojenú s nárastom počtu vysvetľujúcich premenných. Dostaneme:

Najlepší je teda jeden z konkurenčných modelov, pre ktorý berie maximálnu možnú hodnotu.

Ak sa pri porovnávaní konkurenčných modelov odhaduje pomocou rovnakého počtu pozorovaní, potom je porovnanie hodnotových modelov rovnocenné s porovnaním týchto modelov v hodnotovom resp. V takom prípade sa vyberie alternatívny model s minimálnou hodnotou (alebo).

Okrem upravených koeficientov determinácie sa pri výbere jedného z niekoľkých alternatívnych modelov používajú informačné kritériá, ako je Schwarzovo kritérium, Akaikeho kritérium, „penalizácia“ za zvýšenie vysvetľujúcich premenných, ale s použitím mierne odlišných metód.

Akaike „sinformationcriterion-AIC. Pomocou tohto kritéria sa porovnáva lineárny model s vysvetľujúcimi faktormi zostavený z pozorovaní s hodnotou

Zvyškový súčet štvorcov. Pretože Prvý člen klesá s nárastom počtu vysvetľujúcich premenných a druhý člen sa zvyšuje, potom z alternatívnych modelov vyberieme model s najmenšou hodnotou. Dosiahne sa tak kompromis medzi zvyškovým súčtom druhých mocnín a počtom vysvetľujúcich faktorov.

Schwarz „sinformationcriterion-SC, SIC. Pomocou tohto kritéria sa porovnáva lineárny model s vysvetľujúcimi faktormi zostavený z pozorovaní s hodnotou

A tu, rovnako ako pri použití kritéria Akaike, vedie zvýšenie počtu vysvetľujúcich faktorov k zníženiu prvého výrazu na pravej strane a k zvýšeniu druhého výrazu. Model s najmenšou hodnotou je vybraný z kompletných a redukovaných alternatívnych modelov.