Štatistická významnosť logit a probit modelov a faktory týchto modelov

  • 21.04.2019

Koeficient determinácie je štatistika, pretože jeho hodnoty sú vypočítané z pozorovaných údajov. Na základe koeficientu determinácie je zostavený štatistický postup, ktorý kontroluje, nakoľko je významný lineárne prepojenie medzi faktormi.

Štatistika, ktorá kontroluje významnosť celej regresnej rovnice, je:

Dostaneme:

Rastúce hodnoty štatistiky zodpovedajú rastúcim hodnotám štatistiky, preto hypotéza, ktorá nie je akceptovaná v =, nie je akceptovaná, ak platí nerovnosť, kde

Pravdepodobnosť omylu zamietnutia hypotézy je.

Vypočítajme kritické hodnoty pre rôzne sumy pozorovania.

Zvážte jednoduchú lineárnu regresiu, takže

Kritické hodnoty získané v závislosti od počtu pozorovaní:

To znamená, že pri značnom počte pozorovaní sú aj malé odchýlky skutočnej hodnoty od 0 významné pre rozpoznanie štatistickej významnosti regresného koeficientu, so zmysluplnou vysvetľujúcou premennou.

Hodnota sa zhoduje s druhou mocninou korelačného koeficientu medzi premennými, rovnaký záver platí aj pre korelačný koeficient:

Uvažujme teraz koeficienty determinácie R 2 pre úplný a redukovaný model. V plnom modeli je hodnota R 2 vždy vyššia ako v redukovanom, od r v kompletnom modeli s m vysvetľujúcimi premennými minimalizujeme súčet

pre všetky hodnoty koeficientov. Pri zvažovaní redukovaného modelu, napríklad bez m-tej vysvetľujúcej premennej, sa hľadá minimum súčtu

pre všetky hodnoty koeficientov výsledná minimálna hodnota nemôže byť väčšia ako hodnota získaná pri minimalizácii súčtu odchýlok pre všetky hodnoty vrátane hodnôt. Z toho vyplýva vlastnosť koeficientu.

Pre pohodlie postupu pri výbere modelu pomocou neho sa navrhuje použiť jeho upravenú formu

ktorý zavádza penalizáciu spojenú so zvýšením počtu vysvetľujúcich premenných. Dostaneme:

Za najlepší je teda uznávaný ten z konkurenčných modelov, pre ktorý má najvyššiu možnú hodnotu.

Ak sa pri porovnávaní konkurenčných modelov odhad robí pomocou rovnakého počtu pozorovaní, potom porovnávanie modelov v hodnote je ekvivalentné porovnávaniu týchto modelov v hodnote resp. V tomto prípade alternatívny model s minimálna hodnota(alebo).

Okrem upravených koeficientov determinácie pri výbere jedného z viacerých alternatívne modely sa používajú informačné kritériá, ako je Schwarzov test, Akaikeho test, „penalizujúci“ za zvýšenie vysvetľujúcich premenných, ale s použitím mierne odlišných metód.

Akaike "sinformationcriterion-AIC. Pomocou tohto kritéria lineárny model s vysvetľujúcimi faktormi, vytvorenými z pozorovaní, sa porovnáva s hodnotou

Zvyškový súčet štvorcov. Pretože prvý člen klesá s nárastom počtu vysvetľujúcich premenných a druhý člen sa zvyšuje, potom z alternatívnych modelov vyberáme model s najmenšou hodnotou, čím sa dosiahne kompromis medzi reziduálnym súčtom štvorcov a počtom vysvetľujúce faktory.

Schwarz "sinformationcriterion-SC, SIC. Pomocou tohto kritéria sa lineárny model s vysvetľujúcimi faktormi, skonštruovaný z pozorovaní, porovnáva s hodnotou

A tu, rovnako ako pri použití kritéria Akaike, zvýšenie počtu vysvetľujúcich faktorov vedie k zníženiu prvého termínu na pravej strane a k zvýšeniu druhého. Z úplných a zmenšených alternatívnych modelov sa vyberie model s najnižšou hodnotou.

Testovanie významnosti modelu pomocou testu pravdepodobnosti (Wald test) začína hlavnou hypotézou:

Na overenie tejto hypotézy sa vypočítajú štatistické údaje vzorky

Tu je lnL množstvo maximálna hodnota logaritmus pravdepodobnostnej funkcie a lnL0 je hodnota logaritmu pravdepodobnostnej funkcie, ak je hlavná hypotéza pravdivá.

Ak je hlavná hypotéza správna, výberové štatistiky (4.7.1) sú rozdelené podľa zákona 2 s (m-1) stupňom voľnosti. Hranica pravostrannej kritickej oblasti K2 sa hľadá podľa tabuliek chí-kvadrát kritických bodov podľa hladiny významnosti (1-b) a (m-1) stupňov voľnosti. Ak nerovnosť platí:

potom sa zamietne hlavná hypotéza, prijme sa alternatívna hypotéza a povie sa, že model je štatisticky významný. V opačnom prípade prijmú hypotézu, že model nie je významný, a pristúpia k jej revízii.

Pre modely binárnej voľby sa význam faktorov kontroluje testovaním pre každý faktor хi, i = 1, ..., (m-1) hypotéz tvaru:

Vzorové štatistiky, ktoré sa používajú na testovanie týchto hypotéz, majú asymptoticky normálne rozdelenie a nazývajú sa z-štatistiky. Hranica obojstrannej kritickej oblasti sa hľadá pomocou Laplaceových tabuliek na danej hladine významnosti (1-b).

Ak nerovnosť platí:

K 1

potom prijmú hlavnú hypotézu o nevýznamnom rozdiele koeficientu i od nuly a dospejú k záveru, že príslušný faktor je pre model nevýznamný.

Pre modely binárnej voľby nie je definovaný pojem koeficient determinácie. Pre nich je však určený takzvaný pseudokoeficient determinácie, ktorý už necharakterizuje výpovednú silu modelu.

Definícia 4.7.1. Pseudokoeficient determinácie je nasledujúca hodnota:

Definícia 4.7.2. Pomer pravdepodobnosti McFadden je charakteristika:

Je potrebné zdôrazniť, že ak sa parametre modelu binárnej voľby nevýznamne líšia od nuly, potom sa oba zavedené koeficienty rovnajú nule.

V prednáške sme skúmali nelineárne regresné modely, najmä modely pre binárnu závislú premennú. Zvažovali sme tieto modely pre dve regresné funkcie: logit (použil logistickú funkciu) a probit (použil distribučnú funkciu štandardného zákona normálneho rozdelenia). Odhady parametrov pre takéto regresné funkcie sa získajú pomocou metódy maximálnej pravdepodobnosti. Model je testovaný pomocou Waldovho testu, ktorý je založený na štatistike, ktorá má chí-kvadrát rozdelenie. Pri štúdiu multifaktoriálnej regresné modely odhady parametrov bj sme interpretovali ako marginálny efekt vplyvu nezávislých premenných na y. Vráťme sa k modelom binárnej voľby. Ak sa pokúsime nájsť deriváciu P (Y = 1 | X), dostaneme sa k nasledujúcemu výrazu:

kde Z = 0 + 1x1 + ... m-1xm-1.

Pomocou vety o derivácii komplexnej funkcie a z vlastnosti hustoty (derivát distribučnej funkcie je distribučná hustota f (Z)) dostaneme:

alebo pomocou druhej notácie pre odhady parametrov:

P (Y = 1 | X) = injf (Z)

Rovnako ako predtým, bj označuje odhady neznámych parametrov.

Potom môžeme uvažovať takto: hustota distribúcie je vždy nezáporná, teda znamienko derivácie

bude závisieť iba od znamienka odhadu parametra, ale bude funkciou všetkých nezávislých premenných. Navyše, ak je odhad parametra kladný, potom zvýšenie premennej xj povedie k zvýšeniu pravdepodobnosti

a ak je odhad parametra negatívny, potom k zníženiu indikovanej pravdepodobnosti.

Komentujte. Ak je faktor x binárna premenná, potom preň nemožno zaviesť pojem marginálneho efektu.

Pre každú premennú x (kvantitatívny !!!) sa zavádza takzvaný priemerný marginálny efekt. Na tento účel vypočítajte priemer vzorky pre kvantitatívne premenné a percento "1" pre binárne a nahraďte ich vo výraze hustoty distribúcie namiesto premenných.

Ďalšia otázka do diskusie: ako po vyhodnotení parametrov logitového (probitového) modelu predpovedať hodnotu y? Postupujte napríklad takto. Nájdené hodnoty odhadov parametrov a hodnoty xj sa dosadia do Z a vypočíta sa hodnota premennej. Ak Z > 0, potom sa predpokladá, že Y = 1, ak Z<0, то считают, что У=0. Замечание. Мы рассмотрели ситуацию, когда переменная у была измерена в номинальной шкале, но принимала всего два значения: 0 и 1. В общем случае, когда у может принимать несколько значений, например 0, 1, 2, 3, используют множественный (по у!!) логит или пробит. Кроме того, у может быть измерен в порядковой шкале, тогда в Стате используют порядковый логит (пробит) ologit (oprobit).

Komentujte. Vo výskumných štúdiách je veľmi často potrebné vykonať výskum na skrátenej vzorke. Ak sa napríklad skúma príjem domácnosti, existujú situácie, keď by mali byť zo štúdie vylúčení respondenti s veľmi vysokým príjmom (napríklad viac ako 1 milión rubľov), tj.

V takýchto prípadoch sa používajú modely Tobit.

F (0 + 1x1 + ... m-1xm-1)

F (0 + 1x1 + ... m-1xm-1)

F (0 + 1x1 + ... m-1xm-1)

F (0 + 1x1 + ... m-1xm-1) - (F (0 + 1x1 + ... m-1xm-1)) 2

Strana 1


Význam modelu pre riešenie konkrétnych výskumných problémov spočíva v tom, že umožňuje kvantifikovať skryté parametre, ktoré odrážajú dynamiku dvojproduktových systémov. Pri riešení takýchto problémov sa môžu meniť pojmy interný (produkt prvého druhu) a vonkajší (produkt druhého druhu). V modeli biosyntézy proteínov, ktorý skonštruoval V. M. Glushkov a kol., (1979), teda regulačné a štrukturálne proteíny zohrávajú úlohu produktov typu I a II, myokardiocyty, v tomto poradí, cez koronárne cievy a cez aortu.

Odhad významnosti modelu je daný pomocou kritéria / - a / J2 pre každú rovnicu samostatne.

Predpoklad o význame modelu je založený na dvoch ustanoveniach.

To všetko neuberá na význame modelu. Prirodzene, existencia hudby je nemysliteľná bez iot.

Napokon k maximálnemu obmedzeniu významu zmluvného modelu ako takého prispela skutočnosť, že takmer všetky platné normy v tejto oblasti mali absolútne obligatórny (imperatívny) charakter.

Použitie analýzy rozptylu popri regresnej analýze umožňuje posúdiť nielen významnosť modelu ako celku, ale aj významnosť jednotlivých závislostí.

Z prezentovaných údajov tiež vyplýva, že pri vŕtaní tvrdších hornín je významnosť modelu vyššia. Dôkaz o významnosti získaného modelu potvrdzuje hypotézu o nelineárnej závislosti uvažovaných parametrov.

Napriek úspechom vo vývoji teórie rozhodovania bude zrejme ešte dlho na prechodnom mieste medzi umením – schopnosťou rozhodovať sa, ktorá je vlastná danému rozhodovateľovi – a vedou ako systémom princípov, všeobecných ustanovení. , postupy a metódy. To však neznižuje aktuálnosť knihy: počet systémov človek-počítač bude rásť, dôležitosť rozhodovania v ťažkých situáciách bude rásť a človek bude stále ťažšie riešiť zodpovedajúce problémy pomocou starých ( exaktné a pravdepodobnostné) metódy. Preto význam modelov využívajúcich formalizované neistoty založené na myšlienkach iných ako prípadová matematika môže len narastať.

Pri induktívnom prístupe, ktorý je typický pre proces modelovania v rámci analýzy ekonomickej aktivity, sa model získava zovšeobecnením pozorovaní jednotlivých konkrétnych faktov, ktorých zohľadnenie sa považuje za dôležité pre rozhodovanie. Modely sú vyvinuté induktívnym spôsobom na riešenie špecifických problémov ekonomického riadenia. Modely zahŕňajú zohľadnenie špecifických historicky formovaných vlastností modelovaného procesu. Hlavným problémom zostavovania induktívnych modelov je výber zo súboru jednotlivých pozorovaní tých, ktoré určujú podstatu rozhodnutia, a prezentácia ich štruktúry a vzťahov vo formalizovanej forme. Význam induktívnych modelov spočíva v tom, že prostredníctvom zjednodušeného popisu vzťahov budú informácie obsiahnuté vo veľkom súbore pozorovaní prezentované vo vizuálnej a stručnej forme. Kvalita induktívnych modelov nie je určená presnosťou kopírovania komplexnej reality pomocou symbolických systémov, ale závisí od toho, ako je na jednej strane možné model zjednodušiť tak, aby sa dosiahlo riešenie problému s prijateľnými nákladmi. , ale na druhej strane odrážať základné vlastnosti reality.

Ak tieto druhy pracovných zmlúv stanovujú úroveň miezd, potom keď sa jej trhová úroveň odchýli od úrovne očakávanej pracovníkmi a zamestnávateľmi pri podpise zmluvy, potom by bolo optimálne pre pracovníkov aj zamestnávateľov zmeniť stanovené nominálne mzdy. Preto vzhľadom na neustále sa meniace podmienky na trhu práce by bolo logické predpokladať, že časom takéto dohody zaniknú. Pracovníci a zamestnávatelia prídu na to, že nominálne mzdy je potrebné meniť každý deň, čo povedie k elastickej variabilite nominálnych miezd v súlade s dynamikou ponuky a dopytu na trhu práce. V skutočnosti je táto kritika potvrdená prudkým poklesom odborovej činnosti v priemysle USA koncom 70. a 80. rokov. Samozrejme, pracovníci mimo odborov majú často formálne alebo neformálne pracovné zmluvy so zamestnávateľmi, ale niektorí ekonómovia sa domnievajú, že tento pokles členstva v odboroch je potvrdením klesajúcej relevantnosti modelu kolektívneho vyjednávania pre americkú ekonomiku.

Cvičenie... Pre územia kraja sú uvedené údaje pre 199X;
Číslo regiónu Priemerné životné minimum na obyvateľa na deň jedného práceschopného pracovníka, rubľov, NS Priemerná denná mzda, ruble, pri
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Požadovaný:
1. Zostrojte lineárnu rovnicu párovej regresie y z x.
2. Vypočítajte lineárny párový korelačný koeficient a priemernú chybu aproximácie.
3. Posúďte štatistickú významnosť regresných a korelačných parametrov.
4. Realizovať prognózu miezd y pri prognózovanej hodnote priemerného životného minima na obyvateľa x, čo je 107 % priemernej úrovne.
5. Posúďte presnosť prognózy výpočtom chyby prognózy a jej intervalu spoľahlivosti.

Riešenie nájsť pomocou kalkulačky.
Pomocou grafickej metódy .
Táto metóda slúži na vizualizáciu formy prepojenia medzi skúmanými ekonomickými ukazovateľmi. Na tento účel sa graf vykreslí v pravouhlom súradnicovom systéme, jednotlivé hodnoty efektívneho atribútu Y sa vynesú pozdĺž osi y a jednotlivé hodnoty atribútu faktora X sa vynesú pozdĺž osi x.
Množina bodov efektívneho a faktoriálneho znamienka sa nazýva korelačné pole.
Na základe korelačného poľa možno predpokladať (pre všeobecnú populáciu), že vzťah medzi všetkými možnými hodnotami X a Y je lineárny.
Rovnica lineárnej regresie je y = bx + a + ε
Tu je ε náhodná chyba (odchýlka, porucha).
Dôvody existencie náhodnej chyby:
1. Nezačlenenie významných vysvetľujúcich premenných do regresného modelu;
2. Agregácia premenných. Napríklad funkcia celkovej spotreby je pokusom o všeobecné vyjadrenie súhrnu rozhodnutí jednotlivých jednotlivcov o výdavkoch. Ide len o priblíženie jednotlivých pomerov, ktoré majú rôzne parametre.
3. Nesprávny popis štruktúry modelu;
4. Nesprávna funkčná špecifikácia;
5. Chyby merania.
Keďže odchýlky ε i pre každé špecifické pozorovanie i sú náhodné a ich hodnoty vo vzorke nie sú známe, potom:
1) z pozorovaní x i a y i len odhady parametrov α a β
2) Odhady parametrov α a β regresného modelu sú hodnoty a a b, ktoré sú náhodného charakteru, pretože zodpovedajú náhodnej vzorke;
Potom bude mať odhadnutá regresná rovnica (zostavaná zo vzorových údajov) tvar y = bx + a + ε, kde ei sú pozorované hodnoty (odhady) chýb ε i, respektíve b, odhady parametrov α. a β regresného modelu, ktorý by sa mal nájsť.
Na odhad parametrov α a β sa používa metóda najmenších štvorcov.
Systém normálnych rovníc.
Pre naše údaje má sústava rovníc tvar
Z prvej rovnice vyjadríme a a dosadíme do druhej rovnice
Dostaneme b = 0,92, a = 76,98
Regresná rovnica:
y = 0,92 x + 76,98

1. Parametre regresnej rovnice.
Vybrané priemery.



Ukážkové odchýlky:


Smerodajná odchýlka


Korelačný koeficient
Vypočítame ukazovateľ tesnosti komunikácie. Tento ukazovateľ je selektívny lineárny korelačný koeficient, ktorý sa vypočíta podľa vzorca:

Koeficient lineárnej korelácie nadobúda hodnoty od –1 do +1.
Spojenie medzi znakmi môže byť slabé a silné (úzke). Ich kritériá sa hodnotia na Chaddockovej stupnici:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
V našom príklade je vzťah medzi priemernou dennou mzdou a priemerným životným minimom na obyvateľa vysoký a priamy.
1.2. Regresná rovnica(odhad regresnej rovnice).

Rovnica lineárnej regresie je y = 0,92 x + 76,98
Koeficienty rovníc lineárna regresia môžete mať ekonomický zmysel.
Koeficient b = 0,92 vyjadruje priemernú zmenu efektívneho ukazovateľa (v jednotkách y) so zvýšením alebo znížením hodnoty faktora x na jednotku jeho merania. V tomto príklade so zvýšením o 1 rubeľ. priemer životného minima na obyvateľa na deň sa priemerná denná mzda zvyšuje v priemere o 0,92.
Koeficient a = 76,98 formálne ukazuje predpokladanú úroveň priemernej dennej mzdy, ale iba ak sa x = 0 približuje k vzorkovaným hodnotám.
Nahradením príslušných hodnôt x do regresnej rovnice môžete určiť zarovnané (predpovedané) hodnoty efektívneho indikátora y (x) pre každé pozorovanie.
Vzťah medzi priemernou dennou mzdou a priemerným životným minimom na obyvateľa na deň určuje znamienko regresného koeficientu b (ak > 0 - priama závislosť, inak - inverzná). V našom príklade je spojenie priame.
Koeficient elasticity.
Je nežiaduce použiť regresné koeficienty (v príklade b) na priame posúdenie vplyvu faktorov na efektívny ukazovateľ, ak existuje rozdiel v merných jednotkách efektívneho ukazovateľa y a faktorového ukazovateľa x.
Na tieto účely sa vypočítajú koeficienty elasticity a beta. Koeficient elasticity sa zistí podľa vzorca:


Ukazuje, o koľko percent sa v priemere zmení efektívny atribút y, keď sa atribút faktora x zmení o 1 %. Neberie do úvahy mieru variability faktorov.
Koeficient elasticity je menší ako 1. Ak sa teda priemer životného minima na obyvateľa za deň zmení o 1 %, priemerná denná mzda sa zmení o menej ako 1 %. Inými slovami, vplyv priemerného životného minima na obyvateľa X na priemernú dennú mzdu Y nie je významný.
Beta koeficient ukazuje, o akú časť hodnoty svojej smerodajnej odchýlky sa v priemere zmení hodnota efektívneho ukazovateľa, keď sa faktorový ukazovateľ zmení o hodnotu svojej smerodajnej odchýlky s hodnotou zostávajúcich nezávislých premenných zafixovaných na konštantnej úrovni:

Tie. zvýšenie x o hodnotu smerodajnej odchýlky tohto ukazovateľa povedie k zvýšeniu priemernej dennej mzdy Y o 0,721 smerodajnej odchýlky tohto ukazovateľa.
1.4. Chyba aproximácie.
Odhadnime kvalitu regresnej rovnice pomocou absolútnej chyby aproximácie.


Keďže chyba je menšia ako 15 %, potom sa táto rovnica môže použiť ako regresia.
Koeficient determinácie.
Druhá mocnina (viacnásobného) korelačného koeficientu sa nazýva koeficient determinácie, ktorý ukazuje podiel variácie v efektívnej vlastnosti vysvetlenej variáciou vo faktorovej vlastnosti.
Najčastejšie sa pri interpretácii koeficientu determinácie vyjadruje v percentách.
R2 = 0,722 = 0,5199
tie. v 51,99 % prípadov vedú zmeny priemerného životného minima na obyvateľa x k zmene priemernej dennej mzdy y. Inými slovami, presnosť prispôsobenia regresnej rovnice je priemerná. Zvyšných 48,01 % zmeny priemernej dennej mzdy Y je vysvetlených faktormi, ktoré model nezohľadnil.

X r x 2 y 2 x o y y (x) (y i -y cp) 2 (y-y (x)) 2 (x i - x cp) 2 | y - y x |: y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Odhad parametrov regresnej rovnice.
2.1. Význam korelačného koeficientu.

Podľa Študentovej tabuľky s hladinou významnosti α = 0,05 a stupňami voľnosti k = 10 zistíme t krit:
t krit = (10; 0,05) = 1,812
kde m = 1 je počet vysvetľujúcich premenných.
Ak je t obs> t kritické, potom sa získaná hodnota korelačného koeficientu považuje za významnú ( nulová hypotéza, ktorý tvrdí rovnosť korelačného koeficientu na nulu, sa zamieta).
Keďže t obs> t crit, odmietame hypotézu, že korelačný koeficient sa rovná 0. Inými slovami, korelačný koeficient je štatisticky významný.
Pri párovej lineárnej regresii t 2 r = t 2 b a potom testovanie hypotéz o významnosti regresných a korelačných koeficientov je ekvivalentné testovaniu hypotézy o významnosti lineárna rovnica regresia.

2.3. Analýza presnosti určenia odhadov regresných koeficientov.
Nezaujatý odhad rozptylu porúch je hodnota:


S 2 y = 157,4922 - nevysvetliteľný rozptyl (miera rozptylu závislej premennej okolo regresnej priamky).

12.5496 - štandardná chyba odhady (štandardná chyba regresie).
S a - štandardná odchýlka náhodná premenná a.


S b - smerodajná odchýlka náhodnej premennej b.


2.4. Intervaly spoľahlivosti pre závislú premennú.
Ekonomické prognózovanie založené na skonštruovanom modeli predpokladá, že už existujúce vzťahy premenných sa zachovajú počas obdobia predstihu.
Na predikciu závislej premennej efektívneho ukazovateľa je potrebné poznať predpovedané hodnoty všetkých faktorov zahrnutých v modeli.
Predikované hodnoty faktorov sa dosadia do modelu a získajú sa bodové prediktívne odhady študovaného ukazovateľa.
(a + bx p ± ε)
kde

Vypočítajme hranice intervalu, v ktorom bude 95% možných hodnôt Y sústredených neobmedzene Vysoké číslo pozorovania a X p = 94

(76,98 + 0,92 * 94 ± 7,8288)
(155.67;171.33)
S pravdepodobnosťou 95% je možné zaručiť, že hodnoty Y pre neobmedzený počet pozorovaní nepresiahnu nájdené intervaly.
2.5. Testovanie hypotéz o koeficientoch rovnice lineárnej regresie.
1) t-štatistika. Študentské kritérium.
Otestujme hypotézu H 0 o rovnosti jednotlivých regresných koeficientov na nulu (pričom alternatíva H 1 nie je rovnaká) na hladine významnosti α = 0,05.
t krit = (10; 0,05) = 1,812


Keďže 3,2906> 1,812 je potvrdená štatistická významnosť regresného koeficientu b (zamietame hypotézu, že tento koeficient je nulový).


Keďže 3,1793> 1,812 je potvrdená štatistická významnosť regresného koeficientu a (zamietame hypotézu, že tento koeficient je nulový).
Interval spoľahlivosti pre koeficienty regresnej rovnice.
Stanovme intervaly spoľahlivosti regresných koeficientov, ktoré budú so spoľahlivosťou 95 % nasledovné:
(b - t krit S b; b + t krit S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang = SV> a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
S pravdepodobnosťou 95% možno tvrdiť, že hodnota tento parameter bude ležať v nájdenom intervale.
2) F-štatistika. Fisherovo kritérium.
Kontrola významnosti regresného modelu sa uskutočňuje pomocou Fisherovho F-testu, ktorého vypočítanú hodnotu zistíme ako pomer rozptylu počiatočnej série pozorovaní študovaného ukazovateľa a nezaujatého odhadu rozptylu reziduálneho ukazovateľa. poradie pre tento model.
Ak je vypočítaná hodnota s k1 = (m) a k2 = (n-m-1) stupňami voľnosti väčšia ako tabuľková hodnota pri danú úroveň význam, potom sa model považuje za významný.

kde m je počet faktorov v modeli.
Štatistická významnosť párovej lineárnej regresie sa odhaduje pomocou nasledujúceho algoritmu:
1. Predkladá sa nulová hypotéza, že rovnica ako celok je štatisticky nevýznamná: H 0: R 2 = 0 na hladine významnosti α.
2. Ďalej sa určí skutočná hodnota F-kritéria:


kde m = 1 pre párovú regresiu.
3. Tabuľková hodnota sa určí z Fisherových distribučných tabuliek pre danú hladinu významnosti, pričom sa berie do úvahy, že počet stupňov voľnosti pre celková sumaštvorcov (väčší rozptyl) je 1 a počet stupňov voľnosti reziduálneho súčtu štvorcov (menší rozptyl) pri lineárnej regresii je n-2.
4. Ak je skutočná hodnota F-kritéria menšia ako tabuľková, potom hovoria, že nie je dôvod zamietnuť nulovú hypotézu.
V opačnom prípade sa nulová hypotéza zamietne a prijme sa alternatívna hypotéza o štatistickej významnosti rovnice ako celku s pravdepodobnosťou (1-α).
Tabuľková hodnota kritéria so stupňami voľnosti k1 = 1 ak2 = 10, Fkp = 4,96
Keďže skutočná hodnota F> Fkp, koeficient determinácie je štatisticky významný (zistený odhad regresnej rovnice je štatisticky spoľahlivý).

Výpočet parametrov a konštrukcia regresných modelov

Korelačná analýza

Jeho účelom je definovať charakter spojenia(dopredu, dozadu) a pevnosť väzby(neexistuje žiadne spojenie, spojenie je slabé, stredné, viditeľné, silné, veľmi silné, úplné spojenie). Korelačná analýza vytvára informácie o povahe a závažnosti vzťahu (korelačný koeficient), ktorý slúži na výber významných faktorov, ako aj na plánovanie efektívnej postupnosti výpočtu parametrov regresných rovníc. S jedným faktorom sa vypočíta korelačný koeficient a za prítomnosti niekoľkých faktorov sa zostaví korelačná matica, z ktorej sú objasnené dva typy vzťahov: (1) vzťah závislej premennej s nezávislou, (2 ) vzťah medzi nezávislými.

Zohľadnenie matice umožňuje po prvé, identifikovať faktory skutočne ovplyvňujúce skúmanú závislú premennú a zostaviť (zoradiť) ich v zostupnom poradí vzťahu; po druhé, minimalizovať počet faktorov v modeli s vylúčením niektorých faktorov, ktoré silne alebo funkčne súvisia s inými faktormi ( prichádza o vzťahu nezávislých premenných navzájom).

Je známe, že v praxi najspoľahlivejšie sú jedno- a dvojfaktorové modely.

Ak sa zistí, že dva faktory majú medzi sebou silné alebo úplné prepojenie, potom v regresná rovnica bude stačiť zahrnúť jeden z nich.

Tu sa snažia nájsť čo najviac presné opatrenie identifikovaný vzťah, aby bolo možné predpovedať, predpovedať hodnoty závislej veličiny Y, ak sú známe hodnoty nezávislých veličín X 1, X 2, .... X n

Toto opatrenie je vyjadrené všeobecne matematický model lineárna viacnásobná regresia:

Y = a 0 + b 1 X 1 + b 2 X 2 + ... + b n X n

Počítač vypočíta parametre modelu: voľný termín 0(konštanta, alebo priesečník) a koeficienty b p(regresné koeficienty). Hodnota pri sa nazýva odpoveď a X 1, X 2, ..., X n- faktory alebo prediktory.

Po získaní každej verzie rovnice je povinným postupom posúdiť jej štatistickú významnosť, od r hlavným cieľom- získať rovnicu najvyššej významnosti. Avšak vzhľadom na to, že výpočty sú vykonávané počítačom a výskumník sa rozhoduje na základe posúdenia významnosti rovnice (prijať alebo zahodiť rovnicu), môže byť tretím stupňom tejto technológie človek-stroj. konvenčne rozlišovaný ako inteligentný nestrojový stupeň, pre ktorý Takmer všetkyúdaje o vyhodnotení významnosti rovnice pripravuje počítač.

Štatistická významnosť to znamená vhodnosť postulovaného modelu na použitie pri predpovedaní hodnôt odozvy. Na posúdenie kvality výsledného modelu program aj počítal celý riadok koeficienty, ktoré je výskumník povinný zvažovať, porovnávať ich so známymi štatistickými kritériami a hodnotiť model z hľadiska zdravého rozumu.



V tejto fáze výlučne dôležitá úloha koeficient determinácie a F-kritérium významnosti regresnej hry.

R na druhú(R 2) - koeficient determinácie - je druhá mocnina viacnásobného korelačného koeficientu medzi pozorovanou hodnotou Y a jeho teoretická hodnota vypočítaná na základe modelu s určitú množinu faktory. Koeficient determinácie meria platnosť modelu. Môže nadobúdať hodnoty od 0 do 1. Táto hodnota je užitočná najmä pri porovnávaní série rôzne modely a výber najlepšieho modelu.

R2 je zlomok variácie predpovedanej (teoretickej) hodnoty Y vo vzťahu k pozorovaným hodnotám Y, vysvetlený faktormi zahrnutými v modeli. Je veľmi dobré, ak R2>= 80 %. Zvyšok teoretických hodnôt Y závisí od iných faktorov, ktoré sa nezúčastnili modelu. Úlohou výskumníka je nájsť faktory, ktoré sa zvyšujú R 2, k poskytnúť vysvetlenie variácií prognózy s cieľom získať dokonalá rovnica... Avšak koeficient R 2 nanajvýš môže dosiahnuť hodnotu 1 (alebo 100 %), keď sú všetky hodnoty faktorov odlišné. A ak sú v dátach opakované experimenty, tak hodnota R 2 nemôže dosiahnuť 1, bez ohľadu na to, aký dobrý je model. Preto by sa pred spustením regresného výpočtu mali z pôvodnej tabuľky odstrániť duplicitné údaje. Niektorí softvérové ​​balíky automaticky odstrániť duplikát a ponechať iba jedinečné údaje. Opakovanie rovnakých údajov znižuje spoľahlivosť modelových odhadov. R2 = 1 iba ak sú experimentálne (pozorované) a teoretické (vypočítané) údaje v plnej zhode, t. j. ak sa teoretické hodnoty presne zhodujú s pozorovanými. To sa však považuje za vysoko nepravdepodobnú udalosť.

Prostriedkom regresná analýza, vrát. Excel, vypočítané F-test významnosti regresie pre rovnicu ako celok. Ide o vypočítanú hodnotu z pozorovaných údajov. Fp (F vypočítané, pozorované) by sa mali porovnať s príslušnou kritickou hodnotou Fk, (F kritické, tabuľkové) (pozri prílohu A). Výskumník vyberie Fk z publikovaných štatistických tabuliek na danej úrovni pravdepodobnosti (pri ktorej boli parametre modelu vypočítané napr. 95 %).

Ak pozorovaná hodnota Fp bude menej kritický Fk, potom rovnicu nemožno považovať za významnú. V inej terminológii možno povedať to isté: nulová hypotéza o významnosti všetkých regresných koeficientov v postulovanom modeli nie je zamietnutá, t.j. koeficienty sú prakticky nulové.

Elektronická technológia korelačno-regresná analýza sa stáva úplne zbytočnou, ak vypočítané údaje nie sú celkom správne interpretované.

Ak je výsledný model štatisticky významný, používa sa na predikciu (predikciu), kontrolu alebo vysvetlenie.

Ak sa zistí nevýznamnosť, potom sa model zamietne za predpokladu, že bude pravdivá nejaká iná forma spojenia, ktorú treba hľadať.