Veľká encyklopédia ropy a zemného plynu. Kritériá hodnotenia kvality regresného modelu alebo ktorý model je dobrý a ktorý je lepší

  • 03.05.2019

Postavený na základe regresných rovníc, začína testovaním významnosti každého regresného koeficientu pomocou Studentovho t-testu

Dá sa ukázať, že pre párový lineárny model sú obe metódy testovania významnosti pomocou F- a /-kritérií ekvivalentné, pretože tieto kritériá sú spojené vzťahom F = /2.

Ak nie sú dodržané základné predpoklady LSM, je potrebné opraviť model zmenou jeho špecifikácie, pridať (vylúčiť) niektoré faktory, transformovať počiatočné údaje, aby sa získali odhady regresných koeficientov, ktoré majú vlastnosť nezaujatosti, mať nižšia hodnota rozptyly rezíduí, a preto poskytujú efektívnejší štatistický test významnosti regresných parametrov. Tomuto cieľu, ako už bolo naznačené, slúži aj aplikácia zovšeobecnenej metódy najmenších štvorcov, na ktorú sa obraciame v časti 3.11.

Navrhované metódy informačného modelovania technologických reťazcov a operácií implementované v príslušných metódach sa formou nelíšia od korelačno-regresnej analýzy. Výpočet a zdôvodnenie modelov sa vykonáva podľa klasický vzor riešenie sústav rovníc, odhadovanie významnosti koeficientov, kontrola identity modelu. Typické sú úlohy riešené pomocou modelov, vyhodnocovanie vzťahov medzi parametrami technologického procesu, identifikácia parametrov, ktoré majú najvyššiu normatívnosť alebo vplyv na ostatné parametre a možnosť výpočtu medzioperačných tolerancií. Informačné modely sú však z hľadiska riadenia procesov jednoduchšie, stručnejšie, a preto prijateľnejšie pre účely riadenia.

Musíme sa rozhodnúť, či bude test významnosti „jednostranný“ alebo „dvojstranný“. Toto rozhodnutie treba urobiť skôr, ako budú známe výsledky priznania. Výber je určený teoretickým zdôvodnením modelu vzťahu X a Y, ktorý sa testuje pomocou refesie.

Testovanie významnosti upravenej P2 je zároveň testom významnosti vzťahu medzi závislou premennou Y a niektorou z nezávislých premenných X,-. Ak má regresný model vysoký stupeň vysvetlenia vzniku vzťahu, zmena závislej premennej je spôsobená zmenami v nezávislých premenných a súčty štvorcových odchýlok vysvetlených regresiou (SDR) budú byť relatívne väčší ako zvyškový súčet štvorcových odchýlok (RMS). Ak má model nízky stupeň vysvetlenia, zmena závislej premennej je spôsobená zmenou hodnoty chyby a SD bude relatívne väčšia ako TFR.

Na kontrolu významnosti (vhodnosti) výslednej regresnej rovnice sa používajú špeciálne techniky. Takýto test sa nazýva test primeranosti modelu.

Vysvetlite podstatu a metódy bivariačnej regresnej analýzy a opíšte model, postupy odhadu parametrov, normalizáciu regresného koeficientu, testy významnosti, postup na určenie presnosti prognózy, zvyškovú analýzu a krížovú validáciu modelu.

Ahoj) V snahe do určitej miery vyriešiť nedostatky opísané v bodoch (i) a (it) môžeme vytvoriť predpovedný model zo skráteného súboru dostupných historických údajov. Napríklad, ak máme údaje o predaji za obdobie 1990-1997, môžeme zostaviť model založený len na hodnotách za roky 1990-1996. Ostatné údaje, t. j. údaje za rok 1997, možno použiť na porovnanie s údajmi prognózy získanými pomocou tohto modelu. Tento druh overovania je realistickejší, pretože v skutočnosti modeluje predpovedanú situáciu. Nevýhodou tejto metódy je, že z procesu generovania pôvodného modelu sú vylúčené najnovšie, a teda najvýznamnejšie ukazovatele.

Zoznam by mohol pokračovať, vymenovali sme len niektoré z možných faktorov. Po analýze a preverení významnosti všetkých faktorov sa vyberú tie najvýznamnejšie, ktoré by mali byť zahrnuté do multifaktoriálneho korelačného ekonomického a matematického modelu na určenie potreby bezkoľajových elektrických vozidiel. Aplikácia takejto metódy výpočtu je uvedená v tento prípad najvhodnejšie. Pri dlhodobom predpovedaní treba brať do úvahy aj faktory vedecko-technického pokroku, ktorých metodika určovania a účtovania je široko popísaná v.

Testovanie predložených hypotéz poskytlo značné množstvo zaujímavých a kontroverzných výsledkov, ktoré často naznačovali prítomnosť vzťahov, ktoré boli inverzné k tým, ktoré sa predpokladali. Regresný model zobrazuje všetky vzťahy, ktoré sa ukázali ako dostatočne významné vo vzťahu k hlavnej závislej premennej, t.j. pomocou metód aktívneho transferu technológií.

Najdôležitejším rozhodnutím, ktoré musí analytik urobiť, je výber súboru premenných na opis modelovaného procesu. Aby ste si predstavili možné vzťahy medzi rôznymi premennými, musíte dobre pochopiť podstatu problému. V tomto ohľade bude veľmi užitočné porozprávať sa so skúseným odborníkom v tejto oblasti. Pokiaľ ide o premenné, ktoré ste si vybrali, musíte pochopiť, či sú významné samy osebe, alebo či jednoducho odrážajú iné, skutočne významné premenné. Testovanie významnosti zahŕňa analýzu krížovej korelácie. Môže sa použiť napríklad na identifikáciu časového vzťahu, ako je oneskorenie (lag) medzi dvoma sériami. Rozsah, v akom je možné jav opísať lineárnym modelom, sa testuje pomocou regresie najmenších štvorcov (OLS). Nezrovnalosť R získaná po optimalizácii môže nadobudnúť hodnoty od 0 (úplný nesúlad) do 1 (presná zhoda). Často sa stáva, že pre lineárne systémy Metóda OLS poskytuje nasledujúce výsledky

Vo všeobecnosti môžeme povedať, že predspracovanie prostredníctvom vytvorenia množiny premenných a kontroly ich významnosti výrazne zlepšuje kvalitu modelu. Ak nie sú k dispozícii žiadne teoretické testovacie metódy, premenné je možné zvoliť metódou pokusu a omylu alebo formálnymi metódami, ako je napr genetické algoritmy , .  

Ďalšou známou technikou je mazanie spojení v príliš prepojenom grafe s cieľom študovať správanie systému a jeho prvkov v nových podmienkach. Stabilita systému môže znamenať platnosť hypotézy. Rozhodnutie o zničení toho či onoho spojenia modelu možno urobiť buď na základe kritéria štatistickej významnosti, alebo na základe ľubovoľne nastaveného prahového kritéria pre hodnotu koeficientu kauzálneho vplyvu. Overenie správnosti hypotéz a správnosti modelu by malo byť jeho potvrdením pri testovaní na kontrolných údajoch.

Ako je znázornené na obr. 6.3, v prípade pravdepodobnostných modelov, výpočtom regresných koeficientov pomocou výrazov (6.7) a (6.8) dáva jeden odhad hodnoty Y, t.j. E(Yt). Predpokladá sa tiež, že odhady regresných koeficientov sú normálne rozdelené. Potrebujeme poznať štatistickú významnosť týchto koeficientov. Táto úloha sa rieši kontrolou, či sa regresné koeficienty výrazne líšia od nuly.

Z Kaldorovej analýzy v jeho článku Model ekonomického rastu sa zdá byť jasné, že sw a Sp považuje (na prvú aproximáciu) za konštanty počas dlhých časových období. Je samozrejme možné, že Kaldorova teória by mohla byť empiricky platná, aj keď sa sp a s často menia. V tomto prípade bude testom teórie pozorovanie dynamiky kovariancie sp/sw a I/Y. Nemáme však pozorovania sp a sw v rôznych časových bodoch, a preto, ak sa teória testuje na časových radoch, je potrebné predpokladať, že sw a sp sú konštantné. Samozrejme, je tiež možné, že keď budú dostupné relevantné údaje, táto teória môže byť užitočná pri vysvetľovaní medzinárodných alebo medziregionálnych zmien relatívnych podielov, bez ohľadu na časové výkyvy v sp a s,.

V dôsledku vyššie uvedeného budú všetky závery vyvodené z príslušných t- a F-štatistik, ako aj intervalových odhadov nespoľahlivé. Preto štatistické závery získané s štandardné kontroly kvalita odhadov môže byť chybná a viesť k nesprávnym záverom o skonštruovanom modeli. Je pravdepodobné, že štandardné chyby koeficientov budú podhodnotené, a teda t-štatistika bude nadhodnotená. To môže viesť k uznaniu koeficientov ako štatisticky významných, ale v skutočnosti nie sú.

Vo všeobecnosti, keď hovoríme o rozdelení časového intervalu na časti, poznamenávame, že je to potrebné v prípadoch, keď sa hodnoty parametrov v priebehu času zmenili (čo porušilo predpoklad lineárneho regresného modelu o ich invariantnosti). Ak sa zmenili viac-menej náhle, potom po vydelení časového intervalu okamihmi takýchto "skokov" je možné ho rozdeliť na niekoľko intervalov, z ktorých každý bol splnený predpoklady modelu. štatistická významnosť rozdiely koeficientov

Pomerne často sa hypotéza konvergencie neoklasického modelu rastu testuje na príklade regiónov jednej krajiny. Aj keď môžu existovať rozdiely medzi regiónmi z hľadiska technologického rozvoja, preferencií atď., tieto rozdiely budú podstatne menej významné ako rozdiely medzi krajinami. Preto je pravdepodobnosť absolútnej konvergencie medzi regiónmi oveľa vyššia ako medzi krajinami. Zároveň, keď sa regióny používajú na testovanie hypotézy absolútnej konvergencie, dochádza k porušeniu dôležitého predpokladu neoklasického modelu rastu – uzavretej ekonomiky. Je zrejmé, že kultúrne, jazykové, inštitucionálne a formálne bariéry pohybu faktorov sú pre skupinu regiónov jednej krajiny menej významné. Ukazuje sa však, že aj v prípade mobility faktorov, a teda porušenia predpokladov pôvodného modelu, dynamické vlastnosti uzavretej ekonomiky a ekonomiky s voľným

Odhadované koeficienty sú štatisticky významné, koeficient determinácie vysoký, test primeranosti neodhalí porušenie štandardných predpokladov klasického lineárneho regresného modelu.

Treba si uvedomiť, že nie celkom vydarený preklad do ruštiny termínu dummy variables as a dummy variable. Po prvé, v modeli regresnej analýzy už máme fiktívnu premennú X s koeficientom Po> vždy rovný jednej. Po druhé, a čo je najdôležitejšie, všetky postupy regresnej analýzy (odhad parametrov regresného modelu, kontrola významnosti jeho koeficientov atď.) sa vykonávajú so zahrnutím fiktívnych premenných rovnakým spôsobom ako bežné kvantitatívne vysvetľujúce premenné. Fiktívnosť premenných 2/ spočíva len v tom, že kvantitatívne opisujú kvalitatívny znak.

Okrem kontroly významnosti celého modelu je potrebné otestovať významnosť regresných koeficientov pomocou Studentovho /-testu. Minimálna hodnota regresného koeficientu bg musí zodpovedať podmienke bifob-t, kde bi je hodnota koeficientu regresnej rovnice v prirodzenom meradle so znamienkom i-tého faktora ab. - stredná kvadratická chyba každého koeficientu.

Vráťme sa k všeobecnému (negaussovskému) prípadu. Prax viacrozmernej štatistickej analýzy ukázala, že parciálne korelačné koeficienty definované vzťahmi (1.22) - (1.23) sú spravidla uspokojivými mierami prečisteného lineárneho vzťahu medzi x(1) a s pevnými hodnotami zostávajúcich hodnôt. premenných a v prípade, že sa rozdelenie analyzovaných ukazovateľov ((0), x(l ..., x(p>) líši od normálneho.) Po určení pomocou vzorca (1.22) koeficient parciálnej korelácie v v prípade akéhokoľvek počiatočného rozdelenia vlastností (x(0 x(1 . .., x( p))), zahrňme ho do všeobecného matematického súboru nástrojov korelačnej analýzy lineárnych modelov... V tomto prípade ich možno interpretovať ako ukazovatele tesnosti vyčisteného spojenia, spriemerované zo všetkých možných hodnôt rušivých premenných stanovených na určitých úrovniach. štatistická významnosť ich rozdielu od nuly, intervaly spoľahlivosti). parciálny korelačný koeficient rádu k (t.j. t. j. pri vylúčení nepriameho vplyvu k interferujúcich premenných treba využiť fakt (pozri napr. ), že je distribuovaný presne rovnakým spôsobom ako obvyklý (párový) korelačný koeficient vzorky medzi rovnakými premennými s jedinou korekciou. , veľkosť vzorky by sa mala zmenšiť o k jednotiek, t.j. predpokladajme, že sa rovná n - a nie n. Takže

Pre probitové alebo/testovacie hypotézy o prítomnosti obmedzení na koeficienty, najmä hypotézy o významnosti jedného alebo skupiny koeficientov, je možné vykonať pomocou ktoréhokoľvek z troch testov – Wald, pravdepodobnostný pomer, Lagrangeove multiplikátory, diskutované v kapitole 10 (časť 10.6) . Väčšina ekonometrických balíkov, ktoré implementujú probit- alebo /o

Začnime experiment s predpokladom, že postačuje model obsahujúci iba k hlavných efektov, alebo v terminológii regresnej analýzy máme model prvého rádu. Ak vezmeme saturovaný plán rozlíšenia III, potom môžeme presne prispôsobiť model, ale nemôžeme skontrolovať jeho primeranosť. Ak však (k + 1) nie je násobkom štyroch, plán riešenia krízových situácií III bude nenasýtený, alebo ak (k + 1) je stále násobkom štyroch, možno prijať plán riešenia krízových situácií IV. V oboch prípadoch budeme môcť vyhodnotiť viaceré (zmiešané) prvé interakcie. Ďalej, ak bol duplikovaný jeden alebo viac experimentálnych bodov, nezávisle vyhodnotíme a2 a budeme môcť skontrolovať významnosť našich párových interakcií. Nech sú niektoré interakcie významné a iné nie. Potom môže mať zmysel vziať si model so všetkými interakciami. Aj keď niektoré interakcie nie sú významné, ich minimálny rozptyl nezaujaté odhady najmenších štvorcov sú nenulové (hoci malé). Takže, ak sú všetky faktory kvantitatívne, môžeme namiesto modelu prvého poriadku vziať polynóm druhého rádu (so všetkými párovými interakciami plus dokonalé štvorce). Porovnajte aj s diskusiou v a v , kde je prax kontroly jednotlivé parametre. Takže namiesto toho, aby sme kontrolovali účinky oddelene, môžeme získať ich celkový (kombinovaný) súčet štvorcov a porovnať jeho strednú štvorec s nezávislým odhadom sr2,20

Ak zahodíme hypotézu o správnosti nášho modelu, potom zvyčajne prejdeme k modelu vyššieho rádu 21. To vedie k sekvenčnému plánovaniu. Môžeme začať s plánom veľmi malého počtu experimentov. Potom uvidíme, že návrhy s rozlíšením III sú dobré na skúmanie k faktorov celkovo v N = k + 1 pokusoch, ak N je násobkom štyroch, inak vezmeme ďalší návrh s Nlt násobkom štyroch. Ak AG nie je násobkom štyroch alebo ak existujú nejaké ďalšie experimenty, potom môžeme skontrolovať, či je model prvého rádu adekvátny. Na tento účel môžeme vypočítať nejaké súčty štvorcov interakcií alebo zvyškový súčet štvorcov. nezávislý odhad a2 (z paralelných alebo predbežných experimentov ) môžeme použiť kritérium /""-. A ak sa ukáže, že interakcie sú významné, potom môžeme prejsť na plán rozlíšenia IV. f Našťastie vidíme, že nie je ťažké zostaviť rezolučný plán IV z rezolučného plánu III. Len musíme zopakovať plán rezolúcie III s inverznými znamienkami, t.j. Experimenty NI. Podľa definície plán riešenia IV poskytuje odhady hlavných účinkov, ktoré nie sú zmiešané s interakciami párov. Z plánu riešenia IV teda môžeme spoľahlivo usudzovať, či má nejaký faktor hlavný účinok (za predpokladu, že neexistujú žiadne interakcie). troch alebo viacerých faktorov, tento stav Dá sa to overiť kontrolou primeranosti plánu uvoľňovania IV). Za predpokladu, že tie faktory, ktoré nemajú hlavné účinky, nemajú ani interakcie, potom je celkom možné, že na základe plánu riešenia krízy IV niektoré faktory vylúčime. Menej faktorov znamená, že počet experimentov požadovaných pre experiment sa zníži (porovnaj s tabuľkou 8). Zostávajúce faktory možno preskúmať v pláne riešenia krízových situácií V.

Pripomeňme si (pozri časť 1.4. Kapitola 1), že keďže logitový model je nelineárny model, odhadované koeficienty majú interpretáciu, ktorá sa líši od interpretácie koeficientov v lineárnom modeli. V tomto ohľade v treťom stĺpci tabuľky. Tabuľka 1 zobrazuje hodnoty hraničného účinku pre premenné so štatisticky významnými odhadmi koeficientov, vypočítané ako priemerné hodnoty vysvetľujúcich premenných za uvažované obdobie. Napríklad hodnota marginálneho účinku 0,060 pre fiktívnu premennú na konci obdobia znamená, že ak sa aukcia uskutoční na konci obdobia medzi kontrolami povinných minimálnych rezerv, potom (pri nezmenených ostatných vysvetľujúcich premenných) budú šance, že banka využije časti aukcie sú proti tomu, že banka sa nezúčastní na aukcii navýšenie v priemere o cca 6%.

Posúdiť významnosť parametrov rovnice viacnásobná regresia pomocou Studentovho t-testu. Pripomeň si to významnosť parametrov znamená ich rozdiel od nuly s vysokou mierou pravdepodobnosti. Nulová hypotéza je v tomto prípade tvrdenie

Skutočná hodnota t-testu je určená vzorcom

(2.27)

Vo vzorci (2.27) sa odhad parametra chápe ako regresný koeficient, tak aj voľný člen (pre ). Hodnota smerodajnej odchýlky odhadovaného parametra sa určí ako odmocnina rozptylu vypočítaná podľa vzorca (2.25). Hodnota sa volá štandardná chyba parameter .

Vzorec na odhad regresného koeficientu (t. j. pre ) možno zredukovať na formulár

(2.28)

kde je smerodajná odchýlka výslednej premennej ; je smerodajná odchýlka vysvetľujúcej premennej, ktorá je násobkom koeficientu; je koeficient determinácie zistený pre rovnicu závislosti premennej od premenných vrátane ; je koeficient determinácie zistený pre rovnicu závislosti premennej od iných premenných zahrnutých do uvažovaného viacnásobného regresného modelu.

Teoretická hodnota t-testu sa zistí podľa tabuľky hodnôt Studentovho testu pre hladinu významnosti a a počet stupňov voľnosti. Hladina významnosti a je pravdepodobnosť chyby I. typu, t.j. pravdepodobnosť zamietnutia hypotézy, keď je pravdivá. Spravidla sa a volí rovné 0,1; 0,05 alebo 0,01.

Nulová hypotéza o nevýznamnosti parametra: zamietnutá, ak je nerovnosť splnená

(2.29)

kde je teoretická hodnota študentského kritéria.

Na základe výrazu (2.29) je tiež možné zostaviť interval spoľahlivosti pre odhadovaný parameter:

Výraz (2.30) umožňuje jednak vyhodnotiť významnosť parametra, jednak poskytnúť jeho ekonomickú interpretáciu (ak sa odhaduje regresný koeficient). Je zrejmé, že parameter bude významný, ak interval spoľahlivosti (2,30) nezahŕňa nulu, t.j. s vysokou mierou pravdepodobnosti sa odhadovaný parameter nerovná nule.

Keďže regresný koeficient je absolútnym ukazovateľom sily vzťahu, hranice intervalu spoľahlivosti a preň možno interpretovať aj podobne: s pravdepodobnosťou jedinej zmeny nezávislej premennej, závislej premennej. pri sa nezmení menej ako o , a nie viac ako .

Zvážte výsledky hodnotenia významnosti parametrov napríklad 2.1. Štandardné chyby parametrov sú

Pripomeňme, že pod koreňovým znakom v hranatých zátvorkách je prvok matice, ktorý sa nachádza na priesečníku

výskumné ústavy j-tý riadok a j-tý stĺpec, číslo; sa rovná číslu hodnoteného parametra.

Skutočná hodnota študentského kritéria je

Tabuľková hodnota t-testu pre a hladina významnosti je 2,0153, preto sú všetky parametre okrem voľného termínu významné.

Nájdite hranice intervalov spoľahlivosti pre regresné koeficienty.

Všimnite si, že na základe hodnôt hraníc intervalov spoľahlivosti môžeme vyvodiť rovnaké závery o význame regresných koeficientov (keďže nula nespadá do intervalu spoľahlivosti). Závery v tomto prípade nemôžu byť iné ako pri porovnaní skutočných a tabuľkových hodnôt študentského kritéria, keďže vzorec (2.30) je dôsledkom vzorca (2.29). Uveďme ekonomickú interpretáciu hraníc intervalov spoľahlivosti pre regresné koeficienty.

Koeficient je charakteristikou sily vzťahu medzi objemom daňových príjmov a počtom zamestnancov. Berúc do úvahy hodnoty hraníc intervalu spoľahlivosti pre, možno povedať, že zmena počtu zamestnancov na 1 tisíc ľudí povedie k zmene (s pravdepodobnosťou 0,95 ()) daňových príjmov o najmenej 3,56 milióna rubľov. a nie viac ako 21,34 milióna rubľov. s konštantným objemom zásielok vo výrobe a výrobe energie. Pre ďalšie dva regresné koeficienty sú závery nasledovné.

Zmena objemu zásielok vo výrobe o 1 milión rubľov. povedie k zmene (s pravdepodobnosťou 0,95 ()) daňových príjmov najmenej o 0,028 milióna rubľov. a nie viac ako 0,092 milióna rubľov. s konštantnými hodnotami počtu zamestnancov a výroby energie.

So zmenou výroby energie o 1 milión rubľov. daňové príjmy sa zmenia (s pravdepodobnosťou 0,95 ()) najmenej o 0,13 milióna rubľov. a nie viac ako 0,18 milióna rubľov. s konštantnými hodnotami počtu zamestnancov a objemu zásielok vo výrobných odvetviach.

Ako je uvedené v časti 2.2, pri zostavovaní regresného modelu pomocou centrované premenné regresné koeficienty sa nelíšia od prirodzených regresných koeficientov. Toto tvrdenie platí aj pre hodnotu štandardné chyby regresných koeficientov a následne k skutočným hodnotám Studentovho testu.

Použitím štandardizované premenné mení sa mierka ich merania, čo vedie k iným hodnotám parametrov (štandardizovaným regresným koeficientom) a ich štandardným chybám ako pri pôvodnej regresii. Skutočné hodnoty Studentovho t-testu pre parametre rovnice na štandardizovanej stupnici sa však zhodujú s hodnotami, ktoré boli získané z rovnice na prirodzenom meradle.

Na posúdenie významnosti celej regresnej rovnice ako celku používame Fisherov test (F-test), ktorý sa v tomto prípade nazýva aj všeobecný F-test. Nevýznamnosť regresnej rovnice sa chápe ako súčasná rovnosť nuly (s vysokou mierou pravdepodobnosti) všetkých regresných koeficientov v bežnej populácii:

Skutočná hodnota F-testu je definovaná ako pomer faktoriálnych a reziduálnych súčtov štvorcov vypočítaných regresnou rovnicou a upravených o počet stupňov voľnosti:

(2.31)

kde je faktoriálny súčet štvorcov; je zvyškový súčet štvorcov.

Teoretická hodnota F-kritéria sa zistí podľa tabuľky hodnôt Fisherovho kritéria pre hladinu významnosti α, počet stupňov voľnosti a . Nulová hypotéza je zamietnutá, ak

kde je teoretická hodnota Fisherovho kritéria.

Všimnite si, že ak je model nevýznamný, potom sú z neho vypočítané korelačné ukazovatele tiež nevýznamné. Skutočne, ak

a regresná priamka je rovnobežná s osou x. Okrem toho zo sústavy normálnych rovníc získanej metódou najmenších štvorcov (2.8) vyplýva, že .

Pri nulových hodnotách všetkých regresných koeficientov máme výraz

tie. ak sú všetky regresné koeficienty rovné nule (ich štatistická nevýznamnosť), koeficient determinácie bude tiež rovný nule (štatisticky nevýznamný).

Vzorec (2.31) na výpočet F-kritéria možno transformovať vydelením faktoriálneho a reziduálneho súčtu štvorcov celková sumaštvorce:

Po jednoduché premeny dostaneme výraz

Výpočet všeobecného F-kritéria môže byť formalizovaný vo forme analýzy tabuľky rozptylov (tabuľka 2.2).

Tabuľka 2.2. Analýza štatistickej významnosti modelu viacnásobnej regresie

Zdroje variácií

Počet stupňov voľnosti df

Súčet štvorcov SS

Disperzia na stupeň voľnosti MS = SS/df

Fisherov F-test

skutočná hodnota

tabuľková hodnota pre a = 0,05

Podobnú tabuľku analýzy rozptylu možno vidieť vo výsledkoch počítačového spracovania údajov. Jej rozdiel

z vyššie uvedenej tabuľky je obsah posledného stĺpca. V našom prípade ide o teoretickú hodnotu Fisherovho kritéria. V počítačových verziách je v poslednom stĺpci uvedená hodnota pravdepodobnosti vykonania chyby typu I (zamietnutie správnej nulovej hypotézy), ktorá zodpovedá skutočnej hodnote F-testu. AT excel táto veličina sa nazýva „významnosť F“. Označme hodnotu, ktorú udáva počítač v tabuľke rozptylovej analýzy ako . Jeho význam sa dá interpretovať nasledujúcim spôsobom: ak sa teoretická hodnota F-kritéria rovná jeho skutočnej hodnote, potom pravdepodobnosť chyby prvého druhu (úroveň významnosti) je .

Výberom určitej úrovne významnosti na určenie tabuľkovej hodnoty kritéria sa dohodneme na chybovej hodnote rovnej. Preto, ak , potom skutočná chyba bude menšia ako plánovaná a môžeme hovoriť o význame regresnej rovnice, keď danej úrovni význam.

Skontrolujme štatistickú významnosť regresnej rovnice získanej v príklade 2.1. Skutočná hodnota F-kritéria je

Tabuľková hodnota Fisherovho kritéria pre a = 0,05, počet stupňov voľnosti a je 2,82. Keďže skutočná hodnota F-kritéria je väčšia ako tabuľková hodnota, regresná rovnica je významná s pravdepodobnosťou Preto je významný aj koeficient determinácie, t.j. je veľmi pravdepodobné, že sa bude líšiť od nuly.

Pri použití možnosti "Regresia" v PPP excel pre tento príklad bola získaná nasledujúca tabuľka analýzy rozptylu (tabuľka 2.3).

Tabuľka 2.3. Analýza tabuľky rozptylu získaná použitím možnosti "Regresia" v PPP excel

Skutočná hodnota F-testu je uvedená v predposlednom stĺpci tejto tabuľky. Všimnite si, že jeho hodnota sa líši od vyššie uvedenej v dôsledku chýb zaokrúhľovania. V poslednom stĺpci tabuľky. 2.3 je znázornená pravdepodobnosť chyby I. typu. Rovná sa 1,10224E -12, t.j. 0,0000000000110224. Maximálnu hodnotu tejto pravdepodobnosti sme nastavili na 0,05. Keďže skutočná hodnota pravdepodobnosti chyby typu I je menšia (výrazne menšia) ako nami stanovené maximum, nulová hypotéza o bezvýznamnosti regresnej rovnice treba zamietnuť.

Koeficient determinácie je štatistika, pretože jeho hodnoty sú vypočítané z pozorovaných údajov. Na základe koeficientu determinácie sa skonštruuje štatistický postup, ktorý kontroluje, nakoľko je významný lineárne spojenie medzi faktormi.

Štatistika, ktorá testuje významnosť celej regresnej rovnice, je:

Dostaneme:

Rastúce hodnoty štatistiky zodpovedajú rastúcim hodnotám štatistiky, takže hypotéza, ktorá nie je akceptovaná v =, nie je akceptovaná, ak platí nerovnosť, kde

Pravdepodobnosť chybného zamietnutia hypotézy sa rovná.

Vypočítať kritické hodnoty kedy pre rôzne množstvo pozorovania.

Zvážte jednoduché lineárna regresia, takže

Kritické hodnoty získané v závislosti od počtu pozorovaní:

To znamená, že pri značnom počte pozorovaní sú aj malé odchýlky skutočnej hodnoty od 0 významné pre rozpoznanie štatistickej významnosti regresného koeficientu so zmysluplnou vysvetľujúcou premennou.

Priradenie je rovnaké ako druhá mocnina korelačného koeficientu medzi premennými, rovnaký záver platí aj pre korelačný koeficient:

Zvážte teraz koeficienty determinácie R 2 pre úplný a redukovaný model. V plnom modeli je hodnota R 2 vždy väčšia ako v redukovanom, pretože v úplnom modeli s m vysvetľujúcimi premennými minimalizujeme súčet

nad všetkými hodnotami koeficientov. Pri zvažovaní redukovaného modelu, napríklad bez m-tej vysvetľujúcej premennej, sa hľadá minimum súčtu

pre všetky hodnoty koeficientov, Výsledná minimálna hodnota nemôže byť väčšia ako hodnota získaná minimalizáciou súčtu odchýlok pre všetky hodnoty vrátane hodnôt. Odtiaľ pochádza vlastnosť koeficientu.

Pre pohodlie postupu pri výbere modelu s jeho použitím sa namiesto toho navrhuje použiť jeho upravenú formu

ktorý zavádza penalizáciu spojenú so zvýšením počtu vysvetľujúcich premenných. Dostaneme:

Za najlepší je teda uznávaný ten z konkurenčných modelov, pre ktorý má maximálnu možnú hodnotu.

Ak sa pri porovnávaní konkurenčných modelov odhad robí pomocou rovnakého počtu pozorovaní, potom porovnávanie modelov vo veľkosti je ekvivalentné porovnávaniu týchto modelov z hľadiska alebo. V tomto prípade sa zvolí alternatívny model s minimálna hodnota(alebo).

Okrem upravených determinačných koeficientov pri výbere jedného z viacerých alternatívne modely sa používajú informačné kritériá, ako je Schwartzovo kritérium, Akaikeho kritérium, „penalizujúce“ za nárast vysvetľujúcich premenných, ale trochu odlišnými metódami.

Kritérium Akaike (Akaike "kritérium informácií-AIC). Pomocou tohto kritéria lineárny model s vysvetľujúcimi faktormi, postavenými na základe pozorovaní, sa porovnáva s hodnotou

Zvyškový súčet štvorcov. Pretože prvý člen klesá s nárastom počtu vysvetľujúcich premenných a druhý člen sa zvyšuje, potom z alternatívnych modelov vyberieme model s najmenšou hodnotou, čím sa dosiahne kompromis medzi reziduálnym súčtom štvorcov a počtom vysvetľujúce faktory.

Schwarzovo kritérium (Schwarz "sinformationcriterion-SC, SIC). Pomocou tohto kritéria sa lineárny model s vysvetľujúcimi faktormi zostavený z pozorovaní porovnáva s hodnotou

A tu, rovnako ako pri použití kritéria Akaike, zvýšenie počtu vysvetľujúcich faktorov vedie k zníženiu prvého termínu na pravej strane a zvýšeniu druhého. Z úplných a zmenšených alternatívnych modelov sa vyberie model s najmenšou hodnotou.

Prednáška 2. Korelačná a regresná analýza. Párová regresia

1. Podstata korelačno-regresnej analýzy a jej úlohy.

2. Definícia regresie a jej typy.

3. Vlastnosti špecifikácie modelu. Dôvody existencie náhodnej premennej.

4. Metódy výberu párovej regresie.

5. Metóda najmenších štvorcov.

6. Indikátory na meranie blízkosti a sily spojenia.

7. Odhady štatistickej významnosti.

8. Predpokladaná hodnota premennej y a intervaly spoľahlivosti prognózy.

1. Podstata korelačno-regresnej analýzy a jej úlohy. Ekonomické javy, ktoré sú veľmi rôznorodé, sa vyznačujú mnohými črtami, ktoré odrážajú určité vlastnosti týchto procesov a javov a podliehajú vzájomne závislým zmenám. V niektorých prípadoch sa ukazuje, že vzťah medzi vlastnosťami je veľmi blízky (napríklad hodinový výkon zamestnanca a jeho mzda), zatiaľ čo v iných prípadoch takýto vzťah nie je vyjadrený vôbec alebo je extrémne slabý (napríklad pohlavie študentov a ich študijné výsledky). Čím užší je vzťah medzi týmito vlastnosťami, tým presnejšie sú prijaté rozhodnutia.

Existujú dva typy závislostí medzi javmi a ich vlastnosťami:

    funkčná (deterministická, kauzálna) závislosť . Nastavuje sa vo forme vzorca, ktorý presne priraďuje každú hodnotu jednej premennej určitú hodnotu iná premenná (zanedbáva sa vplyv náhodných faktorov). Inými slovami, funkčná závislosť je vzťah, v ktorom každej hodnote nezávislej premennej x zodpovedá presne definovaná hodnota závisle premennej y. V ekonómii sú funkčné vzťahy medzi premennými výnimkami zo všeobecného pravidla;

    štatistická (stochastická, nedeterministická) závislosť - ide o spojenie premenných, na ktoré sa superponuje vplyv náhodných faktorov, t.j. ide o vzťah, v ktorom každá hodnota nezávislej premennej x zodpovedá množine hodnôt závislej premennej y, pričom nie je vopred známe, akú hodnotu nadobudne y.

Korelačná závislosť je špeciálnym prípadom štatistickej závislosti.

Korelačná závislosť - ide o vzťah, v ktorom každej hodnote nezávislej premennej x zodpovedá určité matematické očakávanie (priemerná hodnota) závisle premennej y.

Korelačná závislosť je „neúplná“ závislosť, ktorá sa neprejavuje v každom jednotlivom prípade, ale iba v priemerných hodnotách pri dostatočne veľké čísla prípady. Napríklad je známe, že zlepšenie zručností zamestnanca vedie k zvýšeniu produktivity práce. Toto tvrdenie sa v praxi často potvrdzuje, ale neznamená, že dvaja alebo viacerí pracovníci rovnakej kategórie/úrovne, zapojení do podobného procesu, budú mať rovnakú produktivitu práce.

Korelačná závislosť sa skúma pomocou metód korelačnej a regresnej analýzy.

Korelačno-regresná analýza umožňuje stanoviť tesnosť, smer spojenia a formu tohto spojenia medzi premennými, t.j. jeho analytické vyjadrenie.

Hlavná úloha korelačnej analýzy spočíva v kvantitatívnom zisťovaní tesnej súvislosti medzi dvoma znakmi s párovým spojením a medzi efektívnymi a viacerými faktorovými znakmi s multifaktoriálnym spojením a štatistickom hodnotení spoľahlivosti vytvoreného spojenia.

2. Definícia regresie a jej typy. Regresná analýza je hlavným matematickým a štatistickým nástrojom v ekonometrii. Regresia je zvykom nazývať závislosť priemernej hodnoty veličiny (y) od nejakej inej veličiny alebo od viacerých veličín (x i).

V závislosti od počtu faktorov zahrnutých v regresnej rovnici je zvykom rozlišovať jednoduché (párové) a viacnásobné regresie.

Jednoduchá (párová) regresia je model, kde sa stredná hodnota závislej (vysvetlenej) premennej y uvažuje ako funkcia jednej nezávislej (vysvetľujúcej) premennej x. Implicitne je párová regresia modelom tvaru:

Výslovne:

,

kde a a b sú odhady regresných koeficientov.

Viacnásobná regresia je model, v ktorom sa priemerná hodnota závislej (vysvetlenej) premennej y uvažuje ako funkcia niekoľkých nezávislých (vysvetľujúcich) premenných x 1 , x 2 , … x n . Implicitne je párová regresia modelom tvaru:

.

Výslovne:

kde a a b 1 , b 2 , b n sú odhady regresných koeficientov.

Príkladom takéhoto modelu je závislosť mzdy zamestnanca od jeho veku, vzdelania, kvalifikácie, odpracovanej doby, odvetvia a pod.

Pokiaľ ide o formu závislosti, existujú:

      lineárna regresia;

      nelineárnou regresiou, ktorá implikuje existenciu nelineárnych vzťahov medzi faktormi, vyjadrených príslušnou nelineárnou funkciou. Často nelineárne vzhľad modely je možné zredukovať na lineárnu formu, čo umožňuje ich klasifikáciu ako lineárne.

3. Vlastnosti špecifikácie modelu. Dôvody existencie náhodnej premennej. Akákoľvek ekonometrická štúdia začína špecifikácie modelu , t.j. s formuláciou typu modelu, na základe príslušnej teórie vzťahu medzi premennými.

V prvom rade z celej škály faktorov ovplyvňujúcich výsledný znak je potrebné vyčleniť najvýraznejšie ovplyvňujúce faktory. Párová regresia je dostatočná, ak existuje dominantný faktor, ktorý sa používa ako vysvetľujúca premenná. Jednoduchá regresná rovnica charakterizuje vzťah medzi dvoma premennými, ktorý sa ako určitá zákonitosť prejavuje len v priemere za celý súbor pozorovaní. V regresnej rovnici je korelácia reprezentovaná ako funkčná závislosť vyjadrená príslušnou matematickou funkciou. Takmer v každom jednotlivom prípade sa hodnota y skladá z dvoch členov:

,

kde y je skutočná hodnota efektívneho znaku;

- teoretická hodnota efektívneho znaku zistená na základe regresnej rovnice;

náhodná hodnota, ktorý charakterizuje odchýlky reálnej hodnoty efektívneho znaku od teoretickej hodnoty zistenej regresnou rovnicou.

Náhodná hodnota nazývaná aj perturbácia. Zahŕňa vplyv faktorov, ktoré sa v modeli nezohľadňujú, náhodné chyby a vlastnosti merania. Prítomnosť náhodnej premennej v modeli je generovaná tromi zdrojmi:

    špecifikácia modelu,

    selektívny charakter zdrojových údajov,

    vlastnosti meraných premenných.

Chyby špecifikácie budú zahŕňať nielen nesprávna voľba tú či onú matematickú funkciu, ale aj podcenenie akéhokoľvek významného faktora v regresnej rovnici (použitie párovej regresie namiesto násobku).

Spolu s chybami špecifikácie sa môžu vyskytnúť chyby vzorkovania, pretože výskumník sa najčastejšie zaoberá vzorovými údajmi pri vytváraní vzorcov vzťahov medzi funkciami. Chyby pri výbere sa vyskytujú aj v dôsledku heterogenity údajov v počiatočnom štatistickom súbore, čo sa spravidla stáva pri štúdiu ekonomických procesov. Ak je populácia heterogénna, potom regresná rovnica nemá praktický význam. Aby sa dosiahol dobrý výsledok, jednotky s abnormálnymi hodnotami študovaných znakov sú zvyčajne vylúčené z populácie. A v tomto prípade sú výsledky regresie vzorovými charakteristikami. Počiatočné údaje

Avšak najväčšie nebezpečenstvo pri praktickom použití regresných metód predstavujú chyby merania. Ak je možné chyby špecifikácie znížiť zmenou formy modelu (typu matematického vzorca) a chyby výberu vzoriek je možné znížiť zvýšením množstva počiatočných údajov, potom chyby merania prakticky zničia všetky snahy o kvantifikáciu vzťahu medzi znakmi.

4. Metódy výberu párovej regresie. Za predpokladu, že chyby merania sú obmedzené na minimum, ekonometrické štúdie sa zameriavajú na chyby špecifikácie modelu. Pri párovej regresii výber typu matematickej funkcie
možno vykonať tromi spôsobmi:

    grafický;

    analytické, t.j. na základe teórie skúmaného vzťahu;

    experimentálne.

Pri štúdiu vzťahu medzi dvoma vlastnosťami grafická metóda výber typu regresnej rovnice je celkom jasný. Vychádza z korelačného poľa. Hlavné typy kriviek používané pri kvantifikácii vzťahov




Trieda matematické funkcie na opis vzťahu medzi dvoma premennými je pomerne široký, používajú sa aj iné typy kriviek.

Analytická metóda výber typu regresnej rovnice je založený na štúdiu materiálnej podstaty vzťahu študovaných znakov, ako aj na vizuálnom hodnotení povahy vzťahu. Tie. ak hovoríme o Lafferovej krivke, ktorá ukazuje vzťah medzi progresivitou zdaňovania a rozpočtovými príjmami, tak rozprávame sa o parabolickej krivke a v mikroanalýze sú izokvanty hyperboly.

5. Metóda najmenších štvorcov. Lineárna regresia je široko používaná v ekonometrii kvôli jasnej ekonomickej interpretácii jej parametrov a je redukovaná na nájdenie rovnice v tvare:

,

kde x – vysvetľujúca (nezávislá) premenná – nenáhodná hodnota;

y je vysvetlená (závislá) hodnota;

– náhodný člen (regresná chyba);

 a β sú parametre rovnice.

Teoretické hodnoty predstavujú regresnú priamku. Konštrukcia lineárnej regresie sa redukuje na odhad parametrov a a b rovnice
.

Odhady parametrov lineárnej regresie možno nájsť rôznymi spôsobmi.

Metóda najmenších štvorcov (LSM) je klasický prístup k odhadu parametrov lineárnej regresie.

Obráťme sa na pole korelácie.

Z grafu môžete určiť hodnoty parametrov. Parameter a je priesečník regresnej priamky s osou Oy a parameter b sa odhaduje na základe sklonu regresnej priamky. , kde dy je prírastok súčiniteľa y a dx je prírastok súčiniteľa x.

LSM vám umožňuje získať také odhady parametrov a a b, v ktorých je súčet štvorcových odchýlok skutočných hodnôt efektívnej funkcie y od vypočítaných (teoretických) hodnôt minimum:

Tie. regresná priamka sa volí tak, aby súčet druhých mocnín vertikálnych vzdialeností medzi bodmi a touto priamkou bol minimálny.

kde
.

Vypočítajme parciálne derivácie vzhľadom na každý z parametrov a a b.

Vydeľte obe strany rovníc n a získajte sústavu rovníc, z ktorej možno vypočítať oba parametre.

Na nájdenie parametra b možno z LSM získať ďalšie dva vzorce:

1.

2.
alebo

Odhad parametra a sa nachádza vo všetkých prípadoch rovnakým spôsobom:

.

Parameter b sa nazýva regresný koeficient a ukazuje, o koľko jednotiek sa v priemere zmení premenná y, keď sa premenná x zvýši o 1 jednotku. Znamienko pri regresnom koeficiente ukazuje smer spojenia: pri b< 0 – связь обратная, при b >0 - priame spojenie.

Parameter a je formálne hodnotou y pri x = 0. Ak x nemá alebo nemôže mať hodnotu nula, potom a nemá žiadny význam. Môže a nemusí to dávať ekonomický zmysel. Keď<0 экономическая интерпретация может оказаться абсурдной.

Môžete interpretovať znamienko pre parameter a. Ak a>0, potom je relatívna zmena výsledku pomalšia ako zmena faktora. Ak<0, то изменение результата опережает изменение фактора.

6. Indikátory merania blízkosti a sily spojenia. Regresná rovnica je vždy doplnená o indikátor tesnosti spoja.

Kvalita párovej regresie sa určuje pomocou párového lineárneho korelačného koeficientu:

alebo

,

kde
,

– štandardné odchýlky, ktoré zobrazujú rozptyl hodnôt v množine hodnôt x a y. Veľká hodnota štandardnej odchýlky ukazuje veľký rozptyl hodnôt v prezentovanom súbore s priemernou hodnotou súboru; malá hodnota znamená, že hodnoty v súbore sú zoskupené okolo priemernej hodnoty.

Koeficient lineárnej korelácie je v rozmedzí:

1 < < 1.

Ak je korelačný koeficient kladný (obr. a), tak vzťah medzi znamienkami je priamy, t.j. s nárastom (poklesom) v x sa atribút y zväčší (zmenší). Ak je korelačný koeficient záporný (obr. b), potom je vzťah medzi znamienkami inverzný, t.j. s nárastom (poklesom) v x atribút y klesá (rastie).

Čím je hodnota korelačného koeficientu bližšie k 1, tým je vzťah bližší (obr. b), čím bližšie k 0, tým je slabší (obr. a).

Ak 0< || <0,3, то связь между признаками практически отсутствует,

ak 0,3< || <0,5, то связь слабая,

ak 0,5< || <0,7, то связь умеренная,

ak 0,7< || <1, то связь сильная.

A nakoniec, pri r = 0 neexistuje lineárna korelácia. Regresná priamka je rovnobežná s osou x.

Je potrebné poznamenať, že hodnota koeficientu lineárnej korelácie odhaduje blízkosť vzťahu uvažovaných znakov v jeho lineárnej forme. Blízkosť absolútnej hodnoty korelačného koeficientu k nule teda ešte neznamená absenciu súvislosti medzi znakmi. Pri odlišnej špecifikácii modelu môže byť vzťah medzi vlastnosťami celkom tesný.

Na posúdenie kvality výberu lineárnej funkcie sa vypočíta druhá mocnina koeficientu lineárnej korelácie R 2 , volal determinačný koeficient . Charakterizuje podiel rozptylu výsledného atribútu y, vysvetleného regresiou, na celkovom rozptyle výsledného atribútu.

Preto hodnota 1 - R 2 charakterizuje podiel rozptylu y spôsobený vplyvom iných faktorov nezohľadnených v modeli.

Na základe svojej definície R 2 nadobúda hodnoty medzi 0 a 1, t.j.

0 ≤ R 2 ≤ 1.

Ak R 2 = 0, potom to znamená, že regresia nič nedáva, t.j. x nezlepší kvalitu predikcie y v porovnaní s triviálnou predpoveďou
.

Ďalšia extrémna možnosť R 2 = 1 znamená presné prispôsobenie modelu: všetky pozorovacie body ležia na regresnej priamke (všetky =0). Bližšie R 2 na 1, tým lepšia je kvalita lícovania modelu a tým presnejšie .

Regresný parameter b, hoci ukazuje, o koľko jednotiek sa premenná y v priemere zmení so zvýšením premennej x o 1 jednotku, nemožno ho použiť na priame posúdenie vplyvu faktora na výsledný ukazovateľ z dôvodu rozdielu. v jednotkách merania študovaných ukazovateľov. Na tieto účely použite koeficient pružnosti . Koeficient elasticity ukazuje, o koľko percent sa zmení efektívny atribút y, keď sa faktor faktora x zmení o 1 %, a vypočíta sa podľa vzorca:

,

kde
- prvá derivácia charakterizujúca pomer nárastu výsledku a faktora pre zodpovedajúcu formu komunikácie.

Vzhľadom na skutočnosť, že koeficient elasticity pre lineárnu funkciu nie je konštantná hodnota, ale závisí od zodpovedajúcej hodnoty x, priemerný koeficient elasticity sa zvyčajne vypočíta:

.

Napriek rozšírenému používaniu koeficientov elasticity v ekonometrii existujú prípady, kedy ich výpočet nedáva ekonomický zmysel. Stáva sa to vtedy, keď pre posudzované vlastnosti nemá význam určovať zmenu hodnôt v percentách (napríklad o koľko percent sa zmení výnos pšenice, ak sa kvalita pôdy zlepší o 1 %).

Koeficienty elasticity pre množstvo matematických funkcií

7. Odhady štatistickej významnosti. Po nájdení regresnej rovnice sa posúdi význam rovnice ako celku aj jej jednotlivých parametrov.

Posúdenie významu rovnice ako celku. Hodnotenie významnosti regresnej rovnice ako celku je dané pomocou Fisherovho F-kritéria a slúži na objasnenie, že získaná hodnota koeficientu determinácie
nie je to náhoda, t.j. či matematický model vyjadrujúci závislosť medzi premennými zodpovedá experimentálnym údajom a či je v rovnici zahrnutý dostatok vysvetľujúcich premenných (jedna alebo viac) na opis závislej premennej.

Pri párovej lineárnej regresii je testovanie hypotéz o významnosti regresných a korelačných koeficientov ekvivalentné testovaniu hypotézy o významnosti rovnice lineárnej regresie.

Na testovanie významnosti regresnej rovnice ako celku sa používa Fisherov F-test. V prípade párovej lineárnej regresie sa význam regresného modelu testuje pomocou nasledujúceho vzorca:

,

kde m je počet znakov vysvetľujúceho faktora, t.j. X.

Pozorované hodnoty sa porovnávajú s tabuľkovými hodnotami.

,

kde α je hladina významnosti zodpovedajúca intervalu spoľahlivosti;

Ak na danej hladine významnosti F obl >F crit, potom sa model považuje za významný, hypotéza o náhodnej povahe odhadovaných charakteristík je zamietnutá a uznáva sa ich štatistická významnosť a spoľahlivosť.

Ak F obl

Štandardná chyba odhadu regresnej rovnice. Hoci metóda najmenších štvorcov nám dáva regresnú priamku, ktorá poskytuje minimum variácií, nie všetky pozorovania zodpovedajú regresnej priamke. Preto je potrebné štatistické meranie variácie skutočných hodnôt y od predpovedaných hodnôt . Miera variácie vo vzťahu k regresnej priamke sa nazýva štandardná chyba odhadu .

Štandardná chyba odhadu je definovaná ako:

,

kde y sú skutočné hodnoty závislej premennej pre dané hodnoty nezávislej premennej;

– teoretické / predpokladané hodnoty závislej premennej pre dané hodnoty nezávislej premennej;

m je počet vysvetľujúcich premenných x.

Tento koeficient charakterizuje stupeň variácie skutočných údajov okolo regresnej priamky.

Kontrola významu parametrov. Okrem toho sa kontroluje významnosť regresných parametrov. Kontrola významnosti parametrov jednotlivých regresných koeficientov sa uskutočňuje podľa Studentovho t-testu testovaním hypotézy, že každý regresný koeficient je rovný nule. Zároveň sa zisťuje, či získané hodnoty parametrov sú výsledkom pôsobenia náhodných premenných.

Významnosť regresných koeficientov sa kontroluje podľa nasledujúcich vzorcov. Pre koeficient b:

,

kde Sb je štandardná chyba koeficientu b, ktorý je zase definovaný ako:

.

Pre koeficient a podobne:

,

kde S a je smerodajná chyba voľného členu a, možno nájsť aj podľa vzorca:

.

Vypočítané hodnoty t-testu sa porovnajú s tabuľkovou hodnotou testu , kde k = n–m–1 stupňov voľnosti a zodpovedajúca hladina významnosti α.

Ak vypočítaná hodnota t-kritéria presiahne jeho tabuľkovú hodnotu, potom sa parameter považuje za významný, t.j. sa nenachádza náhodne.

8. Predpokladaná hodnota premennej y a intervaly spoľahlivosti prognózy. Bodová predpoveď spočíva v získaní prognózovanej hodnoty Y*, ktorá sa určí dosadením do regresnej rovnice
zodpovedajúca hodnota prognózy X*:

.

Pravdepodobnosť implementácie bodovej predpovede je takmer nulová, preto sa interval spoľahlivosti predpovede počíta s väčšou spoľahlivosťou.

Intervalová predpoveď spočíva v zostrojení intervalu spoľahlivosti predpovede, t.j. dolná a horná - minimálne a maximálne možné hranice intervalu obsahujúceho presnú hodnotu prognózovanej hodnoty Y* s danou pravdepodobnosťou, t.j.

Min

Intervaly spoľahlivosti prognózy sú určené nasledujúcimi vzorcami:

kde
je štandardná chyba predpovedí pre párovú regresiu.

Interval spoľahlivosti pre regresné koeficienty je definovaný ako:

Keďže regresný koeficient v ekonometrických štúdiách má jasnú ekonomickú interpretáciu, medze spoľahlivosti intervalu pre regresný koeficient by nemali obsahovať protichodné výsledky, napríklad -10b40 – tento druh záznamu naznačuje, že skutočná hodnota regresný koeficient súčasne obsahuje kladné a záporné hodnoty a dokonca aj nulu, čo nemôže byť. Potom sa parameter rovná nule.

Výpočet parametrov a konštrukcia regresných modelov

Korelačná analýza

Jeho účelom je určiť charakter vzťahu(priame, spätné) a pevnosť spojenia(žiadne spojenie, slabé, stredné, viditeľné, silné, veľmi silné, úplné spojenie). Korelačná analýza generuje informácie o povahe a závažnosti vzťahu (korelačný koeficient), ktorý sa používa na výber významných faktorov, ako aj na plánovanie efektívnej postupnosti výpočtu parametrov regresných rovníc. S jedným faktorom sa vypočíta korelačný koeficient a za prítomnosti viacerých faktorov sa zostaví korelačná matica, z ktorej sa zistia dva typy vzťahov: (1) vzťah závislej premennej s nezávislými, (2) vzťah medzi samotnými nezávislými.

Zohľadnenie matice umožňuje po prvé, identifikovať faktory skutočne ovplyvňovať skúmanú závislú premennú a zostaviť (zoradiť) ich v zostupnom poradí; po druhé, minimalizovať počet faktorov v modeli s vylúčením niektorých faktorov, ktoré silne alebo funkčne súvisia s inými faktormi (hovoríme o vzťahoch medzi nezávislými premennými).

Je známe, že v praxi sú najspoľahlivejšie jedno- a dvojfaktorové modely.

Ak sa zistí, že dva faktory majú medzi sebou silný alebo úplný vzťah, potom bude postačujúce zahrnúť jeden z nich do regresnej rovnice.

Tu sa snažia nájsť čo najviac presné opatrenie odhalené spojenie, aby bolo možné predpovedať, predpovedať hodnoty závislej veličiny Y, ak sú známe hodnoty nezávislých veličín X 1, X 2,.... X n

Táto miera je všeobecne vyjadrená matematickým modelom lineárnej mnohonásobnej regresnej závislosti:

Y \u003d a 0 + b 1 X 1 + b 2 X 2 + ... + b n X n

Počítač vypočíta parametre modelu: voľný termín 0(konštanta, alebo priesečník) a koeficienty b p(regresné koeficienty). hodnota pri sa nazýva odpoveď X 1, X 2, ..., X str faktory alebo prediktory.

Po získaní každej verzie rovnice je povinným postupom vyhodnotenie jej štatistickej významnosti, keďže hlavným cieľom je získať rovnicu najvyššej významnosti. Avšak vzhľadom na skutočnosť, že výpočty vykonáva počítač a rozhodnutie na základe posúdenia významnosti rovnice robí výskumník (prijať alebo zamietnuť rovnicu), je podmienečne možné vyčleniť tretiu etapa tejto techniky človek-stroj ako intelektuálna nestrojová etapa, pre ktorú Takmer všetkyúdaje o posúdení významnosti rovnice pripraví počítač.

štatistická významnosť, t.j. vhodnosti predpokladaného modelu na použitie pri predpovedaní hodnôt odozvy. Na posúdenie kvality výsledného modelu program vypočítal aj niekoľko koeficientov, ktoré musí výskumník zvážiť, porovnal ich so známymi štatistickými kritériami a vyhodnotil model z hľadiska zdravého rozumu.



V tomto štádiu zohráva mimoriadne dôležitú úlohu koeficient determinácie a F-kritérium významnosti regresie.

R štvorcový(R 2) - koeficient determinácie - je druhá mocnina viacnásobného korelačného koeficientu medzi pozorovanou hodnotou Y a jeho teoretická hodnota vypočítaná na základe modelu s určitým súborom faktorov. Koeficient determinácie meria platnosť modelu. Môže nadobudnúť hodnoty od 0 do 1. Táto hodnota je užitočná najmä na porovnanie množstva rôznych modelov a výber najlepšieho modelu.

R2 je podiel variácie v predpovedanej (teoretickej) hodnote Y vo vzťahu k pozorovaným hodnotám Y, vysvetlený faktormi zahrnutými v modeli. Veľmi dobré, ak R2 >= 80 %. Zvyšok teoretických hodnôt Y závisí od iných faktorov, ktoré nie sú zahrnuté v modeli. Úlohou výskumníka je nájsť faktory, ktoré sa zvyšujú R2, to poskytnúť vysvetlenie variácií prognózy, aby sa dospelo k ideálnej rovnici. Avšak koeficient R2 maximum môže dosiahnuť hodnotu 1 (alebo 100%), keď sú všetky hodnoty faktorov odlišné. A ak sú v dátach opakované experimenty, tak hodnota R2 nemôže dosiahnuť 1, bez ohľadu na to, aký dobrý je model. Preto by sa pred spustením regresného výpočtu mali zo zdrojovej tabuľky odstrániť duplicitné údaje. Niektoré softvérové ​​balíky automaticky odstránia duplikát a ponechajú len jedinečné údaje. Opakovanie rovnakých údajov znižuje spoľahlivosť modelových odhadov. R2 = 1 iba pri úplnej zhode medzi experimentálnymi (pozorovanými) a teoretickými (vypočítanými) údajmi, t.j. keď sa teoretické hodnoty presne zhodujú s pozorovanými. To sa však považuje za veľmi nepravdepodobné.

Nástroje regresnej analýzy, vrát. Excel, vypočítané F-test regresnej významnosti pre rovnicu ako celok. Ide o hodnotu vypočítanú z pozorovaných údajov Fp (F vypočítané, pozorované) by sa mali porovnať s príslušnou kritickou hodnotou Fk, (F kritické, tabuľkové) (pozri prílohu A). Fk si výskumník vyberá z publikovaných štatistických tabuliek na danej úrovni pravdepodobnosti (pri ktorej boli vypočítané parametre modelu napr. 95 %).

Ak pozorovaná hodnota fp je menšia ako kritická hodnota Fk, potom rovnicu nemožno považovať za významnú. V inej terminológii možno povedať to isté: nulová hypotéza o významnosti všetkých regresných koeficientov v postulovanom modeli nie je zamietnutá, t.j. koeficienty sú prakticky rovné nule.

Elektronická technológia korelačnej a regresnej analýzy sa stáva absolútne zbytočnou, ak vypočítané údaje nie sú úplne správne interpretované.

Ak je výsledný model štatisticky významný, používa sa na prognózovanie (predikciu), riadenie alebo vysvetľovanie.

Ak sa zistí nevýznamnosť, potom sa model zamietne za predpokladu, že sa ukáže ako pravdivá nejaká iná forma spojenia, ktorú treba hľadať.