Matematické metódy v psychológii. Testovanie jednoduchých hypotéz pomocou Pearsonovho chí-kvadrát testu v MS EXCEL

  • 21.04.2019

LABORATÓRNE PRÁCE

KORELAČNÁ ANALÝZA VEXCEL

1.1 Korelačná analýza v programe MS Excel

Korelačná analýza spočíva v určení stupňa vzťahu medzi dvoma náhodnými premennými X a Y. Korelačný koeficient sa používa ako miera takéhoto vzťahu. Korelačný koeficient sa odhaduje zo vzorky objemu n spojených párov pozorovaní (x i, y i) zo spoločnej všeobecnej populácie X a Y. lineárny korelačný koeficient(Pearsonov koeficient), za predpokladu, že vzorky X a Y sú normálne rozdelené.

Korelačný koeficient sa pohybuje od -1 (prísny inverzný lineárny vzťah) do 1 (prísny priamy úmerný vzťah). Pri hodnote 0 neexistuje lineárny vzťah medzi týmito dvoma vzorkami.

Všeobecná klasifikácia korelácií (podľa Ivantera E.V., Korosova A.V., 1992):

Existuje niekoľko typov korelačných koeficientov v závislosti od premenných X a Y, ktoré možno merať na rôznych mierkach. Práve táto skutočnosť určuje výber zodpovedajúceho korelačného koeficientu (pozri tabuľku 13):

V MS Excel sa používa špeciálna funkcia na výpočet párových lineárnych korelačných koeficientov CORREL (pole1, pole2),

testované subjekty

kde pole1 je odkaz na rozsah buniek prvej vzorky (X);

Príklad 1: Testy na vizuálno-figuratívne a verbálne myslenie dostalo 10 školákov. Priemerný čas na riešenie testových úloh bol meraný v sekundách. Výskumníka zaujíma otázka: existuje nejaký vzťah medzi časom riešenia týchto problémov? Premenná X - označuje priemerný čas na riešenie vizuálno-obrazových a premenná Y - priemerný čas na riešenie verbálnych úloh testov.

R Riešenie: Pre identifikáciu stupňa prepojenia je v prvom rade potrebné zadať údaje do tabuľky MS Excel (pozri tabuľku, obr. 1). Potom sa vypočíta hodnota korelačného koeficientu. Ak to chcete urobiť, umiestnite kurzor do bunky C1. Na paneli s nástrojmi kliknite na tlačidlo Vložiť funkciu (fx).

V zobrazenom dialógovom okne Sprievodca funkciou vyberte kategóriu Štatistické a funkciu CORREL a potom kliknite na tlačidlo OK. Pomocou ukazovateľa myši zadajte rozsah údajov výberu X do poľa Array1 (A1: A10). Do poľa Array2 zadajte rozsah údajov vzorky Y (B1: B10). Kliknite na tlačidlo OK. Hodnota korelačného koeficientu sa zobrazí v bunke C1 - 0,54119. Ďalej sa musíte pozrieť na absolútne číslo korelačného koeficientu a určiť typ spojenia (úzke, slabé, stredné atď.)

Ryža. 1. Výsledky výpočtu korelačného koeficientu

Nepreukázala sa teda súvislosť medzi časom riešenia vizuálno-obrazových a verbálnych úloh testu.

Cvičenie 1.Údaje sú dostupné za 20 poľnohospodárskych podnikov. Nájsť korelačný koeficient medzi hodnotami úrody obilnín a kvalitou pôdy a posúdiť jej význam. Údaje sú uvedené v tabuľke.

Tabuľka 2. Závislosť úrody obilnín od kvality pôdy

Číslo farmy

Kvalita pôdy, skóre

Produktivita, c / ha


Úloha 2. Zistite, či existuje súvislosť medzi prevádzkovým časom športového fitness stroja (tisíc hodín) a nákladmi na jeho opravu (tisíc rubľov):

Prevádzkový čas simulátora (tisíc hodín)

Náklady na opravu (tisíc rubľov)

1.2 Viacnásobná korelácia v MS Excel

o Vysoké číslo pozorovania, kedy je potrebné korelačné koeficienty vypočítať postupne pre viacero vzoriek, pre pohodlie sú získané koeficienty zhrnuté v tabuľkách tzv. korelačné matice.

Korelačná matica je štvorcová tabuľka, v ktorej sa korelačný koeficient medzi zodpovedajúcimi parametrami nachádza v priesečníku zodpovedajúcich riadkov a stĺpcov.

V MS Excel sa na výpočet korelačných matíc používa postup Korelácia z balíka Analýza dát. Postup vám umožňuje získať korelačnú maticu obsahujúcu korelačné koeficienty medzi rôznymi parametrami.

Na implementáciu postupu musíte:

1. vykonajte príkaz servis - Analýza údajov;

2.v zozname, ktorý sa zobrazí Analytické nástroje vyberte riadok Korelácia a stlačte tlačidlo OK;

3. v zobrazenom dialógovom okne špecifikujte Interval vstupu, to znamená, zadajte odkaz na bunky obsahujúce analyzované údaje. Vstupný rozsah musí obsahovať aspoň dva stĺpce.

4.v sekcii Zoskupovanie nastavte prepínač v súlade so zadanými údajmi (po stĺpcoch alebo po riadkoch);

5.určiť deň voľna interval, to znamená, zadajte odkaz na bunku, od ktorej sa budú zobrazovať výsledky analýzy. Veľkosť výstupného rozsahu sa určí automaticky a na obrazovke sa zobrazí správa, ak sa výstupný rozsah môže prekrývať s pôvodnými údajmi. stlač tlačidlo OK.

Vo výstupnom rozsahu sa zobrazí korelačná matica, v ktorej sa korelačný koeficient medzi zodpovedajúcimi parametrami nachádza na priesečníku každého riadka a stĺpca. Bunky vo výstupnom rozsahu, ktoré majú rovnaké súradnice riadkov a stĺpcov, obsahujú hodnotu 1, pretože každý stĺpec v vstupný rozsahúplne koreluje sám so sebou

Príklad 2 K dispozícii sú mesačné pozorovania poveternostných podmienok a návštevnosti múzeí a parkov (pozri tabuľku 3). Je potrebné zistiť, či existuje vzťah medzi stavom počasia a návštevnosťou múzeí a parkov.

Tabuľka 3. Výsledky pozorovania

Počet jasných dní

Počet návštevníkov múzea

Počet návštevníkov parku

Riešenie... Na vykonanie korelačnej analýzy zadajte počiatočné údaje do rozsahu A1: G3 (obr. 2). Potom v ponuke servis vybrať položku Analýza údajov a potom špecifikujte riadok Korelácia... V zobrazenom dialógovom okne zadajte Interval vstupu(A2: C7). Zadajte, že údaje sa budú zobrazovať v stĺpcoch. Zadajte rozsah výstupu (E1) a kliknite na tlačidlo OK.

Na obr. 33 ukazuje, že korelácia medzi stavom počasia a návštevnosťou múzea je -0,92 a medzi stavom počasia a návštevnosťou parku - 0,97, medzi návštevnosťou parku a múzea - ​​0,92.

Analýza teda odhalila závislosti: silný inverzný lineárny vzťah medzi návštevnosťou múzea a počtom slnečných dní a takmer lineárny (veľmi silný priamy) vzťah medzi návštevnosťou parku a poveternostnými podmienkami. Medzi návštevnosťou múzea a parku existuje silný inverzný vzťah.

Ryža. 2. Výsledky výpočtu korelačnej matice z príkladu 2

Zadanie 3... Metódou expertných hodnotení psychologických charakteristík osobnosti lídra bolo hodnotených 10 manažérov. 15 odborníkov hodnotilo každú psychologickú charakteristiku na päťbodovej škále (pozri tabuľku 4). Psychológa zaujíma otázka vzťahu medzi týmito vlastnosťami lídra medzi sebou.

Tabuľka 4. Výsledky výskumu

Predmety p / p

takt

náročnosť

kritickosť

1. Otvorte program Excel

2. Vytvorte stĺpce s údajmi. V našom príklade sa budeme zaoberať vzťahom alebo koreláciou medzi agresivitou a pochybnosťami o sebe u prvákov. Experimentu sa zúčastnilo 30 detí, údaje sú uvedené v tabuľke programu Excel:

1 stĺpec - Číslo predmetu

2 stĺpec - agresivita v bodoch

3 stĺpec - sebapochybnosť v bodoch

3.Potom musíte vybrať prázdnu bunku vedľa tabuľky a kliknúť na ikonu f (x) na paneli Excel

4. Otvorí sa ponuka funkcií medzi kategóriami, ktoré si musíte vybrať Štatistické a potom v zozname funkcií podľa abecedy nájdite CORREL a kliknite na tlačidlo OK

5. Potom sa otvorí ponuka argumentov funkcie, ktorá nám umožní vybrať stĺpce s údajmi, ktoré potrebujeme. Ak chcete vybrať prvý stĺpec Agresivita musíte kliknúť na modré tlačidlo na riadku Pole1

6.Vyberte údaje pre Pole1 zo stĺpca Agresivita a kliknite na modré tlačidlo v dialógovom okne

7. Potom, podobne ako v poli 1, kliknite na modré tlačidlo vedľa čiary Pole2

8.Vyberte údaje pre Pole2- stĺpec Sebapochybnosť a znova stlačte modré tlačidlo, potom OK

9. Tu je vypočítaný r-Pearsonov korelačný koeficient a zaznamenaný vo vybranej bunke, v našom prípade je kladný a približne rovný 0,225 ... Toto hovorí o mierne pozitívne väzby medzi agresivitou a pochybnosťami o sebe u žiakov prvého stupňa

teda Štatistický záver experiment bude: r = 0,225, odhalil stredne pozitívny vzťah medzi premennými agresivita a sebapochybnosť.

V niektorých štúdiách je však potrebné uviesť p-úroveň významnosti korelačného koeficientu program Excel, na rozdiel od SPSS túto schopnosť neposkytuje. To je v poriadku, existuje (A.D. Heritage).

Môžete ho pripojiť aj k výsledkom výskumu.

Pearsonov χ 2 test je neparametrická metóda, ktorá umožňuje posúdiť významnosť rozdielov medzi skutočným (štúdiou identifikovaným) počtom výsledkov resp. kvalitatívne charakteristiky vzoriek spadajúcich do každej kategórie a teoretický počet, ktorý možno očakávať v študijných skupinách vzhľadom na spravodlivosť nulová hypotéza... Zjednodušene povedané, metóda umožňuje odhadnúť štatistická významnosť rozdiely medzi dvoma alebo viacerými relatívnymi ukazovateľmi (frekvencie, podiely).

1. História vývoja kritéria χ 2

Chí-kvadrát test na analýzu kontingenčných tabuliek vyvinul a navrhol v roku 1900 anglický matematik, štatistik, biológ a filozof, zakladateľ matematická štatistika a jeden zo zakladateľov biometrie Karl Pearson(1857-1936).

2. Na čo sa používa Pearsonov χ 2 test?

V analýze možno použiť chí-kvadrát test kontingenčné tabuľky obsahujúce informácie o frekvencii výsledkov v závislosti od prítomnosti rizikového faktora. Napríklad, štvorpoľová kontingenčná tabuľka vyzerá ako nasledujúcim spôsobom:

Nastáva exodus (1) Žiadny výsledok (0) Celkom
Existuje rizikový faktor (1) A B A + B
Žiadny rizikový faktor (0) C D C + D
Celkom A + C B + D A + B + C + D

Ako vyplniť takúto kontingenčnú tabuľku? Pozrime sa na malý príklad.

Uskutočňuje sa štúdia vplyvu fajčenia na riziko vzniku arteriálnej hypertenzie. Na tento účel boli vybrané dve skupiny subjektov - prvá zahŕňala 70 ľudí, ktorí denne vyfajčia aspoň 1 krabičku cigariet, druhá - 80 nefajčiarov v rovnakom veku. V prvej skupine malo 40 ľudí vysoký krvný tlak. V druhom prípade bola arteriálna hypertenzia pozorovaná u 32 ľudí. V súlade s tým bol normálny krvný tlak v skupine fajčiarov u 30 ľudí (70 - 40 = 30) av skupine nefajčiarov - u 48 (80 - 32 = 48).

Vyplníme počiatočné údaje štvorpoľovou kontingenčnou tabuľkou:

Vo výslednej kontingenčnej tabuľke každý riadok zodpovedá konkrétnej skupine predmetov. Stĺpce - zobrazujú počet osôb s arteriálnou hypertenziou alebo s normálnou krvný tlak.

Úloha pre výskumníka znie: existujú štatisticky významné rozdiely medzi frekvenciou ľudí s krvným tlakom medzi fajčiarmi a nefajčiarmi? Na túto otázku môžete odpovedať výpočtom Pearsonovho chí-kvadrát testu a porovnaním výslednej hodnoty s kritickou hodnotou.

3. Podmienky a obmedzenia Pearsonovho chí-kvadrát testu

  1. Mali by sa merať porovnateľné ukazovatele nominálna stupnica(napríklad pohlavie pacienta - muž alebo žena) alebo v radový(napríklad stupeň arteriálnej hypertenzie, ktorý sa pohybuje od 0 do 3).
  2. Táto metóda umožňuje analyzovať nielen tabuľky so štyrmi poľami, keď faktor aj výsledok sú binárne premenné, to znamená, že majú iba dve možné hodnoty (napríklad mužské alebo ženské pohlavie, prítomnosť alebo neprítomnosť určitej choroby v anamnéze...). Pearsonovo kritérium chí-kvadrát možno použiť aj v prípade analýzy tabuliek s viacerými poľami, keď faktor a (alebo) výsledok nadobúdajú tri alebo viac hodnôt.
  3. Porovnávané skupiny by mali byť nezávislé, to znamená, že chí-kvadrát test by sa nemal používať pri porovnávaní pozorovaní „predtým a po“. McNemarov test(pri porovnaní dvoch súvisiacich populácií) alebo vypočítané Cochranov Q test(v prípade porovnávania troch a viacerých skupín).
  4. Pri analýze štvorpolových tabuliek očakávané hodnoty každá z buniek musí mať aspoň 10 v znení neskorších predpisov Yeats... Ak je aspoň v jednej bunke očakávaný jav menší ako 5, potom by sa mala použiť analýza presné kritérium Fisher.
  5. V prípade analýzy tabuliek s viacerými poľami by predpokladaný počet prípadov nemal byť menší ako 5 vo viac ako 20 % buniek.

4. Ako vypočítať Pearsonov chí-kvadrát test?

Ak chcete vypočítať kritérium chí-kvadrát, musíte:

Tento algoritmus je použiteľný pre štvorpolové aj viacpolové tabuľky.

5. Ako interpretovať hodnotu Pearsonovho chí-kvadrát testu?

V prípade, že získaná hodnota kritéria χ 2 je väčšia ako kritická, usúdime, že existuje štatistický vzťah medzi skúmaným rizikovým faktorom a výsledkom na primeranej hladine významnosti.

6. Príklad výpočtu Pearsonovho chí-kvadrát testu

Stanovme štatistickú významnosť vplyvu faktora fajčenia na výskyt arteriálnej hypertenzie podľa tabuľky vyššie:

  1. Vypočítame očakávané hodnoty pre každú bunku:
  2. Nájdite hodnotu Pearsonovho chí-kvadrát testu:

    χ2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Počet stupňov voľnosti f = (2-1) * (2-1) = 1. Nájdite z tabuľky kritická hodnota Pearsonov chí-kvadrát test, ktorý na hladine významnosti p = 0,05 a počte stupňov voľnosti 1 je 3,841.
  4. Získanú hodnotu chí-kvadrát testu porovnávame s kritickou: 4,396> 3,841, závislosť výskytu artériovej hypertenzie od prítomnosti fajčenia je preto štatisticky významná. Hladina významnosti tohto vzťahu zodpovedá p<0.05.

Šírka intervalu bude:

Xmax - maximálna hodnota atribútu zoskupenia v súhrne.
Xmin je minimálna hodnota atribútu zoskupenia.
Definujme hranice skupiny.

Číslo skupinySpodná čiaraHorná hranica
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Rovnaká hodnota funkcie slúži ako horná a dolná hranica dvoch susedných (predchádzajúca a nasledujúca) skupina.
Pre každú hodnotu radu vypočítame, koľkokrát spadá do jedného alebo druhého intervalu. Aby sme to dosiahli, zoradíme riadok vo vzostupnom poradí.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6

Výsledky zoskupenia sú prezentované vo forme tabuľky:
skupinyPočet obyvateľovFrekvencia f i
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6

Tabuľka na výpočet ukazovateľov.
skupinyx iMnožstvo, f ix i * f iAkumulovaná frekvencia, S| x - x cf | * f(x - x cf) 2 * fFrekvencia, f i / n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Na odhad distribučných radov nájdeme tieto ukazovatele:
Indikátory distribučného centra.
Vážený priemer


Móda
Móda je najbežnejším významom vlastnosti v jednotkách danej populácie.

kde x 0 - začiatok modálneho intervalu; h je veľkosť intervalu; f 2 je frekvencia zodpovedajúca modálnemu intervalu; f 1 - predmodálna frekvencia; f 3 - postmodálna frekvencia.
Ako začiatok intervalu zvolíme 51,49, keďže tento interval obsahuje najväčšie číslo.

Najbežnejšia hodnota riadka je 52,8
Medián
Medián rozdeľuje vzorku na dve časti: polovica možnosti je menšia ako medián, polovica je viac.
V intervalovom rade distribúcie môžete okamžite určiť iba interval, v ktorom sa bude nachádzať režim alebo medián. Medián zodpovedá variantu v strede zoradeného riadku. Medián je interval 51,49 - 54,32, pretože v tomto intervale je akumulovaná frekvencia S väčšia ako stredné číslo (medián je prvý interval, ktorého akumulovaná frekvencia S presahuje polovicu celkového súčtu frekvencií).


Teda 50 % jednotiek obyvateľstva bude menších vo veľkosti 53,06
Variačné ukazovatele.
Absolútne ukazovatele variácie.
Rozsah variácie je rozdiel medzi maximálnymi a minimálnymi hodnotami funkcie primárnej série.
R = X max - X min
R = 60 - 43 = 17
Priemerná lineárna odchýlka- vypočítané tak, aby sa zohľadnili rozdiely všetkých jednotiek skúmanej populácie.


Každá hodnota série sa od inej líši najviac o 2,3
Disperzia- charakterizuje mieru rozptylu okolo svojho priemeru (mieru rozptylu, t. j. odchýlku od priemeru).


Nestranný odhad rozptylu- konzistentný odhad rozptylu.


Smerodajná odchýlka.

Každá hodnota série sa líši od strednej hodnoty 53,3 najviac o 3,21
Odhad štandardnej odchýlky.

Relatívne miery variácie.
Relatívne ukazovatele variácie zahŕňajú: oscilačný koeficient, lineárny variačný koeficient, relatívna lineárna odchýlka.
Variačný koeficient- miera relatívneho rozptylu hodnôt populácie: ukazuje, aká veľká časť priemeru tejto hodnoty je jej priemerné rozšírenie.

Keďže v ≤ 30 %, populácia je homogénna a variácie sú slabé. Dosiahnutým výsledkom môžete dôverovať.
Lineárny variačný koeficient alebo Relatívna lineárna odchýlka- charakterizuje podiel priemernej hodnoty znamienka absolútnych odchýlok od priemeru.

Testovanie hypotéz o type distribúcie.
1. Overme si hypotézu, že X je rozložené cez normálny zákon pomocou Pearsonovho testu dobrej zhody.

kde p i je pravdepodobnosť pádu do i-tého intervalu náhodnej premennej rozloženej podľa hypotetického zákona
Na výpočet pravdepodobností p i použijeme vzorec a tabuľku Laplaceovej funkcie

kde
s = 3,21, x av = 53,3
Teoretická (očakávaná) frekvencia je n i = np i, kde n = 36
Zoskupovacie intervalyPozorovaná frekvencia n ix 1 = (x i - x priem.) / sx 2 = (x i + 1 - x priem.) / sF (x 1)F (x 2)Pravdepodobnosť dosiahnutia i-tého intervalu, p i = Ф (x 2) - Ф (x 1)Očakávaná frekvencia, 36p iPodmienky Pearsonovej štatistiky, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84

Definujme hranicu kritickej oblasti. Keďže Pearsonova štatistika meria rozdiel medzi empirickými a teoretickými distribúciami, čím väčšia je jej pozorovaná hodnota K obs, tým silnejší je argument proti hlavnej hypotéze.
Preto je kritická oblasť pre túto štatistiku vždy pravák :)