Jednovýběrový test na rozptyl

V minulých článcích jsme se zabývali testy o střední hodnotě. Střední hodnota je nejznámějším ukazatelem polohy. Ukazatele polohy charakterizují určitou úroveň hodnot v souboru. Dále se ale můžeme zajímat o to, nakolik jsou hodnoty souboru vzájemně diverzifikované. Například průměrný počet bodů z testu ve škole popisuje průměrnou úroveň znalostí studentů, rozptyl známek nám pak říká, jak velké jsou rozdíly mezi studenty. Pokud je rozptyl velký, znamená to, že jednotliví studenti se vzájemně velmi liší svými vědomostmi. U sériově vyráběných součástek výrobce často požaduje minimální rozptyl, tj. jednotlivé výroby by se měly co nejméně lišit svými rozměry, hmotností atd.

Uvažujeme následující příklad: Máme zařízení, pomocí kterého vyrábíme součástky průměrné délky 190 mm. Výrobce garantuje, že maximální rozptyl délky součástky je 0,09 mm a víme, že odchylky od nastavené délky mají normální rozdělení. Ověřte na hladině významnosti \alpha = 0{,}05, zda rozptyl délky překračuje hranici zadanou výrobcem.

Dle zadání bychom měli provést jednostranný (pravostranný) test. Reálné příklady oboustranného testu by se hledaly poměrně složitě. Většinou požadujeme větší nebo naopak menší variabilitu, než je daná hranice.

Formulujme nejprve hypotézy testu:

  • H_0: \sigma^2 = 0{,}09 \, \mathrm{mm} \, . (Slovně: Rozptyl délky je 0,09 mm.)
  • H_1: \sigma^2 > 0{,}09 \, \mathrm{mm} \, . (Slovně: Rozptyl délky je větší než 0,09 mm.)

Statistiku testu $latex T $ vypočteme ze vztahu

T = \frac{(n - 1) s^2}{\sigma_0^2} \, ,

kde n je rozsah výběru, \sigma_0^2 je teoretický (testovaný, hypotetický) rozptyl a s je výběrový rozptyl. Statistika je tedy poměrem teoretického a výběrového rozptylu, kterou násobíme rozsahem výběru. Jestliže je tedy například výběrový rozptyl výrazně větší než teoretický, má statistika relativně vysokou hodnotu. Naopak relativně nízké hodnoty svědčí o výrazně menším výběrovém rozptylu ve srovnání s teoretickým.

Statistika T má \chi^2 rozdělení. Toto rozdělení má jeden parametr, který nazýváme počet stupňů volnosti. Stupeň volnosti se rovná počtu pozorování sníženému o jedničku. Kritický obor tedy určíme pomocí kvantilů \chi^2 jako

W = \langle \chi^2_{1 - \alpha} \left( n - 1 \right), \infty ) \, .

Provedení testu v Excelu

Pro provedení testu si vygenerujeme náhodný soubor o velikosti n = 20. Soubor si vygenerujeme takový, že směrodatná odchylka \sigma^2 = 0{,}3 (rozptyl \sigma^2 = 0{,}09), tj. ve skutečnosti bude platit nulová hypotéza.

test-rozptyl data

Na následujícím obrázku si můžete prohlédnout data i výsledky výpočtů. Vidíme, že výsledek testu správný, tj. hypotézu H_0 jsme nezamítli.

test-rozptyl data a vysledky

Opět zde narážíme na rozdíly mezi staršími a novějšími verzemi Excelu. Provedeme si výpočet v obou verzích. Opět platí, že postup pro starší verzi je možné provést i v novější verzi.

Výpočet ve verzi Excel 2010 a vyšší

Nejprve určíme výběrový rozptyl. K tomu využijeme funkci VAR.S:

=VAR.S(A1:A20)

Pro určení kritického oboru máme dvě možnosti. Můžeme využít standardní kvantilovou funkci pro \chi^2 rozdělení CHISQ.INV. Protože ale část rozdělení odpovídající hladině významnosti “odsekáváme” zprava, jako kvantil zadáváme 1 - \alpha. Jako druhý parametr zadáváme počet stupňů volnosti. Vzorec pro výpočet je tedy

=CHISQ.INV(1-D5;D2-1)

Alternativně je možné využít funkci CHISQ.INV.RT. Jedná se o pravostrannou kvantilovou funkci \chi^2 rozdělení, tj. již samotná funkce určuje z námi zadaného kvantilu jednotkový doplněk a tento kvantil standardního rozdělení pak vrací.  Hranici kritického oboru tedy určíme vzorcem

=CHISQ.INV.RT(D5;D2-1)

Chceme-li zapsat hodnotu kritického oboru W intervalem, pak napíšeme:

W = \langle 30{,}1435, \infty ) \, .

Hodnotu statistiky vypočteme jednoduše vzorcem

=(D2-1)*E3/D4

Hodnota statistiky je T = 16{,}9049, neleží tedy v kritickém oboru a tím pádem na dané hladině významnosti nulovou hypotézu nezamítáme.

K určení p-hodnoty máme opět k dispozici dvojici funkcí – CHISQ.DIST a CHISQ.DIST.RT. První je standardní distribuční funkcí \chi^2 rozdělení, druhá funkce je pravostrannou distribuční funkcí \chi^2 rozdělení. Tato funkce vrací plochu pod hustotou rozdělení napravo od zadané hodnoty. Jinak řečeno, vrací rozdíl mezi jedničkou a hodnotou distribuční funkce pro zadanou hodnotu.

Při využití funkce CHISQ.DIST musíme sami dopočítat doplněk hodnoty do jedničky, protože počítáme pravostranný test a p-hodnota se určuje jako plocha pod hustotou od hodnoty statistiky směrem napravo. Jako poslední parametr zadáváme PRAVDA, protože chceme hodnotu distribuční funkce, při zadání NEPRAVDA bychom získali hodnotu hustoty pravděpodobnosti. Správný vzorec tedy je:

=1-CHISQ.DIST(D8;D2-1;PRAVDA)

V případě pravostranné distribuční funkce žádnou úpravu již neprovádíme:

=CHISQ.DIST.RT(D8;D2-1)

Výpočet ve starších verzích

Výběrový rozptyl určíme pomocí funkce VAR:

=VAR(A1:A20)

Ve starších verzích Excelu máme k dispozici funkci CHIINV. Dle názvu bychom předpokládali, že jde o kvantilovou funkci. Ve skutečnosti ale jde o pravostrannou kvantilovou funkci, která je jednotkovým doplňkem ke standardní kvantilové funkci. V případě pravostranného testu tento fakt zjednoduší používaný vzorec, obecně je chování této funkce velmi neintuitivní a v novějších verzích ji doporučuji nepoužívat.

Správný vzorec pro určení hranice kritického oboru je:

=CHIINV(D5;D2-1)

Hodnotu statistiky určíme jednoduše:

=(D2-1)*D3/D4

K určení p-hodnoty využijeme funkci CHIDIST. Opět se jedná o pravostrannou distribuční funkci, výsledek tedy neodečítáme od jedničky:

=CHIDIST(F8;D2-1)

Levostranný test na rozptyl

Krátce si ještě vysvětlíme, jak bychom provedli levostranný test, tentokrát již bez slovního zadání. Důvodem je, abychom si ukázali chování funkcí pro \chi^2 při levostranném testu. V případě levostranného testu budeme mít následující hypotézy:

  • H_0: \sigma^2 = 0{,}64 . (Slovně: Rozptyl je 0,64.)
  • H_1: \sigma^2 < 0{,}64 . (Slovně: Rozptyl je menší než 0,64.)

Vygenerujeme si náhodný soubor dat, tentokrát se směrodatnou odchylkou \sigma = 0{,}5 a tím pádem rozptylem \sigma^2 = 0{,}25, platí tedy alternativní hypotéza H_1.

test-rozptyl data 2

Vzorce pro výpočty výběrových rozptylů a statistiky se neliší od předchozích.

Výpočet ve verzi Excel 2010 a vyšší

Pro určení hranice kritického oboru u levostranného testu je výhodnější standardní kvantilová funkce CHISQ.INV:

=CHISQ.INV(D5;D2-1)

Při využití pravostranné kvantilové funkce musíme provést úpravu analogickou té, kterou jsme prováděli u standardní kvantilové funkce u pravostranného testu:

=CHISQ.INV.RT(1-D5;D2-1)

Protože rozdělení \chi^2 nabývá pouze kladných hodnot, kritický obor zapsaný intervalem je:

W = \langle 0, 10{,}1170 \rangle \, .

Hodnota statistiky T = 9{,}0587 leží v kritickém oboru, proto na dané hladině významnosti zamítáme nulovou hypotézu.

Vzorec pro výpočet p-hodnoty testu je u standardní distribuční funkce opět jednoduchý:

=CHISQ.DIST(D8;D2-1;TRUE)

U pravostranné distribuční funkce je opět třeba odečíst výslednou hodnotu od jedničky.

=1-CHISQ.DIST.RT(D8;D2-1)

Správně vidíme, že p-hodnota 0{,}0275 je nižší než hladina významnosti, což potvrzuje náš předchozí závěr o zamítnutí nulové hypotézy.

Výpočet ve starších verzích

Starší verze Excelu nabízejí pouze pravostranné varianty funkcí. V případě určení hranice kritického oboru musíme jako hodnotu kvantilu zadat 1 - \alpha:

=CHIINV(1-D5;D2-1)

Při určování p-hodnoty je pak třeba odečíst výslednou hodnotu od jedničky, abychom získali plochu pod hustotou pravděpodobnosti mezi nulou a hodnotou statistiky:

=1-CHIDIST(F8;D2-1)

Výsledek testu

Oba postupy vedou ke stejnému výsledku, jak je vidět na obrázku níže. Sloupec F pracuje s funkcemi ze starší verze Excelu, sloupce D a E s funkcemi z novější verze.

test-rozptyl data a vysledky 2

Soubor se všemi výpočty si můžete stáhnout zde: test-rozptyl

Rozdělení testové statistiky

Nyní si velmi zjednodušeně vysvětlíme, proč má statistika T právě \chi^2 rozdělení. Toto rozdělení má jednu důležitou vlastnost. Uvažujme, že máme n náhodných veličin, které jsou vzájemně nezávislé a které mají normované normální rozdělení. Tyto veličiny si označíme U_1, U_2,  \dots U_n. Jestliže pak máme veličinu, která je součtem druhých mocnin těchto veličin, tj. veličinu \chi^2 = \sum\limits_{i=1}^n U_i^2, pak má tato veličina \chi^2 rozdělení a počet stupňů volnosti odpovídá počtu náhodných veličin.

Rozepišme si nyní vzorec pro statistiku testu T:

T = \frac{ \left( n - 1 \right) \sum\limits_{i=1}^n \left( x_i - \bar{x} \right)^2 }{ \left(n - 1 \right) \sigma_0^2 } = \frac{ \sum\limits_{i=1}^n \left( x_i - \bar{x} \right)^2 }{ \sigma_0^2 } = \left(\frac{x_1 - \bar{x}}{ \sigma_0} \right)^2 + \left(\frac{x_2 - \bar{x}}{ \sigma_0 } \right)^2 + \dots + \left( \frac{x_n - \bar{x}}{ \sigma_0 } \right)^2\, .

Uvažujme nyní libovolný i-tý výraz \frac{x_i - \bar{x}}{ \sigma_0 }. Náhodná veličina x_i má normální rozdělení, což je dáno předpokladem testu. Průměr náhodného výběru \bar{x} je nestranným odhadem střední hodnoty rozdělení. Platí-li nulová hypotéza H_0, pak má náhodná veličina x_i rozptyl \sigma_0^2 a tedy směrodatnou odchylku \sigma_0.

Obecně platí, že máme-li náhodnou veličinu s normálním rozdělením X, můžeme ji snadno převést na veličinu s normovaným normálním rozdělením U tím, že od ní odečteme její střední hodnotu \mu a výsledek vydělíme směrodatnou odchylkou \sigma, tj. provedeme operaci

U = \frac{X-\mu}{\sigma} \, .

Platí-li tedy nulová hypotéza H_0, pak je statistika T součtem druhých mocnin veličin s normovaným normálním rozdělením a tím pádem vyhovuje základní vlastnosti \chi^2 rozdělení. Je rovněž zřejmé, proč u tohoto testu formulujeme předpoklad normality.

Leave a Reply

Name and email address are required. Your email address will not be published.

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

You may use these HTML tags and attributes:

<a href="" title="" rel=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <pre> <q cite=""> <s> <strike> <strong> 

%d bloggers like this: