testování hypotéz

Jednovýběrový test na rozptyl

Články o statistice se postupně přesunují na nový web: https://statistikajednoduse.cz/. Tento konkrétní článek najdete zde: https://statistikajednoduse.cz/jednovyberovy-test-na-rozptyl/

V minulých článcích jsme se zabývali testy o střední hodnotě. Střední hodnota je nejznámějším ukazatelem polohy. Ukazatele polohy charakterizují určitou úroveň hodnot v souboru. Dále se ale můžeme zajímat o to, nakolik jsou hodnoty souboru vzájemně diverzifikované. Například průměrný počet bodů z testu ve škole popisuje průměrnou úroveň znalostí studentů, rozptyl známek nám pak říká, jak velké jsou rozdíly mezi studenty. Pokud je rozptyl velký, znamená to, že jednotliví studenti se vzájemně velmi liší svými vědomostmi. U sériově vyráběných součástek výrobce často požaduje minimální rozptyl, tj. jednotlivé výroby by se měly co nejméně lišit svými rozměry, hmotností atd.

Pozn: Průběžně aktualizovaný přehled všech článků o statistických testech najdete v článku o rozhodovacím stromu pro statistické testy.

Uvažujeme následující příklad: Máme zařízení, pomocí kterého vyrábíme součástky průměrné délky 190 mm. Výrobce garantuje, že maximální rozptyl délky součástky je 0,09 mm a víme, že odchylky od nastavené délky mají normální rozdělení. Ověřte na hladině významnosti \alpha = 0{,}05, zda rozptyl délky překračuje hranici zadanou výrobcem.

Dle zadání bychom měli provést jednostranný (pravostranný) test. Reálné příklady oboustranného testu by se hledaly poměrně složitě. Většinou požadujeme větší nebo naopak menší variabilitu, než je daná hranice.

Formulujme nejprve hypotézy testu:

  • H_0: \sigma^2 = 0{,}09 \, \mathrm{mm} \, . (Slovně: Rozptyl délky je 0,09 mm.)
  • H_1: \sigma^2 > 0{,}09 \, \mathrm{mm} \, . (Slovně: Rozptyl délky je větší než 0,09 mm.)

Statistiku testu $latex T $ vypočteme ze vztahu

T = \frac{(n - 1) s^2}{\sigma_0^2} \, ,

kde n je rozsah výběru, \sigma_0^2 je teoretický (testovaný, hypotetický) rozptyl a s je výběrový rozptyl. Statistika je tedy poměrem teoretického a výběrového rozptylu, kterou násobíme rozsahem výběru. Jestliže je tedy například výběrový rozptyl výrazně větší než teoretický, má statistika relativně vysokou hodnotu. Naopak relativně nízké hodnoty svědčí o výrazně menším výběrovém rozptylu ve srovnání s teoretickým.

Statistika T má \chi^2 rozdělení. Toto rozdělení má jeden parametr, který nazýváme počet stupňů volnosti. Stupeň volnosti se rovná počtu pozorování sníženému o jedničku. Kritický obor tedy určíme pomocí kvantilů \chi^2 jako

W = \langle \chi^2_{1 - \alpha} \left( n - 1 \right), \infty ) \, .

Provedení testu v Excelu

Pro provedení testu si vygenerujeme náhodný soubor o velikosti n = 20. Soubor si vygenerujeme takový, že směrodatná odchylka \sigma^2 = 0{,}3 (rozptyl \sigma^2 = 0{,}09), tj. ve skutečnosti bude platit nulová hypotéza.

test-rozptyl data

Na následujícím obrázku si můžete prohlédnout data i výsledky výpočtů. Vidíme, že výsledek testu správný, tj. hypotézu H_0 jsme nezamítli.

test-rozptyl data a vysledky

Opět zde narážíme na rozdíly mezi staršími a novějšími verzemi Excelu. Provedeme si výpočet v obou verzích. Opět platí, že postup pro starší verzi je možné provést i v novější verzi.

Porovnání t-testu a z-testu

V předcházejících článcích jsme rozebírali z-test a t-test. Oba testy slouží k otestování hypotézy o střední hodnotě a liší se pouze předpokladem o znalosti rozptylu. Nabízí se ale otázka, k čemu vlastně máme dva testy? Jakou výhodu vlastně přináší znalost rozptylu? Na to se nyní podíváme.

Pozn: Průběžně aktualizovaný přehled všech článků o statistických testech najdete v článku o rozhodovacím stromu pro statistické testy.

U obou dvou testů můžeme testovat hypotézy na stejných hladinách významnosti. Ať už tedy provedeme test pomocí z-testu nebo t-testu, můžeme si předem stanovit, že pravděpodobnost chyby 1. druhu (neoprávněného zamítnutí H_0 ) je například \alpha = 5 % . Neznalost rozptylu se ale projeví v pravděpodobnosti chyby 2. druhu, neboli v síle testu. V případě využití t-testu máme větší pravděpodobnost, že nezamítneme neplatnou H_0 .

Ukažme si to na příkladu oboustranného testu. Předpokládejme stejné hypotézy jako v předchozích článcích, tj.

  • H_0: \mu = 190 \, ,
  • H_1: \mu \neq 190 \, .

Vygenerujeme si soubor pomocí generátoru náhodných čísel. Ten nám vygeneruje čísla s požadovanými vlastnostmi. Budeme chtít data se střední hodnotou \mu = 190,35 a směrodatnou odchylkou \sigma = 0,5. Víme tedy, že nulová hypotéza neplatí. Pokud tedy nulovou hypotézu při testu zamítneme, bude náš výsledek správný. V opačném případě se dopouštíme chyby 2. druhu.

t-test-random-gen.PNG

Na obrázku níže máte vygenerovaná data a výsledky provedených testů.

t-test vs z-test

p-hodnota z-testu je 0,0196, p-hodnota t-testu je 0,1405. Na hladině významnosti \alpha = 5 % bychom tedy nulovou hypotézu zamítli pouze při použití z-testu. V případě použití t-testu bychom se dopustili chyby 2. druhu.

Soubor s výpočty si můžete stáhnout zde.

Na základě jednoho příkladu ale nejde vyvozovat nějaké obecnější závěry. Zkusme tedy komplexnější experiment. Využijeme soubor náhodných čísel, který jsme vytvořili pro analýzu síly testu z-testu.

T-test a jeho využití

Články o statistice se postupně přesunují na nový web: https://statistikajednoduse.cz/. Tento konkrétní článek najdete zde: https://statistikajednoduse.cz/t-test-a-jeho-vyuziti/.

Zásadním omezením z-testu, který jsme si popisovali minule, je nutnost znát rozptyl testovaného souboru. V realitě velikost rozptylu velmi často neznáme, a tak se musíme spokojit s jeho odhadem. V takovém případě musíme využít určitou “modifikaci” z-testu, která se nazývá t-test.

Pozn: Průběžně aktualizovaný přehled všech článků o statistických testech najdete v článku o rozhodovacím stromu pro statistické testy.

Soubor s daty i výpočty si můžete stáhnout zde: t-test.

Začněme s oboustranným t-testem. Uvažujeme následující příklad: Máme zařízení, které vyrábí součástku určité délky. Zařízení má určitou chybovost, jejíž přesnou velikost neznáme. Chyby mají normální rozdělení. Zařízení bylo nastaveno pracovníkem a my chceme ověřit, že pracovník nastavil správnou délku součástky, tj. 190 mm. Pro ověření jsme vybrali a přeměřili náhodný soubor dvaceti součástek.

Obecné principy testování hypotéz, které jsme si popsali v článku o z-testu, zůstávají v platnosti. Definujeme si tedy nulovou a alternativní hypotézu:

  • H_0: \mu = 190 \, \mathrm{mm}. (Slovně: Střední hodnota statistického souboru je 190 mm.)
  • H_0: \mu \neq 190 \, \mathrm{mm}. (Střední hodnota statistického souboru je není 190 mm.)

Statistiku získáme ze vzorce

t = \frac{\bar{x} - \mu_0}{s} \sqrt{n} \, ,

kde \bar{x} je průměr našeho vzorku, \mu_0 je teoretická (testovaná) střední hodnota, a n je rozsah náhodného výběru. Proměnná s je odhad rozptylu základního souboru a pro tento odhad využijeme výběrový rozptyl

s = \frac{\sum\limits^{n}_{i=1} (x_i -\bar{x})}{n-1} \, ,

kde x_i je i-tá hodnota v našem výběru. Jmenovatel zlomku může být pro někoho matoucí, protože bychom spíše očekávali hodnotu n. Má to však svůj dobrý důvod. Pokud bychom do jmenovatele umístili n, pak střední hodnota našeho odhadu by byla menší, než skutečná hodnota rozptylu. Blíže to popíšu v nějakém z dalších článků.

Naše statistika t nemá tentokrát normované rozdělení, ale má takzvané Studentovo neboli t rozdělení. Toto rozdělení má jeden parametr, který značíme \nu . V našem případě platí vztah

\nu = n - 1 \, .

t rozdělení má podobné vlastnosti jako normované normální: jeho střední hodnota je 0 a je symetrické kolem 0. Čím vyšší je hodnota parametru \nu , tím více se distribuční funkce t rozdělení blíží normovanému normálnímu. Často se uvádí, že u t-testu můžeme pro \nu > 30 použít normované normální rozdělení. Pokud však i pro tyto hodnoty použijeme t rozdělení, nejedná se o chybu.

Kvantilvou funkci t rozdělení s (\nu) stupni volnosti budeme značit  t_{p} (\nu). Kritický obor testu určíme ze vzorce

W = ( - \infty, t_{\frac{\alpha}{2}} \left(n-1 \right) \rangle \cup \langle t_{1-\frac{\alpha}{2}} \left( n - 1 \right), \infty ) \, ,

kde \alpha značí hladinu významnosti testu.

Nyní již víme vše, co potřebujeme, a můžeme se vrhnout na provedení testu v Excelu.

Oboustranný t-test v Excelu

Od verze 2010 obsahuje Excel přepracovanou sadu funkcí pro provádění statistických výpočtů. Používáte-li tedy verzi 2010 a vyšší, doporučuji vám tyto novější funkce využívat, protože jejich použití je v řadě případů jednodušší. Uživatelé starších verzí mají k dispozici pouze starší sadu funkcí. My si ukážeme postup pro obě varianty.

Náš testovací soubor máme uložený v buňkách A1 až A20. Test provedeme na \alpha = 5 % , tuto hodnotu máme v buňce D6.

t-test data 2

Jednostranná varianta z-testu

Články o statistice se postupně přesunují na nový web: https://statistikajednoduse.cz/. Tento konkrétní článek najdete zde: https://statistikajednoduse.cz/jednostranna-varianta-z-testu/.

Minule jsme se zabývali provedením z-testu v Excelu. Provedli jsme takzvaný oboustranný test. U oboustranného testu byla alternativní hypotéza zadaná nerovností, tj. alternativní hypotéza tvrdila, že střední hodnota náhodného výběru je odlišná od teoretické (testované) střední hodnoty. V našem konkrétním případě jsme testovali, zda se střední hodnota délky součástky rovná či nerovná 190 mm.

Pozn: Průběžně aktualizovaný přehled všech článků o statistických testech najdete v článku o rozhodovacím stromu pro statistické testy.

Teoreticky mohou nastat tři situace:

  1. střední hodnota délky součástky je přesně 190 mm (tj. \mu = 190 \, \mathrm{mm}),
  2. střední hodnota délky součástky je menší než 190 mm (tj. \mu < 190 \, \mathrm{mm}),
  3. střední hodnota délky součástky je větší než 190 mm (tj. \mu > 190 \, \mathrm{mm}).

Pokud je výsledek našeho testování správný (tj. nedopustíme se chyby prvního nebo druhého druhu), pak v první situaci H_0 nezamítneme a ve druhé a třetí situaci hypotézu H_0 zamítneme.

Představme si ale, že bychom mohli druhou nebo třetí situaci předem vyloučit. Uvažujme například, že zařízení nedovolí dělníkovi zadat vyšší hodnotu než 190 mm. Třetí varianta tedy nemůže nastat a my se rozhodujeme pouze mezi první a druhou variantou. V takovém případě můžeme použít jednostranný test.

Levostranný z-test

Pro přehlednost napíšu znovu celé zadání příkladu: Máme zařízení, které vyrábí součástku určité délky. Směrodatná odchylka délky součástek v důsledku chybovosti zařízení je 0,9 mm a odchylky mají normální rozdělení. Požadovaná délka součástky je 190 mm. Pracovník nemůže zadat k výrobě delší součástku, v důsledku chybného zadání ale mohou být vyráběny kratší součástky. Ověřte, zda bylo zařízení správně nastaveno.

Naše hypotézy jsou nyní následující

  • H_0: \mu = 190 \, \mathrm{mm} . (Slovně: Střední hodnota statistického souboru je 190 mm.)
  • H_1: \mu < 190 \, \mathrm{mm} . (Střední hodnota statistického souboru je menší než 190 mm.)

Statistika testu zůstává stejná:

Z = \frac{\bar{x} - \mu_0}{\sigma} \sqrt{n} \, ,

přičemž \bar{x} je průměr našeho vzorku, \mu_0 je teoretická (testovaná) střední hodnota, \sigma je směrodatná odchylka základního souboru a n je rozsah náhodného výběru. Statistika má opět normované normální rozdělení.

Liší se však kritický obor. V tomto případě není kritický obor rozdělený na dvě části. Kritický obor se kompletně nachází (v závislosti na alternativní hypotéze) v levé nebo pravé části statistiky. Kam ho umístit v našem případě? Zkusme si to logicky odvodit.

Naše alternativní hypotéza tvrdí, že skutečná střední hodnota je menší než 190 mm. Jestliže platí, pak bude s větší pravděpodobností průměr vzorku menší než 190. Nižší hodnota \bar{x} než 190 znamená, že rozdíl \bar{x} - \mu_0 je záporný. Protože \sigman jsou vždy kladné, záporná hodnota tohoto rozdílu znamená, že i hodnota statistiky je záporná. Z toho plyne, že záporné hodnoty statistiky hovoří spíše ve prospěch alternativní hypotézy. Čím je hodnota statistiky menší, tím větší tendenci máme k zamítnutí nulové hypotézy.

Proto se kritický obor se nachází v levé části souřadnicové osy. Z toho důvodu označujeme test jako levostranný. Rovněž tak se můžeme rozhodnout podle znaménka nerovnosti u alternativní hypotézy. Kritické obory pro hladinu významnosti \alpha = 5 %\alpha = 1 % \alpha = 10 % naleznete na obrázku níže.

Je důležité si uvědomit, že plocha kritického oboru je stále 0,05. Tj. hranice kritického oboru (kritická hodnota) pro stejnou hladinu významnosti je “více vpravo” oproti kritickému oboru oboustranného testu.

Jak vzniká chyba 1. a 2. druhu

Články o statistice se postupně přesunují na nový web: https://statistikajednoduse.cz/. Tento konkrétní článek najdete zde: https://statistikajednoduse.cz/jak-vznika-chyba-1-a-2-druhu/.

Pro někoho mohou být matoucí pojmy chyba 1. druhu a chyba 2. druhu. Protože tyto pojmy mohou být pro někoho obtížně pochopitelné nebo matoucí, ukážeme si nyní podrobně, jak tyto chyby mohou vzniknout a jak se projevují. Obě chyby si ukážeme na příkladu z-testu.

Pozn: Průběžně aktualizovaný přehled všech článků o statistických testech najdete v článku o rozhodovacím stromu pro statistické testy.

Zopakujme si, jak jsou tyto chyby definované. K chybě 1. druhu dochází, jestliže zamítneme nulovou (testovanou) hypotézu, i když tato hypotéza ve skutečnosti platí. Pravděpodobnost této chyby si volíme sami a označujeme ji jako hladinu významnosti. Chyba 2. druhu nastává, pokud nezamítneme nulovou hypotézu, i když ve skutečnosti neplatí.

Stejně jako v článku o z-testu, budeme testovat hypotézu, že střední hodnota základního souboru je 190. Směrodatná odchylka, kterou známe, je 0,9. Výběr pochází z normálního rozdělení.

Ukázkový soubor si můžete stáhnout zde: chyby-při-testech.

Chyba 1. druhu

Nejprve si musíme vygenerovat hodnoty, se kterými budeme pracovat. Microsoft Excel obsahuje funkci na generování náhodných čísel s požadovaným rozdělením a vlastnostmi. Na kartě Data klikneme na tlačítko Analýza dat a poté vybereme Generátor pseudonáhodných čísel. Pokud tlačítko Analýza dat nevidíme, znamená to, že v Excelu není nainstalován doplněk Analýza dat. Ten můžeme snadno doinstalovat pomocí tohoto návodu.

Vygenerujeme si tedy 100 náhodných čísel se střední hodnotou 190 a směrodatnou odchylkou 0,9. Správné nastavení si můžete prohlédnout na obrázku níže.

chyba-1-druhu-generator

Máme nyní k dispozici základní soubor, který má střední hodnotu 190. Provedeme z toho souboru několik výběrů o rozsahu 20. Výběry vidíte na obrázku níže. V prvním případě jsme vybrali prvních 20 hodnot. Ve druhém a třetím případě vybíráme 20 nejvyšších, resp. nejnižších hodnot. Tyto výběry určitě nejsou náhodné. Důležité však je, že k výběru těchto hodnot by mohlo (byť s velmi nízkou pravděpodobností) dojít i při náhodných výběrech.

Níže vidíme p-hodnoty testu nulové hypotézy a výsledky z-testů na hladině významnosti \alpha = 5 % . Protože my ale víme, že nulová hypotéza platí, můžeme i rozhodnout o tom, zda je výsledek testu správný nebo chybný. V případě prvního výběru testovou hypotézu nezamítáme, což je správný výsledek. Při použití druhého a třetího výběru však nulovou hypotézu zamítáme, což je chybné rozhodnutí, protože nulová hypotéza platí. Jde tedy o chybu 1. druhu.

z-test chyba 1. druhu

Výběry nejvyšších nebo nejnižších hodnot jsou “extrémní” metodou výběru. To dokazuje i extrémně nízká p-hodnota textu. K chybě 1. druhu na \alpha = 5 %  by však došlo i v případě jiného výběru.

Ukážeme si nyní, že k chybě 1. druhu může dojít i v případě čistě náhodného výběru. Zkusíme navíc provést velké množství náhodných výběrů a uvidíme, že k chybě 1. druhu dochází přibližně v pěti procentech případů, což odpovídá hodnotě hladiny významnosti \alpha = 5 % .

Vygenerujeme si nyní (stejným postupem jako dříve) náhodný výběr o rozsahu 10 000 a provedeme 1 000 náhodných výběrů. K náhodnému výběru použijeme funkce INDEX a RANDBETWEEN. Funkce INDEX vybere n-tý řádek z námi zadaného pole hodnot. Číslo řádku chceme získat náhodně. K získání náhodného celého čísla použijeme funkci RANDBETWEEN pro rozsah od jedné do počtu hodnot v základním souboru, tj. 10000. Jestliže máme hodnoty ve sloupci A, výsledný vzorec vypadá takto:

=INDEX($A$1:$A$10000;RANDBETWEEN(1;$I$6))

Pro každý náhodný výběr provedeme z-test pomocí funkce z-test. Poté zjistíme počet chyb 1. druhu při testování. Použijeme funkci KDYŽ, která nám vrátí hodnotu 1, pokud došlo k chybě 1. druhu, jinak 0.

=KDYŽ(Q23>$I$4;0;1)

Poté pomocí funkcí SUMA a počet zjistíme procentuální podíl chybných výsledků ve všech provedených testech.

=SUMA(Q24:AMB24)/POČET(Q24:AMB24)

Na obrázku níže vidíme, že tento procentuální podíl skutečně vychází přibližně 5 %.

chyba-1-druhu-vysledek

V ukázkovém souboru se vám při každém opuštění buňky hodnoty přegenerují. To je způsobeno tím, že funkce RANDBETWEEN pokaždé generuje nová náhodná čísla.

Na následujícím obrázku červeně vidíte průměrnou hodnotu náhodných výběrů, pro které nulovou hypotézu zamítáme, a zeleně průměrné hodnoty výběrů, pro které ji nezamítáme. Nulovou hypotézu tedy zamítáme v případě, když je průměr náhodného výběru “příliš vzdálený” od teoretické střední hodnoty. Můžeme určit i interval pro průměr, pro který nulovou hodnotu ještě nezamítáme. Samozřejmě platí, že pro vyšší hladinu významnosti by tento interval byl širší.

z-test-stat-first-error-avg-dep

K čemu slouží z-test a jak ho provést v Excelu

Články o statistice se postupně přesunují na nový web: https://statistikajednoduse.cz/. Tento konkrétní článek najdete zde: https://statistikajednoduse.cz/k-cemu-slouzi-z-test-a-jak-ho-provest-v-excelu/

V tomto článku jsem vám ukázal rozhodovací strom, pomocí kterého vyberete vhodný test pro ověření vaší hypotézy. V případě jednovýběrového z-testu uvažujeme, že máme jeden statistický soubor dat a chceme ověřit hypotézu o jeho střední hodnotě. Předpokládáme, že data pocházejí z normální rozdělení a navíc známe jejich rozptyl. Pokud rozptyl neznáme (a musíme ho odhadovat), využijeme t-test. Protože z-test je jedním z nejjednodušších statistických testů, vysvětlíme si na něm detailně, jak se statistické testování provádí, jaké má testování výstupy a jak je interpretujeme.

Pozn: Průběžně aktualizovaný přehled všech článků o statistických testech najdete v článku o rozhodovacím stromu pro statistické testy.

Uvažujme následující příklad: Máme zařízení, které vyrábí součástku určité délky a víme, jaká je chybovost tohoto zařízení. Chybovost je nezávislá na délce součástky a odchylky od nastavené délky mají normální rozdělení. Nařízení bylo nastaveno pracovníkem a my chceme ověřit, že tento pracovník nastavil správnou délku součástky. Změříme tedy několik součástek a na základě měření rozhodneme o správnosti nastavení zařízení. Abychom mohli příklad provést na konkrétních číslech, uvažujme, že požadovaná délka je 190 mm a směrodatná odchylka délky součástek je 0,9 mm.

Při testování nejprve musíme formulovat hypotézu, která odpovídá tomu, co potřebujeme ověřit. Formulujeme vždy tzv. nulovou a alternativní hypotézu. V našem případě máme hypotézy:

  • Nulová hypotéza: Střední hodnota statistického souboru je 190 mm.
  • Alternativní hypotéza: Střední hodnota statistického souboru není 190 mm

Nulová a alternativní hypotéza musí být vzájemně vždy ve sporu, tj. nikdy nemohou platit obě zároveň.

V praxi určitě nenaměříme délku přesně 190 mm, protože pozorování reality je zatíženo určitou náhodou, v našem případě je to chybovost stroje. Pointa testování hypotéz spočívá v rozhodnutí, jestli rozdíl mezi teoretickou a naměřenou hodnotou je tak velký, že už nemůže být vysvětlený náhodou. Uvažujme například, že naměříme průměr 189,5 cm. Je to důsledkem chybovosti stroje nebo důkaz jeho špatného nastavení? Přesně o tom rozhodneme pomocí testování hypotéz.

Testování můžeme zakončit dvěma způsoby:

  • Zamítneme nulovou hypotézu. To znamená, že prohlásíme, že rozdíl mezi hypotetickou střední hodnotou a skutečně naměřeným průměrem je tak velký, že s největší pravděpodobnostní nemohl být způsoben náhodou.
  • Nezamítneme nulovou hypotézu. Nikdy neříkáme, že nulovou hypotézu přijímáme. Zdůvodnění je níže.

Je zřejmé, že jedna z těchto hypotéz musí platit. Testování hypotézy vždy provádíme na určité hladině významnosti. Než si tento pojem vysvětlíme, uvědomme si, že v závěru našeho testu můžeme udělat dvě chybná rozhodnutí:

  • Zamítneme nulovou hypotézu, i když platí. V našem případě bychom prohlásili, že pracovník nastavil zařízení špatně, i když ve skutečnosti bylo nastavené dobře. Tuto chybu nazýváme chyba 1. druhu.
  • Nezamítneme nulovou hypotézu, i když neplatí. V našem případě bychom prohlásili, že pracovník nenastavil zařízení chybně, i když nastavení ve skutečnosti chybné bylo. Takovou chybu nazýváme chyba 2. druhu. Pravděpodobnost této chyby ale neznáme. Proto nepoužíváme výrok “přijímáme nulovou hypotézu”, protože u takového výroku bychom nevěděli, jak velkou pravděpodobností chyby je zatížen.

Pravděpodobnost chyby prvního druhu si zvolíme sami a právě velikost této pravděpodobnosti nazýváme hladina významnosti. Standardně se hladina významnosti volí jako 5 % nebo 1 %. Platí, že čím nižší hladinu významnosti zvolíme, s tím větší pravděpodobností se vyslovíme pro nezamítnutí nulové hypotézy.

Každý test má svoji testovou statistiku, většinou známe její rozdělení. Na základě rozdělení a námi zvolené hladině významnosti určíme, které hodnoty statistiky znamenají nezamítnutí testové hypotézy a které již vedou k její zamítnutí. U každé statistiky víme, jakých hodnot může nabývat. Rozdělme si tyto hodnoty na dvě části: obor přijetí a kritický obor. Platí, že tyto části se nijak nepřekrývají a pokrývají veškeré hodnoty, kterých může statistika nabýt.

V případě z-testu má statistika normované normální rozdělení. Hodnota veličiny normovaného normálního rozdělení může být libovolné reálné číslo, proto na obor hodnot a kritický obor rozdělujeme celou množinu reálných čísel.

Vysvětleme si, jak se tyto hodnoty určí, na příkladu hladiny významnosti 5 %. Protože známe rozdělení statistiky, můžeme určit, jakou hodnotu bude mít tato statistika s pravděpodobností 95 %, jestliže naše nulová hypotéza platí. “Odsekněme” tedy zbývající hodnoty, které celkově nastanou s pravděpodobností 5 %. Protože normální rozdělení je symetrické, odsekáváme stejný rozsah hodnot z obou stran. Obě krajní hodnoty jsou si v absolutní hodnotě rovny. Jedna z nich je kladná a druhá záporná.

Na obrázku níže vidíte, jak se mění rozsah oboru přijetí a kritického oboru v závislosti na hladině významnosti.

Nyní už zbývá vypočítat skutečnou hodnotu této statistiky a poté rozhodnout o zamítnutí či nezamítnutí nulové hypotézy.

Z-test v Excelu

Vraťme se k zadání našeho příkladu. Uvažujme, že máme k dispozici 20 měření a testování budeme provádět na hladině významnosti \alpha = 5 %. Soubor s daty a výsledky testu naleznete zde: z-test-příklad

Formulace hypotéz

Nejprve formulujeme hypotézy, které chceme testovat

  • Nulová hypotéza (H_0): Střední hodnota délky součástek je 190 mm.
  • Alternativní hypotéza (H_A): Střední hodnota délky součástek není 190 mm.

Statistika testu

Statistika testu je vzorec, který se dá snadno najít v literatuře nebo na internetu. Pro z-test má následující tvar:

Z = \frac{\bar{x} - \mu_0}{\sigma} \sqrt{n} \, ,

kde \bar{x} je průměr našeho výběru, \mu_0 je testovaná střední hodnota (v našem případě 190),  \sigma je směrodatná odchylka základního souboru (v našem případě 0,9) a n je počet pozorování (v našem případě 20).

Na obrázku níže vidíte data, která jsme naměřili. Modrou čarou se znázorněná teoretická střední hodnota a zelenou skutečně zjištěný průměr. Je zřejmé, že výběrový průměr se bude od teoretického vždy lišit. Je totiž zjištěný na základě náhodného výběru ze základního souboru. Smysl testování hypotézy je v rozhodnutí, zda je rozdíl dostatečně malý, aby mohl být způsoben náhodou, nebo jestli je už příliš vzdálen od naší teoretické hodnoty a tím pádem musí být naše nulová hypotéza o střední hodnotě základního souboru mylná. Platí, že pokud se zjištěný průměr bude nacházet mezi oběma červenými čarami, uvažujeme, že může být způsoben náhodou. Naopak průměr pod dolní nebo nad horní čarou už je považován za příliš velký na to, aby šlo jen o náhodnou odchylku. Samozřejmě platí, že se pohybujeme na hladině významnosti 5 % (a  pro 1 % by byl červený pruh širší, pro 10 % naopak užší.

z-test-pohled-na-data-alpha-0.05

Už tento obrázek naznačuje výsledek našeho testu, ale nepředbíhejme.

Určení kritického oboru

Statistika Z má normované normální rozdělení. Kritické hodnoty nemůžeme zjistit z hodnot distribuční funkce, ale potřebujeme inverzní funkci k distribuční funkci, která se označuje jako kvantilová funkce. Proč? Vysvětleme si to pomocí obrázku níže. Na ni máme distribuční funkci normovaného normálního rozdělení. Distribuční funkce nám pro nějakou hodnotu x říká, s jakou pravděpodobností bude náhodně vybraná hodnota menší než toto x. Např. víme, že pro číslo 0 je hodnota distribuční funkce 0,5. Máme tedy padesátiprocentní pravděpodobnost, že náhodně vybrané číslo bude záporné. Pomocí doplňku k jedničce bychom snadno zjistili, že je stejně tak pravděpodobnost 0,5, že náhodně vybrané číslo bude kladné.

My však potřebujeme opačnou informaci. Potřebujeme vědět, které číslo x_1 je hraniční a náhodně vybraná hodnota bude menší než toto x_1 s pravděpodobností 0,025 (případně pro jaké x_2 platí, že náhodně zvolená hodnota bude větší než toto x_2). My tedy pro nějaké číslo z osy x nezjišťujeme hodnotu funkce na ose y, ale naopak pro nějakou hodnotu funkce y hledáme x k ní příslušné.

z-test-krit-val-alpha-0.05

Inverzní funkce právě toto “obrácené čtení” umožňuje. Proto tedy tuto funkci využijeme. Pro dolní hranici kritického oboru zadáme do buňky v Excelu vzorec

=NORM.INV(0,05/2;0;1)

a pro horní hranici

=NORM.INV(1-0,05/2;0;1)

Normované normální rozdělení je symetrické kolem nuly, proto se hodnoty v absolutní hodnotě rovnají.

Kritický obor zapsaný intervalem

Obecný vzorec pro kritický obor je

W = ( - \infty ; u_{\frac{\alpha}{2}} \rangle \cup \langle u_{1-\frac{\alpha}{2}} ; \infty )  \, .

Pro naši konkrétní hladinu významnosti \alpha = 5 % pak získáme

W = ( - \infty ; u_{0.025} \rangle \cup  \langle u_{0.975}; \infty )  =  ( - \infty ; -1,960  \rangle  \cup  \langle 1,960; \infty ) \, ,

kde funkce u_p je kvantilová funkce normovaného normálního rozdělení.

Výpočet statistiky v Excelu

Ukažme si nyní, jak provést výpočet v Excelu. Na ukázkovém listu máme data v buňkách A1 až A20. Do buňky D2 si umístíme počet pozorování. Můžeme tam přímo zadat hodnotu 20, případně použít funkci POČET. Průměr pozorování zjistíme vzorcem

=PRŮMĚR(A1:A20)

a uložíme ho v buňce D3. Směrodatnou odchylku zapíšeme do D4, teoretickou střední hodnotu do D5 a hladinu významnosti do D6. Hranice kritického oboru, které jsme si určili výše, uložíme do D8 a D9.

Nyní můžeme určit hodnotu statistiky pomocí vzorce:

=(PRŮMĚR(A1:A20)-D5)/D4*ODMOCNINA(D2)

Protože ještě budeme zadávat vzorec pro p-hodnotu, uložte hodnotu statistiky do buňky D10.

z-test data a výsledky

Hodnota statistiky Z = -1,2125. Tato hodnota je mimo kritický obor, proto nulovou hypotézu nezamítáme.

Určení p-hodnoty

V současné době se při testování hypotéz často využívá p-hodnota. p-hodnota je mezní hladina významnosti, pro kterou ještě nulovou hypotézu nezamítáme. Jinak řečeno, platí, že pokud je p-hodnota větší nebo rovna než hladina významnosti, nulovou hypotézu nezamítáme.

Podívejme-se na následující obrázek. Na něm vidíme p-hodnotu jako modrou šrafovanou plochu, což je plocha od hodnoty statistiky směrem vlevo. V případě našeho oboustranného testu musíme uvažovat i stejně velkou plochu napravo.

z-test-pvalue-alpha-0.05

p-hodnotu určíme pomocí distribuční funkce normálního rozdělení. Hodnotu statistiky máme v buňce D10. Pro hodnoty distribuční funkce v Excelu použijeme funkci NORM.DIST, přičemž jako čtvrtý parametr zadáváme hodnotu PRAVDA. Pokud bychom zadali hodnota NEPRAVDA, získáme hodnotu funkce hustoty. Hodnotu distribuční funkce potřebujeme pro hodnotu statistiky. Protože uvažujeme i stejně velkou plochu v pravé části, násobíme výsledek funkce dvěma:

=NORM.DIST(D10;0;1;PRAVDA)*2

Použití funkce Z.TEST

Microsoft Excel obsahuje funkci Z.TEST pro provedení z-testu, která vrací p-hodnotu testované hypotézy. Bohužel je standardně tato funkce napsána pro provedení jednostranného testu pro nulovou hypotézu, že střední hodnota souboru větší než zadaná střední hodnota. Pro náš případ tedy musíme vzorec trochu upravit.

Proveďme následující úvahu.

  • Pokud je průměr náhodného výběru větší než teoretická střední hodnota, vrací nám funkce Z.TEST p-hodnotu menší než 0,5. Takovou p-hodnotu můžeme použít. Protože však provádíme oboustranný test, pro náš výsledek násobíme ještě tuto hodnotu dvěma.
  • Pokud je průměr náhodného výběr menší než teoretická střední hodnota, vrací nám funkce Z.TEST p-hodnotu větší než 0,5. V takovém případě odečteme tuto p-hodnotu od jedničky a výsledek násobíme dvěma.

Pro výpočet můžeme použít funkci MIN, která nám vrátí menší hodnotu z obou variant. Výsledek násobíme dvěma. Výsledný vzorec vypadá takto:

=2*MIN(Z.TEST(A1:A20;D5;D4);1-Z.TEST(A1:A20;D5;D4))

Pro snazší pochopení se podívejte na obrázky níže. Na prvním jsou zeleně a modře obě varianty výsledků získaných z funkce Z.TEST. Z nich vybíráme tu menší, tj. modrou plochu. To provádí funkce MIN. Modrou plochu pak násobíme dvěma a získáme výslednou p-hodnotu.

Rozhodovací strom pro statistické testy

Články o statistice se postupně přesunují na nový web: https://statistikajednoduse.cz/. Tento konkrétní článek najdete zde: https://statistikajednoduse.cz/rozhodovaci-strom-pro-statisticke-testy/

Častým problémem studentů při studiu testování statistických hypotéz je volba vhodného testu. Při výběru vhodného testu je třeba zohledňovat následující skutečnosti:

  • testovanou hypotézu (test o střední hodnotě, rozptylu, pravděpodobnostním rozdělení atd.),
  • strukturu dat (máme k dispozici jeden soubor dat či více, jsou pozorování nějak spárována atd.),
  • naše znalosti o datech (pravděpodobnostní rozdělení, znalost rozptylu atd.).

Abych rozhodování trochu zjednodušil, vytvořil jsem v aplikaci iBoske rozhodovací strom, který si můžete otevřít kliknutím na obrázek níže.

decisiontree

Aplikace je intuitivní a pro průchod stromem jednoduše klikejte na žluté odpovědi k modrým otázkám. Jakmile se dostanete k zelenému poli, máte návrh testu, který může být pro typické (především studijní) příklady vhodný. Statistika je bohužel poměrně záludná a nemohu vám dát stoprocentní jistotu, že je tento test vhodný. Určitě je ale vhodné se nad jeho použitím zamyslet.