Statistika

Jednostranná varianta z-testu

Minule jsme se zabývali provedením z-testu v Excelu. Provedli jsme takzvaný oboustranný test. U oboustranného testu byla alternativní hypotéza zadaná nerovností, tj. alternativní hypotéza tvrdila, že střední hodnota náhodného výběru je odlišná od teoretické (testované) střední hodnoty. V našem konkrétním případě jsme testovali, zda se střední hodnota délky součástky rovná či nerovná 190 mm.

Teoreticky mohou nastat tři situace:

  1. střední hodnota délky součástky je přesně 190 mm (tj. \mu = 190 \, \mathrm{mm}),
  2. střední hodnota délky součástky je menší než 190 mm (tj. \mu < 190 \, \mathrm{mm}),
  3. střední hodnota délky součástky je větší než 190 mm (tj. \mu > 190 \, \mathrm{mm}).

Pokud je výsledek našeho testování správný (tj. nedopustíme se chyby prvního nebo druhého druhu), pak v první situaci H_0 nezamítneme a ve druhé a třetí situaci hypotézu H_0 zamítneme.

Představme si ale, že bychom mohli druhou nebo třetí situaci předem vyloučit. Uvažujme například, že zařízení nedovolí dělníkovi zadat vyšší hodnotu než 190 mm. Třetí varianta tedy nemůže nastat a my se rozhodujeme pouze mezi první a druhou variantou. V takovém případě můžeme použít jednostranný test.

Levostranný z-test

Pro přehlednost napíšu znovu celé zadání příkladu: Máme zařízení, které vyrábí součástku určité délky. Směrodatná odchylka délky součástek v důsledku chybovosti zařízení je 0,9 mm a odchylky mají normální rozdělení. Požadovaná délka součástky je 190 mm. Pracovník nemůže zadat k výrobě delší součástku, v důsledku chybného zadání ale mohou být vyráběny kratší součástky. Ověřte, zda bylo zařízení správně nastaveno.

Naše hypotézy jsou nyní následující

  • H_0: \mu = 190 \, \mathrm{mm}. (Slovně: Střední hodnota statistického souboru je 190 mm.)
  • H_0: \mu < 190 \, \mathrm{mm}. (Střední hodnota statistického souboru je menší než 190 mm.)

Statistika testu zůstává stejná:

Z = \frac{\bar{x} - \mu_0}{\sigma} \sqrt{n} \, ,

přičemž \bar{x} je průměr našeho vzorku, \mu_0 je teoretická (testovaná) střední hodnota, \sigma je směrodatná odchylka základního souboru a n je rozsah náhodného výběru. Statistika má opět normované normální rozdělení.

Liší se však kritický obor. V tomto případě není kritický obor rozdělený na dvě části. Kritický obor se kompletně nachází (v závislosti na alternativní hypotéze) v levé nebo pravé části statistiky. Kam ho umístit v našem případě? Zkusme si to logicky odvodit.

Naše alternativní hypotéza tvrdí, že skutečná střední hodnota je menší než 190 mm. Jestliže platí, pak bude s větší pravděpodobností průměr vzorku menší než 190. Nižší hodnota \bar{x} než 190 znamená, že rozdíl \bar{x} - \mu_0 je záporný. Protože \sigman jsou vždy kladné, záporná hodnota tohoto rozdílu znamená, že i hodnota statistiky je záporná. Z toho plyne, že záporné hodnoty statistiky hovoří spíše ve prospěch alternativní hypotézy. Čím je hodnota statistiky menší, tím větší tendenci máme k zamítnutí nulové hypotézy.

Proto se kritický obor se nachází v levé části souřadnicové osy. Z toho důvodu označujeme test jako levostranný. Rovněž tak se můžeme rozhodnout podle znaménka nerovnosti u alternativní hypotézy. Kritické obory pro hladinu významnosti \alpha = 5 %\alpha = 1 % \alpha = 10 % naleznete na obrázku níže.

Je důležité si uvědomit, že plocha kritického oboru je stále 0,05. Tj. hranice kritického oboru (kritická hodnota) pro stejnou hladinu významnosti je “více vpravo” oproti kritickému oboru oboustranného testu.

Jak vzniká chyba 1. a 2. druhu

Pro někoho mohou být matoucí pojmy chyba 1. druhu a chyba 2. druhu. Protože tyto pojmy mohou být pro někoho obtížně pochopitelné nebo matoucí, ukážeme si nyní podrobně, jak tyto chyby mohou vzniknout a jak se projevují. Obě chyby si ukážeme na příkladu z-testu.

Zopakujme si, jak jsou tyto chyby definované. K chybě 1. druhu dochází, jestliže zamítneme nulovou (testovanou) hypotézu, i když tato hypotéza ve skutečnosti platí. Pravděpodobnost této chyby si volíme sami a označujeme ji jako hladinu významnosti. Chyba 2. druhu nastává, pokud nezamítneme nulovou hypotézu, i když ve skutečnosti neplatí.

Stejně jako v článku o z-testu, budeme testovat hypotézu, že střední hodnota základního souboru je 190. Směrodatná odchylka, kterou známe, je 0,9. Výběr pochází z normálního rozdělení.

Ukázkový soubor si můžete stáhnout zde: chyby-při-testech.

Chyba 1. druhu

Nejprve si musíme vygenerovat hodnoty, se kterými budeme pracovat. Microsoft Excel obsahuje funkci na generování náhodných čísel s požadovaným rozdělením a vlastnostmi. Na kartě Data klikneme na tlačítko Analýza dat a poté vybereme Generátor pseudonáhodných čísel. Pokud tlačítko Analýza dat nevidíme, znamená to, že v Excelu není nainstalován doplněk Analýza dat. Ten můžeme snadno doinstalovat pomocí tohoto návodu.

Vygenerujeme si tedy 100 náhodných čísel se střední hodnotou 190 a směrodatnou odchylkou 0,9. Správné nastavení si můžete prohlédnout na obrázku níže.

chyba-1-druhu-generator

Máme nyní k dispozici základní soubor, který má střední hodnotu 190. Provedeme z toho souboru několik výběrů o rozsahu 20. Výběry vidíte na obrázku níže. V prvním případě jsme vybrali prvních 20 hodnot. Ve druhém a třetím případě vybíráme 20 nejvyšších, resp. nejnižších hodnot. Tyto výběry určitě nejsou náhodné. Důležité však je, že k výběru těchto hodnot by mohlo (byť s velmi nízkou pravděpodobností) dojít i při náhodných výběrech.

Níže vidíme p-hodnoty testu nulové hypotézy a výsledky z-testů na hladině významnosti \alpha = 5 % . Protože my ale víme, že nulová hypotéza platí, můžeme i rozhodnout o tom, zda je výsledek testu správný nebo chybný. V případě prvního výběru testovou hypotézu nezamítáme, což je správný výsledek. Při použití druhého a třetího výběru však nulovou hypotézu zamítáme, což je chybné rozhodnutí, protože nulová hypotéza platí. Jde tedy o chybu 1. druhu.

z-test chyba 1. druhu

Výběry nejvyšších nebo nejnižších hodnot jsou “extrémní” metodou výběru. To dokazuje i extrémně nízká p-hodnota textu. K chybě 1. druhu na \alpha = 5 %  by však došlo i v případě jiného výběru.

Ukážeme si nyní, že k chybě 1. druhu může dojít i v případě čistě náhodného výběru. Zkusíme navíc provést velké množství náhodných výběrů a uvidíme, že k chybě 1. druhu dochází přibližně v pěti procentech případů, což odpovídá hodnotě hladiny významnosti \alpha = 5 % .

Vygenerujeme si nyní (stejným postupem jako dříve) náhodný výběr o rozsahu 10 000 a provedeme 1 000 náhodných výběrů. K náhodnému výběru použijeme funkce INDEX a RANDBETWEEN. Funkce INDEX vybere n-tý řádek z námi zadaného pole hodnot. Číslo řádku chceme získat náhodně. K získání náhodného celého čísla použijeme funkci RANDBETWEEN pro rozsah od jedné do počtu hodnot v základním souboru, tj. 10000. Jestliže máme hodnoty ve sloupci A, výsledný vzorec vypadá takto:

=INDEX($A$1:$A$10000;RANDBETWEEN(1;$I$6))

Pro každý náhodný výběr provedeme z-test pomocí funkce z-test. Poté zjistíme počet chyb 1. druhu při testování. Použijeme funkci KDYŽ, která nám vrátí hodnotu 1, pokud došlo k chybě 1. druhu, jinak 0.

=KDYŽ(Q23>$I$4;0;1)

Poté pomocí funkcí SUMA a počet zjistíme procentuální podíl chybných výsledků ve všech provedených testech.

=SUMA(Q24:AMB24)/POČET(Q24:AMB24)

Na obrázku níže vidíme, že tento procentuální podíl skutečně vychází přibližně 5 %.

chyba-1-druhu-vysledek

V ukázkovém souboru se vám při každém opuštění buňky hodnoty přegenerují. To je způsobeno tím, že funkce RANDBETWEEN pokaždé generuje nová náhodná čísla.

Na následujícím obrázku červeně vidíte průměrnou hodnotu náhodných výběrů, pro které nulovou hypotézu zamítáme, a zeleně průměrné hodnoty výběrů, pro které ji nezamítáme. Nulovou hypotézu tedy zamítáme v případě, když je průměr náhodného výběru “příliš vzdálený” od teoretické střední hodnoty. Můžeme určit i interval pro průměr, pro který nulovou hodnotu ještě nezamítáme. Samozřejmě platí, že pro vyšší hladinu významnosti by tento interval byl širší.

z-test-stat-first-error-avg-dep

K čemu slouží z-test a jak ho provést v Excelu

V tomto článku jsem vám ukázal rozhodovací strom, pomocí kterého vyberete vhodný test pro ověření vaší hypotézy. V případě jednovýběrového z-testu uvažujeme, že máme jeden statistický soubor dat a chceme ověřit hypotézu o jeho střední hodnotě. Předpokládáme, že data pocházejí z normální rozdělení a navíc známe jejich rozptyl. Pokud rozptyl neznáme (a musíme ho odhadovat), využijeme t-test. Protože z-test je jedním z nejjednodušších statistických testů, vysvětlíme si na něm detailně, jak se statistické testování provádí, jaké má testování výstupy a jak je interpretujeme. Snažil jsem se sepsat vysvětlení co možná nejjednodušší, znalejší čtenáři jistě prominou určitá zjednodušení, kterých jsem se v textu dopustil.

Uvažujme následující příklad: Máme zařízení, které vyrábí součástku určité délky a víme, jaká je chybovost tohoto zařízení. Chybovost je nezávislá na délce součástky a odchylky od nastavené délky mají normální rozdělení. Nařízení bylo nastaveno pracovníkem a my chceme ověřit, že tento pracovník nastavil správnou délku součástky. Změříme tedy několik součástek a na základě měření rozhodneme o správnosti nastavení zařízení. Abychom mohli příklad provést na konkrétních číslech, uvažujme, že požadovaná délka je 190 mm a směrodatná odchylka délky součástek je 0,9 mm.

Při testování nejprve musíme formulovat hypotézu, která odpovídá tomu, co potřebujeme ověřit. Formulujeme vždy tzv. nulovou a alternativní hypotézu. V našem případě je máme hypotézy:

  • Nulová hypotéza: Střední hodnota statistického souboru je 190 mm.
  • Alternativní hypotéza: Střední hodnota statistického souboru není 190 mm

Je zřejmé, že jedna z těchto hypotéz musí platit. Testování hypotézy vždy provádíme na určité hladině významnosti. Než si tento pojem vysvětlíme, uvědomme si, že v závěru našeho testu můžeme udělat dvě chybná rozhodnutí:

  • Zamítneme nulovou hypotézu, i když platí. V našem případě bychom prohlásili, že pracovník nastavil zařízení špatně, i když ve skutečnosti bylo nastavené dobře. Tuto chybu nazýváme chyba 1. druhu.
  • Nezamítneme nulovou hypotézu, i když neplatí. V našem případě bychom prohlásili, že pracovník nenastavil zařízení chybně, i když nastavení ve skutečnosti chybné bylo. Takovou chybu nazýváme chyba 2. druhu.

Pravděpodobnost chyby prvního druhu si zvolíme sami a právě velikost této pravděpodobnosti nazýváme hladina významnosti. Standardně se hladina významnosti volí jako 5 % nebo 1 %. Platí, že čím nižší hladinu významnosti zvolíme, s tím větší pravděpodobností se vyslovíme pro nezamítnutí nulové hypotézy.

Každý test má svoji testovou statistiku, většinou známe její rozdělení. Na základě rozdělení a námi zvolené hladině významnosti určíme, které hodnoty statistiky znamenají nezamítnutí testové hypotézy a které již vedou k její zamítnutí. U každé statistiky víme, jakých hodnot může nabývat. Rozdělme si tyto hodnoty na dvě části: obor přijetí a kritický obor. Platí, že tyto části se nijak nepřekrývají a pokrývají veškeré hodnoty, kterých může statistika nabýt.

V případě z-testu má statistika normované normální rozdělení. Hodnota veličiny normovaného normálního rozdělení může být libovolné reálné číslo, proto na obor hodnot a kritický obor rozdělujeme celou množinu reálných čísel.

Vysvětleme si, jak se tyto hodnoty určí, na příkladu hladiny významnosti 5 %. Protože známe rozdělení statistiky, můžeme určit, jakou hodnotu bude mít tato statistika s pravděpodobností 95 %, jestliže naše nulová hypotéza platí. “Odsekněme” tedy zbývající hodnoty, které celkově nastanou s pravděpodobností 5 %. Protože normální rozdělení je symetrické, odsekáváme stejný rozsah hodnot z obou stran. Obě krajní hodnoty jsou si v absolutní hodnotě rovny. Jedna z nich je kladná a druhá záporná.

Na obrázcích níže vidíte, jak se mění rozsah oboru přijetí a kritického oboru v závislosti na hladině významnosti.

Nyní už zbývá vypočítat skutečnou hodnotu této statistiky a poté rozhodnout o zamítnutí či nezamítnutí nulové hypotézy.

Rozhodovací strom pro statistické testy

Častým problémem studentů při studiu testování statistických hypotéz je volba vhodného testu. Při výběru vhodného testu je třeba zohledňovat následující skutečnosti:

  • testovanou hypotézu (test o střední hodnotě, rozptylu, pravděpodobnostním rozdělení atd.),
  • strukturu dat (máme k dispozici jeden soubor dat či více, jsou pozorování nějak spárována atd.),
  • naše znalosti o datech (pravděpodobnostní rozdělení, znalost rozptylu atd.).

Abych rozhodování trochu zjednodušil, vytvořil jsem v aplikaci iBoske rozhodovací strom, který si můžete otevřít kliknutím na obrázek níže.

decisiontree