Jak vzniká chyba 1. a 2. druhu

Články o statistice se postupně přesunují na nový web: https://statistikajednoduse.cz/. Tento konkrétní článek najdete zde: https://statistikajednoduse.cz/jak-vznika-chyba-1-a-2-druhu/.

Pro někoho mohou být matoucí pojmy chyba 1. druhu a chyba 2. druhu. Protože tyto pojmy mohou být pro někoho obtížně pochopitelné nebo matoucí, ukážeme si nyní podrobně, jak tyto chyby mohou vzniknout a jak se projevují. Obě chyby si ukážeme na příkladu z-testu.

Pozn: Průběžně aktualizovaný přehled všech článků o statistických testech najdete v článku o rozhodovacím stromu pro statistické testy.

Zopakujme si, jak jsou tyto chyby definované. K chybě 1. druhu dochází, jestliže zamítneme nulovou (testovanou) hypotézu, i když tato hypotéza ve skutečnosti platí. Pravděpodobnost této chyby si volíme sami a označujeme ji jako hladinu významnosti. Chyba 2. druhu nastává, pokud nezamítneme nulovou hypotézu, i když ve skutečnosti neplatí.

Stejně jako v článku o z-testu, budeme testovat hypotézu, že střední hodnota základního souboru je 190. Směrodatná odchylka, kterou známe, je 0,9. Výběr pochází z normálního rozdělení.

Ukázkový soubor si můžete stáhnout zde: chyby-při-testech.

Chyba 1. druhu

Nejprve si musíme vygenerovat hodnoty, se kterými budeme pracovat. Microsoft Excel obsahuje funkci na generování náhodných čísel s požadovaným rozdělením a vlastnostmi. Na kartě Data klikneme na tlačítko Analýza dat a poté vybereme Generátor pseudonáhodných čísel. Pokud tlačítko Analýza dat nevidíme, znamená to, že v Excelu není nainstalován doplněk Analýza dat. Ten můžeme snadno doinstalovat pomocí tohoto návodu.

Vygenerujeme si tedy 100 náhodných čísel se střední hodnotou 190 a směrodatnou odchylkou 0,9. Správné nastavení si můžete prohlédnout na obrázku níže.

chyba-1-druhu-generator

Máme nyní k dispozici základní soubor, který má střední hodnotu 190. Provedeme z toho souboru několik výběrů o rozsahu 20. Výběry vidíte na obrázku níže. V prvním případě jsme vybrali prvních 20 hodnot. Ve druhém a třetím případě vybíráme 20 nejvyšších, resp. nejnižších hodnot. Tyto výběry určitě nejsou náhodné. Důležité však je, že k výběru těchto hodnot by mohlo (byť s velmi nízkou pravděpodobností) dojít i při náhodných výběrech.

Níže vidíme p-hodnoty testu nulové hypotézy a výsledky z-testů na hladině významnosti \alpha = 5 % . Protože my ale víme, že nulová hypotéza platí, můžeme i rozhodnout o tom, zda je výsledek testu správný nebo chybný. V případě prvního výběru testovou hypotézu nezamítáme, což je správný výsledek. Při použití druhého a třetího výběru však nulovou hypotézu zamítáme, což je chybné rozhodnutí, protože nulová hypotéza platí. Jde tedy o chybu 1. druhu.

z-test chyba 1. druhu

Výběry nejvyšších nebo nejnižších hodnot jsou “extrémní” metodou výběru. To dokazuje i extrémně nízká p-hodnota textu. K chybě 1. druhu na \alpha = 5 %  by však došlo i v případě jiného výběru.

Ukážeme si nyní, že k chybě 1. druhu může dojít i v případě čistě náhodného výběru. Zkusíme navíc provést velké množství náhodných výběrů a uvidíme, že k chybě 1. druhu dochází přibližně v pěti procentech případů, což odpovídá hodnotě hladiny významnosti \alpha = 5 % .

Vygenerujeme si nyní (stejným postupem jako dříve) náhodný výběr o rozsahu 10 000 a provedeme 1 000 náhodných výběrů. K náhodnému výběru použijeme funkce INDEX a RANDBETWEEN. Funkce INDEX vybere n-tý řádek z námi zadaného pole hodnot. Číslo řádku chceme získat náhodně. K získání náhodného celého čísla použijeme funkci RANDBETWEEN pro rozsah od jedné do počtu hodnot v základním souboru, tj. 10000. Jestliže máme hodnoty ve sloupci A, výsledný vzorec vypadá takto:

=INDEX($A$1:$A$10000;RANDBETWEEN(1;$I$6))

Pro každý náhodný výběr provedeme z-test pomocí funkce z-test. Poté zjistíme počet chyb 1. druhu při testování. Použijeme funkci KDYŽ, která nám vrátí hodnotu 1, pokud došlo k chybě 1. druhu, jinak 0.

=KDYŽ(Q23>$I$4;0;1)

Poté pomocí funkcí SUMA a počet zjistíme procentuální podíl chybných výsledků ve všech provedených testech.

=SUMA(Q24:AMB24)/POČET(Q24:AMB24)

Na obrázku níže vidíme, že tento procentuální podíl skutečně vychází přibližně 5 %.

chyba-1-druhu-vysledek

V ukázkovém souboru se vám při každém opuštění buňky hodnoty přegenerují. To je způsobeno tím, že funkce RANDBETWEEN pokaždé generuje nová náhodná čísla.

Na následujícím obrázku červeně vidíte průměrnou hodnotu náhodných výběrů, pro které nulovou hypotézu zamítáme, a zeleně průměrné hodnoty výběrů, pro které ji nezamítáme. Nulovou hypotézu tedy zamítáme v případě, když je průměr náhodného výběru “příliš vzdálený” od teoretické střední hodnoty. Můžeme určit i interval pro průměr, pro který nulovou hodnotu ještě nezamítáme. Samozřejmě platí, že pro vyšší hladinu významnosti by tento interval byl širší.

z-test-stat-first-error-avg-dep

K čemu slouží z-test a jak ho provést v Excelu

Články o statistice se postupně přesunují na nový web: https://statistikajednoduse.cz/. Tento konkrétní článek najdete zde: https://statistikajednoduse.cz/k-cemu-slouzi-z-test-a-jak-ho-provest-v-excelu/

V tomto článku jsem vám ukázal rozhodovací strom, pomocí kterého vyberete vhodný test pro ověření vaší hypotézy. V případě jednovýběrového z-testu uvažujeme, že máme jeden statistický soubor dat a chceme ověřit hypotézu o jeho střední hodnotě. Předpokládáme, že data pocházejí z normální rozdělení a navíc známe jejich rozptyl. Pokud rozptyl neznáme (a musíme ho odhadovat), využijeme t-test. Protože z-test je jedním z nejjednodušších statistických testů, vysvětlíme si na něm detailně, jak se statistické testování provádí, jaké má testování výstupy a jak je interpretujeme.

Pozn: Průběžně aktualizovaný přehled všech článků o statistických testech najdete v článku o rozhodovacím stromu pro statistické testy.

Uvažujme následující příklad: Máme zařízení, které vyrábí součástku určité délky a víme, jaká je chybovost tohoto zařízení. Chybovost je nezávislá na délce součástky a odchylky od nastavené délky mají normální rozdělení. Nařízení bylo nastaveno pracovníkem a my chceme ověřit, že tento pracovník nastavil správnou délku součástky. Změříme tedy několik součástek a na základě měření rozhodneme o správnosti nastavení zařízení. Abychom mohli příklad provést na konkrétních číslech, uvažujme, že požadovaná délka je 190 mm a směrodatná odchylka délky součástek je 0,9 mm.

Při testování nejprve musíme formulovat hypotézu, která odpovídá tomu, co potřebujeme ověřit. Formulujeme vždy tzv. nulovou a alternativní hypotézu. V našem případě máme hypotézy:

  • Nulová hypotéza: Střední hodnota statistického souboru je 190 mm.
  • Alternativní hypotéza: Střední hodnota statistického souboru není 190 mm

Nulová a alternativní hypotéza musí být vzájemně vždy ve sporu, tj. nikdy nemohou platit obě zároveň.

V praxi určitě nenaměříme délku přesně 190 mm, protože pozorování reality je zatíženo určitou náhodou, v našem případě je to chybovost stroje. Pointa testování hypotéz spočívá v rozhodnutí, jestli rozdíl mezi teoretickou a naměřenou hodnotou je tak velký, že už nemůže být vysvětlený náhodou. Uvažujme například, že naměříme průměr 189,5 cm. Je to důsledkem chybovosti stroje nebo důkaz jeho špatného nastavení? Přesně o tom rozhodneme pomocí testování hypotéz.

Testování můžeme zakončit dvěma způsoby:

  • Zamítneme nulovou hypotézu. To znamená, že prohlásíme, že rozdíl mezi hypotetickou střední hodnotou a skutečně naměřeným průměrem je tak velký, že s největší pravděpodobnostní nemohl být způsoben náhodou.
  • Nezamítneme nulovou hypotézu. Nikdy neříkáme, že nulovou hypotézu přijímáme. Zdůvodnění je níže.

Je zřejmé, že jedna z těchto hypotéz musí platit. Testování hypotézy vždy provádíme na určité hladině významnosti. Než si tento pojem vysvětlíme, uvědomme si, že v závěru našeho testu můžeme udělat dvě chybná rozhodnutí:

  • Zamítneme nulovou hypotézu, i když platí. V našem případě bychom prohlásili, že pracovník nastavil zařízení špatně, i když ve skutečnosti bylo nastavené dobře. Tuto chybu nazýváme chyba 1. druhu.
  • Nezamítneme nulovou hypotézu, i když neplatí. V našem případě bychom prohlásili, že pracovník nenastavil zařízení chybně, i když nastavení ve skutečnosti chybné bylo. Takovou chybu nazýváme chyba 2. druhu. Pravděpodobnost této chyby ale neznáme. Proto nepoužíváme výrok “přijímáme nulovou hypotézu”, protože u takového výroku bychom nevěděli, jak velkou pravděpodobností chyby je zatížen.

Pravděpodobnost chyby prvního druhu si zvolíme sami a právě velikost této pravděpodobnosti nazýváme hladina významnosti. Standardně se hladina významnosti volí jako 5 % nebo 1 %. Platí, že čím nižší hladinu významnosti zvolíme, s tím větší pravděpodobností se vyslovíme pro nezamítnutí nulové hypotézy.

Každý test má svoji testovou statistiku, většinou známe její rozdělení. Na základě rozdělení a námi zvolené hladině významnosti určíme, které hodnoty statistiky znamenají nezamítnutí testové hypotézy a které již vedou k její zamítnutí. U každé statistiky víme, jakých hodnot může nabývat. Rozdělme si tyto hodnoty na dvě části: obor přijetí a kritický obor. Platí, že tyto části se nijak nepřekrývají a pokrývají veškeré hodnoty, kterých může statistika nabýt.

V případě z-testu má statistika normované normální rozdělení. Hodnota veličiny normovaného normálního rozdělení může být libovolné reálné číslo, proto na obor hodnot a kritický obor rozdělujeme celou množinu reálných čísel.

Vysvětleme si, jak se tyto hodnoty určí, na příkladu hladiny významnosti 5 %. Protože známe rozdělení statistiky, můžeme určit, jakou hodnotu bude mít tato statistika s pravděpodobností 95 %, jestliže naše nulová hypotéza platí. “Odsekněme” tedy zbývající hodnoty, které celkově nastanou s pravděpodobností 5 %. Protože normální rozdělení je symetrické, odsekáváme stejný rozsah hodnot z obou stran. Obě krajní hodnoty jsou si v absolutní hodnotě rovny. Jedna z nich je kladná a druhá záporná.

Na obrázku níže vidíte, jak se mění rozsah oboru přijetí a kritického oboru v závislosti na hladině významnosti.

Nyní už zbývá vypočítat skutečnou hodnotu této statistiky a poté rozhodnout o zamítnutí či nezamítnutí nulové hypotézy.

Z-test v Excelu

Vraťme se k zadání našeho příkladu. Uvažujme, že máme k dispozici 20 měření a testování budeme provádět na hladině významnosti \alpha = 5 %. Soubor s daty a výsledky testu naleznete zde: z-test-příklad

Formulace hypotéz

Nejprve formulujeme hypotézy, které chceme testovat

  • Nulová hypotéza (H_0): Střední hodnota délky součástek je 190 mm.
  • Alternativní hypotéza (H_A): Střední hodnota délky součástek není 190 mm.

Statistika testu

Statistika testu je vzorec, který se dá snadno najít v literatuře nebo na internetu. Pro z-test má následující tvar:

Z = \frac{\bar{x} - \mu_0}{\sigma} \sqrt{n} \, ,

kde \bar{x} je průměr našeho výběru, \mu_0 je testovaná střední hodnota (v našem případě 190),  \sigma je směrodatná odchylka základního souboru (v našem případě 0,9) a n je počet pozorování (v našem případě 20).

Na obrázku níže vidíte data, která jsme naměřili. Modrou čarou se znázorněná teoretická střední hodnota a zelenou skutečně zjištěný průměr. Je zřejmé, že výběrový průměr se bude od teoretického vždy lišit. Je totiž zjištěný na základě náhodného výběru ze základního souboru. Smysl testování hypotézy je v rozhodnutí, zda je rozdíl dostatečně malý, aby mohl být způsoben náhodou, nebo jestli je už příliš vzdálen od naší teoretické hodnoty a tím pádem musí být naše nulová hypotéza o střední hodnotě základního souboru mylná. Platí, že pokud se zjištěný průměr bude nacházet mezi oběma červenými čarami, uvažujeme, že může být způsoben náhodou. Naopak průměr pod dolní nebo nad horní čarou už je považován za příliš velký na to, aby šlo jen o náhodnou odchylku. Samozřejmě platí, že se pohybujeme na hladině významnosti 5 % (a  pro 1 % by byl červený pruh širší, pro 10 % naopak užší.

z-test-pohled-na-data-alpha-0.05

Už tento obrázek naznačuje výsledek našeho testu, ale nepředbíhejme.

Určení kritického oboru

Statistika Z má normované normální rozdělení. Kritické hodnoty nemůžeme zjistit z hodnot distribuční funkce, ale potřebujeme inverzní funkci k distribuční funkci, která se označuje jako kvantilová funkce. Proč? Vysvětleme si to pomocí obrázku níže. Na ni máme distribuční funkci normovaného normálního rozdělení. Distribuční funkce nám pro nějakou hodnotu x říká, s jakou pravděpodobností bude náhodně vybraná hodnota menší než toto x. Např. víme, že pro číslo 0 je hodnota distribuční funkce 0,5. Máme tedy padesátiprocentní pravděpodobnost, že náhodně vybrané číslo bude záporné. Pomocí doplňku k jedničce bychom snadno zjistili, že je stejně tak pravděpodobnost 0,5, že náhodně vybrané číslo bude kladné.

My však potřebujeme opačnou informaci. Potřebujeme vědět, které číslo x_1 je hraniční a náhodně vybraná hodnota bude menší než toto x_1 s pravděpodobností 0,025 (případně pro jaké x_2 platí, že náhodně zvolená hodnota bude větší než toto x_2). My tedy pro nějaké číslo z osy x nezjišťujeme hodnotu funkce na ose y, ale naopak pro nějakou hodnotu funkce y hledáme x k ní příslušné.

z-test-krit-val-alpha-0.05

Inverzní funkce právě toto “obrácené čtení” umožňuje. Proto tedy tuto funkci využijeme. Pro dolní hranici kritického oboru zadáme do buňky v Excelu vzorec

=NORM.INV(0,05/2;0;1)

a pro horní hranici

=NORM.INV(1-0,05/2;0;1)

Normované normální rozdělení je symetrické kolem nuly, proto se hodnoty v absolutní hodnotě rovnají.

Kritický obor zapsaný intervalem

Obecný vzorec pro kritický obor je

W = ( - \infty ; u_{\frac{\alpha}{2}} \rangle \cup \langle u_{1-\frac{\alpha}{2}} ; \infty )  \, .

Pro naši konkrétní hladinu významnosti \alpha = 5 % pak získáme

W = ( - \infty ; u_{0.025} \rangle \cup  \langle u_{0.975}; \infty )  =  ( - \infty ; -1,960  \rangle  \cup  \langle 1,960; \infty ) \, ,

kde funkce u_p je kvantilová funkce normovaného normálního rozdělení.

Výpočet statistiky v Excelu

Ukažme si nyní, jak provést výpočet v Excelu. Na ukázkovém listu máme data v buňkách A1 až A20. Do buňky D2 si umístíme počet pozorování. Můžeme tam přímo zadat hodnotu 20, případně použít funkci POČET. Průměr pozorování zjistíme vzorcem

=PRŮMĚR(A1:A20)

a uložíme ho v buňce D3. Směrodatnou odchylku zapíšeme do D4, teoretickou střední hodnotu do D5 a hladinu významnosti do D6. Hranice kritického oboru, které jsme si určili výše, uložíme do D8 a D9.

Nyní můžeme určit hodnotu statistiky pomocí vzorce:

=(PRŮMĚR(A1:A20)-D5)/D4*ODMOCNINA(D2)

Protože ještě budeme zadávat vzorec pro p-hodnotu, uložte hodnotu statistiky do buňky D10.

z-test data a výsledky

Hodnota statistiky Z = -1,2125. Tato hodnota je mimo kritický obor, proto nulovou hypotézu nezamítáme.

Určení p-hodnoty

V současné době se při testování hypotéz často využívá p-hodnota. p-hodnota je mezní hladina významnosti, pro kterou ještě nulovou hypotézu nezamítáme. Jinak řečeno, platí, že pokud je p-hodnota větší nebo rovna než hladina významnosti, nulovou hypotézu nezamítáme.

Podívejme-se na následující obrázek. Na něm vidíme p-hodnotu jako modrou šrafovanou plochu, což je plocha od hodnoty statistiky směrem vlevo. V případě našeho oboustranného testu musíme uvažovat i stejně velkou plochu napravo.

z-test-pvalue-alpha-0.05

p-hodnotu určíme pomocí distribuční funkce normálního rozdělení. Hodnotu statistiky máme v buňce D10. Pro hodnoty distribuční funkce v Excelu použijeme funkci NORM.DIST, přičemž jako čtvrtý parametr zadáváme hodnotu PRAVDA. Pokud bychom zadali hodnota NEPRAVDA, získáme hodnotu funkce hustoty. Hodnotu distribuční funkce potřebujeme pro hodnotu statistiky. Protože uvažujeme i stejně velkou plochu v pravé části, násobíme výsledek funkce dvěma:

=NORM.DIST(D10;0;1;PRAVDA)*2

Použití funkce Z.TEST

Microsoft Excel obsahuje funkci Z.TEST pro provedení z-testu, která vrací p-hodnotu testované hypotézy. Bohužel je standardně tato funkce napsána pro provedení jednostranného testu pro nulovou hypotézu, že střední hodnota souboru větší než zadaná střední hodnota. Pro náš případ tedy musíme vzorec trochu upravit.

Proveďme následující úvahu.

  • Pokud je průměr náhodného výběru větší než teoretická střední hodnota, vrací nám funkce Z.TEST p-hodnotu menší než 0,5. Takovou p-hodnotu můžeme použít. Protože však provádíme oboustranný test, pro náš výsledek násobíme ještě tuto hodnotu dvěma.
  • Pokud je průměr náhodného výběr menší než teoretická střední hodnota, vrací nám funkce Z.TEST p-hodnotu větší než 0,5. V takovém případě odečteme tuto p-hodnotu od jedničky a výsledek násobíme dvěma.

Pro výpočet můžeme použít funkci MIN, která nám vrátí menší hodnotu z obou variant. Výsledek násobíme dvěma. Výsledný vzorec vypadá takto:

=2*MIN(Z.TEST(A1:A20;D5;D4);1-Z.TEST(A1:A20;D5;D4))

Pro snazší pochopení se podívejte na obrázky níže. Na prvním jsou zeleně a modře obě varianty výsledků získaných z funkce Z.TEST. Z nich vybíráme tu menší, tj. modrou plochu. To provádí funkce MIN. Modrou plochu pak násobíme dvěma a získáme výslednou p-hodnotu.