Jednostranná varianta z-testu

Minule jsme se zabývali provedením z-testu v Excelu. Provedli jsme takzvaný oboustranný test. U oboustranného testu byla alternativní hypotéza zadaná nerovností, tj. alternativní hypotéza tvrdila, že střední hodnota náhodného výběru je odlišná od teoretické (testované) střední hodnoty. V našem konkrétním případě jsme testovali, zda se střední hodnota délky součástky rovná či nerovná 190 mm.

Teoreticky mohou nastat tři situace:

  1. střední hodnota délky součástky je přesně 190 mm (tj. \mu = 190 \, \mathrm{mm}),
  2. střední hodnota délky součástky je menší než 190 mm (tj. \mu < 190 \, \mathrm{mm}),
  3. střední hodnota délky součástky je větší než 190 mm (tj. \mu > 190 \, \mathrm{mm}).

Pokud je výsledek našeho testování správný (tj. nedopustíme se chyby prvního nebo druhého druhu), pak v první situaci H_0 nezamítneme a ve druhé a třetí situaci hypotézu H_0 zamítneme.

Představme si ale, že bychom mohli druhou nebo třetí situaci předem vyloučit. Uvažujme například, že zařízení nedovolí dělníkovi zadat vyšší hodnotu než 190 mm. Třetí varianta tedy nemůže nastat a my se rozhodujeme pouze mezi první a druhou variantou. V takovém případě můžeme použít jednostranný test.

Levostranný z-test

Pro přehlednost napíšu znovu celé zadání příkladu: Máme zařízení, které vyrábí součástku určité délky. Směrodatná odchylka délky součástek v důsledku chybovosti zařízení je 0,9 mm a odchylky mají normální rozdělení. Požadovaná délka součástky je 190 mm. Pracovník nemůže zadat k výrobě delší součástku, v důsledku chybného zadání ale mohou být vyráběny kratší součástky. Ověřte, zda bylo zařízení správně nastaveno.

Naše hypotézy jsou nyní následující

  • H_0: \mu = 190 \, \mathrm{mm}. (Slovně: Střední hodnota statistického souboru je 190 mm.)
  • H_0: \mu < 190 \, \mathrm{mm}. (Střední hodnota statistického souboru je menší než 190 mm.)

Statistika testu zůstává stejná:

Z = \frac{\bar{x} - \mu_0}{\sigma} \sqrt{n} \, ,

přičemž \bar{x} je průměr našeho vzorku, \mu_0 je teoretická (testovaná) střední hodnota, \sigma je směrodatná odchylka základního souboru a n je rozsah náhodného výběru. Statistika má opět normované normální rozdělení.

Liší se však kritický obor. V tomto případě není kritický obor rozdělený na dvě části. Kritický obor se kompletně nachází (v závislosti na alternativní hypotéze) v levé nebo pravé části statistiky. Kam ho umístit v našem případě? Zkusme si to logicky odvodit.

Naše alternativní hypotéza tvrdí, že skutečná střední hodnota je menší než 190 mm. Jestliže platí, pak bude s větší pravděpodobností průměr vzorku menší než 190. Nižší hodnota \bar{x} než 190 znamená, že rozdíl \bar{x} - \mu_0 je záporný. Protože \sigman jsou vždy kladné, záporná hodnota tohoto rozdílu znamená, že i hodnota statistiky je záporná. Z toho plyne, že záporné hodnoty statistiky hovoří spíše ve prospěch alternativní hypotézy. Čím je hodnota statistiky menší, tím větší tendenci máme k zamítnutí nulové hypotézy.

Proto se kritický obor se nachází v levé části souřadnicové osy. Z toho důvodu označujeme test jako levostranný. Rovněž tak se můžeme rozhodnout podle znaménka nerovnosti u alternativní hypotézy. Kritické obory pro hladinu významnosti \alpha = 5 %\alpha = 1 % \alpha = 10 % naleznete na obrázku níže.

Je důležité si uvědomit, že plocha kritického oboru je stále 0,05. Tj. hranice kritického oboru (kritická hodnota) pro stejnou hladinu významnosti je “více vpravo” oproti kritickému oboru oboustranného testu.

Naše testování můžeme ukončit dvěma závěry:

  • Zamítneme H_0 a na dané hladině významnosti prohlásíme, že střední hodnota délky součástky je nižší než 190 mm, tj. zařízení bylo nastaveno chybně. Jinak řečeno, přijímáme alternativní hypotézu.
  • Nezamítáme H_0 na dané hladině významnosti, tj. nepodařilo se nám prokázat, že by délka součástky byla nižší než 190 mm.

Druhou variantu výsledku ale nemůžeme interpretovat jako prokázání nulové hypotézy. Při testování hypotéz můžeme prokázat pouze platnost alternativní hypotézy. V případě nezamítnutí H_0 totiž neznáme pravděpodobnost pravdivosti tohoto výroku, tj. neznáme sílu testu. Ta závisí na skutečné hodnotě délky základního souboru (kterou samozřejmě neznáme). Extrémně malé chyby (např. \mu = 189,99 \, \mathrm{mm} na vzorku o rozsahu n = 20 bychom s velkou pravděpodobností neodhalili.

Provedení z-testu v Excelu

Podívejme se nyní, jak by se z-test provedl v aplikaci Microsoft Excel. Testovat budeme na \alpha = 5 %. Využijeme list, který jsme použili pro oboustranný test, provedeme pouze několik modifikací.

z-test left

Máme pouze jednu hranici kritického oboru, která je daná vzorcem

=NORM.S.INV(D6)

Kritický obor vyjádřený intervalem má tvar:

W = u_{0,05} = ( - \infty, -1,6449 \rangle \, ,

kde u_{0,05} označujeme pětiprocentní kvantil normovaného normálního rozdělení. Dále upravíme vzorec pro výpočet p-hodnoty

=NORM.S.DIST(D9;PRAVDA)

Hodnota statistiky je -2,0020, tj. statistika leží v kritickém oboru. V tomto případě tedy můžeme konstatovat, že jsme na hladině významnosti $\latex \alpha = 5 %$ prokázali, že střední hodnota délky součástky je menší než 190. Zařízení tedy bylo nastaveno chybně.

Výsledek potvrzuje i p-hodnota, která je nižší než hladina významnosti. Porovnání je na obrázku níže. P-hodnota je plocha pod hustotou statistiky od minus nekonečna až po vypočtenou hodnotu statistiky

z-test-pvalue-left-alpha-0.05

K provedení testu můžeme využít i funkci Z.TEST. Tato funkce standardně vrací p-hodnotu pravostranného testu. Protože my provádíme levostranný test, p-hodnotu získáme odečtením výsledku funkce Z.TEST od jedničky.

=1-Z.TEST(A1:A20;D5;D4)

Pokud bychom odečtení od jedničky neprovedli, získali bychom plochu zelené oblasti na obrázku níže. Protože provádíme levostranný test, chceme znát plochu pod funkcí hustoty nalevo od hodnoty statistiky. Ta je na obrázku vyznačena modře.

z-test-excel-oneside-expl

Pravostranný z-test v Excelu

Nyní uvažujme opačný případ, tj. pracovník nemůže nastavit délku nižší než 190 mm. V takovém případě máme následující hypotézy:

  • H_0: \mu = 190 \, \mathrm{mm}. (Slovně: Střední hodnota statistického souboru je 190 mm.)
  • H_0: \mu > 190 \, \mathrm{mm}. (Střední hodnota statistického souboru je větší než 190 mm.)

Vzorec pro statistiku testu zůstává stejný:

Z = \frac{\bar{x} - \mu_0}{\sigma} \sqrt{n} \, .

Kritický obor se nyní nachází vpravo.

Budeme opět testovat na \alpha = 5 %. Oproti předchozímu testu máme jinou hranici kritického oboru, která je daná vzorcem

=NORM.S.INV(1-D6)

Protože normované normální rozdělení je symetrické kolem nuly, je kritická hodnota v absolutní hodnotě stejná jako u předchozí varianty, liší se ale znaménkem.

Kritický obor vyjádřený intervalem má tvar:

W = u_{0,95} = ( - \infty, 1,6449 \rangle\, ,

kde u_{0,95}  označuje 95%ní kvantil normovaného normálního rozdělení. Průběh testu vidíte na obrázku níže. Na \alpha = 5 % nulovou hypotézu nezamítáme.

Capture2

Protože funkce Z.TEST standardně provádí právě pravostranný test, je její použití jednoduché:

=Z.TEST(A1:A20;D5;D4)

Nyní si ještě jednou ukážeme, proč bychom se měli výroku o pravdivosti nulové hypotézy vyhnout. Jak ukazuje obrázek níže, střední hodnota dat byla ve skutečnosti o něco vyšší než 190 mm, konkrétně 190,05 mm. Takto malou chybu se nám tedy nepodařilo odhalit.

Capture

Excel soubor s testem je zde: z-test data.

Leave a Reply

Name and email address are required. Your email address will not be published.

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

You may use these HTML tags and attributes:

<a href="" title="" rel=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <pre> <q cite=""> <s> <strike> <strong> 

%d bloggers like this: