Dvouvýběrový t-test

V minulém článku jsme otevřeli problematiku dvouvýběrových testů, tj. testů, které mezi sebou porovnávají dva statistické soubory. Konstatovali jsme, že existují tři varianty testu a každý má určené předpoklady, při kterých jej lze použít. Nyní se budeme zabývat situací, kdy máme dva soubory, přičemž pozorování z obou souborů nelze spárovat. Soubory tedy mohou mít i odlišný počet pozorování. Předpokládáme však, že soubory mají shodné rozptyly. V takovém případě použijeme dvouvýběrový t-test, někdy též označovaný jako dvouvýběrový Studentův test.

Soubor se všemi výpočty naleznete zde.

Levostranný dvouvýběrový t-test

Abychom si přesně ukázali odlišnost od párového t-testu, vyjdeme ze zadání podobného tomu minulému: Máme data o průměrném počtu vyrobených výrobků pracovníky ve dvou různých závodech, přičemž v jednom ze závodů jsou testovány nové výrobní procesy. Vedení společnosti potřebuje ověřit, zda nové výrobní postupy zvýšily produktivitu práce, a v závislosti na tom implementuje tyto postupy v dalších závodech. Ověřte na \alpha = 5 % hypotézu, že v závodě s novými výrobními postupy vyrobí pracovníci v průměru více výrobků, než v závodě s původními postupy, přičemž předpokládáme, že rozptyl průměrného počtu výrobků je v obou závodech stejný. Vedení v minulosti statisticky ověřilo, že před změnou procesů byli pracovníci v obou závodech v průměru stejně výkonní.

Protože porovnáváme dva různé závody, nemůžeme pozorování nijak spárovat. Naopak předpokládáme shodný rozptyl hodnot, proto můžeme použít dvouvýběrový t-test.

Soubor X_1 obsahuje pozorování ze závodu se starými postupy a soubor X_2 pozorování ze závodu s upravenými postupy. Příslušné střední hodnoty pak označíme \mu_{X_1}\mu_{X_2}. Nyní můžeme formulovat nulovou a alternativní hypotézu:

  • H_0: \mu_{X_1} = \mu_{X_2} \, . (Střední hodnota obou souborů je stejná.)
  • H_1: \mu_{X_1} < \mu_{X_2} \, . (Střední hodnota prvního souboru je nižší.)

Alternativní hypotéza nám tedy říká, že pracovníci vyrábějící podle nových postupů jsou v průměru výkonnější.

Definujme si statistiku testu T jako

T = \frac{\bar{X_1} - \bar{X_2}}{s_p \cdot \sqrt{\frac{1}{n1} + \frac{1}{n2}}} \, ,

kde n_1n_2 jsou rozsahy obou souborů a s_p určíme ze vzorce

s_p = \frac{(n_1 - 1)s^2_{X_1} + (n_2 - 1)s^2_{X_2}}{n_1 + n_2 - 2} \, ,

kde s^2_{X_1}s^2_{X_2} jsou výběrové rozptyly obou souborů. Statistika T má samozřejmě Studentovo rozdělení a kritický obor určíme ze vztahu

W = ( - \infty,  t_{\alpha} (n_1 + n_2 - 2) \rangle \, ,

Dvouvýběrový t-test můžeme v Excelu opět provést několika způsoby:

  • použitím doplňku Analýza dat,
  • použitím funkce T.TEST (nebo TTEST),
  • použitím funkcí pro kvantilovou a distribuční funkci Studentova rozdělení.

Modelová data najdete na obrázku níže, rozsah dat je n_1 = 40 n_2 = 30.

dvouvýběrový t-test data

Výpočet s využitím doplňku Analýza dat

Začneme s využitím doplňku Analýza dat. Ten spustíme kliknutím na tlačítko Analýza dat na panelu Data. Vybereme možnost Dvouvýběrový t-test s rovností rozptylů. Do políček 1. soubor a 2. soubor označíme umístění našich souborů. Pokud označíme i záhlaví tabulky, zaškrtneme možnost Popisky. V poli Alfa necháme výchozí hodnotu 0,05 a do pole Výstupní oblast vložíme hranici oblasti, do které budou vloženy výsledky.

dvouvýběrový t-test analýza dat

Výsledky pro naše data jsou na obrázku níže. Hodnota statistiky je pro oba typy testu stejná a najdeme ji v řádku t Stat, v našem případě tedy T = -2{,}8239. Při jednostranném testu nás dále zajímají řádky, které jsou označeny (1).

dvouvýběrový t-test analýza dat 2

Řádek P(T<=t) (1) obsahuje p-hodnotu testu. Opět ale platí, že na tuto hodnotu si musíme dát pozor, protože nemusí vždy odpovídat našemu zadání. V doplňku totiž neurčujeme alternativní hypotézu. Excel vrací tu ze dvou možných p-hodnot, která je menší než 0,5. V našem případě (a obecně v případě záporné hodnoty statistiky, resp. v případě vyšší hodnoty průměru prvního souboru) Excel vrací p-hodnotu pro levostranný t-test, což odpovídá našemu zadání. p-hodnota testu je tedy T = 0{,}0031. V posledním označeném řádku nalezneme hranici kritického oboru. Opět platí, že hranice je zobrazena v absolutní hodnotě. V našem případě máme levostranný test, odsekáváme tedy rozdělení statistiky zleva. Protože Studentovo rozdělení je symetrické kolem nuly, stačí k zobrazené hodnotě připsat minus, tj. kritický obor se nachází v intervalu:

W = ( - \infty,  - 1,6676 \rangle \, .