David Mack: Pouzí smrtelníci

stvo2-pouzi-smrtelniciPrvní díl trilogie Davida Macka Volání osudu ponechal hlavní hrdiny knihy v těžkých situacích. Erika Hernandezová je ztracená kdesi v minulosti v posledním přeživším městě technologicky vyspělých, leč zdecimovaných Caeliarů, zatímco Jean-Luc Picard čelí Borgům, přičemž jejich boj shledává stále beznadějnějším. Další díl románu byl tedy očekáván s velkým napětím.

Mack v pokračování, nesoucím název Pouzí smrtelníci, poctivě navazuje na všechny příběhové linie, které rozjel v prvním díle. Nabízí odpověď na řadu otázek, které vrtaly ve hlavách čtenářů od dočtení poslední stránky prvního dílu. Příběh však není uzavřený a po dočtení budete očekávat třetí díl stejně netrpělivě, jako ten druhý. Možná i o něco více.

Summer Trip to Scotland

I made a summer trip to Scotland last year with a group of people. We made about 9 bike trips across Scotland. Here you can see a map of all our trips. You can see all my photos in my Flickr album.

The first trip was from Tinwald through Ae Forrest to Beattock. This locality is known for a lot of winter power plants, which have been built there recently.

Ae

Another beautiful place was Queen Elizabeth Forest Park.

Queen Elizabeth Forest Park

Scotland has a lot of very stylish stone churches. This one is in Kilmarnock.

The Church of Kilmaronock

Dvouvýběrový t-test

V minulém článku jsme otevřeli problematiku dvouvýběrových testů, tj. testů, které mezi sebou porovnávají dva statistické soubory. Konstatovali jsme, že existují tři varianty testu a každý má určené předpoklady, při kterých jej lze použít. Nyní se budeme zabývat situací, kdy máme dva soubory, přičemž pozorování z obou souborů nelze spárovat. Soubory tedy mohou mít i odlišný počet pozorování. Předpokládáme však, že soubory mají shodné rozptyly. V takovém případě použijeme dvouvýběrový t-test, někdy též označovaný jako dvouvýběrový Studentův test.

Soubor se všemi výpočty naleznete zde.

Levostranný dvouvýběrový t-test

Abychom si přesně ukázali odlišnost od párového t-testu, vyjdeme ze zadání podobného tomu minulému: Máme data o průměrném počtu vyrobených výrobků pracovníky ve dvou různých závodech, přičemž v jednom ze závodů jsou testovány nové výrobní procesy. Vedení společnosti potřebuje ověřit, zda nové výrobní postupy zvýšily produktivitu práce, a v závislosti na tom implementuje tyto postupy v dalších závodech. Ověřte na \alpha = 5 % hypotézu, že v závodě s novými výrobními postupy vyrobí pracovníci v průměru více výrobků, než v závodě s původními postupy, přičemž předpokládáme, že rozptyl průměrného počtu výrobků je v obou závodech stejný. Vedení v minulosti statisticky ověřilo, že před změnou procesů byli pracovníci v obou závodech v průměru stejně výkonní.

Protože porovnáváme dva různé závody, nemůžeme pozorování nijak spárovat. Naopak předpokládáme shodný rozptyl hodnot, proto můžeme použít dvouvýběrový t-test.

Soubor X_1 obsahuje pozorování ze závodu se starými postupy a soubor X_2 pozorování ze závodu s upravenými postupy. Příslušné střední hodnoty pak označíme \mu_{X_1}\mu_{X_2}. Nyní můžeme formulovat nulovou a alternativní hypotézu:

  • H_0: \mu_{X_1} = \mu_{X_2} \, . (Střední hodnota obou souborů je stejná.)
  • H_1: \mu_{X_1} < \mu_{X_2} \, . (Střední hodnota prvního souboru je nižší.)

Alternativní hypotéza nám tedy říká, že pracovníci vyrábějící podle nových postupů jsou v průměru výkonnější.

Definujme si statistiku testu T jako

T = \frac{\bar{X_1} - \bar{X_2}}{s_p \cdot \sqrt{\frac{1}{n1} + \frac{1}{n2}}} \, ,

kde n_1n_2 jsou rozsahy obou souborů a s_p určíme ze vzorce

s_p = \frac{(n_1 - 1)s^2_{X_1} + (n_2 - 1)s^2_{X_2}}{n_1 + n_2 - 2} \, ,

kde s^2_{X_1}s^2_{X_2} jsou výběrové rozptyly obou souborů. Statistika T má samozřejmě Studentovo rozdělení a kritický obor určíme ze vztahu

W = ( - \infty,  t_{\alpha} (n_1 + n_2 - 2) \rangle \, ,

Dvouvýběrový t-test můžeme v Excelu opět provést několika způsoby:

  • použitím doplňku Analýza dat,
  • použitím funkce T.TEST (nebo TTEST),
  • použitím funkcí pro kvantilovou a distribuční funkci Studentova rozdělení.

Modelová data najdete na obrázku níže, rozsah dat je n_1 = 40 n_2 = 30.

dvouvýběrový t-test data

Výpočet s využitím doplňku Analýza dat

Začneme s využitím doplňku Analýza dat. Ten spustíme kliknutím na tlačítko Analýza dat na panelu Data. Vybereme možnost Dvouvýběrový t-test s rovností rozptylů. Do políček 1. soubor a 2. soubor označíme umístění našich souborů. Pokud označíme i záhlaví tabulky, zaškrtneme možnost Popisky. V poli Alfa necháme výchozí hodnotu 0,05 a do pole Výstupní oblast vložíme hranici oblasti, do které budou vloženy výsledky.

dvouvýběrový t-test analýza dat

Výsledky pro naše data jsou na obrázku níže. Hodnota statistiky je pro oba typy testu stejná a najdeme ji v řádku t Stat, v našem případě tedy T = -2{,}8239. Při jednostranném testu nás dále zajímají řádky, které jsou označeny (1).

dvouvýběrový t-test analýza dat 2

Řádek P(T<=t) (1) obsahuje p-hodnotu testu. Opět ale platí, že na tuto hodnotu si musíme dát pozor, protože nemusí vždy odpovídat našemu zadání. V doplňku totiž neurčujeme alternativní hypotézu. Excel vrací tu ze dvou možných p-hodnot, která je menší než 0,5. V našem případě (a obecně v případě záporné hodnoty statistiky, resp. v případě vyšší hodnoty průměru prvního souboru) Excel vrací p-hodnotu pro levostranný t-test, což odpovídá našemu zadání. p-hodnota testu je tedy T = 0{,}0031. V posledním označeném řádku nalezneme hranici kritického oboru. Opět platí, že hranice je zobrazena v absolutní hodnotě. V našem případě máme levostranný test, odsekáváme tedy rozdělení statistiky zleva. Protože Studentovo rozdělení je symetrické kolem nuly, stačí k zobrazené hodnotě připsat minus, tj. kritický obor se nachází v intervalu:

W = ( - \infty,  - 1,6676 \rangle \, .

The Beginning of Spring on Chlum Mountain

We had very sunny (but a little cold) weather last weekend. Here you can see some photos from Chlum Mountain (651 meters) that I took. Maybe you will like it.

Here you can see Manětín Brook. You can also check my photos from The Valley of the Manětín Brook from last year.

DSC04308

This used to be a nice log cabin. Unfortunately, it has been damaged. I do not know when or by whom.

DSC04313

DSC04318