Autumn is coming

The autumn is coming to the Czech Republic. Today we probably had one of the very last warm days of this year. I went out and made some photos. I wanted to prove you that autumn is not depressive part of the year. In the contrary, it is very colourful and beautiful. If you don’t believe me, look at the photos.

DSC03215

DSC03217

DSC03218

DSC03221

DSC03224

DSC03245

DSC03247

Výběrový rozptyl podruhé

Minule jsem se zmínil o rozdílu mezi výběrovým a populačním rozptylem. V článku však chyběl důkaz nebo jakékoli vysvětlení, proč tento rozdíl existuje. Tomu se budeme věnovat nyní.

Nejprve si ale odvodíme takzvaný výpočetní tvar pro rozptyl. Víme, že populační rozptyl se spočte pomocí vztahu

\sigma^2_X = \mathrm{E} \left[ X - \mathrm{E} \left(X \right) \right]^2 \, .

Pro výpočet hodnoty rozptylu pomocí kalkulačky je tento vzorec poměrně nepraktický, protože pro každou hodnotu souboru je potřeba zadat rozdíl mezi danou hodnotou a střední hodnotou. Můžeme ale provést následující úpravy:

\begin{aligned} \sigma^2_X &= \mathrm{E} \left[ X - \mathrm{E} \left(X \right) \right]^2 \\ &= \mathrm{E} \left[ X^2 - 2 X \cdot \mathrm{E} \left(X \right) + \mathrm{E} \left(X \right) \right] \\ &= \mathrm{E} \left( X^2 \right) - \mathrm{E} \left[ 2 X \cdot \mathrm{E} \left(X \right) \right] + \left[ \mathrm{E} \left(X \right) \right]^2 \\ &= \mathrm{E} \left( X^2 \right) - 2 \left[ \mathrm{E} \left(X \right) \right]^2 + \left[ \mathrm{E} \left(X \right) \right]^2 \\ &= \mathrm{E} \left( X^2 \right) - \left[ \mathrm{E} \left(X \right) \right]^2 \end{aligned}\, .

Výsledný výpočetní tvar pro rozptyl má tvar

\sigma^2_X = \mathrm{E} \left( X^2 \right) - \left[ \mathrm{E} \left(X \right) \right]^2 = \mathrm{E} \left( X^2 \right) - \mu_X^2  \, .

Stačí tedy vypočítat součet druhých mocnin hodnot souboru a odečíst od něj druhou mocninu součtu hodnot, což rychlost výpočtu podstatně sníží. Tento vztah ještě využijeme níže.

Nyní se ale vraťme k výběrovému rozptylu. Jestliže máme k dispozici pouze náhodný výběr z nějakého souboru (a nikoli všechny hodnoty souboru), zpravidla nebudeme znát střední hodnotu základního souboru. Tuto střední hodnotu musíme odhadnout pomocí aritmetického průměru. Dokažme si nejprve, že aritmetický průměr je nezkresleným odhadem střední hodnoty, tj. určíme si střední hodnotu aritmetického průměru:

\mathrm{E} \left( \bar{X} \right) = \mathrm{E} \left( \frac{1}{n} \sum\limits_{i=1}^n x_i \right) = \frac{1}{n} \sum\limits_{i=1}^n \mathrm{E} \left( x_i \right) = \frac{1}{n} \cdot n \cdot \mu = \mu \, .

Využíváme dvou známých vlastností střední hodnoty. Při násobení náhodné veličiny konstantou c \in \mathbb{R}  platí, že

\mathrm{E} \left( c \cdot X \right) = \mathrm{E} \left( c \cdot X \right) \, .

A dále střední hodnota součtu náhodných veličin se rovná součtu středních hodnot náhodných veličin:

\mathrm{E} \left( X + Y \right) = \mathrm{E} \left( X \right) + \mathrm{E} \left( Y \right) \, .

Střední hodnota aritmetického průměru je tedy skutečně střední hodnotou náhodného výběru, tím pádem je dokázáno, že takový odhad je nezkreslený. Vraťme se nyní ke vzorci pro populační rozptyl:

\sigma^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} \left[ x_i - \mathrm{E} \left(X \right) \right]^2 \, .

Namísto střední hodnoty nyní do vzorce dosadíme aritmetický průměr. Takto upravenou statistiku si označíme jako \left(s^{'} \right)^2_X :

\left(s^{'} \right)^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} \left( x_i - \bar{X} \right)^2 \, .

Nyní použijeme známý vzorec (a + b)^2 = a^2 + 2ab + b^2 a provedeme několik jednoduchých úprav.

\begin{aligned} \left(s^{'} \right)^2_X &= \frac{1}{n} \sum\limits_{i=1}^{n} \left( x_i^2 - 2 x_i \bar{X}  + \bar{X}^2 \right) \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - 2 \bar{X} \frac{\sum\limits_{i=1}^{n}x_i}{n}  + \frac{n \cdot \bar{X}^2}{n} \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - 2 \bar{X} \cdot \bar{X} + \bar{X}^2 \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - \bar{X}^2 \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - \left( \frac{1}{n} \sum\limits_{i=1}^{n} x_i \right)^2 \end{aligned}\, .

V případě druhého sčítance na posledním řádku provádíme součet vzájemných násobků hodnot v náhodném výběru. Výraz lze zapsat též jako

\frac{1}{n^2} \left( \sum\limits_{i=1}^{n} x_i \right) \left( \sum\limits_{i=1}^{n} x_i \right) = \frac{1}{n^2} \left( \sum\limits_{i=1}^{n} x_i^2 +  \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} x_i x_j \right) \, ,

protože rozlišujeme mezi případy, kdy jsou mezi sebou násobeny dva různé náhodné výběry, a kdy je násobena tatáž realizace náhodného výběru. Tím jsme získali upravený vzorec pro statistiku \left(s^{'} \right)^2_X :

\left(s^{'} \right)^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - \frac{1}{n^2} \left( \sum\limits_{i=1}^{n} x_i^2 +  \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} x_i x_j \right) \, .

Abychom si ukázali, jak je statistika \left(s^{'} \right)^2_X  zkresleným odhadem rozptylu, určíme si její střední hodnotu:

\begin{aligned} \mathrm{E} \left[ \left( s^{'} \right)^2_X \right] &= \mathrm{E} \left[ \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - \frac{1}{n^2} \left( \sum\limits_{i=1}^{n} x_i^2 +  \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} x_i x_j \right) \right] \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} \mathrm{E} \left( x_i^2 \right) - \frac{1}{n^2} \left[ \sum\limits_{i=1}^{n} \mathrm{E} \left( x_i^2 \right) + \sum\limits_{\substack{ i=1 \\ i \neq j}}^{n} \sum\limits_{j=1}^{n} \mathrm{E} \left( x_i x_j \right) \right] \end{aligned}

Uvažujeme, že jednotlivé realizace náhodného výběru jsou vzájemně nezávislé, tj. hodnoty x_i x_j jsou pro i \neq j nezávislé. V tom případě pak platí vztah

\mathrm{E} \left( x_i x_j \right) = \mathrm{E} \left( x_i \right) \mathrm{E} \left( x_j \right) \, .

Protože se ale v obou případech jedná o náhodný výběr ze stejného souboru se střední hodnotou \mu, platí dokonce

\mathrm{E} \left( x_i x_j \right) = \mathrm{E} \left( x_i \right) \mathrm{E} \left( x_j \right) =  \mu \cdot \mu = \mu^2 \, .

Dále máme v rovnici výraz \mathrm{E} \left( x_i^2 \right) . Upravíme-li si rovnici pro výpočetní tvar rozptylu, kterou jsme odvodili výše, zjistíme, že

\mathrm{E} \left( X^2 \right) = \sigma^2_X + \mu_X^2 \, .

Dosaďme tedy za oba výrazy a pokračuje v odvození

\begin{aligned} \mathrm{E} \left[ \left( s^{'} \right)^2_X \right] &= \frac{1}{n} \sum\limits_{i=1}^{n} \mathrm{E} \left( x_i^2 \right) - \frac{1}{n^2} \left[ \sum\limits_{i=1}^{n} \mathrm{E} \left( x_i^2 \right) + \sum\limits_{\substack{ i=1 \\ i \neq j}}^{n} \sum\limits_{j=1}^{n} \mathrm{E} \left( x_i x_j \right) \right] \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} \left( \sigma^2_X + \mu_X^2 \right) - \frac{1}{n^2}  \sum\limits_{i=1}^{n} \left( \sigma^2_X + \mu_X^2 \right) + \sum\limits_{\substack{ i=1 \\ i \neq j}}^{n} \sum\limits_{j=1}^{n} \mu^2 \\ &= \left( \sigma^2_X + \mu_X^2 \right) - \frac{n}{n^2} \left( \sigma^2_X + \mu_X^2 \right) -\frac{(n^2 - n)}{n^2}  \mu^2 \\ &= \sigma^2_X \left( 1 - \frac{n}{n^2} \right) + \mu_X^2 \left[ 1 - \frac{n}{n^2} + \frac{(n^2 - n)}{n^2} \right] \\ &= \sigma^2_X \frac{n \left( n - 1 \right) }{n^2} + \mu_X^2 \frac{n^2 - n - n^2 + n}{n^2}\\ &= \sigma^2_X \frac{ n - 1}{n} \end{aligned}

Vidíme tedy, že střední hodnota statistiky \left(s^{'} \right)^2_X  je

\left[ \left( s^{'} \right)^2_X \right] = \sigma^2_X \frac{ n - 1}{n} \, . 

Abychom tedy získali nezkreslený odhad rozptylu, museli bychom statistiku \left(s^{'} \right)^2_X  násobit výrazem \frac{n}{n -1} . Na základě této myšlenky je pak odvozen vzorec pro výběrový rozptyl. Výraz \frac{n}{n -1} je někdy nazýván jako Besselova korekce. Výraz \frac{n}{n -1} konverguje k 1, pro velmi velké náhodné výběry je rozdíl mezi statistikami zanedbatelný. Protože střední hodnota statistiky \left(s^{'} \right)^2_X  konverguje k hodnotě rozptylu, je asymptoticky nestranným odhadem rozptylu.

K čemu slouží rozptyl a jak ho odhadujeme

V minulých článcích jsme se zabývali testy o střední hodnotě. Střední hodnota je nejznámějším ukazatelem polohy. Ukazatele polohy charakterizují určitou úroveň hodnot v souboru. Dále se ale můžeme zajímat o to, nakolik jsou hodnoty souboru diverzifikované neboli vzájemně rozdílné. To určujeme pomocí ukazatelů variability. Například průměrný počet bodů z testu ve škole popisuje průměrnou úroveň znalostí studentů. Rozptyl bodů nám pak říká, jaké jsou mezi jednotlivými studenty rozdíly. Pokud je rozptyl velký, znamená to, že jednotliví studenti se vzájemně velmi liší svými vědomostmi. Čím je rozptyl nižší, tím jsou si jednotliví studenti svými výkony bližší.

Ukazatelů variability existuje více. Jedním z nejvíce intuitivních je rozdíl mezi největší a nejmenší hodnotou, který se označuje jako varianční rozpětí. Jeho hlavní výhodou je (nebo spíše dříve bývalo), že u menších souborů je rychle zjistitelné z hlavy nebo pomocí kalkulačky. To ale souvisí s jeho hlavní nevýhodou – z celého souboru dat využívá pouze dvě čísla. Může být tedy snadno ovlivněné odlehlými hodnotami.

Na obrázcích níže jsou dva soubory, jejichž varianční rozpětí je stejné, přestože je zřejmé, že hodnoty druhého souboru jsou více homogenní.

Tuto nevýhodu částečně odstraňuje kvartilové rozpětí. Jedná se o rozdíl mezi prvním a třetím kvartilem. První kvartil je hodnota, pro kterou platí, že přesně 25 % hodnot souboru je menší nebo rovno tomuto rozpětí. Pro třetí kvartil platí, že přesně 75 % hodnot je menší nebo rovno dané hodnotě. Kromě kvartilového rozpětí se někdy ještě používá kvantilové rozpětí, což je rozdíl mezi nejnižším a nejvyšším kvantilem. Níže vidíte, že kvartilové rozpětí odhalilo nižší variabilitu druhého souboru.

Základním ukazatelem variability je však rozptyl, který obvykle značíme \sigma^2. Obecně je rozptyl náhodné veličiny X definovaný vztahem

\sigma^2_X = \mathbb{E} \left( \left[ X - \mathbb{E} \left(X \right) \right]^2 \right) \, ,

tj. jako střední hodnota rozdílu mezi hodnotami veličiny X a její střední hodnotou umocněného na druhou.

Máme-li k dispozici všechny hodnoty náhodného souboru, vypočteme rozptyl pomocí vzorce

\sigma^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} \left[ x_i - \mathbb{E} \left(X \right) \right]^2 \, .

Chceme-li určit rozptyl náhodného souboru, vypočteme rozdíl mezi každou hodnotou náhodného souboru a průměrem souboru a ten umocníme na druhou. Rozptyl je pak součet všech těchto hodnot.

Tento vzorec se někdy označuje jako populační rozptyl, aby se odlišil od výběrového rozptylu, který si popíšeme níže.

Vyjádřeme si hodnotu rozptylu graficky. Rozdíl mezi i-tou hodnotou a průměrem umocněný na druhou odpovídá ploše čtverce, u něhož je délka hrany rovná právě (absolutní) hodnotě tohoto rozdílu. Tyto čtverce vidíme na obrázku níže. Rozptyl je pak rovný součtu ploch jednotlivých čtverců.

rozptyl

Porovnání t-testu a z-testu

V předcházejících článcích jsme rozebírali z-test a t-test. Oba testy slouží k otestování hypotézy o střední hodnotě a liší se pouze předpokladem o znalosti rozptylu. Nabízí se ale otázka, k čemu vlastně máme dva testy? Jakou výhodu vlastně přináší znalost rozptylu? Na to se nyní podíváme.

U obou dvou testů můžeme testovat hypotézy na stejných hladinách významnosti. Ať už tedy provedeme test pomocí z-testu nebo t-testu, můžeme si předem stanovit, že pravděpodobnost chyby 1. druhu (neoprávněného zamítnutí H_0 ) je například \alpha = 5 % . Neznalost rozptylu se ale projeví v pravděpodobnosti chyby 2. druhu, neboli v síle testu. V případě využití t-testu máme větší pravděpodobnost, že nezamítneme neplatnou H_0 .

Ukažme si to na příkladu oboustranného testu. Předpokládejme stejné hypotézy jako v předchozích článcích, tj.

  • H_0: \mu = 190 \, ,
  • H_1: \mu \neq 190 \, .

Vygenerujeme si soubor pomocí generátoru náhodných čísel. Ten nám vygeneruje čísla s požadovanými vlastnostmi. Budeme chtít data se střední hodnotou \mu = 190,35 a směrodatnou odchylkou \sigma = 0,5. Víme tedy, že nulová hypotéza neplatí. Pokud tedy nulovou hypotézu při testu zamítneme, bude náš výsledek správný. V opačném případě se dopouštíme chyby 2. druhu.

t-test-random-gen.PNG

Na obrázku níže máte vygenerovaná data a výsledky provedených testů.

t-test vs z-test

p-hodnota z-testu je 0,0196, p-hodnota t-testu je 0,1405. Na hladině významnosti \alpha = 5 % bychom tedy nulovou hypotézu zamítli pouze při použití z-testu. V případě použití t-testu bychom se dopustili chyby 2. druhu.

Soubor s výpočty si můžete stáhnout zde.

Na základě jednoho příkladu ale nejde vyvozovat nějaké obecnější závěry. Zkusme tedy komplexnější experiment. Využijeme soubor náhodných čísel, který jsme vytvořili pro analýzu síly testu z-testu.