Statistika

Dvouvýběrové testy na střední hodnotu a párový t-test

Zatím jsme se zabývali jednovýběrovými testy. V těchto testech jsme porovnávali jeden statistický soubor s jednou konkrétní hodnotou. Často se ale porovnává několik statistických souborů vůči sobě. To znamená, že například u dvou souborů zjišťujeme, jestli některý z nich nemá větší střední hodnotu nebo rozptyl než ten druhý. Pro takový typ úloh budeme používat testy, které jsou navržené na práci s více soubory.

Začneme s dvouvýběrovými testy, tj. testy, které porovnávají právě dva soubory. Na porovnání dvou souborů s normálním rozdělením máme k dispozici hned tři testy: párový t-test, Welschův t-test a Studentův t-test. Nyní uvedu tři jednoduché otázky, pomocí kterých dokážeme vybrat správný test:

  • Jsou pozorování spárovaná, tj. dokážu jednomu konkrétnímu pozorování z prvního souboru přiřadit právě jedno konkrétní pozorování z druhého souboru? Pokud ano, volím párový t-test. Ten si popíšeme v tomto článku. Pokud ne, pokračuji dále.
  • Mají oba soubory shodný rozptyl? Pokud ano, použiji Studentův t-test.
  • Máme-li v souborech nespárovaná pozorování a mají-li oba soubory různý rozptyl, volím Welschův t-test.

Levostranný párový t-test

Uveďme si nyní typické zadání párového testu: Máme data o průměrném počtu vyrobených výrobků 20 pracovníky za jednu směnu. Vedení společnosti následně provedlo změnu výrobních procesů a pro stejných 20 pracovníků provedlo nová měření. Ověřte na hladině významnosti \alpha = 5 %, že došlo ke zvýšení průměrné produkce pracovníků.

Klíčové v zadání je, že jsme provedli 2 sady měření pro 20 stejných pracovníků. Můžeme tedy vždy spárovat dvě měření jednoho konkrétního pracovníka. Z toho důvodu můžeme zvolit párový t-test. Pokud bychom měli měření od různých pracovníků nebo pokud by měření byla anonymní, museli bychom zvolit jeden ze zbývajících dvou testů.

Označme si soubory jako X_1X_2 a jejich střední hodnoty jako \mu_{X_1}\mu_{X_2}. Nyní můžeme formulovat nulovou a alternativní hypotézu:

  • H_0: \mu_{X_1} = \mu_{X_2} \, . (Střední hodnota obou souborů je stejná.)
  • H_1: \mu_{X_1} < \mu_{X_2} \, . (Střední hodnota prvního souboru je nižší.)

Alternativní hypotézu volíme takto, protože máme dle zadání prokázat zvýšení průměrné produkce pracovníka (a předpokládáme, že snížení produktivity je nepravděpodobné). Provedeme tedy levostranný test.

Uvažujme nyní náhodnou veličinu Z, kterou si definujeme jako rozdíl náhodných veličin X_1X_2, tj. Z = X_1 - X_2. Pro každou dvojici pozorování můžeme určit z_i , které je dáno jako rozdíl pozorování, tj.

z_i = x_{1,i} - x_{2,i} \, .

Mají-li oba soubory stejnou střední hodnotu, pak by měla mít náhodná veličina Z nulovou střední hodnotu, tj. \mu_Z = 0 | H_0. Jestliže má druhý soubor větší střední hodnotu, pak má i veličina Z ostře zápornou střední hodnotu, tj. \mu_Z < 0 | H_1. Náš případ dvouvýběrového testu tedy můžeme jednoduše převést na jednovýběrový t-test provedený nad veličinou Z.

Definujme si průměr pozorování veličiny Z jako \bar{z} a výběrovou směrodatnou odchylku jako  s_{Z}. Nyní můžeme definovat statistiku testu T jako

T = \frac{\bar{z}}{s_{Z}} \sqrt{n}

a tato veličina má n - 1 stupňů volnosti. Analogicky určíme i kritický obor pro statistiku:

W = ( - \infty,  t_{\alpha} (n - 1) \rangle \, ,

kde t_{\alpha} (n - 1) je kvantil Studentova rozdělení s (n - 1) stupni volnosti.

Párový t-test můžeme v Excelu provést několika způsoby:

  • použitím doplňku Analýza dat,
  • použitím funkce T.TEST (nebo TTEST),
  • použitím funkcí pro kvantilovou a distribuční funkci Studentova rozdělení.

Soubor s ukázkovými daty i všemi výpočty si můžete stáhnout zde.

Výpočet s využitím doplňku Analýza dat

Tento doplněk jsme již používali ke generování náhodných souborů dat. Spustíte ho kliknutím na tlačítko Analýza dat na panelu Data. Pokud tam tlačítko nevidíte, musíte si doplněk nainstalovat. Po kliknutí na tlačítko se vám zobrazí seznam analytických nástrojů. Vyberte možnost Dvouvýběrový párový t-test na střední hodnotu. Analýza dat zvládá oboustranný i jednostranný párový t-test.

parovy t-test analyza dat 1

V dialogovém okně označíme oblast se dvěma soubory, a to včetně záhlaví. Pak ale nesmíme zapomenout zaškrtnout pole Popisky, čímž dáváme Excelu najevo, že v prvním řádku najde názvy datových souborů. Dále vyplníme výstupní oblast, pole Hypotetický rozdíl středních hodnot můžeme nechat prázdné.

parovy t-test analyza dat 2

Níže vidíme výsledky. Excel určil statistiku T = -2{,}4038 a p-hodnotu jako 0{,}0133. Na hodnotu na třetím řádku si ale musíme dát pozor. Obsahuje hranici kritické hodnoty, ta je ale vždy kladná. Protože my provádíme levostranný test, bude se kritický obor nacházet nalevo od nuly. K hodnotě stačí dopsat minus, protože hustota Studentova rozdělení je sudá funkce. Kritický obor vyjádřený intervalem je tedy:

W = ( - \infty,  - 1{,}7291 \rangle \,  .

parovy t-test analyza dat 3

Doplňku Analýza dat jsme nespecifikovali alternativní hypotézu. Excel u jednostranného testu vždy vrací p-hodnotu, která je menší než 0{,}5, tj. v našem případě vrací správně hodnotu pro levostranný test. Pokud by však průměr dat druhého souboru byl menší než průměr dat prvního, byla by statistika kladná a v tom případě by p-hodnota odpovídající této hodnotě musela být větší než 0{,}5. V takovém případě by bylo třeba správnou p-hodnotu dopočítat.

Využití funkce T.TEST (TTEST)

Excel obsahuje funkci T.TEST (v případě verze 2007 a starších funkci TTEST), která je další rychlou cestou k provedení párového t-testu. Její nevýhodou je, že vrací pouze p-hodnotu, nikoli však hodnotu statistiky a kritický obor.

V novějších verzích Excelu zadáme vzorec:

=T.TEST(A2:A21;B2:B21;1;1)

První dva parametry jsou odkazy na datové soubory, tentokrát již bez záhlaví. Třetí parametr zadáváme 1, protože požadujeme jednostranný test, pro oboustranný test bychom zvolili 2. Třetím parametrem volíme typ testu. Typy testů jsou specifikované na začátku článku. Pro párový test volíme 1, pro nepárový test se shodnými rozptyly 2 a pro nepárový test s různými rozptyly 3.

Tato funkce funguje podobně jako Analýza dat, tj. nezadáváme mu typ jednostranného testu a funkce vybírá tu variantu, pro kterou je p-hodnota menší než 0{,}5. Chceme-li si pojistit, že výsledek bude vždy správný, můžeme provést následující úpravu:

=KDYŽ(F12<0;T.TEST(A2:A21;B2:B21;1;1);1-T.TEST(A2:A21;B2:B21;1;1))

Pokud by tedy hodnota statistiky byla kladná, použije se jednotkový doplněk k výsledku funkce T.TEST, což je správný výsledek.

Ve starších verzích Excelu použijeme funkce TTEST, parametry volíme stejné jako u novější varianty funkce:

=TTEST(A2:A21;B2:B21;1;1)

Opět můžeme provést úpravu zaručující správný výsledek i při kladné hodnotě statistiky:

=KDYŽ(G12<0;TTEST(A2:A21;B2:B21;1;1);1-TTEST(A2:A21;B2:B21;1;1))

Manuální výpočet

Poslední variantou je manuální výpočet. Nejprve vytvoříme sloupec s rozdíly hodnot, tj. sloupec s pozorovanými hodnotami veličiny Z. Dále dopočítáme průměrný rozdíl, směrodatnou odchylku, hodnoty statistiky a určíme počet dat.

parovy t-test data a vysledky

Výpočet v MS Excel 2010 a novějším

Hranice kritického oboru určíme pomocí funkce kvantilové funkce Studentova rozdělení T.INV. Protože kritický obor určujeme zleva, zadáváme rovnou kvantil a počet stupňů volnosti:

=T.INV(F7;F2-1)

p-hodnotu testu určíme pomocí funkce distribuční funkce Studentova rozdělení T.DIST, které jako parametry zadáme hodnotu statistiky, počet stupňů volnosti a parametr PRAVDA, který říká, že chceme hodnotu distribuční funkce a nikoli funkce hustoty.

=T.DIST(F12;F2-1;PRAVDA)

V literatuře se uvádí, že pro větší objemy dat (zpravidla n \geq 30) je možné nahradit Studentovo rozdělení normálním rozdělení. Není však chybou, pokud i pro vyšší objemy dat použijeme Studentovo rozdělení.

Výpočet ve starších verzích Excelu

Ve starších verzích Excelu je manuální výpočet komplikovanější. Starší verze má funkci TINV, která nepracuje se standardním Studentovým rozdělením, ale s tzv. oboustranným Studentovým rozdělením. Toto rozdělení má má nenulovou hustotu pouze pro x > 0, přičemž hodnota hustoty je dvojnásobná oproti standardní hustotě. (Tím je splněna podmínka, že plocha pod hustotou má obsah 1.) Při určování hranice kritického oboru u oboustranného testu pak zadáváme přímo hladinu významnosti, u jednostranného testu ale musíme hodnotu hladiny významnosti násobit dvěma. Dále musíme doplnit znaménko minus, protože funkce TINV vrací vždy kladná čísla.

=-TINV(2*F7;F2-1)

Při určování p-hodnoty použijeme funkci TDIST. Tato funkce má důležitý třetí parametr, kterým určujeme, zda je použita distribuční funkce pro standardní nebo jednostranné Studentovo rozdělení. V případě jednostranného testu zadáváme 1. Komplikace je v tom, že funkce TDIST umí pracovat jen s kladnými čísly. To můžeme opět vyřešit pomocí funkce KDYŽ:

=KDYŽ(G12<0;TDIST(-G12;F2-1;1);1-TDIST(G12;F2-1;1))

Pravostranný párový t-test

Nyní si na novém datovém souboru stručně popíšeme postup pro pravostranný párový t-test. Opět se budeme pohybovat na hladině významnosti \alpha = 5 %.

Hypotézy pravostranného testu jsou:

  • H_0: \mu_{X_1} = \mu_{X_2} \, ,
  • H_1: \mu_{X_1} > \mu_{X_2} \, .

Statistika testu zůstává samozřejmě stejná, kritický obor vyjádřený intervalem pak je:

W = \langle t_{1 - \alpha} (n - 1) , \infty )  \, .

Výpočet s využitím doplňku Analýza dat

Výpočet pomocí Analýzy dat provádíme stejně jako v předchozím případě. Na obrázku níže vidíme výsledek. Hodnota statistiky testu je T = -1{,}9739. V případě pravostranného testu je kritický obor skutečně napravo od nuly a přesný zápis kritického oboru intervalem by byl

W = \langle 1{,}7291 , \infty )  \, .

parovy pravostranny t-test analyza dat

V našem případě je však špatně zobrazená p-hodnota. Protože statistika pravostranného testu je záporná, p-hodnota musí být větší než 0{,}5. Analýza dat nám zobrazuje p-hodnotu 0{,}0316, to by však byla p-hodnota pro případ levostranného testu. P-hodnota pravostranného testu je 1 - 0{,}0316= 0{,}9684.

Využití funkce T.TEST (TTEST)

Podobná záludnost jako výše nás čeká i u funkcí T.TEST a TTEST. Výše už jsme si popsali úpravu, která nám zajistí, že p-hodnota testu bude vždy správná. V případě pravostranného testu stačí malá úprava: změna znaménka nerovnosti u podmínky.

=KDYŽ(F12>0;T.TEST(A2:A21;B2:B21;1;1);1-T.TEST(A2:A21;B2:B21;1;1))

To samé platí pro funkci TTEST.

=KDYŽ(G12>0; TTEST(A2:A21;B2:B21;1;1);1- TTEST(A2:A21;B2:B21;1;1))

Manuální výpočet

Paradoxně jednoduše nyní může vypadat manuální výpočet v novějších verzích Excelu. Hranici kritického oboru určíme opět pomocí funkce T.INV, nyní však “odsekáváme” rozdělení statistiky zprava, protože jako kvantil zadáváme 1 - \alpha:

=T.INV(1-F7;F2-1)

Pro určení p-hodnoty můžeme použít funkci T.DIST.RT, což je pravostranná distribuční funkce Studentova rozdělení:

=T.DIST.RT(F12;F2-1)

Použijeme-li nám již známou funkci T.INV, musíme samozřejmě provést odečtení hodnoty od jedničky, abychom získali p-hodnotu:

=1-T.DIST(F12;F2-1;PRAVDA)

Ve starších verzích Excelu opět použijeme funkci TINV. Odebereme ale znaménko minus, protože hranice kritického oboru je nyní kladné číslo:

=TINV(2*F7;F2-1)

Pro správné určení p-hodnoty testu opět použijeme funkci KDYŽ, oproti levostrannému testu měníme znaménko nerovnosti v podmínce:

=KDYŽ(H12>0;TDIST(H12;F2-1;1);1-TDIST(-H12;F2-1;1))

parovy pravostranny t-test data a vysledky

Oboustranný párový t-test

Zbývá nám poslední varianta testu a tím je oboustranný párový t-test. V případě oboustranného testu řešíme pouze to, jestli se střední hodnoty liší nebo ne. Nerozhodujeme, který ze souborů má menší a který větší střední hodnotu. Vygenerujeme si nový datový soubor, test si ukážeme na \alpha = 5 %.

Hypotézy oboustranného testu jsou:

  • H_0: \mu_{X_1} = \mu_{X_2} \, ,
  • H_1: \mu_{X_1} \neq \mu_{X_2} \, .

Statistika testu zůstává stále stejná, kritický obor vyjádřený intervalem je:

W = ( - \infty, t_{\frac{\alpha}{2}} (n - 1) \rangle \cup \langle t_{1 - \frac{\alpha}{2}} (n - 1) , \infty )  \, .

Výpočet s využitím doplňku Analýza dat

Výpočet pomocí Analýzy dat se spouští stejně jako v předchozích případech. Ve výsledcích nás stále zajímá hodnota statistiky, která je nyní T = -2{,}3527. Dále se podíváme na poslední dva řádky, kde vidíme p-hodnotu testu a hranici kritického oboru. Studentovo rozdělení je symetrické a tak víme, že kritický obor je

W = ( - \infty, -2{,}0930 \rangle \cup \langle 2{,}0930, \infty )  \, .

Na základě p-hodnoty i na základě faktu, že hodnota statistiky se nachází v kritickém oboru, zamítáme nulovou hypotézu.

parovy oboustranny t-test analyza dat

Využití funkce T.TEST (TTEST)

Použití funkce T.TEST je v tomto případě jednoduché. Jako třetí parametr zadáváme číslo 2, které značí oboustranný test. V tomto případě není výpočet komplikovaný 2 variantami testu jako u jednostranných testů a výsledek je vždy správný.

=T.TEST(A2:A21;B2:B21;2;1)

U starší funkce TTEST platí to samé, tj. jako třetí parametr zadáváme dvojku.

=TTEST(A2:A21;B2:B21;2;1)

Manuální výpočet

Poslední možností je manuální výpočet. Pro určení hranic kritického oboru v novějších verzích Excelu použijeme opět funkce T.INV. Dolní hranici kritického oboru určíme vzorcem

=T.INV(F7/2;F2-1)

a horní hranici

=T.INV(1-F7/2;F2-1)

Všimněte si, že použití této funkce je velmi přímočaré, protože použité kvantily odpovídají těm z vzorce pro kritický obor.

P-hodnotu nejsnadněji určíme pomocí funkce T.DIST.2T, což je distribuční funkce oboustranného Studentova rozdělení. Pouze si musíme uvědomit, že tato funkce je vhodná pouze pro oboustranné testy. Funkce zadáme hodnotu statistiky (obecně v absolutní hodnotě, protože funkce pracuje jen s kladnými čísly) a získáme p-hodnotu.

=T.DIST.2T(ABS(F13);F2-1)

Pokud bychom chtěli použít klasickou distribuční funkci Studentova rozdělení, pak musíme použít následující vzorec:

=2*MIN(T.DIST(F13;F2-1;PRAVDA);1-T.DIST(F13;F2-1;PRAVDA))

Máme-li starší verzi Excelu, použijeme pro určení kritického oboru funkci TINV. Protože tato funkce pracuje s oboustranným rozdělením, zadáváme jako kvantily přímo hladinu významnosti. K dolní hranici si sami musíme doplnit znaménko minus, tj:

=-TINV(F7;F2-1)

Horní hranice je pak stejný vzorec, pouze bez znaménka minus:

=TINV(F7;F2-1)

Zbývá nám určit p-hodnotu. K tomu použijeme funkci TDIST, kde jako poslední parametr zadáváme 2. Tato funkce se pak chová stejně jako T.DIST.2T, tím pádem její výsledek už nijak neupravujeme a rovnou získáváme p-hodnotu testu.

=TDIST(ABS(H13);F2-1;2)

parovy oboustranny t-test data a vysledky

Jednovýběrový test na rozptyl

V minulých článcích jsme se zabývali testy o střední hodnotě. Střední hodnota je nejznámějším ukazatelem polohy. Ukazatele polohy charakterizují určitou úroveň hodnot v souboru. Dále se ale můžeme zajímat o to, nakolik jsou hodnoty souboru vzájemně diverzifikované. Například průměrný počet bodů z testu ve škole popisuje průměrnou úroveň znalostí studentů, rozptyl známek nám pak říká, jak velké jsou rozdíly mezi studenty. Pokud je rozptyl velký, znamená to, že jednotliví studenti se vzájemně velmi liší svými vědomostmi. U sériově vyráběných součástek výrobce často požaduje minimální rozptyl, tj. jednotlivé výroby by se měly co nejméně lišit svými rozměry, hmotností atd.

Uvažujeme následující příklad: Máme zařízení, pomocí kterého vyrábíme součástky průměrné délky 190 mm. Výrobce garantuje, že maximální rozptyl délky součástky je 0,09 mm a víme, že odchylky od nastavené délky mají normální rozdělení. Ověřte na hladině významnosti \alpha = 0{,}05, zda rozptyl délky překračuje hranici zadanou výrobcem.

Dle zadání bychom měli provést jednostranný (pravostranný) test. Reálné příklady oboustranného testu by se hledaly poměrně složitě. Většinou požadujeme větší nebo naopak menší variabilitu, než je daná hranice.

Formulujme nejprve hypotézy testu:

  • H_0: \sigma^2 = 0{,}09 \, \mathrm{mm} \, . (Slovně: Rozptyl délky je 0,09 mm.)
  • H_1: \sigma^2 > 0{,}09 \, \mathrm{mm} \, . (Slovně: Rozptyl délky je větší než 0,09 mm.)

Statistiku testu $latex T $ vypočteme ze vztahu

T = \frac{(n - 1) s^2}{\sigma_0^2} \, ,

kde n je rozsah výběru, \sigma_0^2 je teoretický (testovaný, hypotetický) rozptyl a s je výběrový rozptyl. Statistika je tedy poměrem teoretického a výběrového rozptylu, kterou násobíme rozsahem výběru. Jestliže je tedy například výběrový rozptyl výrazně větší než teoretický, má statistika relativně vysokou hodnotu. Naopak relativně nízké hodnoty svědčí o výrazně menším výběrovém rozptylu ve srovnání s teoretickým.

Statistika T má \chi^2 rozdělení. Toto rozdělení má jeden parametr, který nazýváme počet stupňů volnosti. Stupeň volnosti se rovná počtu pozorování sníženému o jedničku. Kritický obor tedy určíme pomocí kvantilů \chi^2 jako

W = \langle \chi^2_{1 - \alpha} \left( n - 1 \right), \infty ) \, .

Provedení testu v Excelu

Pro provedení testu si vygenerujeme náhodný soubor o velikosti n = 20. Soubor si vygenerujeme takový, že směrodatná odchylka \sigma^2 = 0{,}3 (rozptyl \sigma^2 = 0{,}09), tj. ve skutečnosti bude platit nulová hypotéza.

test-rozptyl data

Na následujícím obrázku si můžete prohlédnout data i výsledky výpočtů. Vidíme, že výsledek testu správný, tj. hypotézu H_0 jsme nezamítli.

test-rozptyl data a vysledky

Opět zde narážíme na rozdíly mezi staršími a novějšími verzemi Excelu. Provedeme si výpočet v obou verzích. Opět platí, že postup pro starší verzi je možné provést i v novější verzi.

Výběrový rozptyl podruhé

Minule jsem se zmínil o rozdílu mezi výběrovým a populačním rozptylem. V článku však chyběl důkaz nebo jakékoli vysvětlení, proč tento rozdíl existuje. Tomu se budeme věnovat nyní.

Nejprve si ale odvodíme takzvaný výpočetní tvar pro rozptyl. Víme, že populační rozptyl se spočte pomocí vztahu

\sigma^2_X = \mathrm{E} \left[ X - \mathrm{E} \left(X \right) \right]^2 \, .

Pro výpočet hodnoty rozptylu pomocí kalkulačky je tento vzorec poměrně nepraktický, protože pro každou hodnotu souboru je potřeba zadat rozdíl mezi danou hodnotou a střední hodnotou. Můžeme ale provést následující úpravy:

\begin{aligned} \sigma^2_X &= \mathrm{E} \left[ X - \mathrm{E} \left(X \right) \right]^2 \\ &= \mathrm{E} \left[ X^2 - 2 X \cdot \mathrm{E} \left(X \right) + \mathrm{E} \left(X \right) \right] \\ &= \mathrm{E} \left( X^2 \right) - \mathrm{E} \left[ 2 X \cdot \mathrm{E} \left(X \right) \right] + \left[ \mathrm{E} \left(X \right) \right]^2 \\ &= \mathrm{E} \left( X^2 \right) - 2 \left[ \mathrm{E} \left(X \right) \right]^2 + \left[ \mathrm{E} \left(X \right) \right]^2 \\ &= \mathrm{E} \left( X^2 \right) - \left[ \mathrm{E} \left(X \right) \right]^2 \end{aligned}\, .

Výsledný výpočetní tvar pro rozptyl má tvar

\sigma^2_X = \mathrm{E} \left( X^2 \right) - \left[ \mathrm{E} \left(X \right) \right]^2 = \mathrm{E} \left( X^2 \right) - \mu_X^2  \, .

Stačí tedy vypočítat součet druhých mocnin hodnot souboru a odečíst od něj druhou mocninu součtu hodnot, což rychlost výpočtu podstatně sníží. Tento vztah ještě využijeme níže.

Nyní se ale vraťme k výběrovému rozptylu. Jestliže máme k dispozici pouze náhodný výběr z nějakého souboru (a nikoli všechny hodnoty souboru), zpravidla nebudeme znát střední hodnotu základního souboru. Tuto střední hodnotu musíme odhadnout pomocí aritmetického průměru. Dokažme si nejprve, že aritmetický průměr je nezkresleným odhadem střední hodnoty, tj. určíme si střední hodnotu aritmetického průměru:

\mathrm{E} \left( \bar{X} \right) = \mathrm{E} \left( \frac{1}{n} \sum\limits_{i=1}^n x_i \right) = \frac{1}{n} \sum\limits_{i=1}^n \mathrm{E} \left( x_i \right) = \frac{1}{n} \cdot n \cdot \mu = \mu \, .

Využíváme dvou známých vlastností střední hodnoty. Při násobení náhodné veličiny konstantou c \in \mathbb{R}  platí, že

\mathrm{E} \left( c \cdot X \right) = c \cdot \mathrm{E} \left( X \right) \, .

A dále střední hodnota součtu náhodných veličin se rovná součtu středních hodnot náhodných veličin:

\mathrm{E} \left( X + Y \right) = \mathrm{E} \left( X \right) + \mathrm{E} \left( Y \right) \, .

Střední hodnota aritmetického průměru je tedy skutečně střední hodnotou náhodného výběru, tím pádem je dokázáno, že takový odhad je nezkreslený. Vraťme se nyní ke vzorci pro populační rozptyl:

\sigma^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} \left[ x_i - \mathrm{E} \left(X \right) \right]^2 \, .

Namísto střední hodnoty nyní do vzorce dosadíme aritmetický průměr. Takto upravenou statistiku si označíme jako \left(s^{'} \right)^2_X :

\left(s^{'} \right)^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} \left( x_i - \bar{X} \right)^2 \, .

Nyní použijeme známý vzorec (a + b)^2 = a^2 + 2ab + b^2 a provedeme několik jednoduchých úprav.

\begin{aligned} \left(s^{'} \right)^2_X &= \frac{1}{n} \sum\limits_{i=1}^{n} \left( x_i^2 - 2 x_i \bar{X}  + \bar{X}^2 \right) \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - 2 \bar{X} \frac{\sum\limits_{i=1}^{n}x_i}{n}  + \frac{n \cdot \bar{X}^2}{n} \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - 2 \bar{X} \cdot \bar{X} + \bar{X}^2 \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - \bar{X}^2 \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - \left( \frac{1}{n} \sum\limits_{i=1}^{n} x_i \right)^2 \end{aligned}\, .

V případě druhého sčítance na posledním řádku provádíme součet vzájemných násobků hodnot v náhodném výběru. Výraz lze zapsat též jako

\frac{1}{n^2} \left( \sum\limits_{i=1}^{n} x_i \right) \left( \sum\limits_{i=1}^{n} x_i \right) = \frac{1}{n^2} \left( \sum\limits_{i=1}^{n} x_i^2 +  \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} x_i x_j \right) \, ,

protože rozlišujeme mezi případy, kdy jsou mezi sebou násobeny dva různé náhodné výběry, a kdy je násobena tatáž realizace náhodného výběru. Tím jsme získali upravený vzorec pro statistiku \left(s^{'} \right)^2_X :

\left(s^{'} \right)^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - \frac{1}{n^2} \left( \sum\limits_{i=1}^{n} x_i^2 +  \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} x_i x_j \right) \, .

Abychom si ukázali, jak je statistika \left(s^{'} \right)^2_X  zkresleným odhadem rozptylu, určíme si její střední hodnotu:

\begin{aligned} \mathrm{E} \left[ \left( s^{'} \right)^2_X \right] &= \mathrm{E} \left[ \frac{1}{n} \sum\limits_{i=1}^{n} x_i^2 - \frac{1}{n^2} \left( \sum\limits_{i=1}^{n} x_i^2 +  \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} x_i x_j \right) \right] \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} \mathrm{E} \left( x_i^2 \right) - \frac{1}{n^2} \left[ \sum\limits_{i=1}^{n} \mathrm{E} \left( x_i^2 \right) + \sum\limits_{\substack{ i=1 \\ i \neq j}}^{n} \sum\limits_{j=1}^{n} \mathrm{E} \left( x_i x_j \right) \right] \end{aligned}

Uvažujeme, že jednotlivé realizace náhodného výběru jsou vzájemně nezávislé, tj. hodnoty x_i x_j jsou pro i \neq j nezávislé. V tom případě pak platí vztah

\mathrm{E} \left( x_i x_j \right) = \mathrm{E} \left( x_i \right) \mathrm{E} \left( x_j \right) \, .

Protože se ale v obou případech jedná o náhodný výběr ze stejného souboru se střední hodnotou \mu, platí dokonce

\mathrm{E} \left( x_i x_j \right) = \mathrm{E} \left( x_i \right) \mathrm{E} \left( x_j \right) =  \mu \cdot \mu = \mu^2 \, .

Dále máme v rovnici výraz \mathrm{E} \left( x_i^2 \right) . Upravíme-li si rovnici pro výpočetní tvar rozptylu, kterou jsme odvodili výše, zjistíme, že

\mathrm{E} \left( X^2 \right) = \sigma^2_X + \mu_X^2 \, .

Dosaďme tedy za oba výrazy a pokračuje v odvození

\begin{aligned} \mathrm{E} \left[ \left( s^{'} \right)^2_X \right] &= \frac{1}{n} \sum\limits_{i=1}^{n} \mathrm{E} \left( x_i^2 \right) - \frac{1}{n^2} \left[ \sum\limits_{i=1}^{n} \mathrm{E} \left( x_i^2 \right) + \sum\limits_{\substack{ i=1 \\ i \neq j}}^{n} \sum\limits_{j=1}^{n} \mathrm{E} \left( x_i x_j \right) \right] \\ &= \frac{1}{n} \sum\limits_{i=1}^{n} \left( \sigma^2_X + \mu_X^2 \right) - \frac{1}{n^2}  \sum\limits_{i=1}^{n} \left( \sigma^2_X + \mu_X^2 \right) + \sum\limits_{\substack{ i=1 \\ i \neq j}}^{n} \sum\limits_{j=1}^{n} \mu^2 \\ &= \left( \sigma^2_X + \mu_X^2 \right) - \frac{n}{n^2} \left( \sigma^2_X + \mu_X^2 \right) -\frac{(n^2 - n)}{n^2}  \mu^2 \\ &= \sigma^2_X \left( 1 - \frac{n}{n^2} \right) + \mu_X^2 \left[ 1 - \frac{n}{n^2} + \frac{(n^2 - n)}{n^2} \right] \\ &= \sigma^2_X \frac{n \left( n - 1 \right) }{n^2} + \mu_X^2 \frac{n^2 - n - n^2 + n}{n^2}\\ &= \sigma^2_X \frac{ n - 1}{n} \end{aligned}

Vidíme tedy, že střední hodnota statistiky \left(s^{'} \right)^2_X  je

\left[ \left( s^{'} \right)^2_X \right] = \sigma^2_X \frac{ n - 1}{n} \, . 

Abychom tedy získali nezkreslený odhad rozptylu, museli bychom statistiku \left(s^{'} \right)^2_X  násobit výrazem \frac{n}{n -1} . Na základě této myšlenky je pak odvozen vzorec pro výběrový rozptyl. Výraz \frac{n}{n -1} je někdy nazýván jako Besselova korekce. Výraz \frac{n}{n -1} konverguje k 1, pro velmi velké náhodné výběry je rozdíl mezi statistikami zanedbatelný. Protože střední hodnota statistiky \left(s^{'} \right)^2_X  konverguje k hodnotě rozptylu, je asymptoticky nestranným odhadem rozptylu.

K čemu slouží rozptyl a jak ho odhadujeme

V minulých článcích jsme se zabývali testy o střední hodnotě. Střední hodnota je nejznámějším ukazatelem polohy. Ukazatele polohy charakterizují určitou úroveň hodnot v souboru. Dále se ale můžeme zajímat o to, nakolik jsou hodnoty souboru diverzifikované neboli vzájemně rozdílné. To určujeme pomocí ukazatelů variability. Například průměrný počet bodů z testu ve škole popisuje průměrnou úroveň znalostí studentů. Rozptyl bodů nám pak říká, jaké jsou mezi jednotlivými studenty rozdíly. Pokud je rozptyl velký, znamená to, že jednotliví studenti se vzájemně velmi liší svými vědomostmi. Čím je rozptyl nižší, tím jsou si jednotliví studenti svými výkony bližší.

Ukazatelů variability existuje více. Jedním z nejvíce intuitivních je rozdíl mezi největší a nejmenší hodnotou, který se označuje jako varianční rozpětí. Jeho hlavní výhodou je (nebo spíše dříve bývalo), že u menších souborů je rychle zjistitelné z hlavy nebo pomocí kalkulačky. To ale souvisí s jeho hlavní nevýhodou – z celého souboru dat využívá pouze dvě čísla. Může být tedy snadno ovlivněné odlehlými hodnotami.

Na obrázcích níže jsou dva soubory, jejichž varianční rozpětí je stejné, přestože je zřejmé, že hodnoty druhého souboru jsou více homogenní.

Tuto nevýhodu částečně odstraňuje kvartilové rozpětí. Jedná se o rozdíl mezi prvním a třetím kvartilem. První kvartil je hodnota, pro kterou platí, že přesně 25 % hodnot souboru je menší nebo rovno tomuto rozpětí. Pro třetí kvartil platí, že přesně 75 % hodnot je menší nebo rovno dané hodnotě. Kromě kvartilového rozpětí se někdy ještě používá kvantilové rozpětí, což je rozdíl mezi nejnižším a nejvyšším kvantilem. Níže vidíte, že kvartilové rozpětí odhalilo nižší variabilitu druhého souboru.

Základním ukazatelem variability je však rozptyl, který obvykle značíme \sigma^2. Obecně je rozptyl náhodné veličiny X definovaný vztahem

\sigma^2_X = \mathbb{E} \left( \left[ X - \mathbb{E} \left(X \right) \right]^2 \right) \, ,

tj. jako střední hodnota rozdílu mezi hodnotami veličiny X a její střední hodnotou umocněného na druhou.

Máme-li k dispozici všechny hodnoty náhodného souboru, vypočteme rozptyl pomocí vzorce

\sigma^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} \left[ x_i - \mathbb{E} \left(X \right) \right]^2 \, .

Chceme-li určit rozptyl náhodného souboru, vypočteme rozdíl mezi každou hodnotou náhodného souboru a průměrem souboru a ten umocníme na druhou. Rozptyl je pak součet všech těchto hodnot.

Tento vzorec se někdy označuje jako populační rozptyl, aby se odlišil od výběrového rozptylu, který si popíšeme níže.

Vyjádřeme si hodnotu rozptylu graficky. Rozdíl mezi i-tou hodnotou a průměrem umocněný na druhou odpovídá ploše čtverce, u něhož je délka hrany rovná právě (absolutní) hodnotě tohoto rozdílu. Tyto čtverce vidíme na obrázku níže. Rozptyl je pak rovný součtu ploch jednotlivých čtverců.

rozptyl