Základy statistiky

Содержание

Слайд 2

VÝSTUPY Z UČENÍ Student bude schopen: chápat princip metody ANOVA a

VÝSTUPY Z UČENÍ

Student bude schopen:
chápat princip metody ANOVA a rozlišovat meziskupinovou

a vnitroskupinovou variabilitou
vyhodnotit závislost kvantitativního znaku na kvalitativním
využít Bonferroniho korekci v rámci mnohonásobného porovnávání
Слайд 3

ANALÝZA ROZPTYLU (ANOVA)

ANALÝZA ROZPTYLU (ANOVA)

Слайд 4

ANALÝZA ROZPTYLU JEDNODUCHÉHO TŘÍDĚNÍ porovnání populačních průměrů u více než dvou

ANALÝZA ROZPTYLU JEDNODUCHÉHO TŘÍDĚNÍ

porovnání populačních průměrů u více než dvou nezávislých

výběrů
zobecnění dvouvýběrového t-testu
analýza závislosti kvantitativního znaku na kvalitativním
kvalitativní znak se v kontextu analýzy rozptylu nazývá faktor
příklady:
Závisí výše platu na dosaženém vzdělání (ZŠ, SŠ, VŠ)?
Závisí oktanové číslo benzínu na dodavateli (A, B, C, D)?
zkratka pro analýzu rozptylu: ANOVA
ANALYSIS OF VARIANCE
ANOVA jednoduchého třídění ≡ jednofaktorová ANOVA
one-way ANOVA
Слайд 5

ANOVA VYUŽITÍ V zemědělství Výnos brambor vs. odrůda Výnos obilí vs.

ANOVA VYUŽITÍ

V zemědělství
Výnos brambor vs. odrůda
Výnos obilí vs. typ hnojení (při kontrole

typu pole)
V průmyslu
Koksovací čas vs. šířka pece (10 , 20, 30 cm)
Pevnost cementu vs. způsob míchání
Životnost výrobku vs. metoda výroby
V ekonomii
Cena výrobku vs. dodavatel
Výše platu vs. vzdělání (popř. i pohlaví)
Rodinné výdaje vs. počet členů domácnosti
Výkon dělníků vs. směna (ranní, odpolední, noční)
V medicíně
Doba léčby vs. způsob léčby
Srážlivost (koagulace) krve vs. dieta
Слайд 6

ANOVA TESTOVÝ PROBLÉM Nulová hypotéza H0: populační průměry jsou shodné střední

ANOVA TESTOVÝ PROBLÉM

Nulová hypotéza H0:
populační průměry jsou shodné
střední hodnoty se rovnají
kvantitativní znak

nezávisí na kvalitativním znaku
Alternativní hypotéza H1:
populační průměry nejsou shodné
alespoň jednou se střední hodnoty liší
kvantitativní znak závisí na kvalitativním znaku
Слайд 7

MODEL ANOVA Model: Yi = μi+ ε Yi kvantitativní znak pro

MODEL ANOVA


Model: Yi = μi+ ε
Yi kvantitativní znak pro i-tý výběr

(skupinu)
μi populační průměr (střední hodnota) pro i-tý výběr
ε náhodná chyba (nevysvětlitelná složka)
Testový problém:
H0: μ1 = μ2 = μ3 = …
H1: μ1 ≠ μ2 nebo μ1 ≠ μ3 nebo μ2 ≠ μ3 …
Слайд 8

ANOVA ZÁKLADNÍ PRINCIP SHODA MEZI SKUPINOVÝMI PRŮMĚRY ROZDÍL MEZI SKUPINOVÝMI PRŮMĚRY

ANOVA ZÁKLADNÍ PRINCIP

SHODA MEZI SKUPINOVÝMI PRŮMĚRY

ROZDÍL MEZI SKUPINOVÝMI PRŮMĚRY

x

x

x

x

x

x

Porovnávání meziskupinové a vnitroskupinové

variability

Malá meziskupinová variabilita

Velká meziskupinová variabilita

Velká vnitroskupinová variabilita

Malá vnitroskupinová variabilita

Слайд 9

ANOVA ZÁKLADNÍ PRINCIP Meziskupinová (between) variabilita Variabilita průměrů mezi jednotlivými skupinami

ANOVA ZÁKLADNÍ PRINCIP

Meziskupinová (between) variabilita
Variabilita průměrů mezi jednotlivými skupinami
Vnitroskupinová (within) variabilita
≡ reziduální

(residual) variabilita
Variabilita pozorování uvnitř každé skupiny
Porovnání těchto 2 zdrojů variability
Test je založen na podílu meziskupinové a vnitroskupinové variability
Слайд 10

ANOVA PŘÍKLAD Závisí čas nutný ke koksování na šířce pece, v

ANOVA PŘÍKLAD

Závisí čas nutný ke koksování na šířce pece, v níž

se koksování provádí?
Kvantitativní znak (odezva) – koksovací čas
Kvalitativní znak (faktor) – šířka pece (malá, střední, velká)
Слайд 11

ANOVA PŘÍKLAD H0: μ1 = μ2 = μ3 Průměrný koksovací čas

ANOVA PŘÍKLAD

H0: μ1 = μ2 = μ3
Průměrný koksovací čas je pro všechny

tři šířky pece stejný.
Průměrný koksovací čas nezávisí na šířce pece.
H1: μ1 ≠ μ2 nebo μ1 ≠ μ3 nebo μ2 ≠ μ3
Průměrný koksovací čas je pro alespoň jednu šířku pece jiný.
Průměrný koksovací čas závisí na šířce pece.
Слайд 12

KRABICOVÉ DIAGRAMY

KRABICOVÉ DIAGRAMY

Слайд 13

BODOVÉ GRAFY

BODOVÉ GRAFY

Слайд 14

MEZI- VS. VNITROSKUPINOVÁ VARIABILITA

MEZI- VS. VNITROSKUPINOVÁ VARIABILITA

Слайд 15

ANOVA VÝSLEDEK TESTU Testová statistika F = 35,202 Dosažená hladina testu

ANOVA VÝSLEDEK TESTU
Testová statistika F = 35,202
Dosažená hladina testu p < 0,001
Na

5% hladině významnosti jsme prokázali, že čas nutný ke koksování závisí na šířce pece.
Слайд 16

ANOVA V MS EXCEL Doplněk Analýza dat

ANOVA V MS EXCEL

Doplněk Analýza dat

Слайд 17

MNOHONÁSOBNÉ POROVNÁVÁNÍ provádí se v případě zamítnutí nulové hypotézy o shodě

MNOHONÁSOBNÉ POROVNÁVÁNÍ

provádí se v případě zamítnutí nulové hypotézy o shodě populačních

průměrů
odpovídá na otázku, které skupiny se mezi sebou liší
v případě použití dvouvýběrových testů kumulace chyby I. druhu
Bonferroniho princip: hladinu významnosti je nutné stanovit jako podíl chyby I. druhu a počtu vytvořených párů
Scheffého, Tukeyova metoda – méně konzervativní přístupy
Слайд 18

BONFERRONIHO KOREKCE Konzervativní korekce dvouvýběrových testů vzhledem k mnohonásobnému testování Každý

BONFERRONIHO KOREKCE

Konzervativní korekce dvouvýběrových testů vzhledem k mnohonásobnému testování
Každý jednotlivý dvouvýběrový

test provádíme na hladině α/M
M počet provedených dvouvýběrových testů
Dvojici prohlásíme za významně odlišnou, pokud p-hodnota příslušného dvouvýběrového testu je ≤ α/M
Je-li počet M vyšší, prohlásíme za signifikantní pouze „velké“ rozdíly
Слайд 19

SCHEFFÉHO METODA TUKEYOVA METODA Alternativa k paralelnímu použití Bonferroniho korekci dvouvýběrových

SCHEFFÉHO METODA TUKEYOVA METODA

Alternativa k paralelnímu použití Bonferroniho korekci dvouvýběrových testů
Mnohem

méně konzervativní
Podaří se nám prohlásit za signifikantní i „menší“ rozdíly
Rozdíl mezi dvěma populačními skupinovými průměry prohlásíme za signifikantní, pokud p ≤ α
Celková pravděpodobnost chyby I. druhu zůstává pod požadovanou hladinou α
Слайд 20

ANOVA PŘEDPOKLADY Všechna měření musí být vzájemně nezávislá uvnitř skupin mezi

ANOVA PŘEDPOKLADY

Všechna měření musí být vzájemně nezávislá
uvnitř skupin
mezi skupinami
Měření v každé skupině

jsou normálně rozdělená s populačním průměrem μi
Ve všech skupinách mají měření stejný rozptyl (homoskedasticita) kolem populačního průměru
Слайд 21

ANOVA PŘEDPOKLADY Předpoklady o náhodných chybách: Chyby jsou nezávislé a náhodně

ANOVA PŘEDPOKLADY

Předpoklady o náhodných chybách:
Chyby jsou nezávislé a náhodně fluktuují kolem 0
Chyby

jsou stejně rozdělené
mají normální rozdělení
lze obejít přes velký počet dat v jednotlivých skupinách
mají stejný rozptyl, tzv. homoskedasticita
lze obejít přes Welchovu modifikaci ANOVA jednoduchého třídění
Praktické ověřování:
dělá se většinou přes tzv. rezidua (odchylky hodnot od skupinového průměru)
zamyšlením se nad mechanizmem, který byl použit ke sběru dat nebo k provedení experimentu
Graficky
Testem
Grafické metody jsou mnohdy cennější než formální test!
Слайд 22

OVĚŘOVÁNÍ PŘEDPOKLADŮ

OVĚŘOVÁNÍ PŘEDPOKLADŮ

Слайд 23

OVĚŘOVÁNÍ NORMALITY QQ-GRAF Výsledek testu: W = 0,950; p = 0,417

OVĚŘOVÁNÍ NORMALITY QQ-GRAF
Výsledek testu: W = 0,950; p = 0,417

Слайд 24

OVĚŘOVÁNÍ HOMOSKEDASTICITY REZIDUA VS. FAKTOR

OVĚŘOVÁNÍ HOMOSKEDASTICITY REZIDUA VS. FAKTOR

Слайд 25

OVĚŘOVÁNÍ HOMOSKEDASTICITY REZIDUA VS. SKUPINOVÉ PRŮMĚRY

OVĚŘOVÁNÍ HOMOSKEDASTICITY REZIDUA VS. SKUPINOVÉ PRŮMĚRY

Слайд 26

OVĚŘOVÁNÍ HOMOSKEDASTICITY LEVENEŮV TEST (INFORMATIVNĚ) H0: σ1 = σ2 = σ3

OVĚŘOVÁNÍ HOMOSKEDASTICITY LEVENEŮV TEST (INFORMATIVNĚ)

H0: σ1 = σ2 = σ3
Homoskedasticita
Směrodatná odchylka koksovacích

časů je pro všechny tři šířky pece stejná.
H1: σ1 ≠ σ2 nebo σ1 ≠ σ3 nebo σ2 ≠ σ3
Heteroskedasticita
Směrodatná odchylka koksovacího času se pro alespoň jednu šířku pece liší.
Testová statistika F = 22,37
Dosažená hladina testu p < 0,001
Слайд 27

PORUŠENÍ PŘEDPOKLADŮ

PORUŠENÍ PŘEDPOKLADŮ

Слайд 28

VÝBĚR ANOVA TESTU KOKSOVACÍ ČAS VS. ŠÍŘKA PECE Neporušena normalita Porušena

VÝBĚR ANOVA TESTU KOKSOVACÍ ČAS VS. ŠÍŘKA PECE

Neporušena normalita
Porušena homoskedasticita
logaritmická tranformace nebo
Welchova

modifikace ANOVA testu:
Testová statistika F = 47,602
Dosažená hladina testu p < 0,001
Na 5% hladině významnosti jsme prokázali, že čas nutný ke koksování závisí na šířce pece.
Слайд 29

KRUSKALŮV-WALLISŮV TEST (INFORMATIVNĚ) porovnání populačních mediánů u více než dvou nezávislých

KRUSKALŮV-WALLISŮV TEST (INFORMATIVNĚ)

porovnání populačních mediánů u více než dvou nezávislých výběrů
neparametrická

verze ANOVA jednoduchého třídění
místo pozorování se používá jeho pořadí
zobecněná verze dvouvýběrového Wilcoxonova testu
H0: med1 = med2 = med3 = …
H1: med1 ≠ med2 nebo med1 ≠ med3 nebo med2 ≠ med3 …
Слайд 30

NEZÁVISLÉ VS. ZÁVISLÉ VÝBĚRY Zobecnění srovnávání dvou výběrů porovnání populačních charakteristik

NEZÁVISLÉ VS. ZÁVISLÉ VÝBĚRY

Zobecnění srovnávání dvou výběrů
porovnání populačních charakteristik u více

než dvou závislých výběrů
zobecnění párových testů (studie typu před-během-po)
místo párování máme tzv. blokový přístup
Слайд 31

NEBLOKOVÝ PŘÍSTUP Problém: Nadnárodní firma, která má dvacet poboček po celém

NEBLOKOVÝ PŘÍSTUP

Problém: Nadnárodní firma, která má dvacet poboček po celém světě,

potřebuje rozhodnout, který ze tří výrobních postupů je optimální pro danou výrobu
Neblokový přístup:
20 poboček je rozděleno náhodně do 3 skupin
Pobočky v rámci jedné skupiny vyzkouší všechny jeden výrobní postup, např:
7 poboček testuje postup I
7 poboček testuje postup II
6 poboček testuje postup III
Analýza: ANOVA jednoduchého třídění
(n = 20; n1 = 7, n2 = 7, n3 = 6)
Слайд 32

BLOKOVÝ PŘÍSTUP Problém: Nadnárodní firma, která má dvacet poboček po celém

BLOKOVÝ PŘÍSTUP

Problém: Nadnárodní firma, která má dvacet poboček po celém světě,

potřebuje rozhodnout, který ze tří výrobních postupů je optimální pro danou výrobu
Bloková studie (paralelní přístup):
Pracovníci jedné pobočky jsou rozděleni do tří skupin
Každá skupina testuje jeden výrobní postup
V rámci experimentu jsou v každé pobočce testovány všechny tři výrobní postupy najednou (paralelně)
Bloková studie s B = 20 bloky (pobočkami) zkoumající vliv faktoru (výrobní postup) o I = 3 úrovních na odezvu (produktivita výroby apod.)
Слайд 33

ZNÁHODNĚNÁ BLOKOVÁ STUDIE Blokovou studii lze vylepšit znáhodněním Příklad: sekvenční přístup

ZNÁHODNĚNÁ BLOKOVÁ STUDIE

Blokovou studii lze vylepšit znáhodněním
Příklad: sekvenční přístup a znáhodnění
Pořadí,

v jakém jsou jednotlivé výrobní postupy v rámci jedné pobočky testovány, je zvoleno náhodně
Pobočka A: I → III → II
Pobočka B: II → I → III
atd.
Eliminuje, kromě jiného, vliv případného „učícího“ efektu na závěry statistické analýzy
Příklad: paralelní přístup a znáhodnění
Přiřazení výrobních postupů jednotlivým pracovním skupinám se provede náhodně a ne na základě rozhodnutí experimentátora
Слайд 34

VÝZNAM BLOKOVÁNÍ A ZNÁHODNĚNÍ Uspořádání do bloků Zlepšuje statistické úsudky eliminací

VÝZNAM BLOKOVÁNÍ A ZNÁHODNĚNÍ

Uspořádání do bloků
Zlepšuje statistické úsudky eliminací známých zdrojů variability
Znáhodnění
Zlepšuje

statistické úsudky eliminací neznámých zdrojů variability
Слайд 35

TESTOVÁ OTÁZKA 1 Nulová hypotéza testu ANOVA jednoduchého třídění zní: Vyberte

TESTOVÁ OTÁZKA 1

Nulová hypotéza testu ANOVA jednoduchého třídění zní:
Vyberte libovolný počet

možných odpovědí.
(Správná nemusí být žádná, ale také mohou být správné všechny.)
numerická proměnná nezávisí na kategoriální proměnné;
numerická proměnná závisí na kategoriální proměnné;
ošetření (faktor) nemá vliv na kvantitativní odezvu;
skupiny se neliší ve svých populačních průměrech.
Слайд 36

TESTOVÁ OTÁZKA 2 K zamítnutí nulové hypotézy u ANOVA testu vede

TESTOVÁ OTÁZKA 2

K zamítnutí nulové hypotézy u ANOVA testu vede relativně

velký podíl meziskupinové variability vůči vnitroskupinové variabilitě. Je to pravda?
Vyberte ano/ne na zadanou otázku.
Слайд 37

KLÍČOVÁ SLOVA Analýza rozptylu ANOVA jednoduchého třídění Vícevýběrový test Meziskupinová variabilita

KLÍČOVÁ SLOVA

Analýza rozptylu
ANOVA jednoduchého třídění
Vícevýběrový test
Meziskupinová variabilita
Vnitroskupinová variabilita
Reziduální graf

Mnohonásobné porovnávání
Bonferroniho princip
Welchova

ANOVA
Kruskalův-Wallisův test
ANOVA s bloky