30 KiB
title | description |
---|---|
Statistika | TODO |
Note
Diskrétní a spojité náhodné veličiny (NV), základní rozložení. Číselné charakteristiky NV. Centrální limitní věta. Bodové odhady, intervaly spolehlivosti, testování statistických hypotéz, hladina významnosti. Základní parametrické a neparametrické testy, ANOVA, testy nezávislosti NV. Lineární regrese, celkový F-test, dílčí t-testy.
MV013
Opakování
Tip
Viz bakalářské otázky Kombinatorika a pravděpodobnost a Statistika.
-
Statistika
Zabývá se sbíráním, organizací, analýzou, interpretací a prezentací dat. 1- Popisná / decriptive: shrnuje data, která máme,
- Inferenční / inferential: předpokládá, že data která máme jsou jen součástí celku; pracuje s modely celé populace a hypotézami o ní.
-
Základní prostor $\Omega$
Konečná množina možných jevů. Např\{1, 2, 3, 4, 5, 6\}
pro možné hody šestistěnkou. -
Možný výsledek (elementární náhodný jev) $\omega_k$
Prvek základního prostoru\Omega
. -
Náhodný jev (event) $A$
PodmnožinaA \sube \Omega
, která nás zajímá. Např. "Na šestistěnce padne sudé číslo."
Náhodné veličiny
-
Náhodná veličina (NV) / random variable
Něco, co se dá u každého možného výsledku změřit. Zobrazení z prostoru elementárních jevů do měřitelného prostoruE
(třeba\mathbb{R}
).X : \Omega \to \mathbb{E}
Diskrétní
Diskrétní NV je náhodná veličina, která nabývá konečně nebo spočetně mnoha hodnot. \mathbb{E}
je konečná nebo spočetná, např. \N
.
Příklad: hodnota na šestistěnce.
Jinými slovy, NV X : \Omega \to \R
je diskrétní, pokud se prvky \Omega
zobrazí do \R
jako izolované body \{x_1, x_2, \ldots\}
.
-
Rozdělení pravděpodobnosti
FunkceP(X) : \mathbb{E} \to \R
, která každé hodnotě popsané veličinouX
přiřazuje pravděpodobnost jejího výskytu. -
Každá
x_i
má nenulovou pravděpodobnost:P(x_i) > 0
-
Součet pravděpodobností všech možných hodnot
x_i
je1
:\sum_{x} P(x_i) = 1
Spojité
Spojitá NV je náhodná veličina, která nabývá až nespočetně nekonečně mnoha hodnot. Tedy \mathbb{E}
je nespočetná, např. \R
.
Příklad: doba čekání na šalinu, analogový signál, výška člověka (pokud máme fakt dobrej metr).
Jinými slovy, NV X : \Omega \to \R
je spojitá, pokud se prvky \Omega
zobrazí do \R
jako interval \lbrack a, b \rbrack
.
-
Hustota pravděpodobnosti / probability density function (PDF)
Funkcef(x) : \mathbb{E} \to \R
, která každé hodnotě popsané veličinouX
přiřazuje pravděpodobnost jejího výskytu. -
Každý bod tohoto intervalu má nulovou pravděpodobnost:
f(x) = 0
-
Nicméně integrál pravděpodobnostní funkce
f(x)
je1
:\int_{-\infty}^{\infty} f(x) dx = 1
-
Pravděpodobnost, že NV nabývá hodnoty z intervalu
\lbrack a, b \rbrack
je pak:P(a \leq X \leq b) = \int_{a}^{b} f(x) dx
Základní rozložení
-
Distribuční funkce / cumulative distribution function (CDF)
Funkce
F(X) : \mathbb{E} \to \R
udává pravděpodobnost, že NVX
nabývá hodnoty menší nežx
.\begin{align*} F(x) &= P(X \leq x) & \text{pro diskrétní NV} \\ F(x) &= \int_{-\infty}^{x} f(x) dx & \text{pro spojité NV} \end{align*}
Charakterizuje rozdělení, kterému náhodná veličina
X
podléhá.Pro spojité NV je to plocha pod křivkou pravděpodobnostní funkce. A taky se dá použít k vyjádření pravdepodobnosti:
P(a \leq X \leq b) = F(b) - F(a)
Diskrétní rozložení
Název | Definice | Popis | Příklad |
---|---|---|---|
Bernoulliho / alternativní | P(x) = \begin{cases} 1 - p & x \ne 1 \\ p & x = 1 \\ \end{cases} |
Náhodný pokus, kde jsou jen dva možné výsledky. | Hod mincí. |
Binomické | P(x, n, p) = \binom{n}{x} p^x (1-p)^{n-k} |
Sekvence n pokusů. Popisuje pravděpodobnost, že x bude úspěšných. |
Hod mincí n krát. |
Poissonovo | P(k, \lambda) = \frac{\lambda^k e^{-\lambda}}{k!} |
Pokud se něco děje průměrně $\lambda$-krát za jednotku času, jaká je pravděpodobnost, že se to stane $k$-krát za stejnou jednotku času? Výskyt jednoho jevu nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou. | Kolik lidí přijde do obchodu za hodinu. (Za předpokladu, že je pandemie a dovnitř může jen jeden člověk.) |
Geometrické | P(k, p) = \begin{cases} p (1-p)^k & k = 0, 1, ... \\ 0 & \text{jinak} \\ \end{cases} |
Když tě zajímá, jaká je šance, že se něco pokazí k krát, než to konečně uspěje. |
Kolikrát musíš hodit mincí, než padne poprvé hlava. |
(Diskrétní) rovnoměrné / uniformní | P(k, p) = \begin{cases} \frac{1}{\vert A \vert} & x \in A \\ 0 & \text{jinak} \\ \end{cases} |
Když jsou všechny jevy x z dané množiny A stejně pravděpodobné | Hod d20 |
Spojité rozložení
Název | Definice | Popis | Příklad |
---|---|---|---|
(Spojité) rovnoměrné / uniformní | f(x) = \begin{cases} \frac{1}{b-a} & a \le x \le b \\ 0 & x < a \lor x > b \\ \end{cases} |
Všechny jevy v daném intervalu (a, b) (může být otevřený nebo uzavřený) jsou stejně pravděpodobné. |
Bod na kružnici. |
Exponenciální | f(x, \lambda) = \begin{cases} \lambda e^{-\lambda x} & x \ge 0 \\ 0 & x < 0 \\ \end{cases} |
Čas mezi jevy v Poissonově procesu. | Jak dlouho budeš čekat na šalinu. |
Normální / Gaussovo | f\_\mathcal{N}(x, \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2 \pi}} e^{ -\frac {\left(x - \mu \right)^2} {2\sigma^2} } |
Používá se jako default, když nevíš, jakou má proměnná distribuci, kvůli centrální limitní větě. (\mu je mean, \sigma^2 je rozptyl). |
Výška lidí. |
Standardní normální | f(x) = f\_\mathcal{N}(x, 0, 1) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} |
Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že: _ 68 % je v intervalu (-1, 1) , _ 95 % je v intervalu (-2, 2) , * 99,7 % je v intervalu (-3, 3) . |
Výška lidí (ale přeškálovaná). |
Cauchy | f(x) = \frac{1}{ \pi \sigma \left\lbrack 1 + \left( \frac{x - \mu}{\sigma} \right)^2 \right\rbrack } |
Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované. | Poměr výšky k šířce obličeje. |
Gamma | f(x, \alpha, \beta) = \begin{cases} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\beta x} & x > 0 \\ 0 & \text{jinak} \\ \end{cases} |
Když máš sekvenci jevů, kde čekací doba na každý má exponenciální rozdělení s rate \beta , pak čekací doba na $n$-tý jev má Gamma rozdělení s \alpha = n . |
Jak dlouho budeš čekat na $n$-tou šalinu. |
\chi^2 (Chi-square) |
f(x, n) = \begin{cases} { \Large \frac{ x^{\frac{n}{2} - 1} e^{-\frac{x}{2}} }{ 2^\frac{n}{2} \Gamma\left( \frac{k}{2} \right) } } & x > 0 \\ 0 & \text{jinak} \\ \end{cases} |
Používá se při testování hypotéz. Nechť Z_1, Z_2, ..., Z_n jsou nezávislé náhodné proměnné se standardním normálním rozdělením a X = \sum_{i=1}^n Z_i^2 , pak X má \chi^2 rozdělení s n stupni volnosti. |
Testování, jestli je mince férová. |
Studentovo t |
f(x, n) = \frac{ \Gamma (\frac{n+1}{2}) }{ \sqrt{n \pi} \Gamma(\frac{n}{2}) } \left( 1 + \frac{x^2}{n} \right)^{-\frac{n+1}{2}} |
Používá se na odhadování meanu normálně distribuované populace, jejíž rozptyl neznáš (což je skoro vždycky), ale máš z ní samply. | Odhadování průměru výšky lidí |
Číselné charakteristiky
Stejně jako náhodné veličiny popisují jevy, číselné charakteristiky popisují chování náhodných veličin... pomocí čísel.
Míry polohy
-
Střední hodnota / mean / expected value
Průměr hodnot veličiny vážený jejich pravděpodobností. Značí se\overline{X}
neboE(X)
.Note
Taky někdy označovaný jako obecný moment prvního řádu / první obecný moment. 2
-
$\alpha$-kvantil $Q_\alpha$
Dělí statický soubor na stejně velké části. -
Medián
Prostřední prvek uspořádaného statistického souboru. KvantilQ_{0.5}
.\tilde{x} = \begin{cases} x_{\frac{n+1}{2}} & \text{pro liché }n\\ \frac{1}{2} (x_\frac{n}{2} + x_{\frac{n}{2} + 1}) & \text{pro sudé }n \end{cases}
-
Percentil
Výběrový kvantil ($p$-tý kvantil, kde0 < p < 1
)Q_p
. -
Modus
Hodnota s největší četností.
Míry variability
Jak moc se od sebe prvky liší (nezávisle na konstantním posunutí)?
-
Rozpyl / variance
Vyjadřuje, jak moc se NV odchyluje od své střední hodnoty. Značí se\sigma^2
,\text{var}(X)
neboD(X)
.\text{var}(X) = E\left((x_i - E(X))^2\right)
Note
Taky někdy označovaný jako centrální moment druhého řádu / druhý centrální moment. 2
-
Směrodatná odchylka / standard deviation
Míra variability NV. Značí se\sigma
nebo\text{SD}(X)
. Je definovaná jako\sqrt{\sigma^2}
. -
ovariance veličin
X
a $Y$
Měří určitou podobnost meziX
aY
.\text{cov}(X, Y) = E((X - E(X)) \cdot (Y - E(Y)))
Ze vzorce výše plyne
\begin{aligned} \text{cov}(X, X) &= \text{var}(X) \\ \text{cov}(X, Y) &= \text{cov}(Y, X) \\ \text{cov}(X, Y) &= E(X \cdot Y) - E(X) \cdot E(Y) \end{aligned}
-
Korelace
Míra podobnosti\rho_{X, Y}
náhodných veličinX
aY
. PokudX = X
, pak\rho_{X, X} = 1
. Pokud jsouX
aY
nezávislé, pak\rho_{X, Y} = 0
.\rho_{X, Y} = \frac{\text{cov}(X, Y)}{\sqrt{\text{var}(X)} \cdot \sqrt{\text{var}(Y)}} = \frac{E((X - E(X)) \cdot (Y - E(Y)))}{\sqrt{\text{var}(X)} \cdot \sqrt{\text{var}(Y)}}
Míry tvaru
- Koeficient šikmosti / skewness
Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat. - Koeficient špičatosti / kurtosis
Jak vysoký je peak? Jak moc je to rozpláclé.
Centrální limitní věta (CLV) / Central limit theorem (CLT)
S rostoucím počtem sample výsledků X_i
se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.
Popisuje chování výběrového průměru pro velké soubory vzorků a umožňuje tak sestrojení intervalových odhadů.
-
Moivreova-Laplacova věta
Mějme NV
X
. Pokud jeX
součtemn
vzájemně nezávislých NVX_1, X_2, ..., X_n
s Bernoulliho rozdělením s parametrem\pi
, máX
binomické rozdělení s parametryn
a\pi
, pak sn \to \infty
:\frac{X - n \pi}{\sqrt{n \pi (1 - \pi)}} \approx N(0, 1)
-
Lévyho-Lindenbergova věta
Tip
Zobecnění Moivreovy-Laplacovy věty.
Mějme NV
X
. Pokud jeX
součtemn
vzájemně nezávislých NVX_1, X_2, ..., X_n
se shodným rozdělením libovolného typu, s konečnou střední hodnotouE(X_i) = \mu
a konečným rozptylemD(X_i) = \sigma^2
, pak pro normovanou NVU
asymptoticky sn \to \infty
platí:\begin{aligned} \overline{X} = \frac{1}{n} \sum_{i=1}^n X_i &\approx N \left( \mu, \frac{\sigma^2}{n} \right) \\ \sqrt{n} \frac{\overline{X} - \mu}{\sqrt{\sigma^2}} &\approx N(0, 1) \\ \frac{\sum_{i=1}^n X_i - n \mu}{\sqrt{n \sigma^2}} &\approx N(0, 1) \end{aligned}
Výpočet s CLV
Nechť
X
je náhodná proměnná popisují jak padá 6, když hodíme kostkou 100krát. Tedy:X \approx \text{Binomial} \left( 100, \frac{1}{6} \right)
Podle CLV má
X
asymptotickyX \approx N(\frac{100}{6},\frac{500}{36})
.Pak například pravděpodobnost, že šestka padne méně než 16krát je:
\begin{aligned} P(X < 16) &\doteq P(X \leq 16) = 0.429 \\ P(X < 16) = P(X \leq 15) &\doteq F(X \leq 15) = 0.327 \\ \end{aligned}
S continuity correction (opravou v důsledku změny z diskrétní na spojitou NV) je to:
P(X < 16) = P(X \leq 15.5) \doteq F(15.5) = 0.377
Odhady
-
Odhad parametru / parameter estimation
Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.Cílem odhadu je určit parametry rozdělení NV
X
na základě informace z výběrového souboru (realizaci NV, datasetu). Chceme hodnotu a přesnost odhadu. -
Metoda odhadu / estimator
Popisuje, jak odhad získat. -
Nestranný odhad / unbiased estimator
Metoda odhadu parametru\theta
taková, že střední hodnota odhadu je rovna\theta
. Nestrannost je celkem rozumné omezení, protože nechceme, aby byl odhad odchýlený. -
Nejlepší nestranný odhad / best unbiased estimator
Nestranný odhad, který má nejmenší rozptyl ze všech nestranných odhadů. -
Konzistentní odhad / consistent estimator
Metoda odhadu parametru\theta
taková, že s počtem vzorkůn
konverguje k\theta
pron \to \infty
. [^consistent-estimator] -
(Výběrová) statistika / (sample) statistic
Náhodná veličina dána funkcí, která bere výběrový soubor a vrací číslo. Máme například:- Výběrový průměr / sample mean,
- Výběrový rozptyl / sample variance,
- Výběrovou směrodatnou odchylku / sample standard deviation,
- Výběrovou (empirickou) distribuční funkci / sample distribution function.
Náhodná veličina
T_n
, která vznikne aplikací funkceT
na náhodný výběr o velikostin
\mathbf{X} = (X_1, X_2, \ldots, X_n)
se nazývá statistika.T_n = T(X_1, X_2, \ldots, X_n)
Tip
Estimator je funkce počítající statistiku použitá k odhadu parametru. 3
-
Bodový odhad / point estimate / pointwise estimate
Odhad parametru daný jednou hodnotou, která hodnotu parametru aproximuje. -
Intervalový odhad / interval estimate
Odhad parametru daný pomocí intervalu hodnot, který hodnotu parametru s velkou pravděpodobností obsahuje. Délka intervalu vypovídá o přesnosti odhadu. -
Interval spolehlivosti / confidence interval
Interval spolehlivosti parametru\theta
s hladinou spolehlivosti1 - \alpha
, kde\alpha \in \lbrack 0, 1 \rbrack
je dvojice statistik\lbrack \theta_L, \theta_U \rbrack
taková, že:P(\theta_L < \theta < \theta_U) = 1 - \alpha
kde
\theta_L
je dolní mez intervalu a\theta_U
je horní mez intervalu. -
Hladina významnosti a spolehlivosti / significance and confidence level
- Hladina významnosti
\alpha
je pravděpodobnost, že parametr nespadá do intervalového odhadu. - Hladina spolehlivosti
1 - \alpha
je pravděpodobnost, že parametr spadá do intervalového odhadu.
- Hladina významnosti
-
Levostranný, pravostranný a oboustranný interval / left-tailed, right-tailed and two-tailed interval
- Levostranný (dolní):
P(\theta \le \theta_L) = 1 - \alpha
. - Pravostranný (horní):
P(\theta \ge \theta_U) = 1 - \alpha
. - Oboustranný:
P(\theta \le \theta_L) = P(\theta \ge \theta_U) = \frac{\alpha}{2}
.
- Levostranný (dolní):
Tvorba intervalového odhadu
Máme vzorek velikosti n
s výběrovým průměrem \overline{X}
a výběrovým rozptylem S^2
. Odhadněte střední hodnotu \mu
s hladinou spolehlivosti 0.95, pokud víte, že X \approx N(\mu, \sigma^2)
, kde rozptyl \sigma^2
je neznámý.
-
Zvolíme vhodnou výběrovou statistiku
T(X)
jejíž rozdělení závislé na\mu
známe. V tomhle případě Studentův t-test:T(X) = \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t_{n - 1}
Tedy víme, že
T(X) \sim t(n-1)
-
Určíme kvantily
t_\frac{\alpha}{2} = t_{0.025}
at_{1 - \frac{\alpha}{2}} = t_{0.975}
zT(X)
:\begin{aligned} P(t_{0.025}(n - 1) < T(X) < t_{0.975}(n-1)) &= 1 - \alpha = 0.95 \\ t_{0.025}(n - 1) &= -t_{0.975}(n - 1) \\ P(t_{0.025}(n - 1) < T(X) < -t_{0.025}(n-1)) &= 0.95 \\ P(\overline{X} - t_{0.025}(n - 1) \frac{S}{\sqrt{n}} < \textcolor{red}{\mu} < \overline{X} + t_{0.025}(n - 1) \frac{S}{\sqrt{n}}) &= 0.95 \end{aligned}
-
Vyčíslíme interval z poslední rovnice.
-
Věrohodnost / likelihood
Říká, jak dobře náš model (rozdělení pravděpodobnosti náhodné veličiny dané parametry) sedí na naměřená data.
Note
Pravděpodobnost je funkce jevů. Likelihood je funkce parametrů modelu.
Note
Likelihood nemusí nutně vracet čísla z intervalu
\lbrack 0, 1 \rbrack
. -
Maximum likelihood estimation (MLE)
Metoda odhadu parametru založená na maximalizaci likelihoodu, že model sedí na naměřená data. 4 -
Method of moments (MOM)
Metoda odhadu parametru založená na rovnosti teoretického a výběrového momentu. 5
Testování statistických hypotéz
-
Hypotéza
Nějaký předpoklad o datech, který chceme ověřit. Často je formulovaná pomocí parametrů modelu. Např. "střední hodnota je 5." -
Testování hypotézy
Cílem testování hypotéz je ověřit, že data nepopírají nějakou hypotézu.- Null hypothesis $H_0$: "výchozí nastavení"; často tvrdí, že nějaká vlastnost neexistuje.
- Alternative hypothesis $H_1$: "to co, chceme dokázat"; opak
H_0
.
Alternativní hypotézu potvrzujeme tak, že vyvracíme nulovou hypotézu. Pokud se nám nepodaří vyvrátit
H_0
, pak oH_1
nevíme nic. 6Na testování použijeme statistiku
T_n = T(\mathbf{X})
, kterou nazýváme testovací statistikou. Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti. Jednu označímeW_\alpha
, a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy (region of rejection, critical region)) a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy).Na základě realizace náhodného výběru
\mathbf{x} = (x_1, ..., x_n)'
vypočítáme hodnotu testovací statistikyt_n = T(\mathbf{x})
.- Pokud hodnota testovací statistiky
t_n
nabude hodnoty z kritické oblasti, t.j.t_n = T(\mathbf{x}) \in W_\alpha
, pak nulovou hypotézu zamítáme. - Pokud hodnota testovací statistiky
t_n
nabude hodnoty z oblasti nezamítnutí, t.j.t_n = T(\mathbf{x}) \not\in W_\alpha
, pak nulovou hypotézu nezamítáme.
— MV013
Metafora se soudem
Platí presumpce nevinny. Předpokládáme, že člověk zločin nespáchal, dokud tuhle hypotézu nevyvrátíme.
-
$H_0$: "Obžalovaný neukradl papamobil."
-
$H_1$: "Obžalovaný ukradl papamobil."
-
Chyby v testování hypotéz
-
Typ I: zamítnutí
H_0
, i když je pravdivá -- false positive. -
Typ II: nezamítnutí
H_0
, i když je nepravdivá -- false negative.Note
Positive = zamítnutí
H_0
, tedy potvrzeníH_1
.
Negative = nezamítnutíH_0
, tedy oH_1
nevíme nic.
-
-
$p$-hodnota (hladina významnosti)
Nejmenší hladina významnosti\alpha
, při které ještě zamítámeH_0
. [^p-value]Pravděpodobnost, že došlo k chybě typu I -- zavrhnuli jsme
H_0
, ačkoli platí.stem:[ p = P(\text{type I error}) = P(\text{we reject } H_0 ;|; H_0) ]
Tip
Pokud $p$-value vyjde menší než požadovaná hladina významnosti
\alpha
, pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujemeH_0
, protožeH_0
neplatí, a tedy akceptujemeH_1
.
Parametrické testy
Parametrické testy jsou založené na parametrech pravděpodobnostních rozdělení.
- Studentův T-test
Umožňuje ověřit zda normální rozdělení má danou střední hodnotu. Taky umožňuje ověřit zda dvě normální rozdělení mají stejnou střední hodnotu, za předpokladu, že mají stejný (byť neznámý) rozptyl. [^t-test] - Analysis of variance (ANOVA)
Testuje rozdíly mezi středními hodnotami dvou a více skupin. Používá se k ověření, zda rozptyly dvou nebo více množin dat jsou stejné až na konstantní posun a škálování. 7
Neparametrické testy
Neparametrické testy nejsou založené (jen) na parametrech pravděpodobnostních rozdělení. Používají se, když neznáme rozdělení dat, nebo je těžké splnit předpoklady parametrických testů.
- Sign test
Testuje, zda se dvě náhodné veličiny při pozorování liší konzistentně. Jinými slovy, zda stření hodnota jejich rozdílu má nulový medián. - One-sample Wilcoxon signed-rank test
Testuje, zda vzorky patří do symetrického rozdělení s daným mediánem. - Pearsonův chi-squared (
\chi^2
) test
Umožňuje ověřit, že dvě kategorické NV jsou nezávislé. [^chi-squared]
Testy (ne)závislosti náhodných veličin
Opakování
-
Statistická / stochastická nezávislost
Náhodné jevyA
aB
jsou stochasticky nezávislé, pokudP(A \cap B) = P(A) \cdot P(B)
.Výskyt
A
nemá vliv na výskytB
.- "Při při prvním hodu padne 6" a "při druhém hodu padne 6" jsou nezávislé jevy.
- Naproti tomu jev, že padne 6 při prvním hodu kostkou a jev, že součet čísel zaznamenaných v prvním a druhém pokusu je 8, jsou závislé jevy. 8
-
Nezávislost diskrétních NV
Pokud
X
,Y
aZ
jsou diskrétní náhodné veličiny, pak definujemeX
aY
jako podmíněně nezávislé vzhledem kZ
, pokud:P(X \le x, Y \le y | Z = z) = P(X \le x | Z = z) \cdot P(Y \le y | Z = z)
pro všechny
x
,y
az
takové, žeP(Z = z) > 0
. -
Nezávislost spojitých NV
Pokud
X
,Y
aZ
jsou spojité náhodné veličiny a mají společnou hustotu pravděpodobnostif_{XYZ}(x,y,z)
, pak definujemeX
aY
jako podmíněně nezávislé vzhledem kZ
, pokud:f_{X,Y|Z}(x,y|z) = f_{X|Z}(x|z) \cdot f_{Y|Z}(y|z)
pro všechna
x
,y
az
takové, žef_Z(z) > 0
.
To neformálně řečeno znamená, že jakmile máme k dispozici informaci obsaženou v Z, není už další informace A užitečná pro přesnější poznání B ani znalost B nepřidá nic pro pochopení A, i kdyby A a B byly vzájemně závislé.
— Wikipedia: Statistická nezávislost
-
Regrese
Analýza vztahu mezi dvěma závislými NV. -
Lineární regrese
Regrese s předpokladem, že vztah dvě NV jsou závislé lineárně. Rovnici regresní přímky zapisujeme jako:Y_i = \beta_0 + \beta_1 \cdot X_i + \varepsilon_i
Kde:
Y
je NV závislá naX
,\beta_0
je konstanta,\beta_1
je směrnice (slope),\varepsilon_i
je $i$-tá pozorovaná hodnota chyby -- náhodná složka / šum.
Platí:
E(\varepsilon_i) = 0
,D(\varepsilon_i) = \sigma^2
,\text{cov}(\varepsilon_i, \varepsilon_j) = 0
proi \neq j
,\varepsilon_i \sim N(0, \sigma^2)
-- náhodná složka má normální rozdělení,- regresní parametry
\beta_0
a\beta_1
mohou mít libovolnou hodnotu.
-
Celkový F-test
Pracuje s nulovou hypotézou ve tvaru:H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0
Tedy testujeme, zda hodnota analyzované NV závisí na lineární kombinaci vysvětlujících NV. Pokud je
H_0
zamítnuta, pak alespoň jedna závislost existuje. Pokud jeH_0
nezamítnuta, pak je množina vysvětlujících NV úplně blbě.Testová statistika má F-rozdělení.
-
Dílčí t-testy
Umožňují otestovat, že dává smysl použít $i$-tou vysvětlující NV. Testujeme nulovou hypotézu:H_0: \beta_i = 0
Pokud nelze zamítnout, pak $i$-tá vysvětlující NV nemá vliv na analyzovanou NV a můžeme ji vynechat.
Testová statistika má Studentovo t-rozdělení.