fi-notes/src/content/docs/szmgr/SZP03_statistika.md

29 KiB

title description
Statistika TODO

Note

Diskrétní a spojité náhodné veličiny (NV), základní rozložení. Číselné charakteristiky NV. Centrální limitní věta. Bodové odhady, intervaly spolehlivosti, testování statistických hypotéz, hladina významnosti. Základní parametrické a neparametrické testy, ANOVA, testy nezávislosti NV. Lineární regrese, celkový F-test, dílčí t-testy.
MV013

Opakování

Tip

Viz bakalářské otázky Kombinatorika a pravděpodobnost a Statistika.

  • Statistika
    Zabývá se sbíráním, organizací, analýzou, interpretací a prezentací dat. statistics

    • Popisná / decriptive: shrnuje data, která máme,
    • Inferenční / inferential: předpokládá, že data která máme jsou jen součástí celku; pracuje s modely celé populace a hypotézami o ní.
  • Základní prostor $\Omega$
    Konečná množina možných jevů. Např \{1, 2, 3, 4, 5, 6\} pro možné hody šestistěnkou.

  • Možný výsledek (elementární náhodný jev) $\omega_k$
    Prvek základního prostoru \Omega.

  • Náhodný jev (event) $A$
    Podmnožina A \sube \Omega, která nás zajímá. Např. "Na šestistěnce padne sudé číslo."

Náhodné veličiny

  • Náhodná veličina (NV) / random variable
    Něco, co se dá u každého možného výsledku změřit. Zobrazení z prostoru elementárních jevů do měřitelného prostoru E (třeba \mathbb{R}).

    X : \Omega \to \mathbb{E}

Diskrétní

Diskrétní NV je náhodná veličina, která nabývá konečně nebo spočetně mnoha hodnot. \mathbb{E} je konečná nebo spočetná, např. \N.

Příklad: hodnota na šestistěnce.

Jinými slovy, NV X : \Omega \to \R je diskrétní, pokud se prvky \Omega zobrazí do \R jako izolované body \{x_1, x_2, \ldots\}.

  • Rozdělení pravděpodobnosti
    Funkce P(X) : \mathbb{E} \to \R, která každé hodnotě popsané veličinou X přiřazuje pravděpodobnost jejího výskytu.

  • Každá x_i má nenulovou pravděpodobnost:

    P(x_i) > 0
    
  • Součet pravděpodobností všech možných hodnot x_i je 1:

    \sum_{x} P(x_i) = 1
    

Spojité

Spojitá NV je náhodná veličina, která nabývá až nespočetně nekonečně mnoha hodnot. Tedy \mathbb{E} je nespočetná, např. \R.

Příklad: doba čekání na šalinu, analogový signál, výška člověka (pokud máme fakt dobrej metr).

Jinými slovy, NV X : \Omega \to \R je spojitá, pokud se prvky \Omega zobrazí do \R jako interval \lbrack a, b \rbrack.

  • Hustota pravděpodobnosti / probability density function (PDF)
    Funkce f(x) : \mathbb{E} \to \R, která každé hodnotě popsané veličinou X přiřazuje pravděpodobnost jejího výskytu.

  • Každý bod tohoto intervalu má nulovou pravděpodobnost:

    f(x) = 0
    
  • Nicméně integrál pravděpodobnostní funkce f(x) je 1:

    \int_{-\infty}^{\infty} f(x) dx = 1
    
  • Pravděpodobnost, že NV nabývá hodnoty z intervalu \lbrack a, b \rbrack je pak:

    P(a \leq X \leq b) = \int_{a}^{b} f(x) dx
    

Základní rozložení

  • Distribuční funkce / cumulative distribution function (CDF)

    Funkce F(X) : \mathbb{E} \to \R udává pravděpodobnost, že NV X nabývá hodnoty menší než x.

    \begin{align*}
    
    F(x) &= P(X \leq x) & \text{pro diskrétní NV} \\
    F(x) &= \int_{-\infty}^{x} f(x) dx & \text{pro spojité NV}
    
    \end{align*}
    

    Charakterizuje rozdělení, kterému náhodná veličina X podléhá.

    Pro spojité NV je to plocha pod křivkou pravděpodobnostní funkce. A taky se dá použít k vyjádření pravdepodobnosti:

    P(a \leq X \leq b) = F(b) - F(a)
    

Diskrétní rozložení

Název
Definice Popis Příklad Bernoulliho / alternativní
P(x) = \begin{cases} 1 - p & x \ne 1 \\ p & x = 1 \\ \end{cases} Náhodný pokus, kde jsou jen dva možné výsledky. Hod mincí. Binomické
P(x, n, p) = \binom{n}{x} p^x (1-p)^{n-k} Sekvence n pokusů. Popisuje pravděpodobnost, že x bude úspěšných. Hod mincí n krát. Poissonovo
P(k, \lambda) = \frac{\lambda^k e^{-\lambda}}{k!} Pokud se něco děje průměrně $\lambda$-krát za jednotku času, jaká je pravděpodobnost, že se to stane $k$-krát za stejnou jednotku času? Výskyt jednoho jevu nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou. Kolik lidí přijde do obchodu za hodinu. (Za předpokladu, že je pandemie a dovnitř může jen jeden člověk.) Geometrické
P(k, p) = \begin{cases} p (1-p)^k & k = 0, 1, ... \\ 0 & \text{jinak} \\ \end{cases} Když tě zajímá, jaká je šance, že se něco pokazí k krát, než to konečně uspěje. Kolikrát musíš hodit mincí, než padne poprvé hlava. (Diskrétní) rovnoměrné / uniformní

Spojité rozložení

Název
Definice Popis Příklad (Spojité) rovnoměrné / uniformní
f(x) = \begin{cases} \frac{1}{b-a} & a \le x \le b \\ 0 & x < a \lor x > b \\ \end{cases} Všechny jevy v daném intervalu (a, b) (může být otevřený nebo uzavřený) jsou stejně pravděpodobné. Bod na kružnici. Exponenciální
f(x, \lambda) = \begin{cases} \lambda e^{-\lambda x} & x \ge 0 \\ 0 & x < 0 \\ \end{cases} Čas mezi jevy v Poissonově procesu. Jak dlouho budeš čekat na šalinu. Normální / Gaussovo
f\_\mathcal{N}(x, \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2 \pi}} e^{ -\frac {\left(x - \mu \right)^2} {2\sigma^2} } Používá se jako default, když nevíš, jakou má proměnná distribuci, kvůli centrální limitní větě. (\mu je mean, \sigma^2 je rozptyl). Výška lidí. Standardní normální
f(x) = f\_\mathcal{N}(x, 0, 1) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že: _ 68 % je v intervalu (-1, 1), _ 95 % je v intervalu (-2, 2), * 99,7 % je v intervalu (-3, 3). Výška lidí (ale přeškálovaná). Cauchy
f(x) = \frac{1}{ \pi \sigma \left\lbrack 1 + \left( \frac{x - \mu}{\sigma} \right)^2 \right\rbrack } Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované. Poměr výšky k šířce obličeje. Gamma
f(x, \alpha, \beta) = \begin{cases} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\beta x} & x > 0 \\ 0 & \text{jinak} \\ \end{cases} Když máš sekvenci jevů, kde čekací doba na každý má exponenciální rozdělení s rate \beta, pak čekací doba na $n$-tý jev má Gamma rozdělení s \alpha = n. Jak dlouho budeš čekat na $n$-tou šalinu. \chi^2 (Chi-square)
f(x, n) = \begin{cases} { \Large \frac{ x^{\frac{n}{2} - 1} e^{-\frac{x}{2}} }{ 2^\frac{n}{2} \Gamma\left( \frac{k}{2} \right) } } & x > 0 \\ 0 & \text{jinak} \\ \end{cases} Používá se při testování hypotéz. Nechť Z_1, Z_2, ..., Z_n jsou nezávislé náhodné proměnné se standardním normálním rozdělením a X = \sum_{i=1}^n Z_i^2, pak X\chi^2 rozdělení s n stupni volnosti. Testování, jestli je mince férová. Studentovo t

Číselné charakteristiky

Stejně jako náhodné veličiny popisují jevy, číselné charakteristiky popisují chování náhodných veličin... pomocí čísel.

Míry polohy

  • Střední hodnota / mean / expected value
    Průměr hodnot veličiny vážený jejich pravděpodobností. Značí se \overline{X} nebo E(X).

    Note

    Taky někdy označovaný jako obecný moment prvního řádu / první obecný moment. moment

  • $\alpha$-kvantil $Q_\alpha$
    Dělí statický soubor na stejně velké části.

  • Medián
    Prostřední prvek uspořádaného statistického souboru. Kvantil Q_{0.5}.

    \tilde{x} = \begin{cases}
        x_{\frac{n+1}{2}} & \text{pro liché }n\\
        \frac{1}{2} (x_\frac{n}{2} + x_{\frac{n}{2} + 1}) & \text{pro sudé }n
    \end{cases}
    
  • Percentil
    Výběrový kvantil ($p$-tý kvantil, kde 0 < p < 1) Q_p.

  • Modus
    Hodnota s největší četností.

Míry variability

Jak moc se od sebe prvky liší (nezávisle na konstantním posunutí)?

  • Rozpyl / variance
    Vyjadřuje, jak moc se NV odchyluje od své střední hodnoty. Značí se \sigma^2, \text{var}(X) nebo D(X).

    \text{var}(X) = E\left((x_i - E(X))^2\right)
    

    Note

    Taky někdy označovaný jako centrální moment druhého řádu / druhý centrální moment. moment

  • Směrodatná odchylka / standard deviation
    Míra variability NV. Značí se \sigma nebo \text{SD}(X). Je definovaná jako \sqrt{\sigma^2}.

  • ovariance veličin X a $Y$
    Měří určitou podobnost mezi X a Y.

    \text{cov}(X, Y) = E((X - E(X)) \cdot (Y - E(Y)))
    

    Ze vzorce výše plyne

    \begin{aligned}
        \text{cov}(X, X) &= \text{var}(X) \\
        \text{cov}(X, Y) &= \text{cov}(Y, X) \\
        \text{cov}(X, Y) &= E(X \cdot Y) - E(X) \cdot E(Y)
    \end{aligned}
    
  • Korelace
    Míra podobnosti \rho_{X, Y} náhodných veličin X a Y. Pokud X = X, pak \rho_{X, X} = 1. Pokud jsou X a Y nezávislé, pak \rho_{X, Y} = 0.

    \rho_{X, Y} = \frac{\text{cov}(X, Y)}{\sqrt{\text{var}(X)} \cdot \sqrt{\text{var}(Y)}}
    = \frac{E((X - E(X)) \cdot (Y - E(Y)))}{\sqrt{\text{var}(X)} \cdot \sqrt{\text{var}(Y)}}
    

Míry tvaru

  • Koeficient šikmosti / skewness
    Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat.
  • Koeficient špičatosti / kurtosis
    Jak vysoký je peak? Jak moc je to rozpláclé.

Centrální limitní věta (CLV) / Central limit theorem (CLT)

S rostoucím počtem sample výsledků X_i se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.

Popisuje chování výběrového průměru pro velké soubory vzorků a umožňuje tak sestrojení intervalových odhadů.

  • Moivreova-Laplacova věta

    Mějme NV X. Pokud je X součtem n vzájemně nezávislých NV X_1, X_2, ..., X_n s Bernoulliho rozdělením s parametrem \pi, má X binomické rozdělení s parametry n a \pi, pak s n \to \infty:

    \frac{X - n \pi}{\sqrt{n \pi (1 - \pi)}} \approx N(0, 1)
    
  • Lévyho-Lindenbergova věta

    Tip

    Zobecnění Moivreovy-Laplacovy věty.

    Mějme NV X. Pokud je X součtem n vzájemně nezávislých NV X_1, X_2, ..., X_n se shodným rozdělením libovolného typu, s konečnou střední hodnotou E(X_i) = \mu a konečným rozptylem D(X_i) = \sigma^2, pak pro normovanou NV U asymptoticky s n \to \infty platí:

    \begin{aligned}
    
    \overline{X} = \frac{1}{n} \sum_{i=1}^n X_i &\approx N \left( \mu, \frac{\sigma^2}{n} \right) \\
    
    \sqrt{n} \frac{\overline{X} - \mu}{\sqrt{\sigma^2}} &\approx N(0, 1) \\
    
    \frac{\sum_{i=1}^n X_i - n \mu}{\sqrt{n \sigma^2}} &\approx N(0, 1)
    
    \end{aligned}
    

    Výpočet s CLV

    Nechť X je náhodná proměnná popisují jak padá 6, když hodíme kostkou 100krát. Tedy:

    X \approx \text{Binomial} \left( 100, \frac{1}{6} \right)
    

    Podle CLV má X asymptoticky X \approx N(\frac{100}{6},\frac{500}{36}).

    Pak například pravděpodobnost, že šestka padne méně než 16krát je:

    \begin{aligned}
    
    P(X < 16) &\doteq P(X \leq 16) = 0.429 \\
    P(X < 16) = P(X \leq 15) &\doteq F(X \leq 15) = 0.327 \\
    
    \end{aligned}
    

    S continuity correction (opravou v důsledku změny z diskrétní na spojitou NV) je to:

    P(X < 16) = P(X \leq 15.5) \doteq F(15.5) = 0.377
    

Odhady

  • Odhad parametru / parameter estimation
    Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.

    Cílem odhadu je určit parametry rozdělení NV X na základě informace z výběrového souboru (realizaci NV, datasetu). Chceme hodnotu a přesnost odhadu.

  • Metoda odhadu / estimator
    Popisuje, jak odhad získat.

  • Nestranný odhad / unbiased estimator
    Metoda odhadu parametru \theta taková, že střední hodnota odhadu je rovna \theta. Nestrannost je celkem rozumné omezení, protože nechceme, aby byl odhad odchýlený.

  • Nejlepší nestranný odhad / best unbiased estimator
    Nestranný odhad, který má nejmenší rozptyl ze všech nestranných odhadů.

  • Konzistentní odhad / consistent estimator
    Metoda odhadu parametru \theta taková, že s počtem vzorků n konverguje k \theta pro n \to \infty. consistent-estimator

  • (Výběrová) statistika / (sample) statistic
    Náhodná veličina dána funkcí, která bere výběrový soubor a vrací číslo. Máme například:

    • Výběrový průměr / sample mean,
    • Výběrový rozptyl / sample variance,
    • Výběrovou směrodatnou odchylku / sample standard deviation,
    • Výběrovou (empirickou) distribuční funkci / sample distribution function.

    Náhodná veličina T_n, která vznikne aplikací funkce T na náhodný výběr o velikosti n \mathbf{X} = (X_1, X_2, \ldots, X_n) se nazývá statistika.

    T_n = T(X_1, X_2, \ldots, X_n)
    

    Tip

    Estimator je funkce počítající statistiku použitá k odhadu parametru. statistic

  • Bodový odhad / point estimate / pointwise estimate
    Odhad parametru daný jednou hodnotou, která hodnotu parametru aproximuje.

  • Intervalový odhad / interval estimate
    Odhad parametru daný pomocí intervalu hodnot, který hodnotu parametru s velkou pravděpodobností obsahuje. Délka intervalu vypovídá o přesnosti odhadu.

  • Interval spolehlivosti / confidence interval
    Interval spolehlivosti parametru \theta s hladinou spolehlivosti 1 - \alpha, kde \alpha \in \lbrack 0, 1 \rbrack je dvojice statistik \lbrack \theta_L, \theta_U \rbrack taková, že:

    P(\theta_L < \theta < \theta_U) = 1 - \alpha
    

    kde \theta_L je dolní mez intervalu a \theta_U je horní mez intervalu.

  • Hladina významnosti a spolehlivosti / significance and confidence level

    • Hladina významnosti \alpha je pravděpodobnost, že parametr nespadá do intervalového odhadu.
    • Hladina spolehlivosti 1 - \alpha je pravděpodobnost, že parametr spadá do intervalového odhadu.
  • Levostranný, pravostranný a oboustranný interval / left-tailed, right-tailed and two-tailed interval

    • Levostranný (dolní): P(\theta \le \theta_L) = 1 - \alpha.
    • Pravostranný (horní): P(\theta \ge \theta_U) = 1 - \alpha.
    • Oboustranný: P(\theta \le \theta_L) = P(\theta \ge \theta_U) = \frac{\alpha}{2}.

Tvorba intervalového odhadu

Máme vzorek velikosti n s výběrovým průměrem \overline{X} a výběrovým rozptylem S^2. Odhadněte střední hodnotu \mu s hladinou spolehlivosti 0.95, pokud víte, že X \approx N(\mu, \sigma^2), kde rozptyl \sigma^2 je neznámý.

  1. Zvolíme vhodnou výběrovou statistiku T(X) jejíž rozdělení závislé na \mu známe. V tomhle případě Studentův t-test:

    T(X) = \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t_{n - 1}
    

    Tedy víme, že T(X) \sim t(n-1)

  2. Určíme kvantily t_\frac{\alpha}{2} = t_{0.025} a t_{1 - \frac{\alpha}{2}} = t_{0.975} z T(X):

    \begin{aligned}
    
    P(t_{0.025}(n - 1) < T(X) < t_{0.975}(n-1)) &= 1 - \alpha = 0.95 \\
    
    t_{0.025}(n - 1) &= -t_{0.975}(n - 1) \\
    
    P(t_{0.025}(n - 1) < T(X) < -t_{0.025}(n-1)) &= 0.95 \\
    
    P(\overline{X} - t_{0.025}(n - 1) \frac{S}{\sqrt{n}} < \textcolor{red}{\mu} < \overline{X} + t_{0.025}(n - 1) \frac{S}{\sqrt{n}}) &= 0.95
    
    \end{aligned}
    
  3. Vyčíslíme interval z poslední rovnice.

  • Věrohodnost / likelihood

    Říká, jak dobře náš model (rozdělení pravděpodobnosti náhodné veličiny dané parametry) sedí na naměřená data.

    Note

    Pravděpodobnost je funkce jevů. Likelihood je funkce parametrů modelu.

    Note

    Likelihood nemusí nutně vracet čísla z intervalu \lbrack 0, 1 \rbrack.

  • Maximum likelihood estimation (MLE)
    Metoda odhadu parametru založená na maximalizaci likelihoodu, že model sedí na naměřená data. mle

  • Method of moments (MOM)
    Metoda odhadu parametru založená na rovnosti teoretického a výběrového momentu. mom

Testování statistických hypotéz

  • Hypotéza
    Nějaký předpoklad o datech, který chceme ověřit. Často je formulovaná pomocí parametrů modelu. Např. "střední hodnota je 5."

  • Testování hypotézy
    Cílem testování hypotéz je ověřit, že data nepopírají nějakou hypotézu.

    • Null hypothesis $H_0$: "výchozí nastavení"; často tvrdí, že nějaká vlastnost neexistuje.
    • Alternative hypothesis $H_1$: "to co, chceme dokázat"; opak H_0.

    Alternativní hypotézu potvrzujeme tak, že vyvracíme nulovou hypotézu. Pokud se nám nepodaří vyvrátit H_0, pak o H_1 nevíme nic. null

    Na testování použijeme statistiku T_n = T(\mathbf{X}), kterou nazýváme testovací statistikou. Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti. Jednu označíme W_\alpha, a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy (region of rejection, critical region)) a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy).

    Na základě realizace náhodného výběru \mathbf{x} = (x_1, ..., x_n)' vypočítáme hodnotu testovací statistiky t_n = T(\mathbf{x}).

    • Pokud hodnota testovací statistiky t_n nabude hodnoty z kritické oblasti, t.j. t_n = T(\mathbf{x}) \in W_\alpha, pak nulovou hypotézu zamítáme.
    • Pokud hodnota testovací statistiky t_n nabude hodnoty z oblasti nezamítnutí, t.j. t_n = T(\mathbf{x}) \not\in W_\alpha, pak nulovou hypotézu nezamítáme.

    — MV013

Metafora se soudem

Platí presumpce nevinny. Předpokládáme, že člověk zločin nespáchal, dokud tuhle hypotézu nevyvrátíme.

  • $H_0$: "Obžalovaný neukradl papamobil."

  • $H_1$: "Obžalovaný ukradl papamobil."

  • Chyby v testování hypotéz

    • Typ I: zamítnutí H_0, i když je pravdivá -- false positive.

    • Typ II: nezamítnutí H_0, i když je nepravdivá -- false negative.

      Note

      Positive = zamítnutí H_0, tedy potvrzení H_1.
      Negative = nezamítnutí H_0, tedy o H_1 nevíme nic.

  • $p$-hodnota (hladina významnosti)
    Nejmenší hladina významnosti \alpha, při které ještě zamítáme H_0. p-value

    Pravděpodobnost, že došlo k chybě typu I -- zavrhnuli jsme H_0, ačkoli platí.

    stem:[ p = P(\text{type I error}) = P(\text{we reject } H_0 ;|; H_0) ]

    Tip

    Pokud $p$-value vyjde menší než požadovaná hladina významnosti \alpha, pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme H_0, protože H_0 neplatí, a tedy akceptujeme H_1.

Parametrické testy

Parametrické testy jsou založené na parametrech pravděpodobnostních rozdělení.

  • Studentův T-test
    Umožňuje ověřit zda normální rozdělení má danou střední hodnotu. Taky umožňuje ověřit zda dvě normální rozdělení mají stejnou střední hodnotu, za předpokladu, že mají stejný (byť neznámý) rozptyl. t-test
  • Analysis of variance (ANOVA)
    Testuje rozdíly mezi středními hodnotami dvou a více skupin. Používá se k ověření, zda rozptyly dvou nebo více množin dat jsou stejné až na konstantní posun a škálování. anova

Neparametrické testy

Neparametrické testy nejsou založené (jen) na parametrech pravděpodobnostních rozdělení. Používají se, když neznáme rozdělení dat, nebo je těžké splnit předpoklady parametrických testů.

  • Sign test
    Testuje, zda se dvě náhodné veličiny při pozorování liší konzistentně. Jinými slovy, zda stření hodnota jejich rozdílu má nulový medián.
  • One-sample Wilcoxon signed-rank test
    Testuje, zda vzorky patří do symetrického rozdělení s daným mediánem.
  • Pearsonův chi-squared (\chi^2) test
    Umožňuje ověřit, že dvě kategorické NV jsou nezávislé. chi-squared

Testy (ne)závislosti náhodných veličin

Opakování

  • Statistická / stochastická nezávislost
    Náhodné jevy A a B jsou stochasticky nezávislé, pokud P(A \cap B) = P(A) \cdot P(B).

    Výskyt A nemá vliv na výskyt B.

    • "Při při prvním hodu padne 6" a "při druhém hodu padne 6" jsou nezávislé jevy.
    • Naproti tomu jev, že padne 6 při prvním hodu kostkou a jev, že součet čísel zaznamenaných v prvním a druhém pokusu je 8, jsou závislé jevy. nezavislost
  • Nezávislost diskrétních NV

    Pokud X, Y a Z jsou diskrétní náhodné veličiny, pak definujeme X a Y jako podmíněně nezávislé vzhledem k Z, pokud:

    P(X \le x, Y \le y | Z = z) = P(X \le x | Z = z) \cdot P(Y \le y | Z = z)
    

    pro všechny x, y a z takové, že P(Z = z) > 0.

  • Nezávislost spojitých NV

    Pokud X, Y a Z jsou spojité náhodné veličiny a mají společnou hustotu pravděpodobnosti f_{XYZ}(x,y,z), pak definujeme X a Y jako podmíněně nezávislé vzhledem k Z, pokud:

    f_{X,Y|Z}(x,y|z) = f_{X|Z}(x|z) \cdot f_{Y|Z}(y|z)
    

    pro všechna x, y a z takové, že f_Z(z) > 0.

To neformálně řečeno znamená, že jakmile máme k dispozici informaci obsaženou v Z, není už další informace A užitečná pro přesnější poznání B ani znalost B nepřidá nic pro pochopení A, i kdyby A a B byly vzájemně závislé.

— Wikipedia: Statistická nezávislost

  • Regrese
    Analýza vztahu mezi dvěma závislými NV.

  • Lineární regrese
    Regrese s předpokladem, že vztah dvě NV jsou závislé lineárně. Rovnici regresní přímky zapisujeme jako:

    Y_i = \beta_0 + \beta_1 \cdot X_i + \varepsilon_i
    

    Kde:

    • Y je NV závislá na X,
    • \beta_0 je konstanta,
    • \beta_1 je směrnice (slope),
    • \varepsilon_i je $i$-tá pozorovaná hodnota chyby -- náhodná složka / šum.

    Platí:

    • E(\varepsilon_i) = 0,
    • D(\varepsilon_i) = \sigma^2,
    • \text{cov}(\varepsilon_i, \varepsilon_j) = 0 pro i \neq j,
    • \varepsilon_i \sim N(0, \sigma^2) -- náhodná složka má normální rozdělení,
    • regresní parametry \beta_0 a \beta_1 mohou mít libovolnou hodnotu.
  • Celkový F-test
    Pracuje s nulovou hypotézou ve tvaru:

    H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0
    

    Tedy testujeme, zda hodnota analyzované NV závisí na lineární kombinaci vysvětlujících NV. Pokud je H_0 zamítnuta, pak alespoň jedna závislost existuje. Pokud je H_0 nezamítnuta, pak je množina vysvětlujících NV úplně blbě.

    Testová statistika má F-rozdělení.

  • Dílčí t-testy
    Umožňují otestovat, že dává smysl použít $i$-tou vysvětlující NV. Testujeme nulovou hypotézu:

    H_0: \beta_i = 0
    

    Pokud nelze zamítnout, pak $i$-tá vysvětlující NV nemá vliv na analyzovanou NV a můžeme ji vynechat.

    Testová statistika má Studentovo t-rozdělení.

Zdroje