NMSA230 - Úvod do programování v R
Zimný semester 2020/2021 | Cvičenie 1 | St 07/10/20 (2.týždeň) | Distančná forma
I. Štatistický software R (úvod a základy)
Základným cieľom predmetu NMSA230 je oboznámiť sa so štatistickým programom R (R Development Core Team, 2020), ktorý je jedným z najčastejšie používaných softwarových nástrojov určených k spracovaniu, príprave a následnej štatistickej analýze dat. Využitie a vhodné uplatnenie nájde ale aj pri samotnom reportovaní výsledkov. Jedná sa o GNU projekt, podobný programu S a primárne je navrhnutý pre štatisticku analýzu dat.
Program R (dostupný pod GNU GPL licenciou) je k dispozícii k stiahnutiu (free of charge) na adrese
https://www.r-project.org
K dispozícii sú distribúcie s podporou pre OS Windows, Linux, aj Macintosh.
Základnú inštaláciu programu R je možne jednoducho rozšíriť pomocou dodatočných knižníc (balíčkov), ktoré sú k dispozícii na rôznych online repozitároch (zoznam hlavných repozitárov je na adrese https://cran.r-project.org/mirrors.html). Jednotlivé R knižnice sú tvorené samotnými užívateľmi softwaru R a ich správne fungovanie nie je garantované - je preto namieste určitá opatrnosť a hlavne aktívne premýšľanie pri ich používaní. V prípade nutnosti použíť niektorý z dodatočných balíčkov (nad rámec štandardnej inštalácie), bude konkrétny príkaz nutný k inštalácii explicitne uvedený v R skripte.
K dispozícii sú aj rôzne nástroje a knižnice pre interakciu s iným softwarom (optimalizačný toolbox mosek, databazove systémy ako SQL, developerské nástroje ako C++ a podobne).
Pre užívateľov programu R sú k dispozícii aj user-friendly grafické rozhrania, ktoré je možné dodatočne nainštalovať a umožňujú (v určitých smeroch) jednoduchšiu a prehľadnejšiu prácu. Najznámejší a pravdepodobne aj jeden z najlepších R interface je RStudio. K dispozícii je opäť pre operačný systém Windows, Linux, aj Macintosh.
Užitočné materiály pre prácu so štatistickým softwarom R
-
Bína, V., Komárek, A. a Komárková, L.: Jak na jazyk R. (PDF súbor)
-
Komárek, A.: Základy práce s R. (PDF súbor)
-
Kulich, M.: Stručný úvod do R. (PDF súbor)
-
Scott, T.: An Introduction to R (PDF súbor)
-
De Vries, A. a Meys, J.: R for Dummies. (ISBN-13: 978-1119055808)
Štatisticky software R bude počas výuky predmetu NMSA230 priamo používaný a jeho používanie je vyžadovane aj od študentov. V prípade štandardnej prezenčnej výuky môžu študenti využívať počítače, ktoré sú k dispozícii v posluchárni K11 (program R a RStudio sú nauinštalované na všetkých počítačoch), ale v prípade distančnej online výuky je nutné, aby každý študent mal program R nainštalovaný a plne funkčný. V prípade potreby doinštalovať dodatočnú knižnicu je potrebné, aby bol počítač pripojený na internet.
Výuka počas semestru bude prebiehať formou predpripravených R skriptov s rôznymi praktickými ukážkami, jednoduchými príkladmi a úlohami, ktoré majú primárne slúžiť ako inštruktáž a ilustrácia fungovania programu R (jednak konkrétna implementácia jednotlivých príkazov, ale aj práca s datami a príprava podkladov na tvorbu vyzkumnej správy). Jednotlivé ukážky a príklady sú pripravené formou copy/paste zdrojového R kódu, ktorý stačí nakopírovať do príkazového riadku (R konzoly) a spustiť pomocou tlačítka ENTER. ´
Na rozdiel od pasívneho kopírovania uvedených zdrojových kódov do Rka sa ale od študentov očakáva aj aktívne zapojenie sa formou porozumenia a pochopenia daného príkazu, prípravy vlastného zdrojového kódu a samostatného riešenia zadaných úloh.
V prípade potreby/záujimu je možné využiť podrobnejšieho “sprievodcu” na cestu základmi Rka: Hrátky s R (autor: doc. Arnošt Komárek) - potrebné sú ale dátové súbory: auta2004.dat, auta2004.csv a auta2004.xls)
1. Základné matematické operácie v R
Najzákladnejšou a najjednoduchšou úlohou programu R je využitie R konzoly pre účely jednoduchej kalkulačky. Vyskúšajste do R konzoly potupne zadať nasledujúce riadky a zakaždým príkaz potvrdiť klávesou ENTER.
2 + (4 * 5)^2 ## za znakom '#' nasleduje komentar, ktory R ignoruje pri vyhodnoteni ignoruje
1:5 * 2
sqrt(2) + sin(pi/2)
Jednotlivé príkazy v programe R sô hodne intuitivné (pozri napr. goniometrické funkcie pomocou príkazu ?Trig ) a získané výsledky je naviac možné uložiť do vhodne zvoleného objektu, na ktorý sa da následne odvolávať a ďalej daný objekt pri práci využívať.
v1 <- 2 + (4 * 5)^2 ## za '#' nasleduje komentar, ktory R ignoruje
v2 <- 1:5 * 2
v3 <- seq(1,5, length = 3)
v4 <- rep(4,3)
Jednotlivé výsledky je možné následne kombinovať (aplikovať na ne vhodné matematické oprácie, prípadne aj rôzne nematematické manipulácie) a opäť uložiť ako nový výsledok (resp. prepísať pôvodný objekt).
v1 + v2
v5 <- v3 - 2
v5 <- v5 * 2
Momentálne je v prostredí R uložených niekoľko objektov. Zoznam týchto objektov, resp. výsledkov, získame pomocou príkazu ls() :
ls()
V prípade potreby môžeme objekty vymažeme buď selektívne, alebo hromadne pomocou jedného z príkazov
rm(v1) ## vymaze objekt v1
rm(list = ls()) ## vymaze vsetky aktivne objekty
Prácu v programe R je vždy dobré začínať “s čistým štítom”, teda príkazom rm(list = ls()) . Názvy jednotlivých objektov by mali byť intuitivné a zároveň dostatočne stručne. Umožní to rýchlejšie vytváranie (písanie) zdrojového kódu a tiež minimalizuje rizíko pomýlenia sa (nežiaducej zámeny medzi existujúcimu objektami).
Užitočné
Program R je objektový nástroj a zvláda aj matematické operacie, ktoré štandardne nie sú definované. Napr. súčet dvoch vektorov, ktoré majú rôznu dĺžku, operácie s maticami, ktoré majú rôzne typy/dimenzie. Je podstatné správne pochopiť, ako program R v takýchto prípadoch funguje. Zabráni sa možným problémom v budúcnosti a v mnohých prípadoch to zase na druhu stranu može zjednodušiť výpočet a ušetriť čas.
Pokúste sa odhaliť princíp fungovania takýchto operácii. Napríklad, porovnajte nasleduúce dva príkazy a príslušné výsledky:
c(1, 2, 3, 4) * c(1, 2, 3)
1:6 + 1:3
-
Štandardné operácie v programe R získame pomocou štandardných znamienok
+ , - , * , \ , a symbolu ^ pro mocniny;
-
Komplexnejšie matematické výrazy môžeme formulovať pomocou zátvoriek. V Rku slúžia k tomuto účelu pouze okrúhle zátvorky
() . Hranaté zátvorky [] a zátvorky {} maju v programe R vlastnú, špecifickú úlohu;
-
Ku každému príkazu v R je k dispozícii návod, ako príkaz správne funguje - help sa zavolá zadaním samotného príkazu, ktorému predchádza otazník: napr.
?c zobrazí help pre funkciu c() , analogicky ?seq zobrazí help k funkcii seq() . Help obsahuje popis samotnej funkcie, vysvetlenie implementácie a tiež niekoľko ilustratívnych príkladov a odkazov na dalšie príbuzne funkcie, alebo funkcie podobného charakteru.
-
Podrobný návod je k dispozícii aj na internete a v prípade problému stačí použiť google a riešenie sa určite ľahko nájde;
2. Práca s vektormi a maticami
V prípade, že máme v objektoch uložené nejaké hodnoty (vektor, maticu, pole, list, atď.), je možné sa v Rku odkazovať aj na jednotlivé elementy v daných objektoch, používať ich v dalších výpočtoch, alebo s nimi manipulovať. K tomuto účelu práve slúžia hranaté zátvorky [] .
v3[1] ### zobrazi prvu zlozku vektora v3
v3[-c(2,3)] ### rovnaky vystup, vektor v3 bez druhej a tretej zlozky
A to isté platí aj pre matice (a analogicky aj pre pole).
m1 <- rbind(v3, v3 * 2, v3 * 3)
m1[1:2,1:2] ## elementy z prveho a druheho riadku a stlpca matice m1
Príkazy je možné ľubovoľne kombinovať a vytvárať nové, zložitejšie objekty.
m2 <- rbind(cbind(m1[1:2,1:2], c(0,0)), seq(10,11, length = 3))
l1 <- list(m1, m2) ## list, ktory obsahuje dve rozne matice, m1 a m2
l1[[2]][1,] # vypise na obrazovku prvy riadok matice m2
Objekty rôzneho typu môžu byť pohromade uložené napr. v objekte typu list()
li <- list(v3, m1) ## list, ktory obsahuje vektor v3 a maticu m1
Na jednotlivé elementy v liste sa odkazuje následovne:
li[[1]] ## zobrazi prvy element listu, vektor v3
li[[2]] ## zobrazi druhy element listu, maticu m1
Vždy je vhodné voliť kompaktnú a čo najjednoduchšiu formu zápisu. Pre porovnanie, všetky nasledujúce príkazy vytvoria vo výsledku jednotkovú maticu typu 4x4, ale najkompaktnejši a najstručnejší je pouze posledný zápis. Vyžaduje ale znalosť príkazu diag() a jeho spávnu implementáciu.
m1 <- rbind(c(1,0,0,0), c(0,1,0,0), c(0,0,1,0), c(0,0,0,1))
m2 <- cbind(c(1,0,0,0), c(0,1,0,0), c(0,0,1,0), c(0,0,0,1))
m3 <- matrix(rep(0,16), nrow = 4)
diag(m3) <- 1
m4 <- NULL
for (i in 1:4){
m4 <- rbind(m4, c(rep(0, i - 1), 1, rep(0, 4 - i)))
}
m5 <- diag(1, 4, 4) ### resp. s vyuzitim defaultneho nastaveni by stacil prikaz `diag(4)`
Užitočné
-
V programe R existuje niekoľko prikazov, ktoré vytvoria vektor: napr.
c() , seq() , rep() , replicate() a pod.;
-
Podobne existuje niekoľko príkazov, ktoré vytvoria maticu: napr.
cbind() , rbind() , matrix() , diag() , upper.tri() , lower.tri() , data.frame() a pod.;
-
Užitočné príkazy pre vytváranie a pracovanie s vektormi a maticami sú
as.numeric() , as.matrix() , array() .
-
Pre prácu s objektom typu
list() sú užitočné príkazy unlist() , as.list() , pairlist() a pod.
-
Pre maticové násobenie je nutné použiť operátor
%*% , ktorý výnasobi dve matice (ak majú správne rozmery). Vhodnosť rozmerov sa jednoducho skontroluje pomocou príkazu dim() (užitočne je poznať tiež príkazy nrow() , ncol() , alebo dimnames() ).
-
Inverznú maticu lze získať príkazom
solve() , vlastne čísla/vektory matice pomocou príkazu eigen() , rozklady pomocou príkazov eiv() , svd() , qr() , alebo chol() .
-
Štandardne binárne operátory + , - , * , / , ^ fungujú ‘po zložkách’ - toto ‘fungovanie’ je ale R-špecifické - porovnajte nasledujúce výstupy:``
1:4 + 1 ### sucet po zlozkach
1:4 * 1:2 ### nasobenie po zlozkach v paroch (dlzka jedneho vektora je celociselny nasobok dlzky druheho)
1:4 / 1:4 ### nasobenie v paroch (rovnake dlzky oboch vektorov)
1:5 + 1:2 ## Error - preco?
matrix(1:9, nrow = 3) + 1:3 ### ako je ziskany vysledok?
matrix(1:9, nrow = 3, byrow = 3) + 1:3 ### ako je ziskany vysledok teraz?
matrix(1:9, nrow = 3) + 1:4 ### Error - preco?
3. Náhodné data - generátory náhodných čísel
Program R je primárne štatistický nástroj - umožňuje preto aj prácu s náhodnymi hodnotami. Implementované sú rôzne generátory (pseudo) náhodných čísel. Pre rôzne pravdepodobnostné rozdelenia sú k dispozícii príslušne generátory, ktoré simulujú náhodné hodnoty z daného pravdepodobnostného rozdelenia.
-
Diskrétne rozdelenia:
rbinom() , rpois() , rgeom() , a ďalšie;
-
Spojité rozdelenia:
runif() , rexp() , rnorm() , a ďalšie;
Pre správne použitie geneátorov je potrebné preštudovať prislušný návod - napr. ?rnorm zobrazí help pre generátor náhodných čísel s normálnym rozdelením. Je vhodné si tiež všimnúť, že existujú podobné príkazy, označené ako pnorm() , dnorm() a rnorm() , ktoré postupne značia distribučnú funkciu daného rozdelenia, hustotu a kvantilovú funkciu.
Užitočné
-
Je nutné dôsledne si preštudovať implementáciu jednotlivých generátorov a funkcií, ktoré súvisia s pravdepodobnostnými rozdeleniami - je totiž pomerne časté, že parametre, ktoré špecifikujú nejaké rozdelenie, majú iný význam. Napríklad:
rnorm(10, 0, 2) ## simuluje 10 pozorovani z N(0, 4) - sigma^2 = 4
rexp(10, 4) ## simuluje 10 pozorovani z Exp(lambda = 4), kde EX = 1/4
-
V prípade použítia nejakého generátora náhodných čísel je vhodné predom nastaviť tzv. seed. Umožní to následnu replikáciu generovania s garanciou rovnakých výsledkov.
set.seed(1234)
-
Výsledok použitia generátora náhodných čisel môže byť napríklad vektor, alebo matica (každý stĺpec ma stejný počet hodnôt), alebo list (umožňuje rôzny počet hodnôt v jednotlivých elemntoch).
set.seed(1234)
g1 <- rnorm(20, 160, 20) ## napr. vyska 20 nahodnych lidi s prumernou vyskou 160 cm a rozptylom 400
g2 <- cbind(g1, rexp(20, 1), rbinom(20, size = 1, prob = 1/2)) ## matica
g3 <- list(g1, rexp(10, 1), rbinom(50, size = 1, prob = 1/2)) ## list
Generátory náhodných čísel sú častym nástrojom používaným v pravdepodobnosti a štatistike, pre overenie teoretických vlastnosti rôznych modelov. Jednoduchý príklad na ilustráciu: Pre náhodný výber \(X_1, \dots, X_n\) z normálneho rozdelenia \(N(\mu, \sigma^2)\) vieme, že 95 % interval spoľahlivosti pre neznámy parameter \(\mu\) je \[
\Big(\overline{X}_n - u_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X}_n + u_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}\Big),
\] kde \(u_{1 - \alpha/2} = 1.959964\) (príkaz qnorm(0.975) ) je kvantil normálneho rozdelenia pre \(\alpha = 0.05\) (t.j., 95% interval spoľahlivosti). Tento interval teda pokrýva neznámu hodnotu parametru \(\mu \in \mathbb{R}\) s pravdepodobnosťou 0.95. Pomocou generátora náhodných čísel ověříme, že to tak naozaj je. Inými slovami, ak budeme experiment opakovať/generovať dostatočne veľakrát, mali by sme sledovať cca 95 % prípadov, kedy skonštruovaný interval pokryje neznámu hodnotu parametru \(\mu \in \mathbb{R}\) a cca 5 % prípadov, keď sa tak nestane.
mu <- 0 ### parameter strednej hodnoty
sigma <- 1 ### parameter smerodatnej chyby
n <- 1000 ### rozsah nahodneho vyberu
B <- 100 ### pocet opakovani experimentu
plot(0,0, xlim = c(0,B), ylim = c(mu - 8 * sigma/sqrt(n), mu + 8 * sigma/sqrt(n)), xlab = "Opakovanie", ylab = "Interval spolahlivosti", pch = "")
abline(mu, 0, col = "grey", lwd = 2)
set.seed(1234)
empirickePokryti <- 0
for (opakovanie in 1:B){
vyber <- rnorm(n, mu, sigma)
interval <- c(mean(vyber) - qnorm(0.975) * sigma/sqrt(n), mean(vyber) + qnorm(0.975) * sigma/sqrt(n))
if (data.table::between(mu, interval[1], interval[2])){
empirickePokryti <- empirickePokryti + 1
lines(interval ~ c(opakovanie,opakovanie), col = "green")
} else {
lines(interval ~ c(opakovanie,opakovanie), col = "red")
}
}
text(0, mu + 8 * sigma/sqrt(n), paste("Empirické pokrytie neznámej strednej hodnoty: ", round(100 * empirickePokryti/B, digits = 2), "%", sep = ""), col = "red", pos = 4)

Bez nutnosti porozumieť samotnému zdrojovému kódu, pokúste sa aspoň intuitivne vytušiť princíp jeho fungovania. Pomocou nastavenia rôzných hodnôt pre parametere \(\mu \in \mathbb{R}\) a \(\sigma > 0\) a \(n, B \in \mathbb{N}\) experiment zopakujťe a porovnajte výsledky. Pokúste sa vytvoriť analogický experiment k dokázaniu nejakej inej vlastnosti (napr. konzistencia odhadu, a podobne).
4. Reálne data a vlastné datové súbory
V programe R je k dispozícii niekoľko vzorových ilustračných datových súborov. Ich zoznam je možne zobraziť zavolaním príkazu data() . Konkrétny datovy súbor je následne zobrazený zavolaním mena prislušného súboru z príkazoveho riadku v R - napr. Orange , alebo mtcars . Vo väčšíne prípadov sa jedná o objekt typu data.frame - resp. špeciálny typ matice (pozri help ?data.frame ). Na rozdiel od klasickej matice umožňuje type data.frame() použiť rôzne datové typy (integer, boolean, character, etc.) v jednotlivých stĺpcoch - premenných. Je tak možné vytvoriť datový súbor, ktorý bude obsahovať premenné rôznych typov - spojité veličiny, disrétne hodnoty, ale aj faktory, alebo štandardný popis vo forme textu.
stlpec1 <- seq(1:5)
stlpec2 <- c(rep("male", 3), rep("female", 2))
stlpec3 <- c("a", "b", "c", "d", "e")
### nie je mozne vytvorit maticu
cbind(stlpec1, stlpec2, stlpec3)
### ale je mozne vytvorit data.frame
data.frame(stlpec1, stlpec2, stlpec3)
S ľubovolným datovým súborom sa následne pracuje ako so štandardnou maticou - môžeme sa odkazovať ne jednotlivé elementy, celé stĺpce (väčšinou jednotlivé premenné), alebo konkrétne řádky (väčšinou jednotlivé pozorovania). Nasledujúce príkazy dávajú stejné výstupy, spôsob implementácie príkazu je ale zakaždým iný. ´
head(Orange) ### zaujima nas pouze promena circumference (treti sloupec)
attach(Orange)
circumference
Orange$circumference
Orange[,3]
K načítaniu vlastných datových súborov slúži niekoľko príkazov. V programe R je technicky možné načítať vpodstate akýkoľvek datovy súbor (txt, csv, xls, ale aj jpg, png, mp3 a mnoho ďalších). Najčastejšie používané sú read.table() a read.csv() , ktoré vyžaduju súbor uložený vo formáte txt resp. csv. Dodatočné parametre je možné využiť pri volani príkazu - tieto parametre upresňujú format súboru a spôsob načítania do R. Viac podrobnosti v príslušnom helpe ?read.table prípadne ?read.csv .
Analogicky je možné stejne súbory pomocou programu R uložiť a zapísať konkrétny subor na disk.
Užitočné
-
Program R umožňuje priamo načítať aj online zdroje. Potrebné je iba špecifikovať link a použiť vhodny príkaz. Napríklad:
test.data <- read.table("http://www.karlin.mff.cuni.cz/~maciak/NMSA407/NMSA407-1617-HW1.txt", header=T)
Použijte google a help v programe R a pokúste sa načítať do prostredia R napr. obrázok (jpg súbor). Podívajte sa, čo ste do Rka načítali (resp. aký objekt je v Rku po načítaní uložený)
5. Práca s datami a s textom (regular expressions)
Program R je prispôsobený aj na manipuláciu s datami a prácu s textom, čo môže byť užitočné hlavne v prípadoch, keď je nutné nejaký dátový súbor predpripraviť k samotnej analýze. Program R pracuje s tzv. regular expressions, čím sa rozsah môžnosti používania programu R na prácu textu výrazne rožiruje. Zaujímavý návod, rôzné ukážky a praktické rady, ako pracovať s textom v Rku, je k dispozícii na stránke http://gastonsanchez.com/.
Reálne data, ktoré dostane väčšinou štatistik k spracovaniu/vyhodnoteniu, obsahujú často rôzne chyby, preklepy, alebo nesprávne uvedené hodnoty. Základnym predpokladom pre korektne spracovanie dat je nikdy nezasahovať do samotného datového súboru. Priame zásahy (napr. opravy v excel súbore) sú väčšínou nezaznamenané a spätne nevystopovateľné a v prípade následného updatu datového súboru často nie je možné spraviť rovnaké zmeny (úpravy) opakovane.
Akákoľvek manipulácia s datami by mala striktne prebiehať vramci samotného R scriptu, ktorý v prvej časti pripravi data k analýze a v druhej časti prevedie samotnu analýzu. Nasledujúci vektor kóduje pouze dve rôzne pohlavia, program R ale rozlíšuje 13 rôznych hodnôt (predpokladame, že 0 značí muža a 1 označuje ženu).
sex <- c("M", "m", "f", "Female", "zena", "z", "male", "Male", "Muz", "muz", "Zena", "0", "1")
table(sex)
Takýto vektor je nutné korektne upraviť. Namiesto manuálneho zásahu je výhodnejšie využiť súbor R príkazov, ktoré zmenu prevedu automaticky.
sexNew <- sex
sexNew[grep("[Mm0]", sex)] <- "M"
sexNew[grep("[FfzZ1]", sex)] <- "F"
Nový vektor sexNew naďalej kóduje pouze dva rôzne pohlavia, ale tentokrát aj samotný program R rozumie, že sa jedna pouze o dve rôzne kategórie. Podobný problém, ktorý vyžaduje prípravu dat, je napríklad vek respondentov uvádzaný vo forme dátumu narodenia.
age <- c("02/1990", "02/1980", "06/2000", "05/1976", "01/1991")
age <- 2019 - as.numeric(unlist(strsplit(age, split = "/"))[2 * (1:length(age))])
Užitočné
-
Zaujímavé príkazy na prácu s textom sú napr.:
paste() , strsplit() , grep() , sub() , match() , pmatch() a mnoho jiných.
-
Pre prácu s časovými hodnotami je výhodné poznať funkcie
date() , as.Date() a pod..
-
Pomocou helpu k jednotlivých Rkovým funkciám sa dá jednoducho zistiť, čo dané funkcie robia a ako sú implementované. V helpe sú k dispozícii aj jednoduhé ilustratívne príklady.
Domáca úloha
(Deadline: 2. cvičenie | St: 21.10.2020
V programe R si pripravte jednoduchý skript, ktorý vytovrí jednoduchý datovy súbor. Data budu obsahovať aspoň 30 pozorovaní (riadkov) a aspoň 6 premenných.
-
Vymyslite si jednoduchý experiment a k tomuto experimentu v Rku pripravte (nasimulujte) data.
-
Aspoň jedná veličina musí byť faktorová s aspoň dvoma rôznymi úrovňami.
-
Aspoň dve veličiny musia byť generované náhodným generátorom pre spojité rozdelnie.
-
Aspoň dve veličiny musia byť generované náhodným generátorom pre diskrétne rozdelenie.
-
Aspoň jedna veličina bude vytvorená nejakým vhodným využitím predchádzajúcich veličín (manipuláciou s predchadzajúcimu R objektmi).
-
Data uložte ako
data.frame() objekt a výsledny objekt si pomocou príkazu write.table() uložte na disk k ďalšiemu použitiu.
|