Longitudinální a panelová data – NMST422

Letný semester 2024-2025 | Cvičenie 9 | 28.04.2025

Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorením vlastného účtu s jedinečným identifikačným číslom a potvrdenie registrácie prostredníctvom emailu. Identifikačné číslo užívateľa (vo forme uXXX, kde XXX je samotné číslo uživateľa) sa objavuje v niektorých následujúcich SAS skriptoch. Symbol XXX v zdrojových kódoch je potrebné vždy nahradiť príslušným identifikačným číslom užívateľa.

Doporučená literatúra a ďalšie užitočné materiály

Diggle, P. J., Heagerty, P., Liang, K. Y., & Zeger, S. (2002). Analysis of longitudinal data. Oxford university press.
Fitzmaurice, G. M., Laird, N. M., & Ware, J. H. (2012). Applied longitudinal analysis. John Wiley & Sons.
Hardin, J.W. and Hilbe, J.M. (2007). Generalized Linear Model and Extensions. StataPress.
Pinheiro, J., & Bates, D. (2006). Mixed-effects models in S and S-PLUS. Springer science & business media.
Härdle, K.H & Šimar, L. (2015.). Applied Multivariate Statistical Analysis, Springer-Verlag Berlin.
Jednoduchý (online) SAS tutorial (english)
Základný SAS OnDemand tutorial (english)
Stručný (Český) manuál uživatele SASu na stránke doc. Kulicha
Užitočné aj neužitočné príklady zdrojových kódov v SAS (english)

IX. Zobecnené lineárne modely s náhodnými efektami

V doterajších častiach cvičenia nás zaujímal hlavne prípad, keď o závislej premennej \(Y \in \mathbb{R}\) (t.j., reálna náhodná veličina, ktorá bola opakovane meraná na \(n \in \mathbb{N}\) vzájomne nezávislých subjektoch) môžeme predpokladať, že je spojitá a prípadne navyše aj podmienene normálne rozdelená (t.j., základný lineárny regresný model s náhodnými efektami). Matematicky je tento fakt vyjadrený prostredníctvom zápisu \[ \boldsymbol{Y}_i | \boldsymbol{b}_i \sim N_{m_i}\Big( \mathbb{X}_i\boldsymbol{\beta} + \mathbb{Z}_i\boldsymbol{b}_i, \Sigma_i \Big), \] kde \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i m_i})^\top \in \mathbb{R}^{m_i}\) je vektor opakovaných meraní vrámci \(i\)-teho subjektu (pre \(i \in \{1, \dots, n\}\)) a \(\boldsymbol{b}_i = (b_{i1}, \dots, b_{i q})^\top \in \mathbb{R}^q\) je vektor náhodných (nepozorovaných) efektov vrámci \(i\)-teho subjektu. Väčšinou predpokládame, že \(\boldsymbol{b}_i \sim N_q(\boldsymbol{0}, \mathbb{D})\). Jednotlivé vektory \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_n\) sú vzájomné nezávislé (v zápise sa niekedy používa výraz \(\boldsymbol{Y}_i | \boldsymbol{b}_i\) a niekedy spávnejší zápis \(\boldsymbol{Y}_i | \boldsymbol{X}_{ij},\boldsymbol{b}_i\)).

V praxi sa ale často stane, že predpoklad (mnohorozmerného) normálneho rozdelenia pre opakovane pozorovania – t.j., náhodné vektory \(\boldsymbol{Y}_i\), pre \(i =1, \dots, n\) je nerealistický a je nutné hľadať iný pravdepodobnostný model (napr. pretože sledovaná závislá premenná informuje výhradne len o úspechu/neúspechu liečby – binárna premenná – alebo sa všeobecne jedná o realizácie nejakej diskrétnej náhodnej veličiny, alebo má náhodná veličina síce spojité rozdelenie, ale nie je možné predpokladať normalitu). Ak je možné naviac postulovať (predpokladať) konkrétne rozdelenie pre závislú premennú (to znamená aj možnosť definovať celkovú vierohodnosť), tak je vhodné použíť tzv. zovšeobecnené lineárne modely s náhodnými efektami (generalized linear model with random effects). Jedná sa o rozšírenie triedy zovšeobecnených lineárnych regresných modelov (GLM) v podobnom zmysle, ako sú lineárne regresné modely s náhodnými efektami zovšeobecnením klasických lineárnych regresných modelov. Ak nie je možné apriórne postulovať (predpokladať) nejaké vhodné pravdepodobnostné rozdelenie pre závislú premennú \(\boldsymbol{Y}\), tak je nutné využiť iné odhadovacie metódy a postupy (napr. tzv. GEE, ktoré budeme diskutovať neskôr).

Na rozdiel od klasických lineárnych regresných modelov, ktoré predpokládajú nezávislé pozorovania, je nutné pri modeloch s náhodnými efektami zohľadniť korelačnú štruktúru v rámci opakovaných pozorovaní – čo platí aj pre lineárne regresné modely s náhodnými efektami, aj pre zovšeobecnené lineárne regresné modely s náhodnými efektami. Avšak zatiaľ čo u klasických lineárnych regresných modelov prítomnosť náhodných efektov (viac-menej) nemá vplyv na celkovú interpretáciu odhadnutých parametrov (interpretácia nezávisí na uvažovanej korelačnej štruktúre), u zovšeobecnených regresných modelov môžu rôzne predpoklady o variančnej-kovariančnej (závislostnej) štruktúre viesť k rôznej interpretácii výsledných odhadnutých parametrov.

Pri analýze dat je preto o to dôležitejšie dbať na správnu špecifikáciu korelačnej štruktúry a správny popis jednotlivých zdrojov variability – t.j. variabilita medzi jednotlivými subjektami a variabilita opakovaných pozorovaní v rámci konkrétheho jedinca (vrámci konrétnych subjektov).

Existujú rôzne modifikácie GLM modelov pre data s korelovanými (longitudinálnymi/opakovanými) pozorovaniami. V praxi sa ale najčastejšie používajú niektoré z následujúcej trojice modelov:

Marginálne GLM modely
GLM modely s náhodnými efektami
Tranzitné mdeoly (resp. tzv.``transition’’ modely)

V podstate pre všetky typy vyššie uvedených modelov slúžia v programe SAS procedúry PROC GLIMMIX, PROC GENMOD, PROC GEE, prípadne PROC NLMIXED. Jednotlivým procedúram sa budeme podrobnejšie venovať v následujúcich cvičeniach. Pre základnú syntax, ktorá je vo viacerých smeroch odlišná od procedúry PROC MIXED je možné využiť následujúce odkazy:

PROC GLIMMIX:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glimmix_toc.htm
PROC GENMOD:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_genmod_toc.htm
PROC GEE:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_gee_toc.htm
PROC NLMIXED:
https://documentation.sas.com/doc/en/pgmsascdc/v_062/statug/statug_nlmixed_toc.htm

V následujúcich častiach stručne popíšeme hlavne prvé dva z uvedených modelov.

1. Marginálny model

V prvom rade je užitočné pripomenuť si základnú terminológiu modelov s náhodnými efektami v jednoduchom (lineárnom) prípade.

Užitočné

Pripomeňte si hierarchicku a marginálnu formuláciu jednoduchého lineárneho regresného modelu.
Ktoré kvantity explicitne uvedené v zápise jednotlivých modelov sú známe (t.j. pozorovaná) a ktoré sú latentné (t.j., nepozorované)?
Aký je základný rozdiel medz hierarchickou a marginálnou formuláciou modelu. Ktorý model lze považovať za detailnejší (podrobnejši)?

Marginálny model modeluje podmienenú strednú hodnotu závislej premennej vrámci konkrétnej sub-populácie (t.j., skupiny subjektov, ktoré zdieľajú rovnaké vlastnosti vzhľadom k vysvetľovaným/nezávislým premenným). Stredná hodnota náhodnje veličiny \(Y_{ij}\) (t.j., odpoveď \(i\)-teho subjektu na \(j\)-te opakované meranie) je modelovaná ako (lineárna) funkcia vysvetľujúcich premenných obsiahnutých vo vektore \(\boldsymbol{X}_{ij}\).

Podobnú (marginálnu) vlastnosť majú aj štandardné lineárne regresné modely, ktoré su založené na tzv. ``cross-sectional’’ datach. Interpretácia vektoru odhadnutých parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) v lineárnom regresnom modeli s náhodnými efektami je ideovo totožná s interpretáciou odhadnutých neznámych parametrov v klasickom lineárnom regresnom modeli. Pre GLM zovšeobecnenie teda platí následujúce:

Neznáma stredná hodnota \(\mu_{ij}\) náhodnej veličiny \(Y_{i j}\) (chápané vždy podmienene vzhľadom k vektoru vysvetľujúcich premenných \(\boldsymbol{X}_{ij}\)) je funkciou vhodnej lineárnej kombinácie daných vysvetľujúcich premenných a vektoru neznámych parametrov, teda \[ \mu_{ij} = E\Big[ Y_{i j} | \boldsymbol{X}_{ij}\Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}), \] kde pre funkciu \(g(\cdot)\) sa v literatúre používa označenie linková funkcia (tzv. ``link function’’) – napr. logit funkcia pre binárne data, logaritums pre celočíselné (kladné) počty, atď.
Variabilita náhodnej veličiny \(Y_{ij}\) je modelovaná ako vhodná funkcia strednej hodnoty prostredníctvom rozptylovej funkcie a prípadne tzv. škálovacieho (disperzného) parametru \(\phi > 0\). Pre rozptyl náhodnej veličiny \(Y_{i j}\) teda platí, že \[ Var Y_{ij} \equiv Var[Y_{ij}|\boldsymbol{X}_{ij}] = v(\mu_{ij}) \phi, \] kde funkcia \(v(\cdot)\) je známa funkcia.
V poslednom rade je pre opakované pozorovania nutné modelovať aj koreláciu vrámci závislých pozorovaní – pričom korelácia medzi náhodnými veličinami \(Y_{ij}\) a \(Y_{i k}\) (t.j., korelácia medzí dvoma opakovanými pozorovaniami v rámci \(i\)-teho subjektu uskutočnenými v časoch \(t_i\) a \(t_k\)) je modelovaná ako funkcia príslušných stredných hodnôt a prípadne nejakých neznámych parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^l\). Formálne to lze vyjadriť zápisom \[ Cor(Y_{ij}, Y_{ik}) \equiv Cov[ (Y_{ij}, Y_{ik}) | \boldsymbol{X}_{ij}, \boldsymbol{X}_{ik}]= \rho(\mu_{ij}, \mu_{ik}, \boldsymbol{\alpha}), \] kde funkcia \(\rho(\cdot, \cdot, \boldsymbol{\alpha})\) opäť predstavuje nejakú vhodnú (známu) funkciu.

Takto definované GLM modely pre opakované/longitudinálne pozorovania predstavujú prirodzenú analógiu v rovnakom zmysle, ako GLM modely zovšeobecňujú model klasickej lineárnej regresie.

Ako jednoduchý ilustračný príklad môžeme uvažovať data \(\{(Y_{ij}, X_{ij})\}_{i = 1}^N\), kde každý subjekt je meraný \(n \in \mathbb{N}\) krát.

Postupne môžeme písať:

Stredná hodnota: \(logit(\mu_{ij}) = log \frac{\mu_{ij}}{1 - \mu_{ij}} = \beta_0 + \beta_1 x_{ij}\);
Rozptyl \(Var Y_{ij} = \mu_{ij} (1 - \mu_{i j})\);
Korelácia opakovaných pozorovaní: \(Cor(Y_{ij}, Y_{ik}) = \alpha \in (-1,1)\);

Užitočné

Zaujímavé zhrnutie niektorých dôležitých regresných postupov (a nielen tých) v rôznych štatistických programoch je môžne prehľadne nájsť napr. na stránke https://stats.oarc.ucla.edu/other/dae/.
V programe SAS lze marginálne GLM modely odhadovať pomocou procedúry PROC GLM – viď podrobnejší návod napr. na tejto stránke: https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glm_toc.htm

Samostatne

Aká je interpretácia jednotlivých parametrov v logistickom modely explicitne uvedenom vyššie?
Aká je uvažovaná teoretická kovariančná štruktúra medzi opakovanými pozorovaniami v rámci konkrétneho subjektu?
Aká je predpokládana závislostná štruktúra medzi jednotlivými subjektami?
Aké sú základné výhody a hlavné limitácie uvedeného marginálneho GLM modelu?

2. GLM model s náhodnými efektami

Tieto modely predstavujú priame zovšeobecnenie klasického lineárneho regresného modelu s náhodnými efektami určeného pre normálne data na modely ktoré su vhodné pre modelovanie závislej premennej ktorá je diskrétna (a samozrejme obsahuje z8vislostnú štruktúru v rámci jednotivých subjektov – t.j. opakované pozorovania).

Jednoduchý príklad zmienený výššie by sme mohli matematicky formulovať následovne: \[ logit(\mu_{ij}) = (\beta_0^* + b_i) + \beta_1^* X_{ij}, \] kde \(b_i \sim N(0, \nu^2)\) je náhodný efekt (náhodný intercept), ktorý modeluje variabilitu medzi subjektami (heterogenita medzi subjektami \(i = 1, \dots, N\)), Je dôležité si uvedomiť následujúce vlastnost:

podmienene pri náhodnom efekte \(b_i\) sú jednotlivé opakované merania \(Y_{i1}, \dots, Y_{in_i}\) vzájomne nezávislé a majú hustotu (exponenciálneho typu) v tvare \[ Y_{ij} \sim f(y | b_i) = exp\{ (y \theta_{ij} \psi(\theta_{ij}))/\phi + c(y, \phi) \}, \] pričom platí (analogicky ako v prípade GLM modelov), že podmienené momenty \(\mu_{ij} = E[Y_{ij}|b_i] = \psi'(\theta_{ij})\), a \(Var [Y_{ij}|b_i] = \psi''(\theta_{ij})\phi\) a tiež \(g(\mu_{ij}) = \boldsymbol{X}_{ij}\boldsymbol{\beta} + \boldsymbol{Z}_{ij}\boldsymbol{b}_i\).
Náhodné efekty \(b_1, \dots, b_{n}\) sú vzájomne nezávislé so stejným rozdelením \(F\) (najčastejšie sa predpokladá normálne rozdelnie).

Základnou vlastnosťou/schopnosťou GLM modelov s náhodným efektami je umožnenie modelovať určitu mieru heterogenity medzi jednotlivými subjektami. Niekedy sa tieto modely nazývajú aj tzv. latent variable models (pretože náhodné efekty sú obecne nepozorované – t.j., latentné).

Samostatne

Aká je interpretácia jednotlivých parametrov v GLM modeli s náhodnými efektami?
Akým spôsobom ovplyňuje prítomnosť náhodnúch efektov výslednú podmieňenú strednú hodnotu?
Pomocou helpu v programe SAS sa podívajte a naštudujte, ako fitovať GLM model s náhodnými efektami.

Užitočné

V programe SAS lze GLM modely s náhodnými efektami odhadovať pomocou procedúry PROC GLIMMIX – viď podrobnejší návod napr. na tejto stránke: https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glimmix_overview.htm?

3. Transition modely

Tzv. “transition” modely predpokládajú špeficifickú štruktúru korelácie v rámci opakovaných pozorovaní. Jednotlivé pozorovania závislej premennej \(Y\) sú priamo podmienené predchádzajúcimi hodnotami realizácii v rámci daného subjektu. Exaktnú matematický zápis zavisi od typu podmienenej štruktúry, ktorú pre jednotlivé opakované pozorovania predpokládame (napr. Markovský model prváho radu, resp. autokorelačný model rádu \(k \in \mathbb{N}\)).

Pre jednoduchú ilustráciu je možné predpokladať napr. model \[ g(E[Y_{ij} | \boldsymbol{X}_{ij}, Y_{i(j-1)}]) = \boldsymbol{X}_{ij}^\top\boldsymbol{\beta} + \alpha Y_{i(j-1)}, \] kde \(i = 1, \dots, N\) a \(j = 2, \dots, n_i\). Je samozrejme otázne, akým spôsobom sa vysporiadať s prvým meraním (t.j., napr. baseline hodnota \(Y_{i1}\) v rámci každého subjektu) a samozrejme existujú rôzne návrhy, možnosti, aj modely.

Podstatnou otázkou pri tranzitných modeloch je aj záležitosť interpretácie—jednak vzhľadom k času \(t\) kedy sú opakované pozorovania v rámci subjektu uskutočnené a tiež vzhľadom k parametru \(\alpha \in \mathbb{R}\), ktorý modeluje závislosť na bezprostrednom predchádzajúcom pozorovani.

Užitočné

Uvažujte jednoduchú (korelovanú) postupnosť \(\{Y_{t_i}\}_{i = 1}^{N}\) realizovanú v časových okamžikoch \(t_1 < \dots t_N\) a pozrite sa na jednoduchý scatterplot vzhľadom k času, t.j., scatterplot bodov \((Y_{t_i}, t_i)\) pre \(i = 1, \dots, N\) a tiež scatterplot bodov \((Y_{t_i}, Y_{t_{i -1}})\) pre \(i = 2, \dots, N\)
V predchádzajúcom príklade uvažujte rôzne typy postupnosti (napr., AR model, MA model, ARMA model) a tiež rôzne modely pre rozdelenie náhodných inovácii.
Transition modely v programe SAS je možné modelovať napr. ako marginálne modely, kde sa vhodne definuje matica modelu \(\boldsymbol{X}\)
Jednoduché varianty modelov sú popísané napr. na tejto stránke https://support.sas.com/kb/24/494.html

4. Zadanie samostatnej zápočtovej práce

Cieľom zápočtovej práce je samostatná štatistická analýza longitudinálneho datového súboru a to vuyžitím jednak klasických regresným modelov (pre nezávisle pozorovania) a tiež šírších modelov určených pre opakované pozorovania v rámci subjektov (teda pre korelované pozorovania).

Pre štatistickú analýzu je možné buď využiť vhodný datový súbor (ktorý bude obsahovať aspoň tri opakované pozorovania v rámci jednotlivých subjektov) podľa vlastného výberu, prípadne využiť datový súbpr pacientov so sklerózou multiplex, ktorý bol opakovane použitý na cvičeniach v priebehu semestra.

Datový súbor (vo forme csv dokumentu) obsahuje celkovo 805 (opakovaných/korelovaných) pozorovaní pre 142 subjektoch, o ktorých predpokládame, že sú vzájomne nezávislé. Datový súbor nie je balancovaný (tzn., iný počet opakovaných pozorovaní je k dispozícii pre rôzne subjekty).

Datový súbor: sm_data3.csv

Popis premenných
Datový súúbor obsahuje celkovo 16 rôznych premenných (v jednotlivých stĺpcoch) z toho prvých 14 lze chápať ako vysvetľujúce premenné a posledné dve sú myslené ako závislé (vysvetľované) premenné. Podrobný popis jednotlivých premenných je uvedený nižšie.

id – identifikátor jednotlivých pacientov;
time – čas jednotlivých návštev u lekára (v rokoch) pričom čas \(t = 0\) odpovedá prvej návšteve u lekára, začiatok sledovania pacienta a podanie špecifickej liečby – lieky s názvom Lemtrada (Alemtuzumab). Čas \(t = 1\) odpovedá návšteve lekára po prvom roku liečby, atd…;
gender – pohlavie pacienta (M - muž, F - žena);
age – vek pacienta pri prvej kontrole u lekára (\(t = 0\)) ;
lem1 – rok prvej návštevy u lekára (\(t = 0\));
LEMsum – celkový počet dávok Lemtrady (hodnota 1 znamená podanie liečby v čase \(t = 0\); hodnota 2 znamená podanie liečby v čase \(t = 0\) a \(t = 1\); hodnota 3 znamená podanie liečby v čase \(t = 0\), \(t = 1\) a \(t = 2\));
timeBef – počet rokov, koľko sa pacient liečil na sklerózu multiplex pred prvým podanim lieku Lemtrada;
numBef – počet rôznych typov liečby (iných, ako Lemtrada) pred prvým podaním lieku Lemtrada;
typeAfter – kategorická premenná indikujúca iné formy liečby, ktorá pacient absolvoval po prvom podaní Lemtrady (hodnota 0 znamená, že okrem Lemtrady pacient už iný typ liečby neabsolvoval);
sideEf – identifikátor prípadných vedľajších efektov liečby (\(1\) - ano, \(0\) - ne);
relapse – počet nových SM atakov zaregistrovaných po liečbe (\(1\) - ano, \(0\) - ne);
fRelapse – identifikátor nových SM atakov (\(1\) - ano, \(0\) - ne);
newObj – identifikátor nových nálezov postihnutých ložísk v mozgu (\(1\) - ano, \(0\) - ne);
EDSSini – hodnota EDSS (expanded disability status scale) pri prvej návšteve u lekára (\(t = 0\));

EDSS – hodnota EDSS zisťovaná pri danej kontrole (vyššia hodnota znamená horší zddraotný stav a celkové zhoršenie priebehu SM);
NEDA – binárna premenná (No Evidence of Disease Activity), ktorá indikuje prítomnosť nemoci (\(1\) - ano, \(0\) - ne) zisťovaná pri jednotlivých kontrolách;

Zadanie práce

Analyzujte vybraný datový súbor s dôrazom na longitudinálny charakter opakovaných pozorovaní v rámci jednotlivých subjektov.
Vypracovanie by malo explicitne obsahovať následujúce body:
1. Exploratívnu analýzu jednak podmienenej strednej hodnoty, ale taktie6 variančnej-kovariančnej štruktúry. Exploratívna analýza (t.j., vhodné popisné/empirické charakteristiky) musí byť doplnená o zrozumiteľný vysvetľujúci komentár, tabuľku a vhodné ilustrujúce obrázky;
2. Konfirmačnú analýzu dat pomocou vhodného regresného modelu s využitím predpokladu nezávislých pozorovaní – t.j., použijte vhodný spôsob sumarizácie/agregácie opakovaných pozorovaní v rámci jednotlivých subjektov a následne analyzujete získané (jednorozmerné) agregivané hodnoty ako súbor nezávislých pozorovaní;
3. Použijte jeden konkrétný model (o ktorom si myslíte, že je pre daný probém najvhodnejší), ktorý vhodným spôsobom zohľadní korelovanosť/závislosť opakovaných pozorovaní. Model odhadnite, odhadnuté parametre interpretujte a celkovo popíšte použitý regresný model;
4. Porovnajte závery plynúce z modelu pre nezávislé pozorovania so závermi získanými z modelu pre korelované/opakované pozorovania.

Inštrukcie & deadline
Výsledný PDF súbor s celkovým vypracovaním je nutné poslať emailom na adresu (maciak [AT] karlin.mff.cuni.cz) a to najneskôr 3 až 4 dni pred plánovaným termínom skúšky.