Letný semester 2023-2024 | Cvičenie 9 | 06.05.2024
Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html
Doporučená literatúra a ďalšie užitočné materiályRegresné modely pre opakované/korelované pozorovania so závislou premennou, ktorá je diskrétna, prípadne spojitá, ale nie je možné uvažovať normálne rozdelnie (napr. výrazné zošikmenie podmienenej hustoty a pod.).
Pre vektor opakovaných (korelovaných) pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i m_i})^\top\) pre daný subjekt \(i \in \{1, \dots, n\}\) a príslušné vektory vysvetľujúcich premenných (t.j., stĺpce matice) \(\mathbb{X}_i = (\boldsymbol{X}_{i1}, \dots, X_{i m_i})^\top \in \mathbb{R}^{m_i \times p}\) chceme odhadnúť združené (podmienené) rozdelenie \[ P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \] resp. združenú podmienenú strednú hodnotu \(E[\boldsymbol{Y}_i | \mathbb{X}_i]\) ako nelineárnu funkciu (link) lineárneho prediktoru \(\mathbb{X}_i \boldsymbol{\beta}\) pre vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a korelačnú štruktúru opakovaných pozorovaní, teda \(Var[\boldsymbol{Y}_i |\mathbb{X}_i] = \mathbb{V}_i(\boldsymbol{\alpha})\) a s využitím marginálnych rozdelení, napr. \(P[Y_{ij} = y_{j} |\mathbb{X}_i]\) pre \(j \in \{1, \dots, m_i\}\), ale napr. aj marginálných rozdelení vyšších rádov, narp. \(P[Y_{ij} = y_{j}, Y_{ik} = y_{k}, Y_{il} = y_{l} | \mathbb{X}_i]\) pre \(j \neq k \neq l\) a vektor \(\boldsymbol{y} = (y_1, \dots, y_{m_i})^\top\).
V literatúre existujú rôzne modely a modelovacie postupy. V následujúcom sa zameriame na marginálne modely odhadované pomocou GEE (postavené na využití marginálov prvého rádu pre odhad parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a marginálov vyššich rádov pre odhad parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^q\)).
Zobecňené odhadovacie rovnice (GEE – resp. ``Generalized Estimating
Equations’’) predstavené v článku Liang and Zeger (1986)
[Longitudinal Data Analysis Using Generalized Linear Models,
Biometrika, 73(1),13–22] definujú další z metodologických postupov,
ako odhadovať modely na základe longitudinálných (resp. korelovaných)
dat. Špeciálne sa jedná o také data, ktoré by sme za predpokladu
nekorelovanosti (resp. nezávislostí) analyzovali pomocou klasických GLM
modelov (teda data, o ktorých nie je možné predpokládať normálne
rozdelenie, prípadne uvažovať spojitý charakter).
Konkrétny distribučný predpoklad v stochastickej časti modelu zároveň implikuje predpokládanú variančnú štruktúru, resp. platí, že \(Var[Y_{i}] = \phi v(\mu_i)\). V prípade binomického rozdelenia náhodnej veličiny \(Y_{i}\) dostaneme \(\phi v(\mu_i) = \mu_i (1 - \mu_i)\) (pre \(\phi = 1\)), resp. v prípade Poissonového rozdelenia platí \(\phi v(\mu_i) = \mu_i\) (opäť pre \(\phi = 1\)).
Predpoklad konkrétneho rozdelenia umožňuje formulovať explicitne podmienky (t.j. rovnice) pre prvý a druhý moment. Odhad neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) preto získame riešením \(p\) nelineárnych rovníc (momentových) v tvare \[ \sum_{i = 1}^n \frac{\partial \mu_{i}}{\partial \boldsymbol{\beta}} v_i^{-1}(Y_{i} - \mu_i) = \boldsymbol{0}, \] kde \(v_i = \phi v(\mu_i)\). Rovnice sa typicky riešia napríklad pomocou iteračného Newton-Raphson algoritmu.
Analógia pre longitudinálne data
Základný princíp odhadovania modelov na základe longitudinálných pozorovaní zostáva rovnaký, ako v prípade klasických GLM modelov pre nezávislé data. Pre longitudinálne data \(\{(Y_{ij}, \boldsymbol{X}_{ij});i = 1, \dots, n; j = 1, \dots, m_i\}\) merané na \(n \in \mathbb{N}\) nezávislých subjektov (pričom celkový počet pozorovaní je \(N = \sum_{i = 1}^n m_i\)) špecifikujeme analogické podmienky pre strednú hodnotu \[ \mu_{i j} = E\Big[Y_{i j} | \boldsymbol{X}_{ij}\Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}); \] resp. vyjadrené vektorovo/maticovo pre jednotlivé subjekty ako \[ E\Big[\boldsymbol{Y}_{i}| \mathbb{X}_{i}\Big] = \boldsymbol{\mu}_i = (\mu_{i1}, \dots, \mu_{i m_i})^\top \] s variančnou-kovariačnou maticou \(\mathcal{V}_i = Var \boldsymbol{Y}_i\). Spolu s predpokladom konkrétneho rozdelenia pre náhodné veličiny \(Y_{ij}\) (t.j. stochastická časť modelu) to vedie na riešenie nelineárnych rovníc (ktoré opäť špecifikujú prvé dva momenty) \[ \sum_{i = 1}^n \frac{\partial \boldsymbol{\mu}_{i}^\top}{\partial \boldsymbol{\beta}} \mathcal{V}_i^{-1}(\boldsymbol{Y}_{i} - \boldsymbol{\mu}_i) = \boldsymbol{0}. \]
Korelovanosť opakovaných pozorovaní je zohľadnená v štruktúre
variančnej-kovariančnej matice \(\mathcal{V}_i\), ktorú je ale na rozdiel
GLM modelov pre nekorelované pozorovania nutné odhadovať navyše. To sa
robí pomocou tzv. matice pracovných korelácii (resp. tzv.
``working correlation matrix’’). Základný pricíp je rozložiť
variančnú-kovariančnú maticu náhodného vektoru \(\boldsymbol{Y}_i = (Y_{i 1}, \dots, Y_{i
m_i})^\top\) do tvaru \[
\mathcal{V}_i = \phi \mathcal{A}_i^{1/2}
\mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2},
\] kde \(\mathcal{A}_i \in
\mathbb{R}^{m_i \times m_i}\) je diagonálna matica s prvkami
\(v(\mu_{i j})\) pre \(j = 1, \dots, m_i\) na diagonále a matica
\(\mathcal{R}(\boldsymbol{\alpha}) \in
\mathbb{R}^{m_i \times m_i}\) je matica korelácii opakovaných
pozorovaní vo vektore \(\boldsymbol{Y}_i\), ktorá závisí na
parametroch \(\boldsymbol{\alpha} \in
\mathbb{R}^\ell\).
Korelované data ale nie nutne vznikajú iba v prípade opakovaných pozorovaní (t.j., longitudinálne profily pre \(n ňin \mathbb{N}\) vzájomne nezávislých subjektov). Analogicky sa môže jednať o nezávislé subjekty združené do niekoľkých skupín – tzv. clustrov — v rámci ktorých je možne považovať subjekty za vzájomne korelované. Takúto korelácia medzi jednotlivými popzorovaniami je nutné správne zohľadníť, ak je cieľom štatistickej analýzy následná inferencia.
V programe SAS sú k dispozícii dve procedúry, ktoré umožňujú odhadovať regresné modely pre nenormálne data na základe GEE metodológie:
PROC GENMOD
PROC GEE
PROC GENMOD
PROC GENMOD
je na
stránke:Jednoduchý (marginálny, teda populačný) GEE model pre pacientov so
sklerózou multiplex (kde ako závislú premennú budeme uvažovať veličinu
NEDA
– No Evidence of Disease Activity) získame
následujúcim spôsobom:
libname sm '/home/u63241636/sasuser.v94';
filename reffile '/home/u63241636/sasuser.v94/data/sm_data2.csv';
proc import datafile=reffile
dbms=csv
out=sm.data
replace;
getnames=yes;
run;
proc genmod data=sm.data;
class id gender;
model NEDA = gender age EDSS / d=binomial;
repeated subject = id / corrw covb type=exch;
run;
Základný postup pri modelovaní longitudinálnych dat o ktorých nie je
možné predpokládať normálne rozdelenie (a teda vyuiť klasický lineárny
model s náhodnými efektami) by sa asi dal formalizovať v následujúcich
krokoch:
corrw
v
REPEATED STATEMENT
.
PROC GEE
Procedúra PROC GEE
implementuje základné zobecnené
odhadovacie rovnice navrhnuté v članku Liang and Zeger (1986).
Odhadovaný model je teda marginálnym modelom (t.j. populačným modelom).
Procedúry PROC GENMOD
a PROC GEE
sú za
predpokladu konceptu MCAR ekvivalentné, avšak štandardná implementácia
GEE odhadovacích rovníc vedie v prípade MAR konceptu (tzv. “Missing At
Random”) k nekonzistentným odhadom a nutná je tzv. vážená verzia
obecných odhadovacích rovníc — ktorá je práve implementovaná v procedúre
PROC GEE
(tzv. weighted GEE, predstavené v článku
Fitzmaurice, Laird, and Ware (2011)).
Procedúra PROC GEE
implementuje aj tzv. alternujúcu
logistickú regresiu (ALS), kde sa využívajú logaritmi pomerov šancí.
PROC GEE
:PROC GEE
je aj na
tejto
stránke;
Porovnajte následujúci výstup z procedúry PROC GEE
s
predchádzajúcim výstupom z procedúry PROC GENMOD
.
proc gee data=sm.data;
class id gender;
model NEDA = gender age EDSS / dist=binomial solution;
repeated subject=id / type=exch covb corrw;
run;
PROC GEE
– všimnite si
rozdielnp syntax v porovnaní so syntaxou procedúry
PROC GENMOD
.
ALR (Alternating logistic regressions) predstavuje špecifický prípad zobecněných odhadovacích rovníc (GEE pre modely s korelovanými, t.j., závislými/opakovanými pozorovaniami) určených pre data s binárnou závislou premennou (t.j., logistický regresný model). Namiesto modelovania (okrem podmienenej strednej hodnoty a rozptylu) korečnej štruktúry medzi opakovanými pozorovaniami v rámci daného subjektu je v prípade ALR modelovaný pomer šancí \[ OR(p_{ij}, p_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] P[Y_{ij} = 0 \wedge Y_{ik} = 0]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0] P[Y_{ij} = 0 \wedge Y_{ik} = 1]}, \] kde \(p_{ij} = P[Y_{ij} = 1]\) a \(p_{ik} = P[Y_{ik} = 1]\). Na tento pomer šančí lze z interpretačného hľadiska nazerať aj prostredníctvom ekvivalentného vyjadrenia \[ OR(p_{ij}, p_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] P[Y_{ij} = 0 \wedge Y_{ik} = 0]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0] P[Y_{ij} = 0 \wedge Y_{ik} = 1]} = \frac{\frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0]}}{\frac{P[Y_{ij} = 0 \wedge Y_{ik} = 1]}{P[Y_{ij} = 0 \wedge Y_{ik} = 0]}} = \frac{\frac{P[Y_{ik} = 1 | Y_{ij} = 1] P[Y_{ij} = 1]}{P[Y_{ik} = 0 | Y_{ij} = 1] P[Y_{ij} = 1]}}{\frac{P[Y_{ik} = 1 | Y_{ij} = 0]P[Y_{ij} = 0]}{P[Y_{ik} = 0 | Y_{ij} = 0] P[Y_{ij} = 0]}}, \] kde predpokládame, že závislá premenná \(Y_{ij}\) a \(Y_{ik}\) nameraná na tom istom, \(i\)-tom subjekte (pre \(i = 1, \dots, n\)) v časových okamžikoch \(t_{j}\) a \(t_{k}\), pričom \(t_j < t_k\). V takomto prípade vyššie uvedený pomer šancí lze interpretovať ako pomer doch šancí na úspech (úspech v zmysle, že sledujeme \(Y_{ik} = 1\)) medzi dvoma ``skupinami’’ definovanými náhodnými javmi \(\{Y_{ij} = 1\}\) a \(\{Y_{ik} = 0\}\).
Teoretická korelácie (ktorú typicky musíme zohľadniť a modelovať v prípade opakovaných/korelovaných pozorovaní) je v prípade dvoch binárnych veličín definovaná výrazom \[ Cor(Y_{ij}, Y_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] - p_{ij}p_{ik}}{\sqrt{p_{ij}p_{ik}(1 - p_{ij})(1 - p_{ik})}} \] pričom táto korelácie je nad rámec klasického obmedzenia (hodnota z intervalu \([-1,1]\)) navyše obmedzená aj (pomerne komplikovaným výrazom) prostredníctvom marginálnych pravdepodobnosti \(p_{ij}\) a \(p_{ik}\), pretože platí, že \[ max(0, p_{ij} + p_{ik} - 1) \leq P[Y_{ij} = 1 \wedge Y_{ik} = 1] \leq min(p_{ij}. p_{ik}). \] Oproti tomu je uvedený pomer šancí \(OR(p_{ij}, p_{ik})\) obecně z intervalu \((0, \infty)\) (bez dodatočných obmedzení vzhľadom k marginálnym rozdeleniam \(Y_{ij}\) s \(Y_{ik}\)) a príslušný logaritmus pomeru šancí je z intervalu \((-\infty, \infty)\) a je rovný hodnote nula ak sú náhodné veličíny \(Y_{ij}\) a \(Y_{ik}\) vzájomne nekorelované.
Alternujúca logistická regresia (Alternating logistic regresion(s)) modeluje práve tento logaritmus pomeru šancí pomocou lineárnej kombinácie subject-specific prediktorov a neznámych parametrov \[ log(OR(p_{ij}, p_{ik})) = \boldsymbol{z}_{ijk}^\top \boldsymbol{\alpha}, \] pre vektor neznámych parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^p\) a príslušný vektor \(\boldsymbol{z}_{ijk} \in \mathbb{R}^p\).
ALR modely sú v programe SAS implementované prostredníctvom procedúry
PROC GEE
. Model pre logaritmus pomeru šancí je
špecifikovaný v rámci REPEATED STATEMENT.
MODEL STATEMENT
) a koreláciu vrámci opakovaných pozorovaní
prostredníctvom modelu pre logaritmus pomeru šancí (v rámci tzv.
REPEATED STATEMENT
a parametru LOGOR = ...
).
REPEATED STATEMENT
nutné pre
korelované (opakované) pozorovania špecifikovať buď korelačnú štrúktúru
(pomocou parametra type = ...
), alebo model pre logaritmus
pomeru šancí (pomocou parametra logor = ...
).
Načítanie datového súboru s pacientami so sklerózou multiplex:
libname sm '/home/u63241636/sasuser.v94';
filename reffile '/home/u63241636/sasuser.v94/data/sm_data2.csv';
proc import datafile=reffile
dbms=csv
out=sm.data
replace;
getnames=yes;
run;
Porovnajte následujúce tri modely:
proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = exch;
run;
proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = logorvar(gender);
run;
proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = fullclust;
run;
type = ...
) a vhodný model alternujúcej logistickej
regresie, kde špecifikujete formu pre logaritmus pomerov šancí
(parameter logor = ...
).
Hlavným cieľom samostatnej zápočtovej práce je štatistická analýza súboru pacientov so sklerózou multiplex. Datový súbor (vo forme csv dokumentu) obsahuje celkovo 805 (opakovaných/korelovaných) pozorovaní na 142 subjektoch, o ktorých predpokládame, že sú vzájomne nezávislé. Datový súbor je nebalancovaný (t.j., iný počet pozorovaní je k dispozícii pre rôzne subjekty – pacientov),
Popis premenných
Datový súúbor obsahuje celkovo 16 rôznych
premenných (v jednotlivých stĺpcoch) z toho prvých 14 lze chápať ako
vysvetľujúce premenné a posledné dve sú myslené ako závislé
(vysvetľované) premenné. Podrobný popis jednotlivých premenných je
uvedený nižšie.
M
- muž, F
- žena);
Zadanie práce
Deadline: Výsledný PDF súbor s analýzou
je nutné poslať emailom (maciak [AT] karlin.mff.cuni.cz)
najneskôr 4 dni pred skúškou.