Letný semester 2025-2026 | Cvičenie 9 | 11.05.2026
Prihlásenie k SAS OnDemand:
https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorenie účtu s vlastným identifikačným číslom
a potvrdenie registrácie prostredníctvom (univerzitného) emailu zadaného
pri registrácii. Identifikačné číslo užívateľa (vo forme
uXXX, kde
XXX je samotné číslo uživateľa)
sa vyskytuje v jednotlivých SAS skriptoch uvedených nižšie (symbol
XXX v skriptoch je potrebné
nahradiť príslušným identifikačným číslom užívateľa).
Tranzitné modely (transition models) predstavujú alternatívny prístup k analýze korelovaných/longitudinálnych dát. Na rozdiel od marginálnych modelov (napr. GEE), kde je modelovaná marginálna stredná hodnota \[ g(E[Y_{ij}|\boldsymbol{X}_{ij}]) = \boldsymbol{X}_{ij}^\top\boldsymbol{\beta}, \] a na rozdiel od GLMM modelov, kde je korelácia medzi pozorovaniami vysvetlená prostredníctvom dodatočných (latentných) náhodných efektov \[ g(E[Y_{ij}|\boldsymbol{X}_{ij}, \boldsymbol{w}_i]) = \boldsymbol{X}_{ij}^\top\boldsymbol{\beta} + \boldsymbol{Z}_{ij}^\top \boldsymbol{w}_i, \]
v prípade tranzitných modelov sa aktuálne pozorovanie podmieňuje predchádzajúcou históriou procesu.
Najjednoduchší Markovský model prvého rádu predpokladá, že \[ P(Y_{ij}|Y_{i,j-1},Y_{i,j-2},\dots,Y_{i1},\boldsymbol{X}_{ij}) = P(Y_{ij}|Y_{i,j-1},\boldsymbol{X}_{ij}). \]
To znamená, že podmienené rozdelenie aktuálneho pozorovania závisí iba od bezprostredne predchádzajúceho stavu procesu.
Napríklad pre binárnu závislú premennú \(Y_{ij} \in \{0, 1\}\) sa často používa logistický tranzitný model \[ \text{logit}\big(P(Y_{ij}=1|Y_{i,j-1},\boldsymbol{X}_{ij})\big) = \beta_0 + \beta_1Y_{i,j-1} + \boldsymbol{X}_{ij}^\top\boldsymbol{\beta}, \]
kde parameter \(\beta_1\) charakterizuje závislosť medzi dvoma susednými meraniami v čas (napr. ak \(\beta_1 > 0\), potom predchádzajúci výskyt udalosti zvyšuje pravdepodobnosť jej opätovného výskytu). Výhodou tranzitných modelov je ich prirodzená interpretácia v situáciach, kde je aktuálne pozorovanie silno ovplyvnené minulým pozorovaním. Typickými aplikáciami sú napr. epidemiologické štúdie (výskyt ochorenia v čase), ekonomické časové alebo panelové procesy, či analýza závislostí a recidív.
Na druhej strane, tranzitné modely majú aj niektoré podstatné nevýhody: ich efektívne použitie je závislé od správnej špecifikácie histórie procesu a pri chýbajúcich pozorovaniach vznikajú komplikácie. Dôkežitý je aj fakt, že interpretácia parametrov je podmienená minulou históriou procesu a pri vyšších rádoch Markovského procesu môže počet parametrov rýchlo rásť.
Pre ilustráciu využijeme opäť datový súbor pacientov so sklerózou
multiplex a pre účely tranzitného modelu prveho rádu vytvoríme v
riadkoch ku každej hodnote \(Y_{ij}\)
jej predchádzajúcu hodnotu \(Y_{i(j -
1)}\) (závislá premenná je označená ako
NEDA)>
libname sm '/home/uXXX/sasuser.v94';
filename reffile '/home/uXXX/sasuser.v94/data/sm_data2.csv';
proc import datafile=reffile
dbms=csv
out=sm.data
replace;
getnames=yes;
run;
proc sort data = sm.data;
by id time;
run;
data sm.data;
set sm.data;
by id time;
NEDA2 = lag(NEDA);
if first.id then NEDA2 = .;
run;
proc print data=sm.data;
run;
Následne už môžeme použiť štandardný marginálny logistický model, kde medzi vysvetľujúce premenné zaradíme aj hodnotu úspechu/neúspechu v predchádzajúcom pozorovaní.
proc genmod data = sm.data DESCENDING;
class id gender;
model NEDA = time gender NEDA2 / dist = bin link = logit;
repeated subject = id / type = ind;
run;
Interpretácia odhadnutých parametrov je štandardne v zmysle pomerov šancí, ale šance sú porovnávané pre dve subpopulácie, ktoré zároveň závisia na konkrétnom výsledku predchádzajúceho pozorovania – hodnoty \(Y_{i(j - 1)}\).
Model je možné aj priamo porovnať s marginálnym modelom (s rovnakou štruktúrou podmienenej strednej hodnoty)
proc genmod data = sm.data DESCENDING;
class id gender;
model NEDA = time gender / dist = bin link = logit;
repeated subject = id / type = ar(1);
run;
ale zatiaľ čo tranzitný model explicitne modeluje závislosť medzi dvoma následujúcimi pozorovaniami, marginálný model umožňuje obecnejšiu interpretáciu a korelačná štruktlúra je len nepriamo implikovaná uvažovaným rozdelením (z rodiny rozdelení exponenciálneho typu) a modelom pre prvý moment – podmienenú strednú hodnotu.
Priamym zobecnením SAS kódu vyššie je možné získať tranzitné modely vyššieho rádu, napr.
data sm.data;
set sm.data;
by id time;
NEDA2 = lag(NEDA); /* lag 1 */
NEDA3 = lag2(NEDA); /* lag 2 */
if first.id then do;
NEDA2 = .;
NEDA3 = .;
end;
if first.id = 0 and lag(first.id) = 1 then
NEDA3 = .;
run;
proc print data=sm.data;
run;
proc genmod data = sm.data DESCENDING;
class id gender;
model NEDA = time gender NEDA2 NEDA3 / dist = bin link = logit;
repeated subject = id / type = ind;
run;
Alternujúca logistická regresia (Alternating logistic regressions –
ALR) predstavuje špecifický prípad zobecněných odhadovacích rovníc (GEE
pre modely s korelovanými, t.j., závislými/opakovanými pozorovaniami)
určených pre data s binárnou závislou premennou (t.j., logistický
regresný model). Namiesto modelovania (okrem podmienenej strednej
hodnoty a rozptylu) korečnej štruktúry medzi opakovanými pozorovaniami v
rámci daného subjektu je v prípade ALR modelovaný pomer šancí \[
OR(p_{ij}, p_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1]
P[Y_{ij} = 0 \wedge Y_{ik} = 0]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0]
P[Y_{ij} = 0 \wedge Y_{ik} = 1]},
\] kde \(p_{ij} = P[Y_{ij} =
1]\) a \(p_{ik} = P[Y_{ik} =
1]\). Na tento pomer šančí lze z interpretačného hľadiska nazerať
aj prostredníctvom ekvivalentného vyjadrenia \[
OR(p_{ij}, p_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1]
P[Y_{ij} = 0 \wedge Y_{ik} = 0]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0]
P[Y_{ij} = 0 \wedge Y_{ik} = 1]} = \frac{\frac{P[Y_{ij} = 1 \wedge
Y_{ik} = 1]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0]}}{\frac{P[Y_{ij} = 0 \wedge
Y_{ik} = 1]}{P[Y_{ij} = 0 \wedge Y_{ik} = 0]}} = \frac{\frac{P[Y_{ik} =
1 | Y_{ij} = 1] P[Y_{ij} = 1]}{P[Y_{ik} = 0 | Y_{ij} = 1] P[Y_{ij} =
1]}}{\frac{P[Y_{ik} = 1 | Y_{ij} = 0]P[Y_{ij} = 0]}{P[Y_{ik} = 0 |
Y_{ij} = 0] P[Y_{ij} = 0]}},
\] kde predpokládame, že závislá premenná \(Y_{ij}\) a \(Y_{ik}\) nameraná na tom istom, \(i\)-tom subjekte (pre \(i = 1, \dots, n\)) v časových okamžikoch
\(t_{j}\) a \(t_{k}\), pričom \(t_j < t_k\). V takomto prípade vyššie
uvedený pomer šancí lze interpretovať ako pomer doch šancí na úspech
(úspech v zmysle, že sledujeme \(Y_{ik} =
1\)) medzi dvoma ``skupinami’’ definovanými náhodnými javmi \(\{Y_{ij} = 1\}\) a \(\{Y_{ij} = 0\}\).
Teoretická korelácie (ktorú typicky musíme zohľadniť a modelovať v
prípade opakovaných/korelovaných pozorovaní) je v prípade dvoch
binárnych veličín definovaná výrazom \[
Cor(Y_{ij}, Y_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] -
p_{ij}p_{ik}}{\sqrt{p_{ij}p_{ik}(1 - p_{ij})(1 - p_{ik})}}
\] pričom táto korelácie je nad rámec klasického obmedzenia
(hodnota z intervalu \([-1,1]\)) navyše
obmedzená aj (pomerne komplikovaným výrazom) prostredníctvom
marginálnych pravdepodobnosti \(p_{ij}\) a \(p_{ik}\), pretože platí, že \[
max(0, p_{ij} + p_{ik} - 1) \leq P[Y_{ij} = 1 \wedge Y_{ik} = 1]
\leq min(p_{ij}. p_{ik}).
\] Oproti tomu je uvedený pomer šancí \(OR(p_{ij}, p_{ik})\) obecně z intervalu
\((0, \infty)\) (bez dodatočných
obmedzení vzhľadom k marginálnym rozdeleniam \(Y_{ij}\) s \(Y_{ik}\)) a príslušný logaritmus pomeru
šancí je z intervalu \((-\infty,
\infty)\) a je rovný hodnote nula ak sú náhodné veličíny \(Y_{ij}\) a \(Y_{ik}\) vzájomne nekorelované.
Alternujúca logistická regresia (Alternating logistic regresion(s))
modeluje práve tento logaritmus pomeru šancí pomocou lineárnej
kombinácie subject-specific prediktorov a neznámych parametrov \[
log(OR(p_{ij}, p_{ik})) = \boldsymbol{z}_{ijk}^\top
\boldsymbol{\alpha},
\] pre vektor neznámych parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^p\) a
príslušný vektor \(\boldsymbol{z}_{ijk} \in
\mathbb{R}^p\).
ALR modely sú v programe SAS implementované prostredníctvom procedúry
PROC GEE. Model pre logaritmus pomeru šancí je
špecifikovaný v rámci REPEATED STATEMENT.
MODEL STATEMENT) a koreláciu vrámci opakovaných pozorovaní
prostredníctvom modelu pre logaritmus pomeru šancí (v rámci tzv.
REPEATED STATEMENT a parametru LOGOR = ...).
REPEATED STATEMENT nutné pre
korelované (opakované) pozorovania špecifikovať buď korelačnú štrúktúru
(pomocou parametra type = ...), alebo model pre logaritmus
pomeru šancí (pomocou parametra logor = ...).
Porovnajte následujúce tri modely:
proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = exch;
run;
proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = logorvar(gender);
run;
proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = fullclust;
run;
Prvy model predpokladá, že všetky opakované merania v rámci subjektu
majú rovnakú asociáciu, teda \(\log OR(p_{ij},
p_{ik}) = \alpha\) (logor = exch). Druhý model
predpokladá, že pomery šancí sa líšia v jednotlivých skupinách v
závislosti na pohlaví, teda že platí \[
\log OR(p_{ij}, p_{ik}) = \alpha_0 + \alpha_1 \cdot \text{gender}.
\] Tretí model predpokladá samostatnú formu asociácie pre každú
dvojicu po sebe následujúich meraní, teda \(\log OR(p_{i1}, p_{i2}) = \alpha_1\), \(\log OR(p_{i2}, p_{i3}) = \alpha_2\), \(\log OR(p_{i3}, p_{i4}) = \alpha_3\), \(\dots\).
type = ...) a vhodný model alternujúcej logistickej
regresie, kde špecifikujete formu pre logaritmus pomerov šancí
(parameter logor = ...).
Pre získanie zápočtu z predmetu Longitudinální a panelová data (NMST422), v akademickom roku 2025/2026, je nutné odovzdať samostatnú zápočtovú prácu – dostatočne kvalitne vypracovanú a odovzdanú v rámci stanoveného deadlinu.
Cieľom samostatnej práce je spracovať datový súbor s opakovanými pozorovaniami. Samotný datový súbor je možné zvoliť samostatne, ale mal by obsahovať aspoň jednu binárnu premennú, aspoň jednu kategorickú premennú (s aspoň troma kategóriami) a aspoň dve spojité premenné. Je moýné využiť napr. datový súbor pacientov so sklerózou multiplex, longitudinálne dátové súbory z programu R, alebo data vybrané podľa vlastného uváženia.
Samotná analýzia by mala obsahovať štyri zakladné body:Vypracovanú samostatnú prácu vo forme PDF súboru je nutné odovzdať
aspoň tri dni pred skúškou.