Letný semester 2025-2026 | Cvičenie 9 | 11.05.2026



Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorenie účtu s vlastným identifikačným číslom a potvrdenie registrácie prostredníctvom (univerzitného) emailu zadaného pri registrácii. Identifikačné číslo užívateľa (vo forme uXXX, kde XXX je samotné číslo uživateľa) sa vyskytuje v jednotlivých SAS skriptoch uvedených nižšie (symbol XXX v skriptoch je potrebné nahradiť príslušným identifikačným číslom užívateľa).

Doporučená literatúra a ďalšie užitočné materiály




IX. Alternatívne modely k marginálnym modelom a GLMM



1. Tranzitné modely v programe SAS

Tranzitné modely (transition models) predstavujú alternatívny prístup k analýze korelovaných/longitudinálnych dát. Na rozdiel od marginálnych modelov (napr. GEE), kde je modelovaná marginálna stredná hodnota \[ g(E[Y_{ij}|\boldsymbol{X}_{ij}]) = \boldsymbol{X}_{ij}^\top\boldsymbol{\beta}, \] a na rozdiel od GLMM modelov, kde je korelácia medzi pozorovaniami vysvetlená prostredníctvom dodatočných (latentných) náhodných efektov \[ g(E[Y_{ij}|\boldsymbol{X}_{ij}, \boldsymbol{w}_i]) = \boldsymbol{X}_{ij}^\top\boldsymbol{\beta} + \boldsymbol{Z}_{ij}^\top \boldsymbol{w}_i, \]

v prípade tranzitných modelov sa aktuálne pozorovanie podmieňuje predchádzajúcou históriou procesu.

Najjednoduchší Markovský model prvého rádu predpokladá, že \[ P(Y_{ij}|Y_{i,j-1},Y_{i,j-2},\dots,Y_{i1},\boldsymbol{X}_{ij}) = P(Y_{ij}|Y_{i,j-1},\boldsymbol{X}_{ij}). \]

To znamená, že podmienené rozdelenie aktuálneho pozorovania závisí iba od bezprostredne predchádzajúceho stavu procesu.

Napríklad pre binárnu závislú premennú \(Y_{ij} \in \{0, 1\}\) sa často používa logistický tranzitný model \[ \text{logit}\big(P(Y_{ij}=1|Y_{i,j-1},\boldsymbol{X}_{ij})\big) = \beta_0 + \beta_1Y_{i,j-1} + \boldsymbol{X}_{ij}^\top\boldsymbol{\beta}, \]

kde parameter \(\beta_1\) charakterizuje závislosť medzi dvoma susednými meraniami v čas (napr. ak \(\beta_1 > 0\), potom predchádzajúci výskyt udalosti zvyšuje pravdepodobnosť jej opätovného výskytu). Výhodou tranzitných modelov je ich prirodzená interpretácia v situáciach, kde je aktuálne pozorovanie silno ovplyvnené minulým pozorovaním. Typickými aplikáciami sú napr. epidemiologické štúdie (výskyt ochorenia v čase), ekonomické časové alebo panelové procesy, či analýza závislostí a recidív.

Na druhej strane, tranzitné modely majú aj niektoré podstatné nevýhody: ich efektívne použitie je závislé od správnej špecifikácie histórie procesu a pri chýbajúcich pozorovaniach vznikajú komplikácie. Dôkežitý je aj fakt, že interpretácia parametrov je podmienená minulou históriou procesu a pri vyšších rádoch Markovského procesu môže počet parametrov rýchlo rásť.

Pre ilustráciu využijeme opäť datový súbor pacientov so sklerózou multiplex a pre účely tranzitného modelu prveho rádu vytvoríme v riadkoch ku každej hodnote \(Y_{ij}\) jej predchádzajúcu hodnotu \(Y_{i(j - 1)}\) (závislá premenná je označená ako NEDA)>

libname sm '/home/uXXX/sasuser.v94';
filename reffile '/home/uXXX/sasuser.v94/data/sm_data2.csv';

proc import datafile=reffile
    dbms=csv
    out=sm.data
    replace;
    getnames=yes;
run;

proc sort data = sm.data;
    by id time;
run;

data sm.data;
    set sm.data;
    by id time;

    NEDA2 = lag(NEDA);

    if first.id then NEDA2 = .;
run;

proc print data=sm.data; 
run;    

Následne už môžeme použiť štandardný marginálny logistický model, kde medzi vysvetľujúce premenné zaradíme aj hodnotu úspechu/neúspechu v predchádzajúcom pozorovaní.

proc genmod data = sm.data DESCENDING;
    class id gender;
    model NEDA = time gender NEDA2 / dist = bin link = logit;
    repeated subject = id / type = ind;
run;

Interpretácia odhadnutých parametrov je štandardne v zmysle pomerov šancí, ale šance sú porovnávané pre dve subpopulácie, ktoré zároveň závisia na konkrétnom výsledku predchádzajúceho pozorovania – hodnoty \(Y_{i(j - 1)}\).

Model je možné aj priamo porovnať s marginálnym modelom (s rovnakou štruktúrou podmienenej strednej hodnoty)

proc genmod data = sm.data DESCENDING;
    class id gender;
    model NEDA = time gender  / dist = bin link = logit;
    repeated subject = id / type = ar(1);
run;

ale zatiaľ čo tranzitný model explicitne modeluje závislosť medzi dvoma následujúcimi pozorovaniami, marginálný model umožňuje obecnejšiu interpretáciu a korelačná štruktlúra je len nepriamo implikovaná uvažovaným rozdelením (z rodiny rozdelení exponenciálneho typu) a modelom pre prvý moment – podmienenú strednú hodnotu.

Priamym zobecnením SAS kódu vyššie je možné získať tranzitné modely vyššieho rádu, napr.

data sm.data;
    set sm.data;
    by id time;

    NEDA2 = lag(NEDA);      /* lag 1 */
    NEDA3 = lag2(NEDA);     /* lag 2 */

    if first.id then do;
        NEDA2 = .;
        NEDA3 = .;
    end;

    if first.id = 0 and lag(first.id) = 1 then
        NEDA3 = .;
run;

        
proc print data=sm.data; 
run;

        
proc genmod data = sm.data DESCENDING;
    class id gender;
    model NEDA = time gender NEDA2 NEDA3 / dist = bin link = logit;
    repeated subject = id / type = ind;
run;



Samostatne

  • Analogický postup by bol aj v prípade logaritmickej regresie pre Poissonové počty – napr. zaokrúhlená hodnota EDSS v datovom súbore sm_data4.csv. Vytvorte (vysvetľujúcu) premennú ktora bude o jedno pozorovanie oneskorenou hodnotou závislej premennej, teda \(X_{ij}^{\text{EDSS}} = \text{EDSS}_{i(j - 1)}\) a pomocou dat odhadnite tranzitný regresnný model (prvého rádu) pre hodnoty \(EDSS\);
  • Interpretujte hodnoty odhadnutých parametrov. Ako by sa interpretácia odhadnutých parametrov zmenila, ak by sa uvažovať vyšší rád tranzitného regresného modelu?



2. Alternujúca logistická regresia

Alternujúca logistická regresia (Alternating logistic regressions – ALR) predstavuje špecifický prípad zobecněných odhadovacích rovníc (GEE pre modely s korelovanými, t.j., závislými/opakovanými pozorovaniami) určených pre data s binárnou závislou premennou (t.j., logistický regresný model). Namiesto modelovania (okrem podmienenej strednej hodnoty a rozptylu) korečnej štruktúry medzi opakovanými pozorovaniami v rámci daného subjektu je v prípade ALR modelovaný pomer šancí \[ OR(p_{ij}, p_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] P[Y_{ij} = 0 \wedge Y_{ik} = 0]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0] P[Y_{ij} = 0 \wedge Y_{ik} = 1]}, \] kde \(p_{ij} = P[Y_{ij} = 1]\) a \(p_{ik} = P[Y_{ik} = 1]\). Na tento pomer šančí lze z interpretačného hľadiska nazerať aj prostredníctvom ekvivalentného vyjadrenia \[ OR(p_{ij}, p_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] P[Y_{ij} = 0 \wedge Y_{ik} = 0]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0] P[Y_{ij} = 0 \wedge Y_{ik} = 1]} = \frac{\frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0]}}{\frac{P[Y_{ij} = 0 \wedge Y_{ik} = 1]}{P[Y_{ij} = 0 \wedge Y_{ik} = 0]}} = \frac{\frac{P[Y_{ik} = 1 | Y_{ij} = 1] P[Y_{ij} = 1]}{P[Y_{ik} = 0 | Y_{ij} = 1] P[Y_{ij} = 1]}}{\frac{P[Y_{ik} = 1 | Y_{ij} = 0]P[Y_{ij} = 0]}{P[Y_{ik} = 0 | Y_{ij} = 0] P[Y_{ij} = 0]}}, \] kde predpokládame, že závislá premenná \(Y_{ij}\) a \(Y_{ik}\) nameraná na tom istom, \(i\)-tom subjekte (pre \(i = 1, \dots, n\)) v časových okamžikoch \(t_{j}\) a \(t_{k}\), pričom \(t_j < t_k\). V takomto prípade vyššie uvedený pomer šancí lze interpretovať ako pomer doch šancí na úspech (úspech v zmysle, že sledujeme \(Y_{ik} = 1\)) medzi dvoma ``skupinami’’ definovanými náhodnými javmi \(\{Y_{ij} = 1\}\) a \(\{Y_{ij} = 0\}\).

Teoretická korelácie (ktorú typicky musíme zohľadniť a modelovať v prípade opakovaných/korelovaných pozorovaní) je v prípade dvoch binárnych veličín definovaná výrazom \[ Cor(Y_{ij}, Y_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] - p_{ij}p_{ik}}{\sqrt{p_{ij}p_{ik}(1 - p_{ij})(1 - p_{ik})}} \] pričom táto korelácie je nad rámec klasického obmedzenia (hodnota z intervalu \([-1,1]\)) navyše obmedzená aj (pomerne komplikovaným výrazom) prostredníctvom marginálnych pravdepodobnosti \(p_{ij}\) a \(p_{ik}\), pretože platí, že \[ max(0, p_{ij} + p_{ik} - 1) \leq P[Y_{ij} = 1 \wedge Y_{ik} = 1] \leq min(p_{ij}. p_{ik}). \] Oproti tomu je uvedený pomer šancí \(OR(p_{ij}, p_{ik})\) obecně z intervalu \((0, \infty)\) (bez dodatočných obmedzení vzhľadom k marginálnym rozdeleniam \(Y_{ij}\) s \(Y_{ik}\)) a príslušný logaritmus pomeru šancí je z intervalu \((-\infty, \infty)\) a je rovný hodnote nula ak sú náhodné veličíny \(Y_{ij}\) a \(Y_{ik}\) vzájomne nekorelované.

Alternujúca logistická regresia (Alternating logistic regresion(s)) modeluje práve tento logaritmus pomeru šancí pomocou lineárnej kombinácie subject-specific prediktorov a neznámych parametrov \[ log(OR(p_{ij}, p_{ik})) = \boldsymbol{z}_{ijk}^\top \boldsymbol{\alpha}, \] pre vektor neznámych parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^p\) a príslušný vektor \(\boldsymbol{z}_{ijk} \in \mathbb{R}^p\).

Užitočné

  • ALR metodológiu je možné okrem logistickej regresie zovšeobecniť aj na prípad kategorickej (ordinálnej) závislej premennej.
  • Výsledný model je získaný riešením GEE rovníc. Je nutné špecifrikovať jednak štruktúru podmienenej strednej hodnoty (ako v klasickom logistickom, alebo GEE modeli) a namiesto korelácie medzi opakovanými pozorovaniami je dodatočne špecifikovaný model pre logaritmus pomeru šancí.



Implementácia v programe SAS

ALR modely sú v programe SAS implementované prostredníctvom procedúry PROC GEE. Model pre logaritmus pomeru šancí je špecifikovaný v rámci REPEATED STATEMENT.



Užitočné

  • Pri odhadovani ALR modelu pomocou riešenia GEE je nutné špecifikovať štruktúru podmienenej strednej hodnoty (pomocou tzv. MODEL STATEMENT) a koreláciu vrámci opakovaných pozorovaní prostredníctvom modelu pre logaritmus pomeru šancí (v rámci tzv. REPEATED STATEMENT a parametru LOGOR = ...).
  • Pri fitovaní GEE modelu je v REPEATED STATEMENT nutné pre korelované (opakované) pozorovania špecifikovať buď korelačnú štrúktúru (pomocou parametra type = ...), alebo model pre logaritmus pomeru šancí (pomocou parametra logor = ...).
  • Podrobná SAS dokumentácia pre fitovanie alternujúcej logistickej regresie je na stránke https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_gee_details06.htm

Porovnajte následujúce tri modely:

proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = exch;
run;

proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = logorvar(gender);
run;

proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = fullclust;
run;

Prvy model predpokladá, že všetky opakované merania v rámci subjektu majú rovnakú asociáciu, teda \(\log OR(p_{ij}, p_{ik}) = \alpha\) (logor = exch). Druhý model predpokladá, že pomery šancí sa líšia v jednotlivých skupinách v závislosti na pohlaví, teda že platí \[ \log OR(p_{ij}, p_{ik}) = \alpha_0 + \alpha_1 \cdot \text{gender}. \] Tretí model predpokladá samostatnú formu asociácie pre každú dvojicu po sebe následujúich meraní, teda \(\log OR(p_{i1}, p_{i2}) = \alpha_1\), \(\log OR(p_{i2}, p_{i3}) = \alpha_2\), \(\log OR(p_{i3}, p_{i4}) = \alpha_3\), \(\dots\).



Samostatne

  • Porovnajte GEE model odhadnutou korelačnou štruktúrou (pomocou parametru type = ...) a vhodný model alternujúcej logistickej regresie, kde špecifikujete formu pre logaritmus pomerov šancí (parameter logor = ...).
  • Diskutujte základné rozdiely medzi modelmi – výhody/nevýhody.



3. Podrobnosti k samostatnému zápočtovému úkolu

Pre získanie zápočtu z predmetu Longitudinální a panelová data (NMST422), v akademickom roku 2025/2026, je nutné odovzdať samostatnú zápočtovú prácu – dostatočne kvalitne vypracovanú a odovzdanú v rámci stanoveného deadlinu.

Cieľom samostatnej práce je spracovať datový súbor s opakovanými pozorovaniami. Samotný datový súbor je možné zvoliť samostatne, ale mal by obsahovať aspoň jednu binárnu premennú, aspoň jednu kategorickú premennú (s aspoň troma kategóriami) a aspoň dve spojité premenné. Je moýné využiť napr. datový súbor pacientov so sklerózou multiplex, longitudinálne dátové súbory z programu R, alebo data vybrané podľa vlastného uváženia.

Samotná analýzia by mala obsahovať štyri zakladné body:
  1. Exploratívna analýza so zreteľom na opakované, t.j. korelované pozorovania – riešenie by malo obsahovať exploratívnu analýzu nielen prvého momentu – podmienenej strednej hodnoty, ale aj celkovej variančnej a korelačnej štruktúry (a to nad rámec obyčajného odhadu korelačnej matice);
  2. Jednoduchý lineárny regresný model založený na súbore nezávislých pozorované – tzv. zvoliť vhodnú sumarizačnú štatistiky, ktorá opakované pozorovania v rámci jednotlivých subjektov zmysluplne reprezentuje pomocou jedného čísla a následne aplikovať klasický lineárny regresný model na takto vytvorený datový súbor;
  3. Lineárny regresný model s náhodnými efektami – t.j., využiť jednoduchý linárny regresný model (za predpokladu normality, alebo aspoň pre data, ktoré lze zmysluplne normálnym rozdelením aproximovať), odhadnúť parametre modelu a aspoň stručne model interpretovať;
  4. Využiť model pre závislú premennú z obecného rozdelenia exponenciálneho typu – ideaálne logistický model pre opakované pozorovania, alebo model pre tzv. Poissonové počty (je možné využiť buď marginálny model, model s náhodnými efektami, alebo tranzitný model).


Vypracovanú samostatnú prácu vo forme PDF súboru je nutné odovzdať aspoň tri dni pred skúškou.