Multivariabele regressie voorlopig: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
(Created page with "{{auteurs| |mainauthor= dr. M.D.J. Wolvers |coauthor= Jeroen Hoogland }} =Wat is multivariabele regressie? = Multivariabele regressie is een vorm van regressie waarbij er meerdere variabelen tegelijkertijd gerelateerd worden aan een uitkomstmaat. Deze variabelen worden ook wel covariaten, voorspellers, predictoren, onafhankelijke variabelen of factoren genoemd. De meeste multivariabele regressiemodellen in de klinische literatuur behoren tot de famil...")
 
 
(32 intermediate revisions by the same user not shown)
Line 1: Line 1:
{{auteurs|
{{auteurs|
|mainauthor= [[user:M Wolvers|dr. M.D.J. Wolvers]]
|mainauthor= [[user: M Wolvers | dr. M.D.J. Wolvers]]
|coauthor= Jeroen Hoogland
|coauthor= Jeroen Hoogland en Nan van Geloven
}}
}}


Line 10: Line 10:
=Waarvoor kun je multivariabele regressie gebruiken?=  
=Waarvoor kun je multivariabele regressie gebruiken?=  


Een statistische analyse kan grofweg drie doelen dienen [Hernán][Clarin][Schmueli]: beschrijven, voorspellen of verklaren. Elk doel vraagt een ander gebruik van multivariabele regressie. Hieronder worden veelgebruikte toepassingen en valkuilen van multivariabele regressie steeds per doel besproken.  
Een statistische analyse kan grofweg drie doelen dienen <cite>[Shmueli2010][Hernan2019][Carlin2024]</cite>: [[Multivariabele_regressie_voorlopig#Beschrijven | beschrijven]], [[Multivariabele_regressie_voorlopig#Voorspellen| voorspellen]] of [[Multivariabele_regressie_voorlopig#Verklaren| verklaren]]. Elk doel vraagt een ander gebruik van multivariabele regressie. Hieronder worden veelgebruikte toepassingen en valkuilen van multivariabele regressie steeds per doel besproken.  


==Beschrijven ==
== Beschrijven ==


Het eerste doel is beschrijven: het gebruiken van data om een kwantitatieve samenvatting te geven van bepaalde karakteristieken van de wereld [Hernán]. Er worden daarbij geen claims of suggesties gemaakt over de oorzaak van het gevonden verschil of de gevonden associatie.   
Het eerste doel is beschrijven: het gebruiken van data om een kwantitatieve samenvatting te geven van bepaalde karakteristieken van de wereld <cite>[Hernan2018]</cite>. Er worden daarbij geen claims of suggesties gemaakt over de oorzaak van het gevonden verschil of de gevonden associatie.   


Een voorbeeld van beschrijvende analyses is de Tabel 1 in veel medisch wetenschappelijke artikelen, waarin demografische en klinische karakteristieken van de steekproef worden gedeeld. Soms is de onderzoeksvraag zelf ook puur beschrijvend, bijvoorbeeld: hoe vaak komt <deze specifieke comorbiditeit> voor in <deze specifieke populatie>.   
Een voorbeeld van beschrijvende analyses is de Tabel 1 in veel medisch wetenschappelijke artikelen, waarin demografische en klinische karakteristieken van de steekproef worden gedeeld. Soms is de onderzoeksvraag zelf ook puur beschrijvend, bijvoorbeeld: hoe vaak komt <deze specifieke comorbiditeit> voor in <deze specifieke populatie>.   


Multivariabele regressie heeft echter zeer zelden een plaats in beschrijvend medisch onderzoek. Louter associatieve analyses hebben namelijk geen correctie voor confounding nodig [Hernán 2008 PMID = 29565659].   
Multivariabele regressie heeft echter zeer zelden een plaats in beschrijvend medisch onderzoek. Een louter associatieve analyse heeft namelijk geen correctie voor confounding nodig <cite>[Hernan2018]</cite>.   


Multivariabele methoden waar je wél aan kunt denken voor beschrijvende onderzoeksdoeleinden zijn principal component analyse of clusteranalyse [Hamaker PMID=33186867]. Deze technieken zijn nuttig wanneer je geïnteresseerd bent in de onderlinge relaties binnen een groep variabelen, zonder dat er een uitkomstmaat gedefinieerd is.
Multivariabele methoden waar je wél aan kunt denken voor beschrijvende onderzoeksdoeleinden zijn principal component analyse of clusteranalyse <cite>[Hamaker2020]</cite>. Deze technieken zijn nuttig wanneer je geïnteresseerd bent in de onderlinge relaties binnen een groep variabelen, zonder dat er een uitkomstmaat gedefinieerd is.
 
== Voorspellen ==
 
Het tweede doel is voorspellen; ook wel predictie of prognostisch onderzoek genoemd. Het doel is dan om zo goed mogelijk een uitkomst te voorspellen, bijvoorbeeld om een model te ontwikkelen voor het voorspellen van 5-jaars overleving bij een diagnose van borstkanker <cite>[Note1]</cite>. 
 
Meestal is een dergelijke uitkomst in de toekomst gelegen, maar soms, zoals vaak het geval is bij [[diagnostisch onderzoek]], is deze uitkomst op (ongeveer) hetzelfde moment gemeten. Dit gebeurt bijvoorbeeld wanneer de uitkomst te invasief, duur of onpraktisch is om op grote schaal te meten <cite>[Hamaker2020]</cite>. 
 
Multivariabele regressie is een nuttig en veelgebruikt gereedschap in dergelijk onderzoek. Bij deze vorm van onderzoek worden predictoren gekozen op basis van expertise, maar kan het nuttig zijn om statistische technieken te gebruiken voor het selecteren van predictoren of concurrerende modellen. Daarover [[multivariabele_regressie_voorlopig#overfitting  | hieronder]] meer. 
 
Anders dan vaak gedacht, hoeft een statistisch model niet veel te lijken op ‘de echte wereld' <cite>[Shmueli2010]</cite> om nauwkeurige voorspellingen op te leveren. Bovendien: de individuele parameters van het model hebben geen betekenisvolle interpretatie (zie ook: [[multivariabele_regressie_voorlopig#Table_2_fallacy | Table 2 fallacy]]), deze zijn bij voorspellend onderzoek ondergeschikt aan de mate waarin het uiteindelijke model in staat is om nauwkeurige voorspellingen in (nieuwe) cases te generen. 
 
Voor een waardevol, klinisch bruikbaar predictiemodel is het bouwen en rapporteren ervan alleen dus ook niet genoeg. Je wilt dan tenminste ook analyseren hoe goed het model in staat is om nieuwe gevallen te voorspellen. Dat proces heet validatie.
 
Het boek [https://link.springer.com/book/10.1007/978-3-030-16399-0 Clinical Prediction Models] van Steyerberg of de hiervoor genoemde [https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001381 methodologische reeks] zijn nuttige startpunten indien je geïnteresseerd bent in het uitvoeren van prognostisch onderzoek. Ook de [https://doi.org/10.1136/bmj-2023-078378 TRIPOD guideline] is relevant om te noemen in deze context.
 
== Verklaren ==
Het derde en laatste onderzoeksdoel is verklaren. In een meer statistische context worden hiervoor ook de termen causale inferentie of counterfactual prediction gebruikt. Dit doel kan op zeer verschillende manieren nagestreefd worden.
 
=== Experimenteel onderzoek ===
De meest gebruikte vorm van verklarend onderzoek is experimenteel onderzoek, met de [[Randomiseren | randomized controlled trial (rct)]] als lichtend voorbeeld. Bij een perfect uitgevoerde rct, waarbij je door de randomisatie aannemelijk kunt maken dat eventuele verschillen enkel veroorzaakt kunnen worden door de allocatie/interventie, is het gebruik van multivariabele analyse niet nodig om een valide resultaat te verkrijgen.
 
==== Multivariabele regressie voor efficiëntie ====
Bij experimenteel onderzoek kán het echter wel degelijk nuttig of nodig zijn om gebruik te maken van multivariabele regressie. Wanneer je gebruik hebt gemaakt van gestratificeerde randomisatie bijvoorbeeld, is het gewenst om de stratificatiefactor als covariaat te includeren in de primaire analyse [https://www.ema.europa.eu/en/adjustment-baseline-covariates-clinical-trials-scientific-guideline EMA guideline on covariate adjustment]. De selectie van covariaten volgt dan in principe uit het studieontwerp. Er is dan sprake van forced entry van deze covariaten. Wanneer covariaten worden gebruikt voor efficiëntie, wordt datagedreven of automatische selectie van covariaten of concurrerende modellen sterk afgeraden.
 
=== Observationeel onderzoek ===
Niet altijd is het ethisch of haalbaar om causale vragen a.d.h.v. de gouden standaard, rct’s, te beantwoorden. Dit kan ook worden bewerkstelligd met observationeel onderzoek, zij het met limitaties, te weten een veel grotere set aan (onverifieerbare) aannamen. Een schoolvoorbeeld van zo een vraag is “veroorzaakt roken longkanker?”.
Bij observationeel onderzoek is de onderzoeksvraag en/of de [https://en.wikipedia.org/wiki/Estimand estimand] vaak niet helder geformuleerd <cite>[Carlin2024]</cite>. Luijken et al. <cite>[Luijken2023]</cite> bespreken aan de hand van pharmacologisch onderzoek waarom het formuleren van een estimand lastig kan zijn, maar essentieel is.
 
Om tot een concrete onderzoeksvraag en estimand te komen, kan het nuttig zijn om een hypothetische target trial te formuleren <cite>[Hernan2016][Goetghebeur2020]</cite>. Vanuit daar valt vaak te redeneren welke zaken - gegeven de praktische en ethische restricties - relevante hinder leveren voor het betrouwbaar schatten van het belangwekkende effect/de estimand.
 
==== Multivariabele regressie om te corrigeren voor confounding ====
Een multivariabel regressiemodel is een gereedschap dat kan worden gebruikt voor het corrigeren van confounding en selection bias. Er zijn meerdere manieren waarop dit gerealiseerd kan worden, zoals
# een ''sufficient adjustment set'' opnemen als covariaten in een multivariabel regressiemodel <cite>[Greenland1999]</cite>.
# of, in meerdere stappen, ''inverse propensity score weighting'' (IPSW) of ''inverse probability of treatment weights''  (IPTW) gebruiken. Daarbij wordt multivariabele regressiemodel gebruikt om een weging mee te geven aan observaties (meestal: patiënten) in de uiteindelijke analyse <cite>[Chesnaye2021]</cite>.
In beide scenario’s is een aanpak te prefereren waarbij van tevoren in een statistisch analyseplan voor elke onderzoeksvraag is vastgesteld en beargumenteerd hoe elke variabelen word gebruikt om een zo relevant mogelijk schatting van de estimand op te leveren. Het is raadzaam om bij het vaststellen van de set van confounders gebruik te maken van ''directed acyclic graphs'' (DAGs). [https://cran.r-project.org/web/packages/ggdag/vignettes/intro-to-dags.html Deze introductie] in R en [https://www.edx.org/learn/data-analysis/harvard-university-causal-diagrams-draw-your-assumptions-before-your-conclusions deze gratis online cursus] zijn mogelijk nuttige startpunten.
 
==== Table 2 fallacy ====
Een ander aandachtspunt bij het gebruik van multivariabele modellen in deze context is de zogenaamde ''Table 2 fallacy'' <cite>[Westreich2013]</cite>; het presenteren van de geschatte regressiecoëfficiënten van een multivariabel model met de implicatie dat dit praktische, klinisch interpreteerbare kwantiteiten zijn. Het kán zo zijn dat (een deel van) de gemodelleerde associaties heel toevallig afdoende gecorrigeerd zijn voor confounding en dus kwantificaties van (relevante) causale effecten zijn, maar dit is niet zomaar te verwachten: in principe hebben de coëfficiënten allemaal géén causale interpretatie, met als enige uitzondering de coëfficiënt die hoort bij een goed uitgedachte causale estimand.
 
== Let op: Vaak is verklaren wel degelijk het doel! ==
Geregeld worden onderzoeksvragen die eigenlijk gaan over oorzaak-gevolgrelaties gepresenteerd als een beschrijvende of voorspellende onderzoeksvraag door het vermijden van causale termen<cite>[Hernan2018]</cite>. Dit gebeurt bij observationeel onderzoek, maar ook bij post-hoc analyses of secundaire onderzoeksvragen van experimenteel onderzoek. Denk aan formuleringen als: “wat zijn de belangrijkste voorspellers van …” (<cite>[Carlin2024]</cite>), terwijl in principe gezocht wordt naar factoren die het (gezien het causale effect op een relevante uitkomstmaat) waard zijn om op te interveniëren. Door causale terminologie te vermijden wordt uit het oog verloren wat er eigenlijk nodig is om het (onderliggende, causale) doel te bereiken. Daarmee wordt het lastig gemaakt om de methoden en conclusies te kunnen evalueren <cite>[Hernan2018]</cite>.
 
= Veelgestelde vragen =
==Wat is overfitting en waarom is dat een probleem? ==
 
Overfitting is een fenomeen waarbij ruis in de trainingsdata gemodelleerd wordt en dus wordt toegeschreven aan de covariaten. Daarmee verliest het model de generaliseerbaarheid. Dit gebeurt wanneer er teveel parameters geschat worden ten opzichte van het aantal datapunten waarmee deze berekend worden. De geschatte beta’s zijn groter dan in de populatie en de p-waarden en standaardfouten worden onderschat. Dit effect verergert wanneer stapsgewijze selectiemethoden worden gebruikt. [https://doi.org/10.1097/01.psy.0000127692.23278.a9 Babyak] geeft een goed leesbare uitleg van dit probleem.
 
Overfitting is een potentieel probleem voor alle toepassingen van multivariabele regressie, zeker in het geval van biomedische/klinische, vaak spaarzame data. Hier dient dan ook in het ontwerp van de studie rekening mee te worden gehouden.
 
Bij een verklarende onderzoeksvraag is het selecteren van covariabelen een methodologische kwestie die al in de ontwerpfase opgelost moet worden. Het alternatief, datagedreven selecteren, zou er immers voor kunnen zorgen dat (een deel van) de – hopelijk zorgvuldig geselecteerde <cite>[Greenland1999]</cite> – minimal sufficient adjustment set zou worden weggeselecteerd en de interpretatie van de gevonden associatie substantieel verandert (bias krijgt). Overfitting kan dan alleen voorkomen worden door daar in het bepalen van de [[powercalculatie | steekproefgrootte]] rekening mee te houden.
 
Bij voorspellend onderzoek is datagedreven selecteren van variabelen wel degelijk een acceptabele manier om overfitting te voorkomen. Een modernere datagedreven selectie van predictoren in het geval van voorspellend onderzoek is regularisatie <cite>[McNeish2015][Friedrich2022]</cite>. Daarbij worden bij het fitten van het model complexere modellen numeriek gestraft, wat resulteert in een nuttiger, beter generaliseerbaar model. Maar let op: datagedreven selectie en inferentie (dus het gebruiken of interpreteren van standaardfouten en p-waarden) gaan in principe niet goed samen <cite>[Babyak2004]</cite>. Bovendien heeft de typische toepassing van "traditionele" stepwise regressiemethoden talrijke eigen problemen <cite>[Babyak2004][Livingston2010]</cite>.
 
== Hoe kies ik welke variabelen ik meeneem in mijn multivariabele model? ==
 
''Ik heb 90 patiënten waarbij ik baseline parameters heb verzameld (9 lab parameters en 13 klinische parameters). Met een non-parameterische test heb ik gevonden dat 1 lab parameter en enkele klinische parameters verschillend zijn tussen beide uitkomst groepen (=diagnose wel/niet na 2 jaar). Nu wilde ik kijken welke parameters het beste voorspellend zijn voor uitkomst. Ik heb backward logistische regressie gedaan met de parameters die eerder een significant verschil lieten zien, maar ik weet niet zeker of dit de beste keuze is. Mogelijk moet het anders of moeten er meer parameters in of moeten parameters gecombineerd worden?
 
Je vraag verdient wat aanscherping, grofweg gaat het om de volgende afweging: Wil je een model maken waarmee je bij nieuwe patiënten zo goed mogelijk kunt '''voorspellen''' of patiënten na 2 jaar een diagnose krijgen, of wil je van elk van de gemeten baselineparameters kijken of ze '''verklaren''' of mensen na 2 jaar een diagnose hebben?
 
== Ik heb backwards selection gebruikt - hoe interpreteer ik mijn resultaten? ==
 
''Ik ben bezig met een onderzoek naar welke variabelen van invloed zijn op een tumorbiopsie-uitkomst (wel of geen diagnose). Hiervoor heb ik een aantal parameters (bijv. tumorgrootte, lokatie van de tumor, in welke mate de tumor uitstulpt etc) genomen waarvan ik verwacht dat ze van invloed zijn. Ik heb er een backward multiple regressie op los gelaten en krijg hier ook wel resultaten uit, maar weet niet zo goed hoe ik die moet interpreteren.
 
Als ik het goed begrijp gebruik je observationele data om een reeks verklarende onderzoeksvragen te beantwoorden. Datagedreven selectie leent zich daar in principe niet voor, je wilt in dat geval zélf - voor elk van de te onderzoeken parameters - bepalen hoe je ''minimal sufficient adjustment set'' eruit ziet.
 
== Hoe kan ik het best mijn variabelen selecteren, dmv handmatige selectie of met een automatische procedure? ==
 
''Er zijn verschillende methode voor het doen van een multivariabele regressie. Ik wil een backwards selectiestrategie aanhouden. Wat is aan te raden? Een handmatig procedure met enter selection, waar bij je handmatig de variabele met de hoogste p-waarde verwijdert tot er een set variabelen overblijft die allemaal significant zijn, of een automatische backward procedure?
 
Dat hangt totaal af van het doel dat je ermee voor ogen hebt. Houd er rekening mee dat datagedreven selectiemethodes in principe niet goed samengaan met inferentie, met andere woorden dat je na een dergeljke procedure weinig meer kunt met p-waarden en standaardfouten.
 
== Hoe rapporteer ik de resultaten van mijn multivariabele model? ==
 
''Voor een vragenlijstonderzoek betreffende kwaliteit van leven heb ik in de analyse lineaire regressie gedaan met forward selection. In het uiteindelijke model zijn er variabelen met een niet-significante p-waarde. Als je een tabel maakt van de variabelen in het uiteindelijke model, zouden jullie die dan sorteren op grootte van de beta, op significantie van de p-waarde of op grootte van de verklaarde variantie? Of zouden jullie gewoon de output van SPSS overnemen?
 
P-waarden en standaardfouten zijn - bot gezegd - waardeloos na een dergelijke automatische selectieprocedure <cite>[Babyak2004]</cite>. Mocht je toch de beta's willen rapporteren: Er zijn geen vaste regels voor de volgorde waarin je variabelen in een tabel zet. Er zou bijvoorbeeld hiërarchie in de variabelen kunnen zitten, of chronologische volgorde (bijvoorbeeld eerst leeftijd en geslacht en pas later de invloed van roken oid). Het is wel helder om alle variabelen van je uiteindelijke model (dus ook niet significante) te laten zien, dan kan een lezer zien naast welke andere voorspellers de variabelen beoordeeld zijn.
 
== Hoe zorg ik voor een heldere en gebruiksvriendelijke presentatie van mijn multivariabele model? ==
 
Dit artikel van Sullivan et al. <cite>[Sullivan2004]</cite> kan je daarbij wellicht helpen. Daarin wordt getoond hoe je de resultaten van je regressiemodel kunt vertalen in risicoscores.
 
== Hoe selecteer ik mbv univariabele regressiefactoren voor in een multivariabele regressie? ==
 
''Wij analyseren de verschillen in uitkomst (success rate) tussen twee operaties. We hebben eerst een aantal factoren los getest op invloed op success rate. Daarna de significante factoren overgebracht naar een multivariabele logistische regressie. Is dit een goede methodiek?
 
Bij dergelijke 'univariabele preselectie' is het methodologisch te prefereren om niet alleen variabelen die significant zijn in de univariabele analyse door te schuiven naar multivariabele, maar daarbij een meer coulante p-waarde aan te houden (bijv variabelen met univariabele p<0.20 of zelfs p<0.50 (Steyerberg volgens Babyak)).
 
== Hoe kies ik welke variabelen ik in mijn model moet meenemen? ==
 
''Ik heb een databestand met een heleboel variabelen. Ik ben op zoek naar een zo eenvoudig mogelijk (en dus makkelijk toepasbaar) voorspellend model. Hoe kies ik welke variabelen ik in mijn model moet meenemen?''
 
Steyerberg heeft voor het maken van voorspellende modellen een zeer nuttige en open access handleiding geschreven.
 
== Er is overlap tussen twee van onze voorspellers, mogen deze samen in een multivariabel model? ==
 
''We zijn op zoek naar voorspellende factoren voor het optreden van hepatitis A. We hebben verschillende factoren univariaat getoetst (leeftijd, geslacht, comorbiditeit, etc). Nu vonden we in de univariate analyse dat "man" vs. "vrouw" positief geassocieerd was met de uitkomstmaat en dat "comorbiditeit" negatief geassocieerd was (getoetst met een [[Chi-kwadraat toets]]). In de groep "zonder comborbiditeit" zitten veel mannen en in de groep "met comorbiditeit" zitten veel vrouwen, er is dus enige overlap in de groepen. Is het mogelijk om beide voorspellende factoren in een multivariabele logistische regressie te stoppen, of moeten wij daarvoor eerst bv. de mate van overlap toetsen omdat het model anders instabiel wordt?
 
Je onderzoeksvraag verdient mogelijk nog wat aanscherping. Zie [[Multivariabele_regressie_voorlopig#Let_op:_Vaak_is_verklaren_wel_degelijk_het_doel! | deze paragraaf]]. Het volgende antwoord gaat ervan uit dat het gaat om het maken van een prognostisch model voor het optreden van Hepatitis A.
 
Indien de overlap tussen twee voorspellers hoog is, dan zal het model zoals je zegt inderdaad instabiel worden. Dat wordt het probleem van collineariteit genoemd. Wanneer het model instabiel wordt, zul je dat zien aan zeer grote standaardfouten van de regressiecoefficienten.
 
== Hoe moet ik corrigeren voor baseline waardes? ==
 
''Wij doen een onderzoek naar het voorspellers van fysiek functioneren na totale heup prothesen. Onze uitkomst maat van fysiek functioneren, HOOS (Hip disability and Osteoarthristis Outcome Score), drukt de functie uit op een schaal van 0-100 gemeten op de baseline en na 2 jaar. De volgende regressies met als voorspeller leeftijd en als afhankelijke variabele de HOOS zijn gedaan.
 
*''1: uitkomst HOOS absolute uitkomst op 2 jaar, predictoren leeftijd + baseline HOOS, p-waarde voor leeftijd: 0.503
*''2: uitkomst HOOS verschil score tussen 2 jaar en baseline, predictoren leeftijd + baseline HOOS, p-waarde voor leeftijd: 0.503
*''3. uitkomst HOOS verschil score tussen 2 jaar en baseline, predictor leeftijd (ongecorrigeerd), p-waarde voor leeftijd: 0.048
 
''Zoals u ziet is er een verschil in significantie afhankelijk van de correctie voor baseline. Welke uitkomst moet ik gebruiken?
 
Je onderzoeksvraag verdient mogelijk nog wat aanscherping. Zie [[Multivariabele_regressie_voorlopig#Let_op:_Vaak_is_verklaren_wel_degelijk_het_doel! | deze paragraaf]].
*Het gebruik van de term voorspellers, lijkt te duiden op het zo goed mogelijk willen 'voorspellen' van fysiek functioneren na totale heupprothese.
*De term 'correctie', en het interpreteren van de p-waarden, duidt echter op een 'verklarende' onderzoeksvraag. Het antwoord hieronder leunt dan ook op deze laatste interpretatie van je onderzoeksdoel.
 
Een waarschijnlijke verklaring van jouw uitkomsten is dat de correlatie tussen leeftijd en HOOS score op baseline de schijnbare significantie in model 3 veroorzaakt. In het algemeen is het aan te raden de baseline score als covariaat mee te geven in het model, zie ook de [https://www.ema.europa.eu/en/documents/scientific-guideline/guideline-adjustment-baseline-covariates-clinical-trials EMA Guideline on adjustment for baseline covariates], paragraaf 4.2.6, daar staat ook de te verwachten overeenstemming van model 1 en 2 genoemd.
 
= Referenties =
<biblio>
#Carlin2024 Carlin, J. B., & Moreno-Betancur, M. (2024). On the uses and abuses of regression models: A call for reform of statistical practice and teaching. arXiv. [https://doi.org/10.48550/arXiv.2309.06668 DOI:10.48550/arXiv.2309.06668]
#Hamaker2020 pmid=33186867
#Hernan2019 Miguel A. Hernán, John Hsu & Brian Healy (2019) A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks, CHANCE, 32:1, 42-49, [https://doi.org/10.1080/09332480.2019.1579578 DOI:10.1080/09332480.2019.1579578]
#Hernan2018 pmid=29565659
#Shmueli2010 Shmueli, G. (2010). To explain or to predict? Statistical Science, 25(3), 289–310. [https://doi.org/10.1214/10-STS330 DOI:10.1214/10-STS330]
#Note1 Voorbeeld uit: Steyerberg, E. W., Moons, K. G. M., van der Windt, D. A., Hayden, J. A., Perel, P., Schroter, S., Riley, R. D., Hemingway, H., & Altman, D. G. (2013). Prognosis Research Strategy (PROGRESS) 3: Prognostic Model Research. PLOS Medicine, 10(2), e1001381. [https://doi.org/10.1371/journal.pmed.1001381 DOI:10.1371/journal.pmed.1001381]
#Westreich2013 Daniel Westreich, Sander Greenland, The Table 2 Fallacy: Presenting and Interpreting Confounder and Modifier Coefficients, American Journal of Epidemiology, Volume 177, Issue 4, 15 February 2013, Pages 292–298, [https://doi.org/10.1093/aje/kws412 DOI:10.1093/aje/kws412]
#Chesnaye2021 pmid=35035932
#Greenland1999 pmid=9888278
#Hernan2016 pmid=26994063
#Goetghebeur2020 Goetghebeur, E., le Cessie, S., De Stavola, B., Moodie, E. E. M., & Waernbaum, I. (2020). Formulating causal questions and principled statistical answers. Statistics in Medicine, 39(30), 4922–4948. [https://doi.org/10.1002/sim.8741 DOI:10.1002/sim.8741]
#Livingston2010 Livingston E, Cao J, Dimick JB. Tread Carefully With Stepwise Regression. Arch Surg. 2010;145(11):1039–1040. [https://doi.org/10.1001/archsurg.2010.240 doi:10.1001/archsurg.2010.240]
#McNeish2015 McNeish, D. (2015). Using Lasso for Predictor Selection and to Assuage Overfitting: A Method Long Overlooked in Behavioral Sciences. Multivariate Behavioral Research, 50(5), 471–484. [https://doi.org/10.1080/00273171.2015.1036965 DOI:10.1080/00273171.2015.1036965]
#Friedrich2022 pmid=36384320
#Babyak2004 pmid=15184705
#Luijken2023 pmid=36946319
 
 
#Peduzzi1996 [http://dx.doi.org/10.1016/S0895-4356(96)00236-3 Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. ''J Clin Epidemiol''. 1996 Dec;49(12):1373-9.]
#Harrel Regression Modeling Strategies with Applications to Linear Models, Logistic Regression and Survival Analysis. Frank E. Harrell, Jun, Springer-Verlag, New York, 2001. No. of pages: 568. ISBN 0-387-95232-2.
#Sullivan2004 pmid=15122742
</biblio>
 
== Aanvullende bronnen ==
 
*[https://www.ema.europa.eu/en/documents/scientific-guideline/guideline-adjustment-baseline-covariates-clinical-trials Guideline on adjustment for baseline covariates in clinical trials]
*[https://www.ema.europa.eu/en/investigation-subgroups-confirmatory-clinical-trials-scientific-guideline Guideline on the investigation of subgroups in confirmatory clinical trials]
*[http://www.ncbi.nlm.nih.gov/pubmed/21030068 Everything You Always Wanted to Know About Evaluating Prediction Models (But Were Too Afraid to Ask)] Andrew J. Vickers and Angel M. Cronin, Urology Volume 76, Issue 6, December 2010, Pages 1298-1301.  


= Verder lezen =  
= Verder lezen =  

Latest revision as of 17:36, 23 April 2025

Auteur dr. M.D.J. Wolvers
Co-Auteur Jeroen Hoogland en Nan van Geloven
auteurschap op deze site

Wat is multivariabele regressie?

Multivariabele regressie is een vorm van regressie waarbij er meerdere variabelen tegelijkertijd gerelateerd worden aan een uitkomstmaat. Deze variabelen worden ook wel covariaten, voorspellers, predictoren, onafhankelijke variabelen of factoren genoemd. De meeste multivariabele regressiemodellen in de klinische literatuur behoren tot de familie van generalized linear models. Dit omvat naast lineaire regressie ook logistische en multinomiale logistische regressie. Daarnaast is Cox regressie een veelgebruikte vorm van multivariabele regressie. Deze pagina richt zich op de algemene principes van regressie met meerdere covariaten en gaat uit van een dataset met onafhankelijke observaties.

Waarvoor kun je multivariabele regressie gebruiken?

Een statistische analyse kan grofweg drie doelen dienen [1, 2, 3]: beschrijven, voorspellen of verklaren. Elk doel vraagt een ander gebruik van multivariabele regressie. Hieronder worden veelgebruikte toepassingen en valkuilen van multivariabele regressie steeds per doel besproken.

Beschrijven

Het eerste doel is beschrijven: het gebruiken van data om een kwantitatieve samenvatting te geven van bepaalde karakteristieken van de wereld [4]. Er worden daarbij geen claims of suggesties gemaakt over de oorzaak van het gevonden verschil of de gevonden associatie.

Een voorbeeld van beschrijvende analyses is de Tabel 1 in veel medisch wetenschappelijke artikelen, waarin demografische en klinische karakteristieken van de steekproef worden gedeeld. Soms is de onderzoeksvraag zelf ook puur beschrijvend, bijvoorbeeld: hoe vaak komt <deze specifieke comorbiditeit> voor in <deze specifieke populatie>.

Multivariabele regressie heeft echter zeer zelden een plaats in beschrijvend medisch onderzoek. Een louter associatieve analyse heeft namelijk geen correctie voor confounding nodig [4].

Multivariabele methoden waar je wél aan kunt denken voor beschrijvende onderzoeksdoeleinden zijn principal component analyse of clusteranalyse [5]. Deze technieken zijn nuttig wanneer je geïnteresseerd bent in de onderlinge relaties binnen een groep variabelen, zonder dat er een uitkomstmaat gedefinieerd is.

Voorspellen

Het tweede doel is voorspellen; ook wel predictie of prognostisch onderzoek genoemd. Het doel is dan om zo goed mogelijk een uitkomst te voorspellen, bijvoorbeeld om een model te ontwikkelen voor het voorspellen van 5-jaars overleving bij een diagnose van borstkanker [6].

Meestal is een dergelijke uitkomst in de toekomst gelegen, maar soms, zoals vaak het geval is bij diagnostisch onderzoek, is deze uitkomst op (ongeveer) hetzelfde moment gemeten. Dit gebeurt bijvoorbeeld wanneer de uitkomst te invasief, duur of onpraktisch is om op grote schaal te meten [5].

Multivariabele regressie is een nuttig en veelgebruikt gereedschap in dergelijk onderzoek. Bij deze vorm van onderzoek worden predictoren gekozen op basis van expertise, maar kan het nuttig zijn om statistische technieken te gebruiken voor het selecteren van predictoren of concurrerende modellen. Daarover hieronder meer.

Anders dan vaak gedacht, hoeft een statistisch model niet veel te lijken op ‘de echte wereld' [1] om nauwkeurige voorspellingen op te leveren. Bovendien: de individuele parameters van het model hebben geen betekenisvolle interpretatie (zie ook: Table 2 fallacy), deze zijn bij voorspellend onderzoek ondergeschikt aan de mate waarin het uiteindelijke model in staat is om nauwkeurige voorspellingen in (nieuwe) cases te generen.

Voor een waardevol, klinisch bruikbaar predictiemodel is het bouwen en rapporteren ervan alleen dus ook niet genoeg. Je wilt dan tenminste ook analyseren hoe goed het model in staat is om nieuwe gevallen te voorspellen. Dat proces heet validatie.

Het boek Clinical Prediction Models van Steyerberg of de hiervoor genoemde methodologische reeks zijn nuttige startpunten indien je geïnteresseerd bent in het uitvoeren van prognostisch onderzoek. Ook de TRIPOD guideline is relevant om te noemen in deze context.

Verklaren

Het derde en laatste onderzoeksdoel is verklaren. In een meer statistische context worden hiervoor ook de termen causale inferentie of counterfactual prediction gebruikt. Dit doel kan op zeer verschillende manieren nagestreefd worden.

Experimenteel onderzoek

De meest gebruikte vorm van verklarend onderzoek is experimenteel onderzoek, met de randomized controlled trial (rct) als lichtend voorbeeld. Bij een perfect uitgevoerde rct, waarbij je door de randomisatie aannemelijk kunt maken dat eventuele verschillen enkel veroorzaakt kunnen worden door de allocatie/interventie, is het gebruik van multivariabele analyse niet nodig om een valide resultaat te verkrijgen.

Multivariabele regressie voor efficiëntie

Bij experimenteel onderzoek kán het echter wel degelijk nuttig of nodig zijn om gebruik te maken van multivariabele regressie. Wanneer je gebruik hebt gemaakt van gestratificeerde randomisatie bijvoorbeeld, is het gewenst om de stratificatiefactor als covariaat te includeren in de primaire analyse EMA guideline on covariate adjustment. De selectie van covariaten volgt dan in principe uit het studieontwerp. Er is dan sprake van forced entry van deze covariaten. Wanneer covariaten worden gebruikt voor efficiëntie, wordt datagedreven of automatische selectie van covariaten of concurrerende modellen sterk afgeraden.

Observationeel onderzoek

Niet altijd is het ethisch of haalbaar om causale vragen a.d.h.v. de gouden standaard, rct’s, te beantwoorden. Dit kan ook worden bewerkstelligd met observationeel onderzoek, zij het met limitaties, te weten een veel grotere set aan (onverifieerbare) aannamen. Een schoolvoorbeeld van zo een vraag is “veroorzaakt roken longkanker?”. Bij observationeel onderzoek is de onderzoeksvraag en/of de estimand vaak niet helder geformuleerd [3]. Luijken et al. [7] bespreken aan de hand van pharmacologisch onderzoek waarom het formuleren van een estimand lastig kan zijn, maar essentieel is.

Om tot een concrete onderzoeksvraag en estimand te komen, kan het nuttig zijn om een hypothetische target trial te formuleren [8, 9]. Vanuit daar valt vaak te redeneren welke zaken - gegeven de praktische en ethische restricties - relevante hinder leveren voor het betrouwbaar schatten van het belangwekkende effect/de estimand.

Multivariabele regressie om te corrigeren voor confounding

Een multivariabel regressiemodel is een gereedschap dat kan worden gebruikt voor het corrigeren van confounding en selection bias. Er zijn meerdere manieren waarop dit gerealiseerd kan worden, zoals

  1. een sufficient adjustment set opnemen als covariaten in een multivariabel regressiemodel [10].
  2. of, in meerdere stappen, inverse propensity score weighting (IPSW) of inverse probability of treatment weights (IPTW) gebruiken. Daarbij wordt multivariabele regressiemodel gebruikt om een weging mee te geven aan observaties (meestal: patiënten) in de uiteindelijke analyse [11].

In beide scenario’s is een aanpak te prefereren waarbij van tevoren in een statistisch analyseplan voor elke onderzoeksvraag is vastgesteld en beargumenteerd hoe elke variabelen word gebruikt om een zo relevant mogelijk schatting van de estimand op te leveren. Het is raadzaam om bij het vaststellen van de set van confounders gebruik te maken van directed acyclic graphs (DAGs). Deze introductie in R en deze gratis online cursus zijn mogelijk nuttige startpunten.

Table 2 fallacy

Een ander aandachtspunt bij het gebruik van multivariabele modellen in deze context is de zogenaamde Table 2 fallacy [12]; het presenteren van de geschatte regressiecoëfficiënten van een multivariabel model met de implicatie dat dit praktische, klinisch interpreteerbare kwantiteiten zijn. Het kán zo zijn dat (een deel van) de gemodelleerde associaties heel toevallig afdoende gecorrigeerd zijn voor confounding en dus kwantificaties van (relevante) causale effecten zijn, maar dit is niet zomaar te verwachten: in principe hebben de coëfficiënten allemaal géén causale interpretatie, met als enige uitzondering de coëfficiënt die hoort bij een goed uitgedachte causale estimand.

Let op: Vaak is verklaren wel degelijk het doel!

Geregeld worden onderzoeksvragen die eigenlijk gaan over oorzaak-gevolgrelaties gepresenteerd als een beschrijvende of voorspellende onderzoeksvraag door het vermijden van causale termen[4]. Dit gebeurt bij observationeel onderzoek, maar ook bij post-hoc analyses of secundaire onderzoeksvragen van experimenteel onderzoek. Denk aan formuleringen als: “wat zijn de belangrijkste voorspellers van …” ([3]), terwijl in principe gezocht wordt naar factoren die het (gezien het causale effect op een relevante uitkomstmaat) waard zijn om op te interveniëren. Door causale terminologie te vermijden wordt uit het oog verloren wat er eigenlijk nodig is om het (onderliggende, causale) doel te bereiken. Daarmee wordt het lastig gemaakt om de methoden en conclusies te kunnen evalueren [4].

Veelgestelde vragen

Wat is overfitting en waarom is dat een probleem?

Overfitting is een fenomeen waarbij ruis in de trainingsdata gemodelleerd wordt en dus wordt toegeschreven aan de covariaten. Daarmee verliest het model de generaliseerbaarheid. Dit gebeurt wanneer er teveel parameters geschat worden ten opzichte van het aantal datapunten waarmee deze berekend worden. De geschatte beta’s zijn groter dan in de populatie en de p-waarden en standaardfouten worden onderschat. Dit effect verergert wanneer stapsgewijze selectiemethoden worden gebruikt. Babyak geeft een goed leesbare uitleg van dit probleem.

Overfitting is een potentieel probleem voor alle toepassingen van multivariabele regressie, zeker in het geval van biomedische/klinische, vaak spaarzame data. Hier dient dan ook in het ontwerp van de studie rekening mee te worden gehouden.

Bij een verklarende onderzoeksvraag is het selecteren van covariabelen een methodologische kwestie die al in de ontwerpfase opgelost moet worden. Het alternatief, datagedreven selecteren, zou er immers voor kunnen zorgen dat (een deel van) de – hopelijk zorgvuldig geselecteerde [10] – minimal sufficient adjustment set zou worden weggeselecteerd en de interpretatie van de gevonden associatie substantieel verandert (bias krijgt). Overfitting kan dan alleen voorkomen worden door daar in het bepalen van de steekproefgrootte rekening mee te houden.

Bij voorspellend onderzoek is datagedreven selecteren van variabelen wel degelijk een acceptabele manier om overfitting te voorkomen. Een modernere datagedreven selectie van predictoren in het geval van voorspellend onderzoek is regularisatie [13, 14]. Daarbij worden bij het fitten van het model complexere modellen numeriek gestraft, wat resulteert in een nuttiger, beter generaliseerbaar model. Maar let op: datagedreven selectie en inferentie (dus het gebruiken of interpreteren van standaardfouten en p-waarden) gaan in principe niet goed samen [15]. Bovendien heeft de typische toepassing van "traditionele" stepwise regressiemethoden talrijke eigen problemen [15, 16].

Hoe kies ik welke variabelen ik meeneem in mijn multivariabele model?

Ik heb 90 patiënten waarbij ik baseline parameters heb verzameld (9 lab parameters en 13 klinische parameters). Met een non-parameterische test heb ik gevonden dat 1 lab parameter en enkele klinische parameters verschillend zijn tussen beide uitkomst groepen (=diagnose wel/niet na 2 jaar). Nu wilde ik kijken welke parameters het beste voorspellend zijn voor uitkomst. Ik heb backward logistische regressie gedaan met de parameters die eerder een significant verschil lieten zien, maar ik weet niet zeker of dit de beste keuze is. Mogelijk moet het anders of moeten er meer parameters in of moeten parameters gecombineerd worden?

Je vraag verdient wat aanscherping, grofweg gaat het om de volgende afweging: Wil je een model maken waarmee je bij nieuwe patiënten zo goed mogelijk kunt voorspellen of patiënten na 2 jaar een diagnose krijgen, of wil je van elk van de gemeten baselineparameters kijken of ze verklaren of mensen na 2 jaar een diagnose hebben?

Ik heb backwards selection gebruikt - hoe interpreteer ik mijn resultaten?

Ik ben bezig met een onderzoek naar welke variabelen van invloed zijn op een tumorbiopsie-uitkomst (wel of geen diagnose). Hiervoor heb ik een aantal parameters (bijv. tumorgrootte, lokatie van de tumor, in welke mate de tumor uitstulpt etc) genomen waarvan ik verwacht dat ze van invloed zijn. Ik heb er een backward multiple regressie op los gelaten en krijg hier ook wel resultaten uit, maar weet niet zo goed hoe ik die moet interpreteren.

Als ik het goed begrijp gebruik je observationele data om een reeks verklarende onderzoeksvragen te beantwoorden. Datagedreven selectie leent zich daar in principe niet voor, je wilt in dat geval zélf - voor elk van de te onderzoeken parameters - bepalen hoe je minimal sufficient adjustment set eruit ziet.

Hoe kan ik het best mijn variabelen selecteren, dmv handmatige selectie of met een automatische procedure?

Er zijn verschillende methode voor het doen van een multivariabele regressie. Ik wil een backwards selectiestrategie aanhouden. Wat is aan te raden? Een handmatig procedure met enter selection, waar bij je handmatig de variabele met de hoogste p-waarde verwijdert tot er een set variabelen overblijft die allemaal significant zijn, of een automatische backward procedure?

Dat hangt totaal af van het doel dat je ermee voor ogen hebt. Houd er rekening mee dat datagedreven selectiemethodes in principe niet goed samengaan met inferentie, met andere woorden dat je na een dergeljke procedure weinig meer kunt met p-waarden en standaardfouten.

Hoe rapporteer ik de resultaten van mijn multivariabele model?

Voor een vragenlijstonderzoek betreffende kwaliteit van leven heb ik in de analyse lineaire regressie gedaan met forward selection. In het uiteindelijke model zijn er variabelen met een niet-significante p-waarde. Als je een tabel maakt van de variabelen in het uiteindelijke model, zouden jullie die dan sorteren op grootte van de beta, op significantie van de p-waarde of op grootte van de verklaarde variantie? Of zouden jullie gewoon de output van SPSS overnemen?

P-waarden en standaardfouten zijn - bot gezegd - waardeloos na een dergelijke automatische selectieprocedure [15]. Mocht je toch de beta's willen rapporteren: Er zijn geen vaste regels voor de volgorde waarin je variabelen in een tabel zet. Er zou bijvoorbeeld hiërarchie in de variabelen kunnen zitten, of chronologische volgorde (bijvoorbeeld eerst leeftijd en geslacht en pas later de invloed van roken oid). Het is wel helder om alle variabelen van je uiteindelijke model (dus ook niet significante) te laten zien, dan kan een lezer zien naast welke andere voorspellers de variabelen beoordeeld zijn.

Hoe zorg ik voor een heldere en gebruiksvriendelijke presentatie van mijn multivariabele model?

Dit artikel van Sullivan et al. [17] kan je daarbij wellicht helpen. Daarin wordt getoond hoe je de resultaten van je regressiemodel kunt vertalen in risicoscores.

Hoe selecteer ik mbv univariabele regressiefactoren voor in een multivariabele regressie?

Wij analyseren de verschillen in uitkomst (success rate) tussen twee operaties. We hebben eerst een aantal factoren los getest op invloed op success rate. Daarna de significante factoren overgebracht naar een multivariabele logistische regressie. Is dit een goede methodiek?

Bij dergelijke 'univariabele preselectie' is het methodologisch te prefereren om niet alleen variabelen die significant zijn in de univariabele analyse door te schuiven naar multivariabele, maar daarbij een meer coulante p-waarde aan te houden (bijv variabelen met univariabele p<0.20 of zelfs p<0.50 (Steyerberg volgens Babyak)).

Hoe kies ik welke variabelen ik in mijn model moet meenemen?

Ik heb een databestand met een heleboel variabelen. Ik ben op zoek naar een zo eenvoudig mogelijk (en dus makkelijk toepasbaar) voorspellend model. Hoe kies ik welke variabelen ik in mijn model moet meenemen?

Steyerberg heeft voor het maken van voorspellende modellen een zeer nuttige en open access handleiding geschreven.

Er is overlap tussen twee van onze voorspellers, mogen deze samen in een multivariabel model?

We zijn op zoek naar voorspellende factoren voor het optreden van hepatitis A. We hebben verschillende factoren univariaat getoetst (leeftijd, geslacht, comorbiditeit, etc). Nu vonden we in de univariate analyse dat "man" vs. "vrouw" positief geassocieerd was met de uitkomstmaat en dat "comorbiditeit" negatief geassocieerd was (getoetst met een Chi-kwadraat toets). In de groep "zonder comborbiditeit" zitten veel mannen en in de groep "met comorbiditeit" zitten veel vrouwen, er is dus enige overlap in de groepen. Is het mogelijk om beide voorspellende factoren in een multivariabele logistische regressie te stoppen, of moeten wij daarvoor eerst bv. de mate van overlap toetsen omdat het model anders instabiel wordt?

Je onderzoeksvraag verdient mogelijk nog wat aanscherping. Zie deze paragraaf. Het volgende antwoord gaat ervan uit dat het gaat om het maken van een prognostisch model voor het optreden van Hepatitis A.

Indien de overlap tussen twee voorspellers hoog is, dan zal het model zoals je zegt inderdaad instabiel worden. Dat wordt het probleem van collineariteit genoemd. Wanneer het model instabiel wordt, zul je dat zien aan zeer grote standaardfouten van de regressiecoefficienten.

Hoe moet ik corrigeren voor baseline waardes?

Wij doen een onderzoek naar het voorspellers van fysiek functioneren na totale heup prothesen. Onze uitkomst maat van fysiek functioneren, HOOS (Hip disability and Osteoarthristis Outcome Score), drukt de functie uit op een schaal van 0-100 gemeten op de baseline en na 2 jaar. De volgende regressies met als voorspeller leeftijd en als afhankelijke variabele de HOOS zijn gedaan.

  • 1: uitkomst HOOS absolute uitkomst op 2 jaar, predictoren leeftijd + baseline HOOS, p-waarde voor leeftijd: 0.503
  • 2: uitkomst HOOS verschil score tussen 2 jaar en baseline, predictoren leeftijd + baseline HOOS, p-waarde voor leeftijd: 0.503
  • 3. uitkomst HOOS verschil score tussen 2 jaar en baseline, predictor leeftijd (ongecorrigeerd), p-waarde voor leeftijd: 0.048

Zoals u ziet is er een verschil in significantie afhankelijk van de correctie voor baseline. Welke uitkomst moet ik gebruiken?

Je onderzoeksvraag verdient mogelijk nog wat aanscherping. Zie deze paragraaf.

  • Het gebruik van de term voorspellers, lijkt te duiden op het zo goed mogelijk willen 'voorspellen' van fysiek functioneren na totale heupprothese.
  • De term 'correctie', en het interpreteren van de p-waarden, duidt echter op een 'verklarende' onderzoeksvraag. Het antwoord hieronder leunt dan ook op deze laatste interpretatie van je onderzoeksdoel.

Een waarschijnlijke verklaring van jouw uitkomsten is dat de correlatie tussen leeftijd en HOOS score op baseline de schijnbare significantie in model 3 veroorzaakt. In het algemeen is het aan te raden de baseline score als covariaat mee te geven in het model, zie ook de EMA Guideline on adjustment for baseline covariates, paragraaf 4.2.6, daar staat ook de te verwachten overeenstemming van model 1 en 2 genoemd.

Referenties

  1. Shmueli, G. (2010). To explain or to predict? Statistical Science, 25(3), 289–310. DOI:10.1214/10-STS330

    [Shmueli2010]
  2. Miguel A. Hernán, John Hsu & Brian Healy (2019) A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks, CHANCE, 32:1, 42-49, DOI:10.1080/09332480.2019.1579578

    [Hernan2019]
  3. Carlin, J. B., & Moreno-Betancur, M. (2024). On the uses and abuses of regression models: A call for reform of statistical practice and teaching. arXiv. DOI:10.48550/arXiv.2309.06668

    [Carlin2024]
  4. Hernán MA. The C-Word: Scientific Euphemisms Do Not Improve Causal Inference From Observational Data. Am J Public Health. 2018 May;108(5):616-619. DOI:10.2105/AJPH.2018.304337 | PubMed ID:29565659 | HubMed [Hernan2018]
  5. Hamaker EL, Mulder JD, and van IJzendoorn MH. Description, prediction and causation: Methodological challenges of studying child and adolescent development. Dev Cogn Neurosci. 2020 Dec;46:100867. DOI:10.1016/j.dcn.2020.100867 | PubMed ID:33186867 | HubMed [Hamaker2020]
  6. Voorbeeld uit: Steyerberg, E. W., Moons, K. G. M., van der Windt, D. A., Hayden, J. A., Perel, P., Schroter, S., Riley, R. D., Hemingway, H., & Altman, D. G. (2013). Prognosis Research Strategy (PROGRESS) 3: Prognostic Model Research. PLOS Medicine, 10(2), e1001381. DOI:10.1371/journal.pmed.1001381

    [Note1]
  7. Luijken K, van Eekelen R, Gardarsdottir H, Groenwold RHH, and van Geloven N. Tell me what you want, what you really really want: Estimands in observational pharmacoepidemiologic comparative effectiveness and safety studies. Pharmacoepidemiol Drug Saf. 2023 Aug;32(8):863-872. DOI:10.1002/pds.5620 | PubMed ID:36946319 | HubMed [Luijken2023]
  8. Hernán MA and Robins JM. Using Big Data to Emulate a Target Trial When a Randomized Trial Is Not Available. Am J Epidemiol. 2016 Apr 15;183(8):758-64. DOI:10.1093/aje/kwv254 | PubMed ID:26994063 | HubMed [Hernan2016]
  9. Goetghebeur, E., le Cessie, S., De Stavola, B., Moodie, E. E. M., & Waernbaum, I. (2020). Formulating causal questions and principled statistical answers. Statistics in Medicine, 39(30), 4922–4948. DOI:10.1002/sim.8741

    [Goetghebeur2020]
  10. Greenland S, Pearl J, and Robins JM. Causal diagrams for epidemiologic research. Epidemiology. 1999 Jan;10(1):37-48. PubMed ID:9888278 | HubMed [Greenland1999]
  11. Chesnaye NC, Stel VS, Tripepi G, Dekker FW, Fu EL, Zoccali C, and Jager KJ. An introduction to inverse probability of treatment weighting in observational research. Clin Kidney J. 2022 Jan;15(1):14-20. DOI:10.1093/ckj/sfab158 | PubMed ID:35035932 | HubMed [Chesnaye2021]
  12. Daniel Westreich, Sander Greenland, The Table 2 Fallacy: Presenting and Interpreting Confounder and Modifier Coefficients, American Journal of Epidemiology, Volume 177, Issue 4, 15 February 2013, Pages 292–298, DOI:10.1093/aje/kws412

    [Westreich2013]
  13. McNeish, D. (2015). Using Lasso for Predictor Selection and to Assuage Overfitting: A Method Long Overlooked in Behavioral Sciences. Multivariate Behavioral Research, 50(5), 471–484. DOI:10.1080/00273171.2015.1036965

    [McNeish2015]
  14. Friedrich S, Groll A, Ickstadt K, Kneib T, Pauly M, Rahnenführer J, and Friede T. Regularization approaches in clinical biostatistics: A review of methods and their applications. Stat Methods Med Res. 2023 Feb;32(2):425-440. DOI:10.1177/09622802221133557 | PubMed ID:36384320 | HubMed [Friedrich2022]
  15. Babyak MA. What you see may not be what you get: a brief, nontechnical introduction to overfitting in regression-type models. Psychosom Med. 2004 May-Jun;66(3):411-21. DOI:10.1097/01.psy.0000127692.23278.a9 | PubMed ID:15184705 | HubMed [Babyak2004]
  16. Livingston E, Cao J, Dimick JB. Tread Carefully With Stepwise Regression. Arch Surg. 2010;145(11):1039–1040. doi:10.1001/archsurg.2010.240

    [Livingston2010]
  17. Sullivan LM, Massaro JM, and D'Agostino RB Sr. Presentation of multivariate data for clinical use: The Framingham Study risk score functions. Stat Med. 2004 May 30;23(10):1631-60. DOI:10.1002/sim.1742 | PubMed ID:15122742 | HubMed [Sullivan2004]
  18. [Peduzzi1996]
  19. Regression Modeling Strategies with Applications to Linear Models, Logistic Regression and Survival Analysis. Frank E. Harrell, Jun, Springer-Verlag, New York, 2001. No. of pages: 568. ISBN 0-387-95232-2.

    [Harrel]

All Medline abstracts: PubMed | HubMed

Aanvullende bronnen

Verder lezen

De op deze pagina genoemde modellen gaan ervan uit dat de observaties onafhankelijk zijn, wat betekent dat de metingen voor elke observationele eenheid (meestal: patiënt) niet correleren met metingen van de andere observationele eenheden in de steekproef. Er zijn uitbreidingen van multivariabele regressie beschikbaar voor data die niet aan deze voorwaarde voldoet. Wellicht helpen de pagina´s herhaalde metingen of mixed effects modellen je in dat geval verder.

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.