Multivariabele regressie voorlopig: Difference between revisions
No edit summary |
|||
Line 60: | Line 60: | ||
Een ander aandachtspunt bij het gebruik van multivariabele modellen in deze context is de zogenaamde Table 2 fallacy <cite>[Westreich2013]</cite>; het presenteren van de geschatte regressiecoëfficiënten van een multivariabel model met de implicatie dat dit praktische, klinisch interpreteerbare kwantiteiten zijn. Het kán zo zijn dat (een deel van) de gemodelleerde associaties heel toevallig afdoende gecorrigeerd zijn voor confounding en dus kwantificaties van (relevante) causale effecten zijn, maar dit is niet zomaar te verwachten: in principe hebben de coëfficiënten allemaal géén causale interpretatie, met als enige uitzondering de coëfficiënt die hoort bij een goed uitgedachte causale estimand. | Een ander aandachtspunt bij het gebruik van multivariabele modellen in deze context is de zogenaamde Table 2 fallacy <cite>[Westreich2013]</cite>; het presenteren van de geschatte regressiecoëfficiënten van een multivariabel model met de implicatie dat dit praktische, klinisch interpreteerbare kwantiteiten zijn. Het kán zo zijn dat (een deel van) de gemodelleerde associaties heel toevallig afdoende gecorrigeerd zijn voor confounding en dus kwantificaties van (relevante) causale effecten zijn, maar dit is niet zomaar te verwachten: in principe hebben de coëfficiënten allemaal géén causale interpretatie, met als enige uitzondering de coëfficiënt die hoort bij een goed uitgedachte causale estimand. | ||
== Let op: Vaak is verklaren wel degelijk het doel! == | |||
Geregeld worden onderzoeksvragen die eigenlijk gaan over oorzaak-gevolgrelaties gepresenteerd als een beschrijvende of voorspellende onderzoeksvraag door het vermijden van causale termen. Dit gebeurt bij observationeel onderzoek, maar ook bij post-hoc analyses of secundaire onderzoeksvragen van experimenteel onderzoek. Denk aan formuleringen als: “wat zijn de belangrijkste voorspellers van …” (<cite>[Carlin2024]</cite>), terwijl in principe gezocht wordt naar factoren die het (gezien het causale effect op een relevante uitkomstmaat) waard zijn om op te interveniëren. Door causale terminologie te vermijden wordt uit het oog verloren wat er eigenlijk nodig is om het (onderliggende, causale) doel te bereiken. Daarmee wordt het lastig gemaakt om de methoden en conclusies te kunnen evalueren <cite>[Hernan2018]</cite>. | Geregeld worden onderzoeksvragen die eigenlijk gaan over oorzaak-gevolgrelaties gepresenteerd als een beschrijvende of voorspellende onderzoeksvraag door het vermijden van causale termen. Dit gebeurt bij observationeel onderzoek, maar ook bij post-hoc analyses of secundaire onderzoeksvragen van experimenteel onderzoek. Denk aan formuleringen als: “wat zijn de belangrijkste voorspellers van …” (<cite>[Carlin2024]</cite>), terwijl in principe gezocht wordt naar factoren die het (gezien het causale effect op een relevante uitkomstmaat) waard zijn om op te interveniëren. Door causale terminologie te vermijden wordt uit het oog verloren wat er eigenlijk nodig is om het (onderliggende, causale) doel te bereiken. Daarmee wordt het lastig gemaakt om de methoden en conclusies te kunnen evalueren <cite>[Hernan2018]</cite>. | ||
Revision as of 14:02, 23 April 2025
Auteur | dr. M.D.J. Wolvers | |
Co-Auteur | Jeroen Hoogland | |
auteurschap op deze site |
Wat is multivariabele regressie?
Multivariabele regressie is een vorm van regressie waarbij er meerdere variabelen tegelijkertijd gerelateerd worden aan een uitkomstmaat. Deze variabelen worden ook wel covariaten, voorspellers, predictoren, onafhankelijke variabelen of factoren genoemd. De meeste multivariabele regressiemodellen in de klinische literatuur behoren tot de familie van generalized linear models. Dit omvat naast lineaire regressie ook logistische en multinomiale logistische regressie. Daarnaast is Cox regressie een veelgebruikte vorm van multivariabele regressie. Deze pagina richt zich op de algemene principes van regressie met meerdere covariaten en gaat uit van een dataset met onafhankelijke observaties.
Waarvoor kun je multivariabele regressie gebruiken?
Een statistische analyse kan grofweg drie doelen dienen [1, 2, 3]: beschrijven, voorspellen of verklaren. Elk doel vraagt een ander gebruik van multivariabele regressie. Hieronder worden veelgebruikte toepassingen en valkuilen van multivariabele regressie steeds per doel besproken.
Beschrijven
Het eerste doel is beschrijven: het gebruiken van data om een kwantitatieve samenvatting te geven van bepaalde karakteristieken van de wereld [4]. Er worden daarbij geen claims of suggesties gemaakt over de oorzaak van het gevonden verschil of de gevonden associatie.
Een voorbeeld van beschrijvende analyses is de Tabel 1 in veel medisch wetenschappelijke artikelen, waarin demografische en klinische karakteristieken van de steekproef worden gedeeld. Soms is de onderzoeksvraag zelf ook puur beschrijvend, bijvoorbeeld: hoe vaak komt <deze specifieke comorbiditeit> voor in <deze specifieke populatie>.
Multivariabele regressie heeft echter zeer zelden een plaats in beschrijvend medisch onderzoek. Een louter associatieve analyse heeft namelijk geen correctie voor confounding nodig [4].
Multivariabele methoden waar je wél aan kunt denken voor beschrijvende onderzoeksdoeleinden zijn principal component analyse of clusteranalyse [5]. Deze technieken zijn nuttig wanneer je geïnteresseerd bent in de onderlinge relaties binnen een groep variabelen, zonder dat er een uitkomstmaat gedefinieerd is.
Voorspellen
Het tweede doel is voorspellen; ook wel predictie of prognostisch onderzoek genoemd. Het doel is dan om zo goed mogelijk een uitkomst te voorspellen, bijvoorbeeld om een model te ontwikkelen voor het voorspellen van 5-jaars overleving bij een diagnose van borstkanker [6].
Meestal is een dergelijke uitkomst in de toekomst gelegen, maar soms, zoals vaak het geval is bij diagnostisch onderzoek, is deze uitkomst op (ongeveer) hetzelfde moment gemeten. Dit gebeurt bijvoorbeeld wanneer de uitkomst te invasief, duur of onpraktisch is om op grote schaal te meten [5].
Multivariabele regressie is een nuttig en veelgebruikt gereedschap in dergelijk onderzoek. Bij deze vorm van onderzoek worden predictoren gekozen op basis van expertise, maar kan het nuttig zijn om statistische technieken te gebruiken voor het selecteren van predictoren of concurrerende modellen. Daarover hieronder meer.
Anders dan vaak gedacht, hoeft een statistisch model niet veel te lijken op ‘de echte wereld' [1] om nauwkeurige voorspellingen op te leveren. Bovendien: de individuele parameters van het model hebben geen betekenisvolle interpretatie (zie ook: Table 2 fallacy), deze zijn bij voorspellend onderzoek ondergeschikt aan de mate waarin het uiteindelijke model in staat is om nauwkeurige voorspellingen in (nieuwe) cases te generen.
Voor een waardevol, klinisch bruikbaar predictiemodel is het bouwen en rapporteren ervan alleen dus ook niet genoeg. Je wilt dan tenminste ook analyseren hoe goed het model in staat is om nieuwe gevallen te voorspellen. Dat proces heet validatie.
Het boek Clinical Prediction Models van Steyerberg of de hiervoor genoemde methodologische reeks zijn nuttige startpunten indien je geïnteresseerd bent in het uitvoeren van prognostisch onderzoek. Ook is de TRIPOD guideline hier relevant.
Verklaren
Het derde en laatste onderzoeksdoel is verklaren. In een meer statistische context worden hiervoor ook de termen causale inferentie of counterfactual prediction gebruikt. Dit doel kan op zeer verschillende manieren nagestreefd worden.
Experimenteel onderzoek
De meest gebruikte vorm van verklarend onderzoek is experimenteel onderzoek, met de randomized controlled trial (rct) als lichtend voorbeeld. Bij een perfect uitgevoerde rct, waarbij je door de randomisatie aannemelijk kunt maken dat eventuele verschillen enkel veroorzaakt kunnen worden door de allocatie, is het gebruik van multivariabele analyse niet nodig om een valide resultaat te verkrijgen.
Multivariabele regressie voor efficiëntie of om te corrigeren van confounding
Bij experimenteel onderzoek kán het echter wel degelijk nuttig of nodig zijn om gebruik te maken van multivariabele regressie. Wanneer je gebruik hebt gemaakt van gestratificeerde randomisatie bijvoorbeeld, is het gewenst om de stratificatiefactor als covariaat te includeren in de primaire analyse EMA guideline on covariate adjustment. De selectie van covariaten volgt dan in principe uit het studieontwerp. Er is dan sprake van forced entry van deze covariaten. Wanneer covariaten worden gebruikt voor efficiëntie of correctie van confounding, wordt datagedreven of automatische selectie van covariaten of concurrerende modellen sterk afgeraden.
Observationeel onderzoek
Niet altijd is het ethisch of haalbaar om causale vragen a.d.h.v. de gouden standaard, rct’s, te beantwoorden. Dit kan ook worden bewerkstelligd met observationeel onderzoek, zij het met limitaties, te weten een veel grotere set aan (onverifieerbare) aannamen. Een schoolvoorbeeld van zo een vraag is “veroorzaakt roken longkanker?”. Bij observationeel onderzoek is de onderzoeksvraag en/of de estimand vaak niet helder geformuleerd [Carlin2024][7, 8, 9, 9, 9, 9, 9, 10, 11, 12, 12, 12, 12, 13, 13, 14, 14, 14, 14, 15, 16, 16, 16, 17, 17, 17, 17, 18, 19, 19, 20, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 43, 44, 45, 45, 46, 47, 48, 49, 50, 51, 52, 52, 52, 53, 54, 55, 55, 56, 57, 58, 59, 60, 60, 61, 61, 62, 63, 63, 64, 64, 65, 66, 67, 68, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86][Greenland1999].
2. of, in meerdere stappen, inverse propensity score weighting (IPSW) of inverse probability of treatment weights (IPTW) gebruiken. Daarbij wordt multivariabele regressiemodel gebruikt om een weging mee te geven aan observaties (meestal: patiënten) in de uiteindelijke analyse [87]. In beide scenario’s is een aanpak te prefereren waarbij van tevoren in een statistisch analyseplan voor elke onderzoeksvraag is vastgesteld en beargumenteerd hoe elke variabelen word gebruikt om een zo relevant mogelijk schatting van de estimand op te leveren. Het is raadzaam om bij het vaststellen van de set van confounders gebruik te maken van directed acyclic graphs (DAGs) [An Introduction to Directed Acyclic Graphs (r-project.org)]. Deze gratis online cursus is een nuttig startpunt.
Table 2 fallacy
Een ander aandachtspunt bij het gebruik van multivariabele modellen in deze context is de zogenaamde Table 2 fallacy [88]; het presenteren van de geschatte regressiecoëfficiënten van een multivariabel model met de implicatie dat dit praktische, klinisch interpreteerbare kwantiteiten zijn. Het kán zo zijn dat (een deel van) de gemodelleerde associaties heel toevallig afdoende gecorrigeerd zijn voor confounding en dus kwantificaties van (relevante) causale effecten zijn, maar dit is niet zomaar te verwachten: in principe hebben de coëfficiënten allemaal géén causale interpretatie, met als enige uitzondering de coëfficiënt die hoort bij een goed uitgedachte causale estimand.
Let op: Vaak is verklaren wel degelijk het doel!
Geregeld worden onderzoeksvragen die eigenlijk gaan over oorzaak-gevolgrelaties gepresenteerd als een beschrijvende of voorspellende onderzoeksvraag door het vermijden van causale termen. Dit gebeurt bij observationeel onderzoek, maar ook bij post-hoc analyses of secundaire onderzoeksvragen van experimenteel onderzoek. Denk aan formuleringen als: “wat zijn de belangrijkste voorspellers van …” ([3]), terwijl in principe gezocht wordt naar factoren die het (gezien het causale effect op een relevante uitkomstmaat) waard zijn om op te interveniëren. Door causale terminologie te vermijden wordt uit het oog verloren wat er eigenlijk nodig is om het (onderliggende, causale) doel te bereiken. Daarmee wordt het lastig gemaakt om de methoden en conclusies te kunnen evalueren [4].
Referenties
-
Shmueli, G. (2010). To explain or to predict? Statistical Science, 25(3), 289–310. DOI:10.1214/10-STS330
-
Miguel A. Hernán, John Hsu & Brian Healy (2019) A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks, CHANCE, 32:1, 42-49, DOI:10.1080/09332480.2019.1579578
-
Carlin, J. B., & Moreno-Betancur, M. (2024). On the uses and abuses of regression models: A call for reform of statistical practice and teaching. arXiv. DOI:10.48550/arXiv.2309.06668
- Hernán MA. The C-Word: Scientific Euphemisms Do Not Improve Causal Inference From Observational Data. Am J Public Health. 2018 May;108(5):616-619. DOI:10.2105/AJPH.2018.304337 |
- Hamaker EL, Mulder JD, and van IJzendoorn MH. Description, prediction and causation: Methodological challenges of studying child and adolescent development. Dev Cogn Neurosci. 2020 Dec;46:100867. DOI:10.1016/j.dcn.2020.100867 |
-
Voorbeeld uit: Steyerberg, E. W., Moons, K. G. M., van der Windt, D. A., Hayden, J. A., Perel, P., Schroter, S., Riley, R. D., Hemingway, H., & Altman, D. G. (2013). Prognosis Research Strategy (PROGRESS) 3: Prognostic Model Research. PLOS Medicine, 10(2), e1001381. DOI:10.1371/journal.pmed.1001381
- Chesnaye NC, Stel VS, Tripepi G, Dekker FW, Fu EL, Zoccali C, and Jager KJ. An introduction to inverse probability of treatment weighting in observational research. Clin Kidney J. 2022 Jan;15(1):14-20. DOI:10.1093/ckj/sfab158 |
-
Daniel Westreich, Sander Greenland, The Table 2 Fallacy: Presenting and Interpreting Confounder and Modifier Coefficients, American Journal of Epidemiology, Volume 177, Issue 4, 15 February 2013, Pages 292–298, DOI:10.1093/aje/kws412
- Greenland S, Pearl J, and Robins JM. Causal diagrams for epidemiologic research. Epidemiology. 1999 Jan;10(1):37-48.
Verder lezen
De op deze pagina genoemde modellen gaan ervan uit dat de observaties onafhankelijk zijn, wat betekent dat de metingen voor elke observationele eenheid (meestal: patiënt) niet correleren met metingen van de andere observationele eenheden in de steekproef. Er zijn uitbreidingen van multivariabele regressie beschikbaar voor data die niet aan deze voorwaarde voldoet. Wellicht helpen de pagina´s herhaalde metingen of mixed effects modellen je in dat geval verder.
Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.
De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.