Multivariabele regressie voorlopig: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
No edit summary
Line 32: Line 32:
Anders dan vaak gedacht, hoeft een statistisch model niet veel te lijken op ‘de echte wereld' <cite>[Shmueli2010]</cite> om nauwkeurige voorspellingen op te leveren. Bovendien: de individuele parameters van het model hebben geen betekenisvolle interpretatie (zie ook: [[Table 2 fallacy]]), deze zijn bij voorspellend onderzoek ondergeschikt aan de mate waarin het uiteindelijke model in staat is om nauwkeurige voorspellingen in (nieuwe) cases te generen.   
Anders dan vaak gedacht, hoeft een statistisch model niet veel te lijken op ‘de echte wereld' <cite>[Shmueli2010]</cite> om nauwkeurige voorspellingen op te leveren. Bovendien: de individuele parameters van het model hebben geen betekenisvolle interpretatie (zie ook: [[Table 2 fallacy]]), deze zijn bij voorspellend onderzoek ondergeschikt aan de mate waarin het uiteindelijke model in staat is om nauwkeurige voorspellingen in (nieuwe) cases te generen.   


Voor een waardevol, klinisch bruikbaar predictiemodel is het bouwen en rapporteren ervan alleen dus ook niet genoeg. Je wilt dan tenminste ook analyseren hoe goed het model in staat is om nieuwe gevallen te voorspellen. Dat proces heet [[validatie]]. [Note2]
Voor een waardevol, klinisch bruikbaar predictiemodel is het bouwen en rapporteren ervan alleen dus ook niet genoeg. Je wilt dan tenminste ook analyseren hoe goed het model in staat is om nieuwe gevallen te voorspellen. Dat proces heet [[validatie]]. <cite>[Note2]</cite>
 
 


= Referenties =
= Referenties =
Line 41: Line 43:
#Hernan2018 pmid=29565659
#Hernan2018 pmid=29565659
#Shmueli2010 Shmueli, G. (2010). To explain or to predict? Statistical Science, 25(3), 289–310. [https://doi.org/10.1214/10-STS330 DOI:10.1214/10-STS330]  
#Shmueli2010 Shmueli, G. (2010). To explain or to predict? Statistical Science, 25(3), 289–310. [https://doi.org/10.1214/10-STS330 DOI:10.1214/10-STS330]  
#Note1 Dit voorbeeld wordt in [https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001381 deze reeks methodologische papers over prognostisch onderzoek] gebruikt.
#Note1 Voorbeeld uit: Steyerberg, E. W., Moons, K. G. M., van der Windt, D. A., Hayden, J. A., Perel, P., Schroter, S., Riley, R. D., Hemingway, H., & Altman, D. G. (2013). Prognosis Research Strategy (PROGRESS) 3: Prognostic Model Research. PLOS Medicine, 10(2), e1001381. [https://doi.org/10.1371/journal.pmed.1001381 DOI:10.1371/journal.pmed.1001381]
#Note2 [https://link.springer.com/book/10.1007/978-3-030-16399-0 Het boek Clinical Prediction Models van Steyerberg] of [https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001381 deze reeds hierboven genoemde methodologische reeks] zijn nuttige startpunten indien je geïnteresseerd bent in het uitvoeren van prognostisch onderzoek. Hier vind je de relevante [https://doi.org/10.1136/bmj-2023-078378 TRIPOD guideline] uit 2024.  
</biblio>
 
= Aanvullende bronnen =
<biblio>
#Note2 Het boek [https://link.springer.com/book/10.1007/978-3-030-16399-0 Clinical Prediction Models] van Steyerberg of de hiervoor genoemde [https://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001381 methodologische reeks] zijn nuttige startpunten indien je geïnteresseerd bent in het uitvoeren van prognostisch onderzoek. Ook is de [https://doi.org/10.1136/bmj-2023-078378 TRIPOD guideline] hier relevant.  
</biblio>
</biblio>



Revision as of 13:36, 23 April 2025

Auteur dr. M.D.J. Wolvers
Co-Auteur Jeroen Hoogland
auteurschap op deze site

Wat is multivariabele regressie?

Multivariabele regressie is een vorm van regressie waarbij er meerdere variabelen tegelijkertijd gerelateerd worden aan een uitkomstmaat. Deze variabelen worden ook wel covariaten, voorspellers, predictoren, onafhankelijke variabelen of factoren genoemd. De meeste multivariabele regressiemodellen in de klinische literatuur behoren tot de familie van generalized linear models. Dit omvat naast lineaire regressie ook logistische en multinomiale logistische regressie. Daarnaast is Cox regressie een veelgebruikte vorm van multivariabele regressie. Deze pagina richt zich op de algemene principes van regressie met meerdere covariaten en gaat uit van een dataset met onafhankelijke observaties.

Waarvoor kun je multivariabele regressie gebruiken?

Een statistische analyse kan grofweg drie doelen dienen [1, 2, 3]: beschrijven, voorspellen of verklaren. Elk doel vraagt een ander gebruik van multivariabele regressie. Hieronder worden veelgebruikte toepassingen en valkuilen van multivariabele regressie steeds per doel besproken.

Beschrijven

Het eerste doel is beschrijven: het gebruiken van data om een kwantitatieve samenvatting te geven van bepaalde karakteristieken van de wereld [4]. Er worden daarbij geen claims of suggesties gemaakt over de oorzaak van het gevonden verschil of de gevonden associatie.

Een voorbeeld van beschrijvende analyses is de Tabel 1 in veel medisch wetenschappelijke artikelen, waarin demografische en klinische karakteristieken van de steekproef worden gedeeld. Soms is de onderzoeksvraag zelf ook puur beschrijvend, bijvoorbeeld: hoe vaak komt <deze specifieke comorbiditeit> voor in <deze specifieke populatie>.

Multivariabele regressie heeft echter zeer zelden een plaats in beschrijvend medisch onderzoek. Een louter associatieve analyse heeft namelijk geen correctie voor confounding nodig [4].

Multivariabele methoden waar je wél aan kunt denken voor beschrijvende onderzoeksdoeleinden zijn principal component analyse of clusteranalyse [5]. Deze technieken zijn nuttig wanneer je geïnteresseerd bent in de onderlinge relaties binnen een groep variabelen, zonder dat er een uitkomstmaat gedefinieerd is.

Voorspellen

Het tweede doel is voorspellen; ook wel predictie of prognostisch onderzoek genoemd. Het doel is dan om zo goed mogelijk een uitkomst te voorspellen, bijvoorbeeld om een model te ontwikkelen voor het voorspellen van 5-jaars overleving bij een diagnose van borstkanker [6].

Meestal is een dergelijke uitkomst in de toekomst gelegen, maar soms, zoals vaak het geval is bij diagnostisch onderzoek, is deze uitkomst op (ongeveer) hetzelfde moment gemeten. Dit gebeurt bijvoorbeeld wanneer de uitkomst te invasief, duur of onpraktisch is om op grote schaal te meten [5].

Multivariabele regressie is een nuttig en veelgebruikt gereedschap in dergelijk onderzoek. Bij deze vorm van onderzoek worden predictoren gekozen op basis van expertise, maar kan het nuttig zijn om statistische technieken te gebruiken voor het selecteren van predictoren of concurrerende modellen. Daarover hieronder meer.

Anders dan vaak gedacht, hoeft een statistisch model niet veel te lijken op ‘de echte wereld' [1] om nauwkeurige voorspellingen op te leveren. Bovendien: de individuele parameters van het model hebben geen betekenisvolle interpretatie (zie ook: Table 2 fallacy), deze zijn bij voorspellend onderzoek ondergeschikt aan de mate waarin het uiteindelijke model in staat is om nauwkeurige voorspellingen in (nieuwe) cases te generen.

Voor een waardevol, klinisch bruikbaar predictiemodel is het bouwen en rapporteren ervan alleen dus ook niet genoeg. Je wilt dan tenminste ook analyseren hoe goed het model in staat is om nieuwe gevallen te voorspellen. Dat proces heet validatie. [7]


Referenties

  1. Shmueli, G. (2010). To explain or to predict? Statistical Science, 25(3), 289–310. DOI:10.1214/10-STS330

    [Shmueli2010]
  2. Miguel A. Hernán, John Hsu & Brian Healy (2019) A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks, CHANCE, 32:1, 42-49, DOI:10.1080/09332480.2019.1579578

    [Hernan2019]
  3. Carlin, J. B., & Moreno-Betancur, M. (2024). On the uses and abuses of regression models: A call for reform of statistical practice and teaching. arXiv. DOI:10.48550/arXiv.2309.06668

    [Carlin2024]
  4. Hernán MA. The C-Word: Scientific Euphemisms Do Not Improve Causal Inference From Observational Data. Am J Public Health. 2018 May;108(5):616-619. DOI:10.2105/AJPH.2018.304337 | PubMed ID:29565659 | HubMed [Hernan2018]
  5. Hamaker EL, Mulder JD, and van IJzendoorn MH. Description, prediction and causation: Methodological challenges of studying child and adolescent development. Dev Cogn Neurosci. 2020 Dec;46:100867. DOI:10.1016/j.dcn.2020.100867 | PubMed ID:33186867 | HubMed [Hamaker2020]
  6. Voorbeeld uit: Steyerberg, E. W., Moons, K. G. M., van der Windt, D. A., Hayden, J. A., Perel, P., Schroter, S., Riley, R. D., Hemingway, H., & Altman, D. G. (2013). Prognosis Research Strategy (PROGRESS) 3: Prognostic Model Research. PLOS Medicine, 10(2), e1001381. DOI:10.1371/journal.pmed.1001381

    [Note1]

All Medline abstracts: PubMed | HubMed

Aanvullende bronnen

  1. Het boek Clinical Prediction Models van Steyerberg of de hiervoor genoemde methodologische reeks zijn nuttige startpunten indien je geïnteresseerd bent in het uitvoeren van prognostisch onderzoek. Ook is de TRIPOD guideline hier relevant.

    [Note2]

Verder lezen

De op deze pagina genoemde modellen gaan ervan uit dat de observaties onafhankelijk zijn, wat betekent dat de metingen voor elke observationele eenheid (meestal: patiënt) niet correleren met metingen van de andere observationele eenheden in de steekproef. Er zijn uitbreidingen van multivariabele regressie beschikbaar voor data die niet aan deze voorwaarde voldoet. Wellicht helpen de pagina´s herhaalde metingen of mixed effects modellen je in dat geval verder.

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.