Difference between revisions of "Multivariabele regressie"

From Wikistatistiek
Jump to navigation Jump to search
Line 44: Line 44:
 
== Hoe selecteer ik mbv univariabele regressie factoren voor in een multivariabele regressie? ==  
 
== Hoe selecteer ik mbv univariabele regressie factoren voor in een multivariabele regressie? ==  
  
''Wij analyseren de verschillen in uitkomst (success rate) tussen de operaties. We hebben eerst een aantal factoren los getest op invloed op success rate. Daarna de significante factoren overgebracht naar een multivariabele logistische regressie. Is dit een goede methodiek?  
+
''Wij analyseren de verschillen in uitkomst (success rate) tussen twee operaties. We hebben eerst een aantal factoren los getest op invloed op success rate. Daarna de significante factoren overgebracht naar een multivariabele logistische regressie. Is dit een goede methodiek?  
  
 
Bij dergelijke 'univariabele preselectie' is het methodologisch te prefereren om niet alleen variabelen die significant zijn in de univariabele analyse door te schuiven naar multivariabele, maar daarbij een meer coulante p-waarde aan te houden (bijv variabelen met univariabele p<0.20 of p<0.30).
 
Bij dergelijke 'univariabele preselectie' is het methodologisch te prefereren om niet alleen variabelen die significant zijn in de univariabele analyse door te schuiven naar multivariabele, maar daarbij een meer coulante p-waarde aan te houden (bijv variabelen met univariabele p<0.20 of p<0.30).

Revision as of 15:40, 8 September 2011

Auteur ir. N van Geloven
Co-Auteur
auteurschap op deze site

Bij een multivariabele regressie worden er meerdere voorspellers tegelijkertijd gerelateerd aan de uitkomstmaat. Vaak wordt een multivariabel regressiemodel gebruikt om te corrigeren voor mogelijke confounders.

Hoe interpreteer ik een verschillende uitkomst in een univariabel en multivariabel model?

Voor een van mijn studies heb ik een logistische regressie analyse gedaan. Mijn outcome is een dichotome variabele: 1 is verbetering 0 is geen verbetering. Vervolgens wil ik weten of leeftijd en bepaalde genetische afwijkingen wel of geen invloed op die outcome hebben. Als ik alleen leeftijd toevoeg aan mijn model komt deze als zeer zeer significant uit de bus. Als ik daar dan vervolgens de genetische variabelen aan toevoeg, verdwijnt de significantie van age als predictor (p=0.054) en zijn alleen de genetische variabelen significante predictoren. Mijn vraag is nu, hoe moet ik dit interpreteren?

Als een variabele in je multivariabele model niet significant is, dan betekent het dat deze geen significante associatie heeft met de uitkomstmaat, rekeninghoudend met het effect van de andere variabelen die op dat moment in je model zitten (dus conditioneel op die variabelen). Bij jou lijkt het er op dat het effect leeftijd gecorrigeerd voor de andere covariaten geen significant effect (bij een signniveau van 5%) heeft op de uitkomstmaat. Dit kan door twee zaken beïnvloed worden. Of de andere covariaten vagen het effect van leeftijd weg, of er is niet genoeg data om het effect van leeftijd als significant te bestempelen. Ook al is het conditionele (gecorrigeerd in een multivariabel model) verband even groot als het onconditionele (univariabel model), dan nog is vaak de precisie van het conditionele model minder groot (bredere betrouwbaarheidsintervallen), doordat men in een model meerdere verbanden schat en daardoor minder kracht heeft effecten aan te wijzen. Door niet alleen naar de p-waarde, maar ook naar het confidence interval te kijken, ben je iets minder afhankelijk van de harde (maar willekeurige) 5% grens.

Hoeveel variabelen mag ik meegeven aan mijn model?

Ik wil graag een multivariabele logistische analyse doen voor de risicofactoren voor obesitas binnen een patientengroep. Hoeveel variabelen (risicofactoren) mag ik testen op 893 patienten?

Een vuistregel is dat het aantal parameters in een multivariabel model maximaal 5% tot 10% mag zijn van het minimum van het aantal mensen met en zonder obesitas (event) in je sample. Dus als je 300 met en 593 zonder obesitas hebt, mag je max 15 tot 30 parameters in je model opnemen. Ik spreek hier over parameters, niet over variabelen, omdat bijv. een categorische variabele met 3 categorieen 2 extra parameters in je model geeft.

Bij een linear regressie model geldt dat het aantal parameters max 5% tot 10% mag zijn van het totaal aantal gebruikte observaties, oftewel 10 a 20 patienten per variabele.

Hoe kies ik welke variabelen ik meeneem in mijn multivariabele model?

Ik heb 90 patienten waarbij ik baseline parameters heb verzamled (9 lab parameters en 13 klinische parameters). Met een non-parameterische test heb ik gevonden dat 1 lab parameter en enkele klinische parameters verschillend zijn tussen beide uitkomst groepen (=diagnose wel/niet na 2 jaar). Nu wilde ik kijken welke parameters het beste voorspellend zijn voor uitkomst. Ik heb backward logistische regressie gedaan met de parameters die eerder een significant verschil lieten zien, maar ik weet niet zeker of dit de beste keuze is. Mogelijk moet het anders of moeten er meer parameters in of moeten parameters gecombineerd worden?

In jouw geval waarin je 90 patienten hebt en het effect van 21 (9+13) variabelen wilt testen, heb je niet genoeg patienten om al deze variabelen in 1 multivariabel model te testen (hetgeen natuurlijk het mooist zou zijn). Er moet dus een keuze gemaakt worden welke variabelen meegegeven gaan worden in een multivariabel model. Er bestaat geen consensus over de beste wijze om variabelen te selecteren, maar de keuze maak je altijd op basis van twee criteria:

  • 1. Van welke variabelen verwacht ik een effect / welke variabelen vind ik relevant?
  • 2. Voor welke variabelen geeft de data aan dat er een effect zou kunnen optreden (welke wijst het model als significant aan)?

Wat jij hebt gedaan is een soort univariabele preselectie van variabelen, waarbij je de variabelen eerst los test en degene die daar significant uitkomen meegeeft in een multivariabel model. Hoewel er methodologische nadelen te noemen zijn van deze aanpak, is het een veel gebruikte. Hierbij probeer je vraag 2 te beantwoorden. Je beschrijft echter dat je deze preselectie op basis van een niet-parametrische toets hebt gedaan, en dus niet op basis van hetzelfde (logistische?) model als waarin je de multivariabele analyse hebt gedaan. Als je hetzelfde model gebruikt, zou het de analyse consistenter maken. Verder is het zaak om bij de preselectie niet te streng te zijn met afwijzing. Een p-waarde van 0,10 of 0,20 zou hiervoor aangehouden kunnen worden. Je uiteindelijke conclusies zullen gebaseerd zijn op het multivariabele model waar je wel met een gebruikelijke strenge p-waarde kunt rekenen. Kijk ook nog eens kritisch naar de variabelen in het kader van vraag 1. Het combineren van variabelen ten slotte is ook een goede manier om het aantal te testen variabelen te verkleinen.

Ik heb backwards selection gebruikt - hoe interpreteer ik mijn resultaten?

Ik ben bezig met een onderzoek naar welke variabelen van invloed zijn op een tumorbiopsie-uitkomst (wel of geen diagnose). Hiervoor heb ik een aantal parameters (bijv. tumorgrootte, lokatie van de tumor, in welke mate de tumor uitstulpt etc) genomen waarvan ik verwacht dat ze van invloed zijn. Ik heb er een backward multiple regressie op los gelaten en krijg hier ook wel resultaten uit, maar weet niet zo goed hoe ik die moet interpreteren.

De output vertelt welke factoren in het uiteindelijke model samenhangen met de uitkomst. Je ziet in de ouput de p waarde en een richtingscoefficient B met standaard error (SE (B)). Deze richtingscoefficient geeft aan hoe groot het effect is. Als je stapsgewijs variabelen uit je model haalt die niet significant bijdragen aan je model (zoals jij dat hebt gedaan), hou je uiteindelijk de variabelen over die dus significant geassocieerd zijn met je uitkomst, terwijl je corrigeert voor de andere variabelen in je model. Als je nog verder zou willen gaan kun je er ook voor kiezen om forward te doen en kijken of dan dezelfde variabelen samenhangen met je uitkomst.

Hoe rapporteer ik de resultaten van mijn multivariabele model?

Voor een vragenlijstonderzoek betreffende kwaliteit van leven heb ik in de analyse lineaire regressie gedaan met forward selection. In het uiteindelijke model zijn er variabelen met een niet-significante p-waarde. Als je een tabel maakt van de variabelen in het uiteindelijke model, zouden jullie die dan sorteren op grootte van de beta, op significantie van de p-waarde of op grootte van de verklaarde variantie? Of zouden jullie gewoon de output van SPSS overnemen?

Er zijn geen vaste regels voor de volgorde waarin je variabelen in een tabel zet. Er zou bijvoorbeeld hierarchie in de variabelen kunnen zitten, of chronologische volgorde (bijvoorbeeld eerst leeftijd en geslacht en pas later de invloed van roken oid). Het is wel helder om alle variabelen van je uiteindelijke model (dus ook niet significante) te laten zien, dan kan een lezer zien naast welke andere voorspellers de variabelen beoordeeld zijn.

Hoe selecteer ik mbv univariabele regressie factoren voor in een multivariabele regressie?

Wij analyseren de verschillen in uitkomst (success rate) tussen twee operaties. We hebben eerst een aantal factoren los getest op invloed op success rate. Daarna de significante factoren overgebracht naar een multivariabele logistische regressie. Is dit een goede methodiek?

Bij dergelijke 'univariabele preselectie' is het methodologisch te prefereren om niet alleen variabelen die significant zijn in de univariabele analyse door te schuiven naar multivariabele, maar daarbij een meer coulante p-waarde aan te houden (bijv variabelen met univariabele p<0.20 of p<0.30).

Referenties

What you see may not be what you get: a brief, nontechnical introduction to overfitting in regression-type models, Babyak M.A., Psychosom Med. 2004 May-Jun;66(3):411-21

Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.

Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.