Lineaire regressie: Difference between revisions
Line 14: | Line 14: | ||
\begin{equation*} | \begin{equation*} | ||
\begin{array}{rcl} | \begin{array}{rcl} | ||
Y&=&a+b\ | Y&=&a+b\times X \right. | ||
\end{array} | \end{array} | ||
\end{equation*} | \end{equation*} | ||
Line 22: | Line 22: | ||
[[Image:LineaireRegressie.png]] | [[Image:LineaireRegressie.png]] | ||
==Hoe interpreteer ik mijn SPSS output bij gebruik van een lineair model?== | |||
Stel dat we in een steekproef van n=25 de [[correlatie|Pearson’s correlatie]] tussen de leeftijd van proefpersonen en hun lichaamsvetpercentage 0.81 is. We willen deze samenhang echter niet alleen beschrijven, maar op basis van de leeftijd van de persoon nu ook een voorspelling doen over zijn of haar lichaamsvetpercentage. Als we in [[statistische software#SPSS|SPSS]] in de schermen van de module Linear Regression de variabelen ‘vetpercentage’ als afhankelijke (''dependent'') variabele opgeven, en de variabele leeftijd als onafhankelijke (''independent''), dan zullen de volgende tabellen worden gegenereerd: Model Summary, ANOVA en Coeficients. NB: in de hierna volgende voorbeelden worden sommige SPSS tabellen in verkorte vorm weergegeven. | |||
[[Image:outputModelSummary.png]] | |||
De tabel Model Summary geeft de [[correlatie|Pearson’s correlatie]] weer tussen de betreffende <math>X</math> en <math>Y</math> variabelen. De kolom 'R square' is een zogenaamde ''goodness-of-fit'' maat. Deze maat geeft uitdrukking aan hoe goed de geobserveerde data clusteren rond de geschatte regressielijn. In een enkelvoudige lineaire regressie is dat het kwadraat van de correlatie. De proportie wordt meestal in een percentage ‘verklaarde variantie’ uitgedrukt. In dit voorbeeld betekent R square dus dat de totale variatie in vetpercentages voor 66% verklaard kan worden door de lineaire regressie c.q. de verschillen in leeftijd. | |||
== Hoe interpreteer ik de resultaten van mijn lineaire model bij een log transformatie van de uitkomstmaat? == | == Hoe interpreteer ik de resultaten van mijn lineaire model bij een log transformatie van de uitkomstmaat? == |
Revision as of 16:09, 25 May 2009
Wanneer gebruik ik een lineair regressie model?
Als je een correlatietechniek toepast, ben je geïnteresseerd in de mate van samenhang tussen twee variabelen en , bijvoorbeeld een onderzoek naar de samenhang tussen leeftijd en scores op een cognitieve test. Met lineaire regressie ga je een stap verder. Met deze techniek probeer je de waarden van de uitkomst via een lineair verband te voorspellen uit die van . De uitkomstvariabele wordt de afhankelijke variabele genoemd, en de voorspeller de onafhankelijke variabele. We spreken van enkelvoudige (ook wel simple of univariable) regressie als we de uitkomst willen voorspellen met één predictor. In de praktijk zal dat in vele gevallen niet voldoende zijn en is het wenselijk om de effecten van twee of meer voorspellers te analyseren. We spreken dan van meervoudige (ook wel multiple of multivariable) lineaire regressie.
Hoe werkt (enkelvoudige) lineaire regressie?
In lineaire regressie bepalen we de regressielijn, die het beste de lineaire relatie tussen de en variabelen beschrijft. De lineaire regressielijn wordt geschat met behulp van de vergelijking:
- Failed to parse (syntax error): {\displaystyle \begin{equation*} \begin{array}{rcl} Y&=&a+b\times X \right. \end{array} \end{equation*} }
is de afhankelijke, uitkomstvariabele; de onafhankelijke voorspeller; en 'a' en 'b' zijn de regressiecoëfficiënten. Regressiecoëfficiënt ‘a’ wordt ook wel de intercept genoemd, en geeft de waarde van aan als (de intercept bepaalt dus de hoogte van de regressielijn). De regressiecoëfficiënt ‘b’ weerspiegelt de helling (slope) van de regressielijn, en geeft de gemiddelde toename van aan als de variabele met 1 eenheid toeneemt.
Hoe interpreteer ik mijn SPSS output bij gebruik van een lineair model?
Stel dat we in een steekproef van n=25 de Pearson’s correlatie tussen de leeftijd van proefpersonen en hun lichaamsvetpercentage 0.81 is. We willen deze samenhang echter niet alleen beschrijven, maar op basis van de leeftijd van de persoon nu ook een voorspelling doen over zijn of haar lichaamsvetpercentage. Als we in SPSS in de schermen van de module Linear Regression de variabelen ‘vetpercentage’ als afhankelijke (dependent) variabele opgeven, en de variabele leeftijd als onafhankelijke (independent), dan zullen de volgende tabellen worden gegenereerd: Model Summary, ANOVA en Coeficients. NB: in de hierna volgende voorbeelden worden sommige SPSS tabellen in verkorte vorm weergegeven.
De tabel Model Summary geeft de Pearson’s correlatie weer tussen de betreffende en variabelen. De kolom 'R square' is een zogenaamde goodness-of-fit maat. Deze maat geeft uitdrukking aan hoe goed de geobserveerde data clusteren rond de geschatte regressielijn. In een enkelvoudige lineaire regressie is dat het kwadraat van de correlatie. De proportie wordt meestal in een percentage ‘verklaarde variantie’ uitgedrukt. In dit voorbeeld betekent R square dus dat de totale variatie in vetpercentages voor 66% verklaard kan worden door de lineaire regressie c.q. de verschillen in leeftijd.
Hoe interpreteer ik de resultaten van mijn lineaire model bij een log transformatie van de uitkomstmaat?
Ik heb een vraag over de interpretatie van de B-waarden in mijn lineaire regressie analyse. De afhankelijke variable is namelijk een log-getransformeerde cortisolwaarde waardoor de B waarde (en wellicht ook de gestandaardiseerde Beta) moeilijker te interpreteren zijn. Ik heb daarom de B-waarden terug getransformeerd (Transformed B (EXP(B-waarde)) en krijg dan waarden rond de 1. Mijn vraag is nu: hoe leg ik de B-waardes uit tijdens de presentatie op een congres komende week? Normaal gesproken spreek je van bij 1 unit toename in de afhankelijke variabele van ...(B-waarde) afname in cortisol waarde. Zelf dacht ik dat bijvoorbeeld nu Transformed [EXP(beta)] = 0.97, CI (0.95-0.99), p = .027 nu uiteglegd kan worden als:bij iedere unit toename van de afhankelijke variabele geeft een afname van 3% in cortisol. Klopt dit?
Als je een linear model fit om het effect van X op de log-getransformeerde cortisolwaarde te beoordelen, ziet dat er als volgt uit:
log(cortisol) = intercept + B * X
Inderdaad, een unit toename in X geeft B toename van de log(cortisol). Als we dit terug willen vertalen naar "gewone" cortisolwaardes, gebruiken we de inverse van de log:
Exp(log(coritsol)) = exp (intercept + B*SRIP)
Dit is gelijk aan:
cortisol = exp ( intercept + B*SRIP)
Bekijken we nu het verschil in cortisolwaarden bij toename van 1 unit SRIP:
cortisol = exp ( intercept + B*X + B)
Dan is dit gebruik makend van de rekenregels gelijk aan
exp (intercept + B*X) * exp (B)
Nu is het eerste gedeelte van bovenstaande vergelijking precies gelijk aan de cortisolwaarde op het "beginpunt", dus inderdaad: een unit extra SRIP geeft vermenigvuldiging van de cortisolwaarde met de factor exp(B). En ook inderdaad: indien de exp(B) = 0.97, dan geeft vermenigvuldiging hiermee een afname van 3%.
Je interpretatie was dus juist. (In het bovenstaande ben ik wel vanuit gegaan dat de cortisol waardes met de natuurlijke logaritme getransformeerd zijn en niet bijvoorbeeld met een 10log).
Waar vind ik lineaire regressie in SPSS?
Je vind lineaire regressie in SPSS 16 onder Analyze -> Regression -> Linear.
Referenties
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.