Regressieanalyse

Regressieanalyse is een statistische techniek voor het analyseren van gegevens waarin (mogelijk) sprake is van een specifieke samenhang, aangeduid als regressie. Deze samenhang houdt in dat de waarde van een stochastische variabele (de afhankelijke variabele), op een storingsterm na, afhangt van een of meer in principe instelbare vrij te kiezen variabelen. De afhankelijke variabele wordt meestal met $Y$ aangeduid en de onafhankelijke variabele met $x$ (eventueel als vector). Het verband is dan:

Y=f(x)+U

Hierin stelt $U$ de storingsterm voor, die onafhankelijk is van $x$ (dat wil zeggen dat men aanneemt dat de volledige variatie te wijten is aan een fout in $Y$ ).

De functie $f$ is in de relatie onbekend, maar voor toepassing van regressieanalyse behoort deze wel tot een bepaalde klasse die met een beperkt aantal parameters beschreven kan worden. Het paar $(x,Y)$ wordt wel aangeduid als onafhankelijke en afhankelijke variabele of als verklarende en te verklaren variabele; ook wordt wel gesproken van voorspeller en responsvariabele, of predictor en criteriumvariabele.

Terminologie

Onafhankelijke variabele: Deze variabele wordt ook instelvariabele genoemd. De waarde van de variabele wordt bepaald door de keuzes die door degene die het experiment uitvoert gemaakt worden.
Afhankelijke variabele: De waarde van de afhankelijke variabele is het gevolg van de keuzes die gemaakt zijn bij de instelvariabele(n). De afhankelijke variabele is een stochastische variabele.
Regressie: De terminologie "regressie", teruggang, is in dit verband eigenlijk misplaatst. De term werd voor het eerst gebruikt door de Engelse antropoloog Francis Galton. Hij merkte namelijk op dat kinderen uitzonderlijke eigenschappen van hun ouders overerven, doch dat er een tendens bestaat van "regressie naar het midden". De kinderen nemen de eigenschappen van hun ouders namelijk in afgezwakte mate over. Zo hebben lange ouders, lange kinderen, en korte ouders korte kinderen, maar steeds minder uitgesproken. Galton ontdekte dit verband door het toepassen van de methode van de kleinste kwadraten en noemde ze naar het door hem bestudeerde fenomeen, regressieanalyse. Later verfijnde Karl Pearson de rekenmethode en behield de door Galton aangewende psychoantropologische terminologie.

Voorbeeld

Het benzineverbruik $Y$ van een bepaald type auto hangt af van de snelheid $x$ waarmee gereden wordt. Beredeneerd kan worden dat dit verband kwadratisch is en wel als volgt:

Y=\alpha +\beta x^{2}+U

.

Afhankelijk van omstandigheden als wegdek, verkeerssituatie, weersomstandigheden e.d., zal het benzineverbruik bij eenzelfde snelheid toch nog variaties vertonen, die weergegeven worden als storingsterm $U$ . Met de gegevens verkregen uit een aantal testritten (steekproef) zal men door middel van regressieanalyse de parameters schatten.

Lineaire regressie

Er is sprake van lineaire regressie als de bovengenoemde functie $f$ een lineaire functie is van de verklarende variabelen.

Enkelvoudige lineaire regressie

In het geval van enkelvoudige lineaire regressie is er slechts één verklarende variabele $x$ . Het model voor $Y$ is:

Y=\alpha +\beta x+U

Meestal wordt de storingsterm $U$ normaal verdeeld verondersteld met verwachting 0 en standaardafwijking $\sigma$ .

De parameter $\sigma$ , die meestal ook onbekend is, kan ook zichtbaar gemaakt worden:

Y=\alpha +\beta x+\sigma U

;

waarin $U$ nu standaardnormaal verdeeld is.

Het idee bij de analyse is het volgende:

De gemiddelde waarde van alle $x$ -waarden zal een waarde voor $y$ opleveren die dicht bij de gemiddelde y-waarde ligt. Het punt $(x_{\rm {gemiddeld}},y_{\rm {gemiddeld}})$ is het uitgangspunt voor de lijn.
De waarde van de helling van de lijn ligt waarschijnlijk dicht bij de gemiddelde waarde van alle hellingen die ontstaan als elk meetpunt verbonden wordt met het hierboven aangegeven $(x_{\rm {gemiddeld}},y_{\rm {gemiddeld}})$ .

Met methoden uit de schattingstheorie worden de parameters van deze lineaire relatie geschat.

Omdat een schatting gebaseerd is op het resultaat van een steekproef, kan het analyseren van enkelvoudige lineaire regressie opgevat worden als het bepalen van de best passende lijn door de gegeven meetpunten. Wat "best passen" betekent is natuurlijk afhankelijk van het gehanteerde criterium. Een zo'n criterium is het "kleinste-kwadratencriterium". Daarvoor wordt de kleinste-kwadratenmethode gebruikt. Van lijn $y=a+bx$ worden de coëfficiënten $a$ en $b$ zodanig berekend dat de som van de kwadraten van alle afwijkingen $d_{i}$ van het meetpunt ten opzichte van de lijn (zie figuur) minimaal is.

Theorie

Bij verschillende waarden $x_{1},\ldots ,x_{n}$ van de verklarende variabele $x$ worden de waarden $y_{1},\ldots ,y_{n}$ van de bijbehorende stochastische variabelen $Y_{1},\ldots ,Y_{n}$ waargenomen. Deze stochastische variabelen worden verondersteld onderling onafhankelijk te zijn. Het model voor de steekproef is dus:

Y_{k}=\alpha +\beta x_{k}+\sigma U_{k},{\text{ voor }}k=1,\ldots ,n

waarin de $(U_{k})$ onderling onafhankelijk zijn, alle N(0,1)-verdeeld. Het gaat er nu om schattingen te geven voor de parameters op basis van de steekproefuitkomst $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ . Meestal gebruikt men daarvoor de kleinste-kwadratenmethode en bepaalt daarmee de kleinste-kwadratenschatters $a$ en $b$ , waarvoor de som:

\sum _{k=1}^{n}(y_{k}-(a+bx_{k}))^{2}

minimaal is. Deze schatters worden gegeven door:

b={\frac {\sum _{k=1}^{n}(x_{k}-{\overline {x}})(y_{k}-{\overline {y}})}{\sum _{k=1}^{n}(x_{k}-{\overline {x}})^{2}}}

en

a={\overline {y}}-b{\overline {x}}

Ook de parameter $\sigma ^{2}$ kan geschat worden, en wel door:

s^{2}={\frac {1}{n-2}}\sum _{k=1}^{n}(y_{k}-a-bx_{k})^{2}

De hierin voorkomende kwadraatsom kan geschreven worden als:

\sum _{k=1}^{n}(y_{k}-a-bx_{k})^{2}=\sum ((y_{k}-{\overline {y}})-b(x_{k}-{\overline {x}}))^{2}=

=\sum (y_{k}-{\overline {y}})^{2}-2b\sum (y_{k}-{\overline {y}})(x_{k}-{\overline {x}})+b^{2}\sum (x_{k}-{\overline {x}})^{2}=

=\sum (y_{k}-{\overline {y}})^{2}-{\frac {\left(\sum (y_{k}-{\overline {y}})(x_{k}-{\overline {x}})\right)^{2}}{\sum (x_{k}-{\overline {x}})^{2}}}=SSy-{\frac {Sxy^{2}}{SSx}}

Daarin zijn

SSy=\sum (y_{k}-{\overline {y}})^{2}=SST

de totale kwadraatsom

SSx=\sum (x_{k}-{\overline {x}})^{2}

Sxy=\sum (y_{k}-{\overline {y}})(x_{k}-{\overline {x}})

veel gebruikte afkortingen voor de beide kwadraatsommen en de som van producten.

Voor de determinatiecoëfficiënt $R^{2}$ geldt dus:

R^{2}={\frac {Sxy^{2}}{SSy\,SSx}}=1-{\frac {(n-2)s^{2}}{SSy}}

Verder is:

SST=\sum (y_{k}-{\overline {y}})^{2}=\sum (y_{k}-{\hat {y}}_{k}+{\hat {y}}_{k}-{\overline {y}})^{2}=

=\sum (y_{k}-{\hat {y}}_{k})^{2}+\sum ({\hat {y}}_{k}-{\overline {y}})^{2}+2\sum (y_{k}-{\hat {y}}_{k})({\hat {y}}_{k}-{\overline {y}})=

=\sum (y_{k}-{\hat {y}}_{k})^{2}+\sum ({\hat {y}}_{k}-{\overline {y}})^{2}=SSR+SSE

want

\sum ({\hat {y}}_{k}-{\overline {y}})^{2}=\sum (y_{k}-a-bx_{k})(a+bx_{k}-{\overline {y}})=

=b\sum (y_{k}-{\overline {y}}-b(x_{k}-{\overline {x}}))(x_{k}-{\overline {x}})=0

Met

SSE=\sum (y_{k}-{\hat {y}}_{k})^{2}

de verklaarde (explained) kwadraatsom

SSR=({\hat {y}}_{k}-{\overline {y}})^{2}

de resterende (residual) kwadraatsom

Met vectoren: $y=(y_{1},\ldots ,y_{n})$ en $x=(x_{1},\ldots ,x_{n})$ zijn vectoren in $\mathbb {R} ^{n}$ . ${\hat {y}}\in \mathbb {R} ^{n}$ ligt in de deelruimte opgespannen door $e=(1,\ldots ,1)$ en $x$ , en is de projectie van $y$ op die ruimte. Omdat ${\overline {y}}e$ ook in die ruimte ligt is

({\hat {y}}-{\overline {y}}e,y-{\hat {y}})=0

en

\|{\hat {y}}-{\overline {y}}e\|^{2}+\|y-{\hat {y}}\|^{2}=\|y-{\overline {y}}e\|^{2}

,

dwz

SST=\|y-{\overline {y}}e\|^{2}=\|{\hat {y}}-{\overline {y}}e\|^{2}+\|y-{\hat {y}}\|^{2}=SSE+SSR

Herhalingen

Als bij dezelfde waarde van de verklarende variabele $x$ meer dan één waarneming $y$ is gedaan, kan de parameter $\sigma ^{2}$ geschat door middel van de variantie binnen deze groepen. Het model is dan:

Y_{kj}=\alpha +\beta x_{k}+\sigma U_{kj}{\text{ voor }}k=1,\ldots ,n,\quad j=1,\ldots ,m

waarin de $(U_{k}j)$ weer onderling onafhankelijk zijn en alle N(0,1)-verdeeld.

(NB. De groepen zijn hier voor de eenvoud alle van gelijke omvang $m$ gekozen; noodzakelijk is dit niet.)

In de formules voor de schattingen $a$ en $b$ voor resp. $\alpha$ en $\beta$ moet nu overal de bij $x_{k}$ horende y-waarde vervangen worden door het gemiddelde

y_{k*}={\frac {1}{m}}\sum _{j=1}^{m}y_{kj}

van die groep. Een schatting van $\sigma ^{2}$ is;

{\frac {1}{n(m-1)}}\sum _{k,j}(y_{kj}-y_{k*})^{2}

De kwadratensom hierin is een van de termen uit de variantieanalyse, waarin de totale kwadratensom uiteenvalt in drie delen:

\sum _{k,j}(y_{kj}-y_{**})^{2}=\sum _{k,j}(y_{kj}-y_{k*})^{2}+\sum _{k,j}(y_{k*}-{\hat {y}}_{k})^{2}+\sum _{k,j}({\hat {y}}_{k}-y_{**})^{2}

De laatste term daarin is de kwadratensom ten gevolge van de regressie. De middelste term meet de afwijkingen van de groepsgemiddelden ten opzichte van de geschatte regressielijn, en is daarmee een maat voor het goed passen van het model.

Meervoudige lineaire regressie

Zijn er meer verklarende variabelen, maar is $f$ wel een lineaire functie daarvan, dan spreken we van multipele (of meervoudige) lineaire regressie. Het model heeft de vorm:

Y=\beta _{0}+\beta _{1}x_{1}+\cdots +\beta _{m}x_{m}+\sigma U

,

met $U$ weer N(0,1)-verdeeld.

Ook hier worden met de kleinste-kwadratenmethode de parameters $(\beta _{i})$ geschat. De analyse verloopt geheel analoog aan het enkelvoudige geval. Het is alleen rekentechnisch ingewikkelder.

Theorie

Ook hier worden bij verschillende waarden $x_{11},\cdots ,x_{1n},\ldots ,x_{m1},\ldots ,x_{mn},$ van de verklarende variabelen $(x_{1},\ldots ,x_{m})$ de waarden $y_{1},\ldots ,y_{n}$ van de bijbehorende stochastische variabelen $Y_{1},\ldots ,Y_{n}$ waargenomen. Deze stochastische variabelen worden verondersteld onderling onafhankelijk te zijn. Het model voor de steekproef is dus:

Y_{k}=\beta _{0}+\beta _{1}x_{1k}+\cdots +\beta _{m}x_{mk}+\sigma U_{k},{\text{ voor }}k=1,\ldots ,n.

waarin de $(U_{k})$ onderling onafhankelijk zijn en alle N(0,1)-verdeeld. Het is overzichtelijker deze relaties met vectoren te noteren, waardoor ze in gedaante sterk vereenvoudigen.

Y=X\beta +\sigma U

.

Hierin is $Y=(Y_{1}\ldots ,Y_{n})$ en $U=(U_{1},\ldots ,U_{n})$ . De waarden van de $x$ 'en vinden we terug in de matrix $X$ , waarvan de $k$ -de rij gegeven wordt door:

(1,x_{1k},\ldots ,x_{mk})

.

De kleinste-kwadratenmethode voert tot de normaalvergelijkingen:

X'Y=X'Xb

.

In de gebruikelijke gevallen is de matrix $X'X$ inverteerbaar, zodat de oplossing, de kleinste-kwadratenschatters, gegeven wordt door:

b=(X'X)^{-1}X'Y

.

Voorbeeld

temperatuur $x$ (in °C)	lengte $y$ (in mm)
20	1000,02
60	1000,96
100	1001,82
120	1002,75

Om de lineaire uitzettingscoëfficiënt van aluminium te bepalen, meet een fysicus de lengte van een aluminium staaf bij vier verschillende temperaturen. Het resultaat staat hiernaast.

De gemeten lengte $y$ is natuurlijk niet exact gelijk aan de "werkelijke" (verwachte) lengte; er zit nog een meetfout in en eventueel andere storingen. De verwachte lengte hangt lineair samen met de temperatuur $x$ , daarom kunnen we voor de gemeten lengte $y$ schrijven:

y=\alpha +\beta x+u

,

waarin de meetfout en de overige storingen zijn samengevat in $u$ . De parameter $\alpha$ is de lengte bij 0 graden; de parameter $\beta$ staat in directe relatie met de gezochte uitzettingscoëfficiënt. Op basis van de boven gegeven steekproefuitkomst $(x_{1},y_{1}),\ldots ,(x_{4},y_{4})$ kunnen schattingen $a$ en $b$ van deze parameters berekend worden. Als we daartoe de methode der kleinste kwadraten gebruiken, zijn deze schattingen gebaseerd op de volgende grootheden:

\sum {x},\sum {y},\sum {x^{2}}

en

\sum {xy}

.

Deze werden vroeger, bij "handmatige" berekening bepaald, door de tabel met de meetdata met geschikte kolommen uit te breiden en de kolomtotalen te berekenen:

waarneming nr.	$x$	$y$	$x^{2}$	$xy$
1	20	1000,02	400	20000,4
2	60	1000,96	3600	60057,6
3	100	1001,82	10000	100182,0
4	120	1002,75	14400	120330,0
totaal	300	4005,55	28400	300570,0

Als kleinste-kwadratenschatting $b$ voor de gezochte parameter $\beta$ vinden we:

b={\frac {n\sum {xy}-\sum {x}\sum {y}}{n\sum {x^{2}}-\sum {x}\sum {x}}}={\frac {4\times 300570{,}0-300\times 4005{,}55}{4\times 28400-300\times 300}}={\frac {615}{23600}}\approx 0{,}026

(mm/K).

Variantieanalyse

Vanwege de overeenkomstige analysemethodiek is het mogelijk een variantieanalyse op te vatten als een regressieanalyse. Als voorbeeld nemen we het ANOVA-model met één factor.

Y_{ij}=\mu _{i}+\sigma U_{ij}

,

waarin de $(U_{ij})$ onderling onafhankelijk zijn en alle N(0,1)-verdeeld. Dit model wordt ook vaak op equivalente wijze geschreven als:

Y_{ij}=\mu +\alpha _{i}+\sigma U_{ij}

,

met als extra voorwaarde:

\sum _{i}\alpha _{i}=0

.

Door invoeren van zgn. dummy-variabelen $x_{ki}=\delta _{ki}$ kunnen we het model ook schrijven als:

Y_{ij}=\mu _{1}x_{1i}+\cdots +\mu _{m}x_{mi}+\sigma U_{ij},

waarin het de vorm heeft van een regressiemodel zonder intercept.

Gesegmenteerde regressie

In sommige gevallen lijkt het verband tussen de variabelen stuksgewijs lineair, als een op een of meer plaatsen gebroken rechte. Het bereik van de verklarende variabele wordt dan verdeeld in segmenten, waarna een lineaire regressie per segment wordt uitgevoerd. De opdeling in segmenten kan daarbij ook onderdeel zijn van de statistische analyse.

Referenties