p-waarde

De p-waarde of overschrijdingskans (van een gegeven steekproefuitkomst) is de kans dat in de verdeling gegeven door de nulhypothese de in de steekproef waargenomen waarde van de toetsingsgrootheid wordt behaald of overschreden (links, rechts dan wel tweezijdig). De p-waarde is dus gebaseerd op de specifieke steekproefuitkomst.

De p-waarde geeft aan hoe extreem de gevonden waarde voor de toetsingsgrootheid in de verdeling onder de nulhypothese is. Hoe kleiner de p-waarde, hoe extremer de uitkomst. In de praktijk worden waarden van 5% en 1% aangehouden als grens; is de p-waarde kleiner, dan spreekt men van een significante, resp. sterk significante uitkomst.

De p-waarde vat als het ware de bewijskracht van de steekproefuitkomst in gestandaardiseerde vorm samen. Als $T$ de toetsingsgrootheid is en de steekproef daarvoor de waarde $t$ oplevert, is:

de linker overschrijdingskans:

P(T\leq t|H_{0})

de rechter overschrijdingskans:

P(T\geq t|H_{0})

en de tweezijdige overschrijdingskans:

2\min(P(T\geq t|H_{0}),P(T\leq t|H_{0}))

De p-waarde is alleen geschikt om een nulhypothese te toetsen tegen een alternatieve hypothese en doet geen uitspraak over de waarschijnlijkheid van de nulhypothese of alternatieve hypothese.

Statistische toetsen die gebruikmaken van p-waarden, komt men veel tegen in met name sociale wetenschappen, medische wetenschappen en economie.

Voorbeeld

Iemand heeft het vermoeden dat een dobbelsteen minder vaak zes gooit dan 1 op de 6 keer. Hij heeft 180 keer met de dobbelsteen gegooid en daarbij kwam 20 keer zes boven. Het aantal keren zes is de toetsingsgrootheid $T$ . De nulhypothese is dat de kans op zes gewoon 1/6 is. Onder de nulhypothese is $T$ binomiaal verdeeld met parameters $n=180$ en succeskans 1/6. De nulhypothese wordt verworpen als voor $T$ een te kleine waarde wordt gevonden; de p-waarde is dus (linkseenzijdig):

p=P(T\leq 20|H_{0})

Deze kans kan berekend worden door een normale benadering van de binomiale verdeling. Onder de nulhypothese kan $T$ als normaal verdeeld beschouwd worden met verwachting 30 en standaardafwijking

{\sqrt {180\cdot {\tfrac {1}{6}}\cdot {\tfrac {5}{6}}}}=5

Dan volgt, met $Z$ $N(0,1)$ -verdeeld:

p=P(T\leq 20|H_{0})\approx P\left(Z\leq {\frac {20-30}{5}}\right)=P(Z\leq -2)\approx 2{,}3\%

Als de vooropgestelde grenswaarde op 5% gezet is, is de gevonden waarde van 2,3% kleiner dan het significantieniveau en dus reden om aan de zuiverheid van de dobbelsteen te twijfelen.

In verband met de hierna volgende kritiek op de p-waarde is het van belang zich te realiseren dat de p-waarde ook afhankelijk is van het aantal worpen. Bij 90 worpen met de dobbelsteen is de p-waarde van 10 keer 6, ondanks dezelfde verhouding (10/90 = 20/180), gelijk aan 9,72%, dus groter dan 5%, en dus niet significant.

Kritiek op het gebruik van p-waarden

Sommige wetenschappers leveren kritiek op het gebruik van p-waarden in wetenschappelijke publicaties en trekken de relevante verbanden die de p-waarden kunnen aantonen, in twijfel. Bij een bepaalde set waarnemingen kunnen veel hypothesen geformuleerd worden die vervolgens getoetst worden. Het jagen op een vraag die een significant resultaat oplevert noemt men wel "p-hacking" en leidt vaak tot foute conclusies.^[1] Dit ligt besloten in de betekenis van de p-waarde. Een p-waarde van bijvoorbeeld 5% voor een steekproefresultaat, betekent dat in 1 op de 20 steekproeven de conclusie dat het veronderstelde effect daadwerkelijk aanwezig is, niet correct is. Door op p-waardes te jagen, worden vaak resultaten gevonden die niet herhaalbaar blijken. ^[2]

Foute interpretaties van de p-waarde

Veronderstel dat een p-waarde van 4% is gevonden en dat het significantieniveau het veel gebruikte 5% is.

Voorbeelden van foute interpretaties zijn:

Die 4% bewijst dat de nulhypothese onjuist is. (Er is geen sprake van bewijs.)

De kans dat de nulhypothese juist is, is slechts 4%. (De nulhypothese is juist of onjuist.)

De kans dat een alternatieve hypothese juist is, is minimaal 96%. (Ook de alternatieve hypothese is juist of onjuist.)

Bronnen, noten en/of referenties

↑ John P. A. Ioannidis (2005) "Why Most Published Research Findings Are False", PLoS Med 2(8): e124. DOI:10.1371/journal.pmed.0020124
↑ Regina Nuzzo (2014) "Scientific method: Statistical errors", Nature 506, pp. 150–152 DOI:10.1038/506150a

[1] John P. A. Ioannidis (2005) "Why Most Published Research Findings Are False", PLoS Med 2(8): e124. DOI:10.1371/journal.pmed.0020124

[2] Regina Nuzzo (2014) "Scientific method: Statistical errors", Nature 506, pp. 150–152 DOI:10.1038/506150a

[1]

[2]