Mann-Whitney U test: Een uitgebreide gids voor statistiek zonder normaalverdeling

Site-eigenaar Misc 3. september 2025 | 0

Inleiding: wat is de Mann-Whitney U test?

De Mann-Whitney U test, vaak afgekort als Mann-Whitney U test, is een niet-parametrische statistische toets die wordt gebruikt om te bepalen of twee onafhankelijke steekproeven afkomstig zijn uit vergelijkbare populaties. In tegenstelling tot de traditionele t-toets, vereist de Mann-Whitney U test geen aanname van normaliteit van de data. Dit maakt de test bijzonder geschikt voor kleine steekproeven, scheve verdelingen, of data die op ordinale schalen zijn gemeten. Door de rangorde van alle waarnemingen te analyseren, in plaats van de exacte waarden, geeft de Mann-Whitney U test waardevolle informatie over verschillen tussen twee groepen.

Wanneer kies je voor de Mann-Whitney U test?

De Mann-Whitney U test is passend in verschillende situaties. Gebruik deze toets als:

Je twee onafhankelijke groepen wilt vergelijken en de data niet normaal verdeeld zijn, of als de steekproefomvang klein is.
Je data op een ordinale schaal meetbaar zijn (bijvoorbeeld rangordes, Likert-schaal).
Je robuste resultaten wilt die minder gevoelig zijn voor uitschieters dan bij de t-toets.

Het is ook handig om te weten dat de Mann-Whitney U test vaak wordt gezien als een alternatief voor de Wilcoxon rank-sum test. In veel statistische artikelen en pakketten worden deze termen als equivalent beschouwd, maar er bestaan nuances in definities van de statistieken die per context kunnen verschillen.

Kernbegrippen: rangorde, U-statistiek en W-statistiek

Rangorde en de basis van de test

Bij de Mann-Whitney U test combineer je alle waarnemingen uit beide groepen en rangschik je ze van laag naar hoog. Vervolgens kijk je naar de som van de rangen voor elke groep. Deze rangen geven een robuuste representatie van de positie van elke waarneming ten opzichte van de verzamelde data. De basisgedachte is eenvoudig: als beide populaties dezelfde verdeling hebben, dan zouden de rangen tussen de twee groepen vergelijkbaar verdeeld moeten zijn. Een systematische afwijking in de rangsommen duidt op een mogelijk verschil tussen de populaties.

U-statistiek en W-statistiek: van rang tot conclusie

De twee belangrijkste statistieken in deze toets zijn de U-statistiek en de W-statistiek. De U-statistiek relateren we direct aan het aantal keren dat observeerde waarneming uit groep A bij kleinere rangorde voorkomt ten opzichte van groep B. Voor twee groepen met sizes n1 en n2 geldt:

U1 = n1·n2 + n1(n1 + 1)/2 − W1
U2 = n1·n2 + n2(n2 + 1)/2 − W2

Waar W1 en W2 respectievelijk de som van de rangen in groep 1 en groep 2 zijn. In de praktijk kiezen velen de kleinere U-waarde als teststatistiek. Het verschil tussen U en W is dus direct gekoppeld aan de som van rangen van de ene groep ten opzichte van de andere.

Assumpties van de Mann-Whitney U test

Zoals elke statistische toets kent ook de Mann-Whitney U test voorwaarden waaraan voldaan moet worden voor een betrouwbare interpretatie:

Two onafhankelijke steekproeven; de waarnemingen in de ene groep zijn onafhankelijk van die in de andere groep.
Waarnemingen kunnen ordinaal zijn of continu, maar de volgorde is betekenisvol (rangorde is cruciaal).
De rangorde is gebaseerd op alle data samen, niet op elke groep apart.
Er mag sprake zijn van ties (gelijke waarden). In dat geval volgen correcties om de verdeling van U te actualiseren.

Belangrijk is dat de Mann-Whitney U test geen aanname doet over de vorm van de verdeling (zoals normaliteit bij de t-toets), waardoor het een robuuste keuze is bij scheve of onbekende verdelingen.

Hoe bereken je de Mann-Whitney U test stap voor stap

Hier volgt een beknopt, maar praktisch stappenplan om de Mann-Whitney U test handmatig te begrijpen en uit te voeren. Dit helpt ook bij het interpreteren van resultaten uit statistische pakketten in R, Python, SPSS of Excel.

Stap 1: Verzamel en combineer de data

Verzamel de waarden uit beide groepen en combineer ze in één dataset. Label elke waarneming met de groep waartoe hij behoort (bijvoorbeeld A of B).

Stap 2: Rangschikking van alle waarnemingen

Rangschik alle gecombineerde waarnemingen van laag naar hoog. Bij gelijke waarden krijgt elk gelijke waarneming een gemiddelde rang (ties).

Stap 3: Bereken de som van de rangen per groep

Tel voor elke groep de rangen op. Noem de som van rangen voor groep A WA en die voor groep B WB.

Stap 4: Bereken de U-statistieken

Gebruik de formules:

U_A = n_A·n_B + (n_A(n_A + 1))/2 − WA
U_B = n_A·n_B + (n_B(n_B + 1))/2 − WB

De uiteindelijke teststatistiek is meestal de kleinere van U_A en U_B. Als beide groepen even groot zijn, zijn de waarden vaak gelijk aan elkaar in verwachting.

Stap 5: Bepaal de p-waarde

Voor grote steekproeven is de verdeling van U approximateerbaar door een normale verdeling. Vervolgens bereken je Z als:

Z = (U − mu_U) / sigma_U, met mu_U = n_A·n_B/2 en sigma_U = sqrt(n_A·n_B·(n_A + n_B + 1)/12).

Voor kleinere steekproeven zijn exacte p-waarden mogelijk, vaak via tabellen of software.

Stap 6: Interpretatie

Een lage p-waarde (< 0,05, vaak) suggereert dat de twee groepen significant verschillend zijn in termen van hun rangordes. Let op de richting van het verschil: groep A heeft mogelijk hogere of lagere rangen dan groep B, wat je kunt afleiden uit de signatuur van U of uit de som van rangen.

Normal-approximering en ties: wat verandert jouw interpretatie?

Bij grote steekproeven convergeert de verdeling van U naar een normale verdeling. De correctie bij ties is essentieel wanneer er gelijke waarden voorkomen, omdat ties de variabiliteit van U beïnvloeden. In deze gevallen wordt de standaarddeviatie aangepast met een factor die afhangt van het aantal ties en de verdeling van rangnummers.

Effectgrootte en interpretatie van de uitslag

Naast de p-waarde is de effectgrootte cruciaal voor praktische interpretatie. Een veelgebruikte optie is de correlatiecoëfficiënt r, berekend als r = Z / sqrt(N), waarbij Z de Z-score is uit de normal-approximation en N het totale aantal waarnemingen is (N = n_A + n_B). Een effectgrootte geeft aan hoe sterk het verschil is, ongeacht de steekproefgrootte. Interpretatiekaders: r ≈ 0.1 (klein), r ≈ 0.3 (middelgroot), r ≥ 0.5 (groot).

Ties en correcties: wat betekent dit voor je berekeningen?

Ties compliceren de berekening van de standaardfout en de verdeling van U. Bij een hoog aantal gelijke waarden moeten de correcties worden toegepast om eerlijke p-waarden te krijgen. Moderne statistische pakketten handelen dit automatisch af, maar het is waardevol om te begrijpen dat ties de interpretatie van de p-waarde en de effectgrootte kunnen beïnvloeden.

Voorbeelden in de praktijk: stap-voor-stap berekeningen

Stel, je hebt twee onafhankelijke groepen met aansluitende metingen over een nieuwe behandeling versus standaardbehandeling. Groep A (n_A = 6) heeft de volgende scores: 12, 15, 14, 10, 13, 11. Groep B (n_B = 7) heeft: 9, 8, 11, 10, 12, 9, 7. Je wilt weten of de behandelingsgroep significant hoger scoort dan de controlegroep.

Door alle waarden samen te voegen en te rangschikken, bereken je WA en WB, vervolgens U_A en U_B, en ten slotte de p-waarde via normale benadering of exacte berekening. Uit de berekeningen komt naar voren of de verdeling van scores verschilt tussen de groepen of niet. Let op: de uiteindelijke conclusie hangt af van zowel de p-waarde als de richting van de verschillen in rangen.

Praktische implementaties in statistische omgevingen

In de praktijk voer je de Mann-Whitney U test meestal uit met statistische software. Hieronder staan korte aanwijzingen voor veelgebruikte tools. Dit gedeelte is informatief en helpt bij het lezen van resultaten in een rapport of paper.

R

In R kun je de test uitvoeren met de functie wilcox.test, die vaak wordt gebruikt als de Wilcoxon rank-sum test, wat vrijwel hetzelfde is als de Mann-Whitney U test in de basisinterpretatie. Voor twee onafhankelijke steekproeven:

wilcox.test(x ~ groep, data = data.frame(x, groep), exact = FALSE, correct = TRUE)

Hierbij is x de vector met alle waarnemingen en groep een factor die de twee groepen aangeeft. De uitslag bevat de p-waarde en de bijbehorende W-statistiek.

Python (SciPy)

In Python kun je scipy.stats.mannwhitneyu gebruiken voor twee onafhankelijke steekproeven:

from scipy.stats import mannwhitneyu
stat, p = mannwhitneyu(groep_a, groep_b, alternative='two-sided')

De parameter alternative kan ’two-sided’, ‘less’ of ‘greater’ zijn afhankelijk van de hypothese over het verschil in groepen.

SPSS

In SPSS kun je de non-parametrische test vinden onder Nonparametric Tests > Legacy Dialogs > 2 Independent Samples. Kies Mann-Whitney U en geef de twee groepen aan, plus de afhankelijke variabele. SPSS geeft p-waarde en relevante statistieken. Let op de rapportage: vermeld of de test twee-zijdig of eenzijdig is en rapporteer de exacte U of W waarde.

Excel

Excel heeft geen ingebouwde Mann-Whitney U test, maar je kunt wel rangordening en som van rangen handmatig berekenen, of gebruik maken van add-ins. Voor complexe analyses is het aan te raden om R of Python te gebruiken voor reproduceerbare resultaten.

Valkuilen en veelgestelde vragen

Verwarring tussen Mann-Whitney U test en Wilcoxon rank-sum test:veelal hetzelfde in de praktijk, maar let op definities in specifieke literatuur.
Grote aantallen ties vragen om correcties; zonder correcties kan de p-waarde scheef uitpakken.
Niet-parametrische testen geven geen directe informatie over de grootte van het verschil in middelwaarden, maar over de mate waarin de rangvolgorde verschilt tussen de groepen. Voor interpretatie is de effectgrootte onmisbaar.
Kleine steekproeven kunnen resulteren in minder krachtige tests. In zulke gevallen is het nuttig om exact berekende p-waarden te gebruiken wanneer beschikbaar.

Mann-Whitney U test versus Wilcoxon rank-sum test: wat is het verschil?

De termen Mann-Whitney U test en Wilcoxon rank-sum test worden in de literatuur vaak door elkaar gebruikt. In essentie testen beide methoden of twee onafhankelijke populaties verschillen in hun dominante rangorde. De U-statistiek en de W-statistiek zijn nauw verwant; de relatie U = n_A·n_B − W heeft te maken met de definities. Voor praktische rapportage maakt dit meestal niet uit; wat telt is dat de test een verschil detecteert in de ordening van waarnemingen tussen de twee groepen.

Interpretatie en rapportage: hoe rapporteer je de resultaten?

Bij het rapporteren van de Mann-Whitney U test kun je de volgende elementen opnemen:

De twee groepen en de steekproefgroottes (n_A en n_B).
De statistiek (U-waarde of W-waarde) en de bijbehorende p-waarde.
De richting van het verschil, indien relevant: welke groep hoger scoort in de rangorde?
De effectgrootte r (als berekend), met interpretatieniveaus (klein, middelgroot, groot).
Eventuele toespraken over ties en de gebruikte correcties.

Een voorbeeld van een rapportage kan zijn: “Een Mann-Whitney U test toonde aan dat er een significant verschil bestaat tussen groep A en groep B (U = 24, p = 0.02). De effectgrootte r was 0.36, wat wijst op een middelgroot verschil in rangorde tussen de twee groepen.”

Samenvatting en praktische tips

De Mann-Whitney U test is een krachtige, flexibele niet-parametrische toets die twee onafhankelijke groepen vergelijkt op basis van rangorde. Belangrijke punten om te onthouden:

De test vereist onafhankelijke steekproeven en ordinale of continue data.
Normaliteit is geen vereiste; de test is robuust bij niet-normale verdelingen.
Ties vereisen correcties in de berekening van p-waarden en variabiliteit.
Rapporteer zowel p-waarde als effectgrootte voor een praktische interpretatie.
Verwarringen tussen termen zoals Mann-Whitney U test en Wilcoxon rank-sum test bestaan vaak; begrip van de samenhang helpt bij interpretatie van literatuur en software-uitvoer.

Extra overwegingen bij onderzoeksontwerpen

Wanneer je een studie ontwerpt die de Mann-Whitney U test vereist, overweeg dan:

De gekozen hypothese: tweezijdig of eenzijdig? Dit beïnvloed de p-waarde en de interpretatie.
De benodigde power: niet-parametrische testen hebben doorgaans minder power bij identieke populatiecondities vergeleken met parametric tests bij normale verdelingen. Geef hiermee rekening bij het plannen van steekproefgroottes.
Gegevenskwaliteit: zorg voor duidelijke definitie van de groepen, consistente metingen en zo min mogelijk ontbrekende waarden. Verwijder of impute ontbrekende data zorgvuldig en transparant als dat nodig is.