Equivalentietesten

07-10-2020

Een nieuwe grondstofleverancier komt aandraven met een betere prijs, een bestaand product wordt op een nieuwe productielijn gemaakt, een product wordt uitbesteed aan een toeleverancier i.p.v. het zelf te produceren...: hoe garandeer je aan de klant dat de kwaliteit van het eindproduct hetzelfde blijft?

Hypothesetesten worden vaak verkeerd geïnterpreteerd.

Van zodra we twee groepen willen vergelijken, wordt meestal beroep gedaan op hypothesetesten. Zo wordt bv. een t-test wordt vaak gebruikt om het gemiddelde van twee steekproeven te vergelijken. Uiteraard verwachten we dat het verschil tussen beide steekproefgemiddeldes in de buurt van nul zal liggen als beide groepen eenzelfde gemiddelde hebben. Als het verschil tussen beide steekproefgemiddeldes echter te ver afwijkt van nul (de roodgekleurde zone in onderstaande afbeelding), dan besluiten we (terecht) dat de groepen verschillend zijn.

Wanneer het verschil tussen beide steekproefgemiddeldes echter in de groene zone zone blijft, dan is dit echter geen bewijs dat de beide groepen eenzelfde gemiddelde hebben. Hieronder een statistisch rapport uit Minitab voor een dergelijke situatie.

Vergelijk dit met onze rechtspraak

Een mooie parallel met de manier van denken in hypothesetesten is onze rechtspraak. Hier vertrekken we van de basisveronderstelling dat je onschuldig bent (= de nulhypothese). We blijven dan ook deze nulhypothese aanhouden, tenzij er voldoende bewijsmateriaal wordt aangeleverd waardoor de kans dat je onschuldig bent toch wel heel klein wordt: in dat geval schakelen we over naar de alternatieve hypothese en word je dus schuldig bevonden.
Wanneer de rechter jou echter vrijspreekt, dan is dit geen bewijs dat je ook effectief onschuldig bent. Mogelijks werd er te weinig bewijsmateriaal verzameld of naar voor gebracht, enzovoort, waardoor er onvoldoende aanwijzingen zijn om de nulhypothese te verwerpen.

In hypothesetesten is de werkwijze volledig analoog. Onze nulhypothese is dat de beide groepen eenzelfde gemiddelde hebben. Wanneer we de nulhypothese niet kunnen verwerpen op basis van cijfermateriaal, dan is dit geen bewijs dat de groepen gelijk zijn: het zou namelijk best kunnen zijn dat we te weinig gegevens (=bewijsmateriaal) verzameld hebben.

Equivalentietesten lossen het probleem op

Precies om het bovenstaand probleem te vermijden, werden equivalentietesten ontwikkeld.

Bij equivalentietesten worden de nulhypothese H0 en de alternatieve hypothese omgewisseld. We vertrekken nu namelijk van de basisveronderstelling dat de groepen verschillend zijn en moeten nu bewijzen dat deze nulhypothese niet waar is om equivalentie te kunnen aantonen.

Afbeelding 3 toont een statistisch rapport uit Minitab voor dezelfde gegevens als de t-test van hierboven waarbij H0 niet werd verworpen. Uit deze equivalentietest blijkt nu duidelijk dat op basis van de beschikbare data geen equivalentie kan aangetoond worden. Er is met andere woorden ofwel onvoldoende data verzameld om te kunnen bewijzen dat de groepen equivalent zijn, ofwel hebben de twee groepen effectief een verschillend gemiddelde. Werk aan de winkel dus.

Het leuke aan statistische pakketten zoals Minitab is dat er naast de statistische berekeningen ook een grafisch plaatje getoond wordt dat de conclusie helder maakt: