Hoofdstuk 12 VERGELIJKEN VAN VERDELINGEN

Tot nu toe hebben we technieken besproken die uitgaan van een specifiek statistisch model en waar parameters van dat model (gemiddelde, helling) geschat worden en hypotheses getoetst kunnen worden. Een andere set van technieken, die we in dit laatste hoofdstuk gaan bespreken, is ontwikkeld om frequentieverdelingen met elkaar te vergelijken of een geobserveerde verdeling te vergelijken met een verwachte verdeling (eigenlijk kunnen sommige van deze methodes ook als lineaire modellen geschreven worden, maar dat behandelen we in een latere cursus). Er zijn vele verschillende tests beschikbaar. De meest eenvoudige test is de binomiaal test, die in de eerste hoofdstukken van deze cursus al aan bod kwam. Deze methode laat toe om een geobserveerde proportie (vb. kans op ’kop’ gooien met muntstuk) te vergelijken met een verwachte waarde (bv. 50%). Een meer algemeen toepasbare methode is de Chi-kwadraat goodness-of-fit test die gebruikt kan worden om een aantal waarnemingen over meer dan 2 klassen te vergelijken met een verwachte verdeling (bv. het voorkomen van 3 vissoorten in een rivier vergelijken met een verwachte verdeling volgens een bepaald model) of twee geobserveerde verdelingen vergelijken (bv. het voorkomen van die 3 vissoorten in 2 rivieren vergelijken). Daarna wordt de Kolmogorov-Smirnov test uitgewerkt, welke een zeer algemeen toepasbare methode is. Tot slot vermelden we nog kort de Shapiro-Wilks test, die specifiek normaliteit gaat bestuderen. Het is een test die afgeleid is van de normal probability plot of QQ-plot, die we al eerder in deze cursus gebruikten.

12.1 TESTS VOOR DISCRETE VERDELINGEN/TELLINGEN

Laten we van wal steken met een voorbeeld. Stel je hebt een kruisingsexperiment uitgevoerd met planten en de bloemen kunnen wit, roze of rood gekleurd zijn. Je veronderstelt dat de kleur van de bloemen door 1 gen bepaald wordt en dat er 2 allelen zijn die co-dominant zijn. Je verwacht dat de verhouding wit:roze:rood de ratio 1:2:1 zal volgen (herinner je de wetten van Mendel). Je voert een experiment uit en bepaalt de kleur van de bloemen van 240 planten en observeert resp. 53 witte, 132 roze en 55 rode bloemen. De geobserveerde waarden worden met Oi genoteerd, de verwachte waarden met Ei. De verwachte aantallen zijn resp. 60, 120 en 60. De Chi-kwadraat goodness-of-fit test is gebaseerd op de volgende formule:

\[\chi^2 = \sum\limits_{i = 1}^n\frac{(O_i-E_i)^2}{E_i}\] Onder \(H_0\), dat de geobserveerde frequentie dezelfde is als de verwachte, volgt deze test statistiek een Chi-kwadraat verdeling met aantal vrijheidsgraden gelijk aan het aantal klassen-1. Voor het voorbeeld krijgen we een Chi-kwadraat waarde van 2.44 die als volgt berekend kan worden: