Stel je voor: als docent sta je voor een heterogene brugklas en je hebt twee cijfers nodig. Wat doe je? Je maakt twee toetsen: een mavo versie en een havo versie. En de leerling laat je kiezen. Wat er dan gebeurt is redelijk voorspelbaar, want de ene leerling denkt: “Ik kies de makkelijke, dan weet ik zeker dat ik een voldoende haal.” Maar de andere leerling denkt: “Ik probeer de moeilijke versie, misschien lukt het.” En sommige leerlingen kijken eerst even om zich heen voor ze een beslissing nemen. Na de toets heb je een stapel resultaten. Twee kolommen cijfers. Alles lijkt in orde… Maar bij deze keuze er één probleem. En die is fundamenteler dan het op het eerste gezicht lijkt. In dit artikel schrijft gastauteur Monika Vaheoja over toets constructie en cesuurbepaling in heterogene klassen.
Wat er misgaat als leerlingen zelf kiezen
Het werken met twee toets-versies maakt de niveauverdeling helder. En daardoor lijkt de keuze van de leerling voor een toets-versie neutraal, maar dat is het niet. Welke versie een leerling kiest, hangt namelijk niet alleen af van wat hij of zij weet of kan. Maar ook deze factoren spelen mee:
- Zelfvertrouwen: een leerling die zichzelf onderschat, kiest de makkelijkere versie, ook al had hij de moeilijkere prima aangehad.
- Faalangst: een leerling met faalangst kiest voor zekerheid, niet voor uitdaging.
- Strategisch gedrag: een leerling die zijn gemiddelde wil ophalen, kiest bewust de versie waarop hij het hoogste cijfer verwacht.
De toetsscore wordt op deze manier beïnvloed door meerdere factoren. Je wilt meten wat een leerling weet en kan. Maar in dit geval meet je ook zijn of haar zelfverzekerdheid, omgang met druk en strategisch denken. En dat is niet wat een toets betekenisvol maakt (Lane & Marion, in Cook & Pitoniak, 2025). Zicht krijgen op wat de leerling kan en écht weet, dat is het doel van toetsen. Niet de leerling kiest het niveau, maar de toets moet het zichtbaar maken.
“Als een leerling zelf het niveau kiest, meet je dan nog wat hij kan? Of hoe hij kiest?”
Wat vraagt de heterogene brugklas
De heterogene brugklas bestaat niet voor niets. Het uitgangspunt is: iedere leerling moet de kans krijgen om te laten zien wat hij of zij kan, zonder dat er vooraf al een plafond is bepaald. Maar als je leerlingen laat kiezen tussen twee versies, creëer je juist een plafond. Door de mavo-leerling, die eigenlijk havo-niveau beheerst, zichzelf al weggecijferd vóór hij/zij de eerste vraag heeft gelezen. Of de havo-leerling die juist de mavo-versie kiest uit angst, waardoor hij niet ervaart waar zijn kennis grens werkelijk ligt. Leerlingen onderschatten of overschatten zichzelf. Dat is geen tekortkoming, dat is normaal. Maar als de toets daarin meegaat, meet je niet meer de ontwikkeling van de leerling, maar de zelfperceptie.
Één toets: leerlingen laten zien hoe ver ze komen
Er is een eenvoudiger en eerlijker aanpak: één toets voor iedereen, met vragen op meerdere niveaus. De toets begint met vragen die elke leerling kan maken. Daarna worden de vragen geleidelijk complexer: meer redeneren, verbanden leggen en meer toepassen. Leerlingen maken zoveel mogelijk van de toets. Ze stoppen hierbij niet bij een versie, maar laten zien hoe ver ze komen. Het niveau wordt dan zichtbaar in de antwoorden en niet in de keuze die een leerling vóór de toets heeft gemaakt.
“Niet de leerling kiest het niveau – de toets maakt het niveau zichtbaar”
Dat is ook de kern van wat Biggs (1996) bedoelt met constructieve afstemming: de toets moet meten wat leerlingen geacht worden te kunnen, op het niveau dat het onderwijs vraagt. Huff, Nichols en Schneider (in Cook & Pitoniak, 2025) werken dit uit via de toetsmatrijs: een raamwerk dat leerdoelen koppelt aan cognitieve beheersingsniveaus, van reproductie tot analyse, en aan concrete toetsvragen.
Toetsmatrijs
Een toetsmatrijs bestaat uit een tabel met twee assen: de leerdoelen van het vak op de ene as, en de cognitieve beheersingsniveaus op de andere. In elke cel staat hoeveel vragen er worden gesteld en welk type vraag daarvoor geschikt is. Zo zie je in één oogopslag of de toets evenwichtig is samengesteld of er niet te veel nadruk ligt op één niveau, of dat bepaalde leerdoelen helemaal niet getoetst worden.
Voor een heterogene klas met mavo- en havo-leerlingen kan het er dan zo uitzien:

In dit voorbeeld maken alle leerlingen alle vragen. De toetsmatrijs legt dus vast wélke vragen er komen en op welk cognitief niveau, maar bepaalt niet waar de cijfer 5.5 komt. Dit is een aparte stap, waar we later op ingaan. Huff, Nichols en Schneider (in Cook & Pitoniak, 2025) noemen dit de koppeling tussen claims: wat een leerling geacht wordt te kunnen en de concrete bewijslast die een toetsvraag oplevert. Alleen als die koppeling expliciet is gemaakt in de toetsmatrijs, weet je zeker dat de vragen meten wat je beoogt te meten.
Scores vergelijken: hoe doe je dat eerlijk?
Gebruik je toch twee toetsversies en laat je leerlingen een versie kiezen, dan is het belangrijk de vergelijkbaarheid van de toetsscores en de daarbij behorende cijfers goed in de gaten te houden. Het probleem hierbij is namelijk dat hetzelfde cijfer op beide toetsen, niet hetzelfde zegt over wat de leerling laat zien.
Een 7 op de mavo-toets en een 7 op de havo-toets zijn niet automatisch hetzelfde. De ene versie kan makkelijker zijn dan de andere. De vragen zijn anders, de weging is anders en wat er precies getoetst wordt, verschilt.
Zo kan het zijn dat een leerling met een 7 op de havo-toets minder weet dan een leerling met een 7 op de mavo-toets, maar het kan ook dat het andersom is, afhankelijk van hoe moeilijk de versies waren. Om dit op te lossen, moet je de scores van de twee toetsversies statistisch vergelijkbaar maken. Dat heet equivaleren.
Ter illustratie: twee leerlingen scoren allebei 72%. De ene op de mavo-versie (gemiddeld makkelijker: p-waarde 0.65), de andere op de havo-versie (gemiddeld moeilijker: p-waarde 0.55). Zonder correctie lijkt het gelijkspel, maar de leerling op de havo-versie heeft relatief meer laten zien. Je ziet het niet in de ruwe score.
Wat is equivaleren, en waarom is het zo lastig?
Equivaleren betekent dat twee toetsversies op dezelfde meetschaal worden gebracht, zodat scores eerlijk vergeleken kunnen worden. Moses (in Cook & Pitoniak, 2025) beschrijft wat daarvoor nodig is:
- Vragen die in beide versies voorkomen: zodat je een brug hebt tussen de twee toetsen (anker-items);
- Voldoende leerlingen die beide versies gemaakt hebben;
- Statistische analyses om de moeilijkheid van iedere vraag vast te stellen;
- Een schaalmodel om de scores van beide versies op één lijn te brengen.
In de meeste scholen gebeurt dit niet. Niet omdat docenten het niet willen, maar omdat het technisch veeleisend is voor de schoolpraktijk. De software, de steekproefomvang, de tijd ontbreekt vaak.
Ondertussen worden de scores wél met elkaar vergeleken. Iedere keer als een docent zegt “die twee leerlingen halen allebei een 7”, wordt er impliciet geëquivaleerd, zonder dat het echt gedaan is. Dit is precies de reden waarom één gedeelde toets de voorkeur verdient boven twee aparte versies. Er is dan geen equivaleringsprobleem, want iedereen maakt hetzelfde instrument. En als dat probleem is opgelost, heeft het zin om de volgende vraag te stellen: wanneer is het ‘voldoende’?
Wat betekent ‘voldoende’? Over de cesuur als inhoudelijke norm
Wanneer alle leerlingen dezelfde toets maken, volgt de vraag: wanneer heeft een leerling voldoende gescoord? En daaropvolgend: voldoende voor wélk niveau?
Een cesuur is de grens die bepaalt of een leerling geslaagd is. De plek waar het cijfer 5.5 bij hoort. Echter is die grens is geen statistisch gemiddelde en volgt ook niet automatisch uit de toetsmatrijs. Het is een inhoudelijke uitspraak: wat moet een leerling minimaal kunnen om succesvol te functioneren op mavo-niveau? En op havo-niveau? Ferrara, Davis-Becker, Kannan en Reynolds (in Cook & Pitoniak, 2025) beschrijven dit als een proces waarbij cesuren verankerd horen te zijn in de leerdoelen van het vak en de eisen van het curriculum, en niet in wat statistisch handig uitkomt.
Angoff-methode
Een beproefde methode om dit te doen is de Angoff-methode. Die werkt via het concept van de grensleerling: de leerling die nét voldoende functioneert op een bepaald niveau. Vakexperts schatten per toetsvraag in hoe groot de kans is dat deze grensleerling het antwoord goed heeft. De optelsom van al die kansen geeft de cesuur. Daarbij komt dat het inhoudelijk verankeren in wat een leerling minimaal moet kunnen, niet afgeleid wordt uit een Bloom-drempel of statistisch percentage. Of van de jan-boeren-fluitjes-methode: met behaald/maximum+Nterm.
Door het toepassen van de Angoff-methode twee keer te doen, één keer voor de grensleerling op mavo-niveau en één keer voor de grensleerling op havo-niveau, krijgt iedere leerling twee cijfers op basis van dezelfde toetsscore. Zo ontstaan drie zones op de schaal:
- Onder de mavo-cesuur: basisvaardigheden zijn nog onvoldoende; extra ondersteuning is nodig.
- Tussen mavo en havo: de leerling beheerst het mavo-niveau en ontwikkelt zich richting havo.
- Boven de havo-cesuur: de leerling laat vaardigheden zien die passen bij havo-niveau; doorstroom is goed onderbouwd.
Dit geeft niet alleen een cijfer, maar ook informatie over waar een leerling staat en wat de volgende stap is.
Conclusie: de toets als eerlijk meetinstrument
Conclusie is dat het werken met twee versies van toetsen altijd het probleem van vergelijking en equivaleren met zich meebrengt. Én daarmee de invloed van zelfvertrouwen, faalangst of strategie op de toetsscore. Een eerlijker aanpak is: één toets met vragen op meerdere niveaus, opgebouwd via een toetsmatrijs. En vervolgens het gebruiken van vastgestelde cesuren voor het bepalen van het grensniveau. Op deze manier draagt de manier van toetsing bij aan iedere leerling dezelfde mogelijkheid bieden om te laten zien wat hij of zij weet. Zonder plafond, passend bij het uitgangspunt van een heterogene brugklas. Een leerling die meer kan dan verwacht, laat dat op deze wijze zien. Een leerling die minder kan dan verwacht, ook. Dan kiest niet de leerling het niveau. Maar maakt de toets het zichtbaar. De toets volgt de leerling, niet andersom.
Reflectievraag:
Als een leerling zelf het niveau kiest, meet je dan nog wat hij kan, of hoe hij kiest?
De wetenschappelijke basis voor deze aanpak is uitgewerkt in de vijfde editie van Educational Measurement (Cook & Pitoniak, 2025), het standaardwerk op het gebied van toetsconstructie en cesuurbepaling.
American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. AERA.
Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike (Ed.), Educational measurement (2nd ed., pp. 508–600). American Council on Education.
Biggs, J. (1996). Enhancing teaching through constructive alignment. Higher Education, 32(3), 347–364.
Cook, L. L., & Pitoniak, M. J. (Eds.). (2025). Educational measurement (5th ed.). Oxford University Press.
Ferrara, S., Davis-Becker, S., Kannan, P., & Reynolds, K. (2025). Standard setting: A cognitive and social model. In L. L. Cook & M. J. Pitoniak (Eds.), Educational measurement (5th ed., hoofdstuk 12). Oxford University Press.
Huff, K., Nichols, P., & Schneider, M. C. (2025). Designing and developing educational assessments. In L. L. Cook & M. J. Pitoniak (Eds.), Educational measurement (5th ed., hoofdstuk 7). Oxford University Press.
Lane, S., & Marion, S. (2025). Validity and validation. In L. L. Cook & M. J. Pitoniak (Eds.), Educational measurement (5th ed., hoofdstuk 4). Oxford University Press.
Moses, T. (2025). Scaling, equating, and linking. In L. L. Cook & M. J. Pitoniak (Eds.), Educational measurement (5th ed., hoofdstuk 11). Oxford University Press.
Zwick, R. (2025). Fairness in educational measurement: Theory and concepts. In L. L. Cook & M. J. Pitoniak (Eds.), Educational measurement (5th ed., hoofdstuk 6). Oxford University Press.
