9.1 Inleiding
Onder beoordelen wordt in dit hoofdstuk de beoordeling van de vaardigheid van de taalgebruiker verstaan. Alle taaltoetsen zijn een vorm van beoordeling, maar er zijn ook vele vormen van beoordeling die wij niet strikt genomen "toetsen" noemen (bijvoorbeeld checklists zoals gebruikt bij permanente evaluatie; informele observatie door de docent/leerkracht). Een term die breder is dan beoordeling is evaluatie. Bij een taalprogramma worden behalve de vaardigheid van de leerder nog een aantal andere zaken geëvalueerd. Hiertoe kunnen behoren de doeltreffendheid van bepaalde methoden of materialen, de soorten en kwaliteiten van het feitelijk geproduceerde taalgebruik, de tevredenheid van leerder en docent/leerkracht, de doeltreffendheid van het onderwijs, enzovoort. Dit hoofdstuk gaat over beoordeling, niet over bredere zaken die betrekking hebben op de evaluatie van onderwijsprogramma's.
Gewoonlijk onderscheidt men drie begrippen in elke discussie over beoordeling: validiteit, betrouwbaarheid en uitvoerbaarheid. Met het oog op de discussie in dit hoofdstuk is het nuttig uiteen te zetten wat met deze termen wordt bedoeld, hoe ze samenhangen en hoe relevant ze zijn voor het Gemeenschappelijk Referentiekader.
Validiteit is het concept waarop het Referentiekader betrekking heeft. Een toets- of beoordelingsprocedure is valide voor zover kan worden aangetoond dat wat daadwerkelijk beoordeeld wordt (het construct) ook datgene is wat in de betreffende context zou moeten worden beoordeeld, en dat de verkregen informatie een goed beeld geeft van de vaardigheid van de betrokken kandidaat of kandidaten.
Betrouwbaarheid daarentegen is een technische term. Het betreft in de eerste plaats de mate waarin kandidaten in dezelfde rangorde worden geplaatst bij twee aparte (echte of gesimuleerde) varianten van dezelfde beoordeling.
Belangrijker dan betrouwbaarheid is in feite de nauwkeurigheid van beslissingen die worden genomen in relatie tot een norm. Wanneer de beoordeling resultaten oplevert zoals geslaagd/gezakt of Niveau A2+/B1/B1+, hoe nauwkeurig zijn dan deze beslissingen? De nauwkeurigheid hangt af van de validiteit van de desbetreffende norm (bijvoorbeeld niveau B1) in de gegeven context. De nauwkeurigheid hangt daarnaast af van de validiteit van de criteria die worden gehanteerd om tot de beslissing te komen en de validiteit van de procedures met behulp waarvan deze criteria zijn opgesteld.
Wanneer twee verschillende organisaties of regio's hun beoordelingsbeslissingen voor dezelfde vaardigheid baseren op criteria die betrekking hebben op dezelfde normen, wanneer ook die normen zelf valide en geschikt zijn voor de beide betrokken contexten, en wanneer de normen op consistente wijze worden geïnterpreteerd bij het ontwerp van de beoordelingstaken en het interpreteren van het prestaties, dan zullen de resultaten van beide systemen onderling samenhangen. De correlatie tussen twee toetsen die tot doel hebben hetzelfde construct te beoordelen, wordt wel 'concurrente validiteit' genoemd. Dit concept kan uiteraard niet los worden gezien van betrouwbaarheid, omdat onbetrouwbare toetsen niet kunnen correleren. Van groter belang is echter wat de beide toetsen gemeen hebben namelijk wat beoordeeld wordt en hoe prestaties geïnterpreteerd worden.
Met deze laatste twee vragen houdt het Gemeenschappelijk Europees Referentiekader zich bezig.
In 9.2 wordt ingegaan op drie belangrijke manieren waarop het Referentiekader kan worden gebruikt:
| 1. | Voor de specificatie van de inhoud van toetsen en examens: | wat wordt getoetst |
| 2. | Voor het benoemen van de criteria op grond waarvan men bepaalt of een doelstelling is verwezenlijkt: | hoe worden prestaties beoordeeld |
| 3. | het beschrijven van niveaus van vaardigheid in bestaande toetsen en examens, waardoor vergelijkingen mogelijk worden tussen verschillende kwalificatiesystemen: | hoe vergelijkingen kunnen worden gemaakt |
Deze onderwerpen hangen bij verschillende soorten beoordeling op verschillende manieren samen. Er bestaan vele vormen en tradities op het gebied van beoordeling. Het is een misvatting te denken dat de ene benadering (bijvoorbeeld een openbaar examen) noodzakelijkerwijs een betere invloed heeft op het onderwijs dan een andere benadering (bijvoorbeeld als beoordeling door docenten/leerkrachten wordt ontworpen). Een groot voordeel van samenhangende gemeenschappelijke normen ‑ zoals het Europees Referentiekader – is wel dat deze het mogelijk maken verschillende vormen van beoordeling te vergelijken.
In paragraaf 9.3 van dit hoofdstuk worden verschillende soorten beoordeling met elkaar vergeleken. Deze keuzemogelijkheden worden gepresenteerd in de vorm van tegengestelde paren. Telkens worden de gebruikte termen gedefinieerd en de bijbehorende voor- en nadelen besproken in functie van het doel van de beoordeling in de betrokken onderwijscontext. Tevens wordt vermeld wat de implicaties zijn van de keuze voor het ene of het andere alternatief. Vervolgens wordt aangegeven hoe relevant het Referentiekader is voor het betrokken beoordelingstype.
Een beoordelingsprocedure moet ook praktisch en uitvoerbaar zijn. Uitvoerbaarheid is vooral van belang bij prestatiegerichte toetsen. Beoordelaars werken onder tijdsdruk. Ze zien maar een beperkt aantal voorbeeldprestaties en er zijn onvermijdelijk grenzen aan het aantal verschillende categorieën dat zij als criteria kunnen hanteren. Het Referentiekader is geen beoordelingsmiddel, het is bedoeld als referentiepunt. Het Referentiekader op zich moet allesomvattend zijn, de gebruikers daarentegen moeten hun eigen keuzes maken. Het is heel goed denkbaar dat men kiest voor een eenvoudiger operationeel raamwerk en dat categorieën worden samengevoegd die in het Referentiekader wel gescheiden zijn. Zo zijn de categorieën die worden gebruikt in de schalen met illustratieve descriptoren in de overzichten bij hoofdstuk 4 en 5 vaak veel eenvoudiger dan de categorieën en hun exponenten in de tekst zelf. In paragraaf 9.4 wordt deze kwestie, met voorbeelden, behandeld.