Het Gemeenschappelijk Europees Referentiekader - online versie

Bijlage A. Ontwikkeling van taalvaardigheidsdescriptoren

In deze bijlage worden technische aspecten besproken van het beschrijven van taalvaardigheidsniveaus. Eerst komen criteria voor de formulering van descriptoren aan de orde. Vervolgens worden methodieken voor de ontwikkeling van schalen opgesomd, waarna een geannoteerde literatuurlijst wordt gegeven.

Descriptoren formuleren

Op basis van ervaring met schalen voor taaltoetsen, de theorie van het schalen op het bredere terrein van de toegepaste psychologie en de voorkeuren van adviserende docenten/leerkrachten (bijvoorbeeld in het Verenigd Koninkrijk en Zwitserland) komen wij tot de volgende richtlijnen voor de ontwikkeling van descriptoren:

  • Positiviteit:
    Vaardigheidsschalen ten behoeve van beoordelaars en examinatoren worden nogal eens gekenmerkt door negatieve formuleringen van de laagste niveaus. Het is moeilijker om taalvaardigheid op de laagste niveaus uit te drukken in termen van wat leerders wel kunnen dan in termen van wat zij niet kunnen. Toch is een positieve formulering gewenst als vaardigheidsniveaus niet alleen als selectie-instrument maar ook als doelstelling moeten fungeren. Soms is het mogelijk hetzelfde punt positief of negatief te formuleren, bijvoorbeeld met betrekking tot het taalbereik (zie tabel A1).

    Een bijkomende complicatie van het vermijden van negatieve formuleringen is dat bepaalde aspecten van communicatieve taalvaardigheid niet additioneel zijn. Hoe minder hoe beter. Het duidelijkste voorbeeld betreft een aspect dat wel 'onafhankelijkheid' wordt genoemd, de mate waarin de leerder afhankelijk is van (a) verbeteringen door de gesprekspartner, (b) de kans om verduidelijking te vragen en (c) de kans om hulp te krijgen bij het formuleren van wat hij of zij wil zeggen. Vaak kunnen zulke punten worden beschreven in clausules bij een positief geformuleerde descriptor, bijvoorbeeld als volgt:

    Kan over het algemeen heldere, tot hem of haar gerichte gesproken standaardtaal begrijpen over vertrouwde zaken, mits hij of zij af en toe om herhaling of herformulering kan vragen.

    Kan begrijpen wat helder, langzaam en rechtstreeks tot hem of haar wordt gezegd in eenvoudige alledaagse conversatie; kan tot begrip worden gebracht als de spreker daarvoor de moeite neemt.
    of
    Kan redelijk gemakkelijk interactie aangaan in gestructureerde situaties en korte gesprekken, mits de ander helpt als dat nodig is.
    Tabel A1. Beoordeling met positieve en negatieve criteria

  • Positief

    Negatief

    • beschikt over een repertoire van elementaire taal en strategieën dat hem of haar in staat stelt met voorspelbare alledaagse situaties om te gaan. (Eurocentres, niveau 3: certificaat)

    • basisrepertoire van taal en strategieën dat voldoet voor de meeste alledaagse behoeften, maar meestal met een bijgestelde boodschap en zoeken naar woorden. (Eurocentres, niveau 3: beoordelingsmatrix)

    • beschikt over een smal taalrepertoire, dat voortdurend herformuleren en zoeken naar woorden vereist. (ESU, niveau 3)

    • beperkte taalvaardigheid leidt regelmatig tot afbreken van de communicatie en tot misverstanden in niet-alledaagse situaties. (Finse schaal, niveau 2)

    • communicatie wordt afgebroken doordat taalbeperkingen de boodschap verstoren. (ESU, niveau 3)

    • woordenschat concentreert zich op gebieden als elementaire voorwerpen, plaatsen en veelgebruikte familierelaties. (ACTFL, beginner)

    • heeft slechts een beperkte woordenschat. (Nederlands, niveau 1)

    • beperkt bereik van woorden en uitdrukkingen verhindert uitwisselingen van gedachten en ideeën. (Universiteit van Gotenburg)

    • produceert en herkent een reeks uit het hoofd geleerde woorden en korte frasen. (Trim 1978, niveau 1)

    • kan alleen gestandaardiseerde uitingen, lijstjes en opsommingen voortbrengen. (ACTFL, beginner)

    • kan korte alledaagse uitdrukkingen voortbrengen om eenvoudige behoeften van concrete aard te vervullen (op het gebied van begroetingen, inlichtingen, enz.). (Elviri, Milan, niveau 1, 1986)

    • beschikt alleen over het meest basale taalrepertoire en geeft geen of weinig blijk van een functionele beheersing van de taal. (ESU, niveau 1)


  • Gedefinieerdheid: Descriptoren moeten concrete taken en/of een concrete mate van vaardigheid in het uitvoeren van taken beschrijven. Daarbij zijn twee punten van belang. Ten eerste moeten in de descriptor vaagheden zoals 'Kan een reeks geëigende strategieën gebruiken' worden vermeden. Wat wordt bedoeld met een strategie? Geëigend voor wat? Hoe moeten we 'reeks' opvatten? Het probleem met vage descriptoren is dat ze weliswaar lekker leesbaar zijn, maar dat iedereen ze daardoor op een andere wijze interpreteert. Ten tweede geldt al sinds de jaren veertig van de vorige eeuw dat het onderscheid tussen stappen op een schaal niet afhankelijk mag zijn van het vervangen van een kwalificerende term als 'sommige' of 'een paar' door 'veel' of 'de meeste', of van 'tamelijk breed' door 'zeer breed', of van 'matig' door 'goed' om een volgend niveau aan te duiden. Verschillen moeten reëel zijn, niet een kwestie van woorden. Dit kan betekenen dat bij sommige aspecten de descriptoren verder uiteen liggen en er gaten in de schaal ontstaan waar geen betekenisvol concreet onderscheid kan worden gemaakt.

  • Helderheid: Descriptoren moeten transparant zijn, niet bol staan van vakjargon. Jargon maakt descriptoren niet alleen minder begrijpelijk, maar soms blijkt een schijnbaar indrukwekkende descriptor, ontdaan van het vakjargon, erg nietszeggend te zijn. Bovendien moeten descriptoren in eenvoudige zinnen worden geformuleerd met een expliciete, logische structuur.

  • Bondigheid: In één benadering, vooral populair in Amerika en Australië, wordt gebruik gemaakt van holistische schalen. Daarin worden met lange paragrafen op alomvattende wijze de aspecten beschreven die het belangrijkst worden geacht. Met zulke schalen wordt 'gedefinieerdheid' bereikt door een zeer uitputtende opsomming die bedoeld is als gedetailleerd portret van wat beoordelaars kunnen herkennen als een typische leerder van het desbetreffende niveau. Deze schalen vormen daardoor een rijke bron van beschrijvingen. Er kleven echter ook twee nadelen aan deze benadering. Ten eerste is geen enkel individu 'typisch'. Detailkenmerken komen op verschillende manieren naast elkaar voor. Ten tweede kan een descriptor met meer dan twee bijzinnen niet realistisch worden gebruikt tijdens het beoordelingsproces. Docenten/leerkrachten lijken consequent de voorkeur te geven aan korte descriptoren. In het project waaruit de illustratieve descriptoren zijn voortgekomen, verwierpen of splitsten zij meestal descriptoren die langer waren dan ongeveer 25 woorden (circa 2 regels van normale lengte).

  • Onafhankelijkheid: Bondige descriptoren hebben nog twee voordelen. Ten eerste is het waarschijnlijker dat zij gedrag beschrijven waarvan men kan zeggen: 'Ja, dat kan deze persoon.' Daarom kunnen kortere, concrete descriptoren ook worden gebruikt als onafhankelijke criteria in checklists of vragenlijsten voor permanente beoordeling door de docent/leerkracht en/of zelfevaluatie. Deze onafhankelijke integriteit is een teken dat de descriptor niet alleen betekenis heeft in verhouding tot de formulering van andere descriptoren op de schaal maar zou kunnen dienen als doelstelling. Dit opent mogelijkheden voor gebruik bij verschillende vormen van beoordeling (zie hoofdstuk 9).

Gebruikers van het Referentiekader zouden kunnen overwegen en indien van toepassing vermelden:

  • welke van de genoemde criteria het meest relevant zijn en welke overige criteria expliciet of impliciet in hun context worden gebruikt;
  • in hoeverre het wenselijk en haalbaar is dat formuleringen in hun systeem voldoen aan criteria zoals de genoemde.

Methodieken voor schaalontwikkeling

Het bestaan van een reeks niveaus vooronderstelt dat bepaalde zaken op een bepaald niveau kunnen worden geplaatst en niet op een ander niveau en dat beschrijvingen van een bepaalde mate van vaardigheid bij een bepaald niveau behoren en niet bij een ander niveau. Dit impliceert een of andere consequent toegepaste schaal. Er is een aantal mogelijke manieren waarop beschrijvingen van taalvaardigheid kunnen worden gekoppeld aan verschillende niveaus. De beschikbare methoden kunnen worden onderverdeeld in drie groepen: intuïtieve, kwalitatieve en kwantitatieve methoden. De meeste bestaande schalen van taalvaardigheid en andere niveau-indelingen zijn ontwikkeld met een van de drie intuïtieve methoden in de eerste groep. De beste methoden maken gebruik van een combinatie van de drie benaderingen in een complementair en cumulatief proces. Kwalitatieve methoden vergen een intuïtieve voorbereiding en selectie van het materiaal en een intuïtieve interpretatie van de uitkomsten. Kwantitatieve methoden moeten materiaal kwantificeren dat eerst kwalitatief getest is; ook deze methoden vergen een intuïtieve interpretatie van de uitkomsten. Daarom is bij de ontwikkeling van de Gemeenschappelijke Referentieniveaus een combinatie van intuïtieve, kwalitatieve en kwantitatieve benaderingen gebruikt.

Bij het gebruik van kwalitatieve en kwantitatieve methoden zijn er twee mogelijke uitgangspunten: descriptoren of voorbeelden van taaluitingen.

Uitgaan van descriptoren: Eén uitgangspunt is om eerst te bedenken wat je wilt beschrijven en vervolgens conceptdescriptoren te schrijven, verzamelen of bewerken voor de betrokken categorieën, die als input dienen voor de kwalitatieve fase. Methoden 4 en 9, de eerste en de laatste in de hierna beschreven kwalitatieve groep, zijn voorbeelden van deze benadering. Die is in het bijzonder geschikt voor de ontwikkeling van descriptoren voor curriculumgebonden categorieën zoals communicatieve taalactiviteiten, maar kan ook worden gebruikt om descriptoren te ontwikkelen voor competentieaspecten. Het voordeel van het gebruik van categorieën en descriptoren als uitgangspunt is dat een theoretisch uitgebalanceerd bereik kan worden gedefinieerd.

Uitgaan van voorbeelduitingen. Het alternatief, dat alleen kan worden gebruikt om descriptoren te ontwikkelen ter beoordeling van taaluitingen, is om te beginnen met representatieve voorbeelden van taalgebruik. Hier kan aan representatieve beoordelaars worden gevraagd wat zij zien wanneer zij met de voorbeelden werken (kwalitatief). Methoden 5–8 zijn varianten op dit idee. Een alternatief is dat men de beoordelaars alleen vraagt de voorbeelden te beoordelen en vervolgens een toepasselijke statistische techniek toepast om te ontdekken welke hoofdkenmerken bepalend zijn voor hun beslissingen (kwantitatief). Methoden 10 en 11 zijn voorbeelden van deze benadering. Het voordeel van het analyseren van voorbeelden is dat men op basis van de gegevens tot heel concrete beschrijvingen kan komen.

De laatste methode, nummer 12, is de enige waarbij de descriptoren daadwerkelijk worden geschaald in meetkundige zin. Dit is de methode die is gebruikt om de Gemeenschappelijke Referentieniveaus en illustratieve descriptoren te ontwikkelen, na methode 2 (intuïtief) en methoden 8 en 9 (kwalitatief). Dezelfde statistische techniek kan echter ook worden gebruikt nadat de schaal is ontwikkeld, om het gebruik van de schaal in de praktijk te valideren en de behoefte aan herziening na te gaan.

Intuïtieve methoden:

Voor deze methoden is geen gestructureerd verzamelen van gegevens vereist, alleen de interpretatie van ervaringen op basis van welbepaalde principes.

  1. Deskundige: Iemand krijgt de opdracht de schaal te schrijven. Dit kan gebeuren door bestaande schalen, leerplandocumenten en ander relevant bronmateriaal te raadplegen, eventueel na het opstellen van een behoefteanalyse van de doelgroep in kwestie. De deskundige kan de schaal vervolgens testen en herzien, zo mogelijk met behulp van informanten.

  2. Commissie: Als de deskundige, maar in dit geval met een klein ontwikkelingsteam en een grotere groep als adviseurs. De concepten worden door de adviseurs becommentarieerd. De adviseurs kunnen intuïtief te werk gaan op basis van hun ervaring en/of op basis van een vergelijking van leerders of voorbeelden van taalgebruik. De zwakheden van door commissies gemaakte curriculumschalen voor moderne vreemde talen in het Britse en Australische middelbaar onderwijs worden besproken door Gipps (1994) en Scarino (1996; 1997).

  3. Ervaring: Als de commissie, maar het proces vergt aanzienlijke tijd binnen een instellings- en/of specifieke beoordelingscontext en er ontwikkelt zich een 'eigen consensus'. Een kerngroep komt tot een gedeeld inzicht in de niveaus en de criteria. Dat kan worden gevolgd door stelselmatig testen en feedback om de formulering te verfijnen. Groepen van beoordelaars kunnen de taaluitingen bespreken in relatie tot de definities en de definities in relatie tot de taaluitingen. Dit is de manier waarop vaardigheidsschalen van oudsher zijn ontwikkeld (Wilds 1975; Ingram 1985; Liskin-Gasparro 1984; Lowe 1985, 1986).

Kwalitatieve methoden:
Al deze methoden maken gebruik van kleine workshops met groepen informanten, en een kwalitatieve in plaats van een statistische interpretatie van de verkregen informatie.

  1. Kernbegrippen: formulering: Wanneer er eenmaal een conceptschaal is opgesteld, bestaat er een eenvoudige techniek om deze onder te verdelen en aan informanten – die representatief zijn voor degenen die de schaal gaan gebruiken – te vragen:
    1. de definities in de volgens hen juiste volgorde te zetten,
    2. uit te leggen waarom zij dat de juiste volgorde vinden en vervolgens, nadat het verschil tussen hun volgorde en de bedoelde volgorde is onthuld
    3. aan te wijzen welke belangrijke punten hen hielpen of juist in verwarring brachten.
    Een verfijning van de methode is dat soms een niveau wordt weggelaten, waarbij als secundaire taak wordt opgedragen aan te geven waar de leemte tussen twee niveaus erop duidt dat een niveau ontbreekt. De certificatieschalen van Eurocentres zijn op deze manier ontwikkeld.
  2. Kernbegrippen: taalgebruik: Descriptoren worden gekoppeld aan typische voorbeelden van taalgebruik op de betreffende bandbreedtes om een samenhang te garanderen tussen de beschrijving en het taalgedrag. Sommige Cambridge-examengidsen laten docenten/leerkrachten dit proces ondergaan en formuleringen op schalen vergelijken met de waarderingen die aan bepaalde scripts worden gegeven. De descriptoren van IELTS (International English Language Testing System) zijn ontwikkeld door aan groepen van ervaren beoordelaars te vragen voor elk niveau 'kernvoorbeeldscripts' te bepalen en vervolgens overeenstemming te bereiken over de 'kernkarakteristieken' van elk script. De karakteristieken die als kenmerkend werden ervaren voor de verschillende niveaus zijn vervolgens in besprekingen geïdentificeerd en in de descriptoren opgenomen (Alderson 1991; Shohamy e.a. 1992).

  3. Primaire karakteristiek: Taaluitingen (gewoonlijk op schrift) worden door individuele informanten in een rangorde gesorteerd. Vervolgens wordt overeenstemming bereikt over een gemeenschappelijke rangorde. Daarna wordt achterhaald volgens welk beginsel de scripts zijn geordend en wordt dit op elk niveau beschreven; daarbij worden de eigenschappen benadrukt die kenmerkend zijn voor een bepaald niveau. Wat nu beschreven is, is de karakteristiek (kenmerk, constructie) die de rangorde bepaalt (Mullis 1980). Een veel voorkomende variant is die waarbij wordt geordend op een aantal stapels in plaats van een rangorde. Er bestaat ook een interessante meerdimensionale variant op deze klassieke aanpak. In die versie wordt eerst door het bepalen van kernkarakteristieken (methode 5) vastgesteld wat de meest significante karakteristieken zijn. Vervolgens worden de voorbeelden per karakteristiek afzonderlijk in rangorde geplaatst. Zo heeft men uiteindelijk een analytische schaal met meerdere karakteristieken in plaats van een holistische schaal met een primaire karakteristiek.

  4. Binaire beslissingen: In een andere variant van de primaire-karakteristiekmethode worden representatieve voorbeelden eerst per niveau op stapels gesorteerd. Daarna worden in een bespreking van de grenzen tussen niveaus de kernkarakteristieken bepaald (net als bij methode 5). Het betrokken kenmerk wordt dan echter geformuleerd als een korte criteriumvraag waarop alleen ja of nee kan worden geantwoord. Zo wordt een boomstructuur van binaire keuzes opgebouwd. Deze biedt beoordelaars een beslisalgoritme dat zij kunnen volgen (Upshur en Turner 1995).

  5. Vergelijkende oordelen: Groepen bespreken tweetallen taaluitingen en geven daarbij aan welke van beide de beste is, en waarom. Zo worden de categorieën in de door de beoordelaars gebruikte metataal geïdentificeerd, evenals de kenmerkende eigenschappen op elk niveau. Deze kenmerken kunnen vervolgens worden verwerkt tot descriptoren (Pollitt en Murray 1996).

  6. Sorteertaken: Wanneer er eenmaal descriptoren bestaan, kan aan informanten worden gevraagd deze op stapels te sorteren, overeenkomstig de categorieën en/of de niveaus die ze geacht worden te beschrijven. Informanten kan ook gevraagd worden commentaar te leveren, wijzigingen aan te brengen of de descriptoren te verwerpen en te bepalen welke bijzonder duidelijk, nuttig, relevant en dergelijke zijn. De verzameling descriptoren waarop de reeks illustratieve schalen is gebaseerd, is op deze wijze geselecteerd en geredigeerd (Smith en Kendall 1963; North 1996/2000).

Kwantitatieve methoden:

Deze methoden vergen een aanzienlijke hoeveelheid statistische analyse en een zorgvuldige interpretatie van de resultaten.

  1. Discriminant-analyse: Eerst wordt een reeks voorbeelden van taaluitingen die al zijn beoordeeld (bij voorkeur door een team), onderworpen aan gedetailleerde discourse-analyse. Bij deze kwalitatieve analyse wordt het optreden van verschillende kwalitatieve kenmerken bepaald en geteld. Vervolgens wordt meervoudige regressie toegepast om vast te stellen welke van de geïdentificeerde kenmerken significant zijn omdat zij klaarblijkelijk de indruk van de beoordelaars hebben bepaald. Deze hoofdkenmerken worden ten slotte verwerkt in de formulering van descriptoren voor elk niveau (Fulcher 1996).

  2. Meerdimensionale schalen: Hoewel de naam anders doet vermoeden is dit een beschrijvingstechniek voor het bepalen van hoofdkenmerken en hun onderlinge relaties. Taalgebruik wordt beoordeeld op een analytische schaal met verscheidene categorieën. De output van de analysetechniek laat zien welke categorieën beslissend waren voor de niveaubepaling en verschaft een schema met de nabijheid of afstand van de verschillende categorieën ten opzichte van elkaar. Dit is derhalve een onderzoekstechniek waarmee de belangrijkste criteria kunnen worden geïdentificeerd en gevalideerd (Chaloub-Deville 1995).

  3. IRT (item-responstheorie) of analyse van 'latente' karakteristieken: IRT omvat een reeks meet- of schaalmodellen. Het meest eenvoudige en robuuste is het Rasch-model, genoemd naar de Deense wiskundige George Rasch. IRT is ontwikkeld vanuit de waarschijnlijkheidstheorie en wordt voornamelijk gebruikt om de moeilijkheid van individuele testitems in een verzameling te bepalen. Voor gevorderden is de kans dat zij een elementaire vraag goed beantwoorden zeer hoog; voor beginners is daarentegen de kans dat zij een moeilijke vraag goed beantwoorden zeer laag. Dit simpele gegeven is binnen het Rasch-model ontwikkeld tot een schaalmethodiek die kan worden gebruikt om alle items uit een verzameling op dezelfde schaal te kalibreren. Toepassing van deze benadering maakt het mogelijk descriptoren van communicatieve vaardigheid tegelijk met testitems uit te zetten op dezelfde schaal.

    In een Rasch-analyse kunnen verschillende tests of vragenlijsten worden gecombineerd tot een overlappende keten door toepassing van 'ankeritems' die overeenkomen met aanpalende items. In het onderstaande diagram zijn de ankerelementen grijs gearceerd. Zo kunnen formulieren worden gericht op bepaalde groepen van leerders terwijl ze toch verbonden blijven met een gemeenschappelijke schaal. Dit proces moet wel zorgvuldig worden uitgevoerd, want het model vervormt de resultaten van hoge en lage scores per formulier.



    Het voordeel van een Rasch-analyse is dat die een meting zonder voorbeelden en zonder schaal kan opleveren, dat wil zeggen een schaal die onafhankelijk is van de in de analyse gebruikte voorbeelden of tests/vragenlijsten. Er worden schaalwaarden aangeboden die constant blijven voor toekomstige groepen, aangenomen dat deze als nieuwe groepen binnen dezelfde statistische populatie kunnen worden beschouwd. Systematische verschuivingen van waarden in de loop van de tijd (bijvoorbeeld door een verandering van het leerplan of door training met een beoordelaar) kunnen worden gekwantificeerd en gecompenseerd. Ook systematische variaties tussen soorten leerders of beoordelaars kunnen worden gekwantificeerd en gecompenseerd (Wright en Masters 1982; Lincare 1989).

    Rasch-analyse kan op een aantal manieren worden ingezet om descriptoren op een schaal uit te zetten:
    1. Gegevens vanuit de kwalitatieve technieken 6, 7 of 8 kunnen met behulp van de Rasch-methode op een intervalschaal worden uitgezet.
    2. Tests kunnen zorgvuldig worden ontwikkeld teneinde vaardigheidsdescriptoren in bepaalde testitems te operationaliseren. Die testitems kunnen vervolgens worden geschaald volgens het Rasch-model en hun schaalwaarden kunnen worden aangewend om de relatieve moeilijkheid van de descriptoren aan te duiden (Brown e.a. 1992; Carroll 1993; Masters 1994; Kirsch 1995; Kirsch en Mosenthal 1995).
    3. Descriptoren kunnen als items worden opgenomen in vragenlijsten waarmee docenten/leerkrachten hun leerders kunnen beoordelen (kan hij of zij X?). Op deze manier kunnen descriptoren direct op een schaal worden gekalibreerd op dezelfde wijze waarop testitems binnen een verzameling worden geschaald.
    4. De descriptorschalen in de hoofdstukken 3, 4 en 5 zijn op deze manier ontwikkeld. In alle drie projecten die worden beschreven in de bijlagen B, C en D is de Rasch-methodiek toegepast om descriptoren te schalen en de resulterende schalen en descriptoren tegen elkaar af te zetten.

Naast de schaalontwikkeling kan de Rasch-methodiek ook worden gebruikt om te analyseren hoe de bandbreedte op een beoordelingsschaal werkelijk wordt benut. Hiermee kunnen onscherpe formuleringen en te weinig of te veel gebruikte bandbreedtes aan het licht worden gebracht en kunnen herzieningen worden onderbouwd (Davidson 1992; Milanovic e.a. 1996; Stansfield en Kenyon 1996; Tyndall en Kenyon 1996).

Gebruikers van het Referentiekader zouden kunnen overwegen en indien van toepassing vermelden:

  • in hoeverre aan de toegekende waarderingen binnen hun systeem eenzelfde betekenis wordt gegeven door middel van gemeenschappelijke definities;
  • welke van de bovenstaande methoden of andere methoden worden gebruikt om zulke definities te ontwikkelen.

Geannoteerde literatuurselectie over taalvaardigheidsschalen

Alderson, J.C. 1991: Bands and scores. In: Alderson, J.C. and North, B. (eds.): Language testing in the 1990s, London: British Council/Macmillan, Developments in ELT, 71–86.

Bespreekt problemen die worden veroorzaakt door verwarrende doelen en richtingen, alsmede de ontwikkeling van de IELTS-spreekvaardigheidsschalen.

Brindley, G. 1991: Defining language ability: the criteria for criteria. In Anivan, S. (ed.) Current developments in language testing, Singapore, Regional Language Centre.

Principiële kritiek op de claim dat vaardigheidsschalen een oordeel op basis van criteria vertegenwoordigen.

Brindley, G. 1998: Outcomes-based assessment and reporting in language learning programmes, a review of the issues. Language Testing 15 (1), 45–85.

Bekritiseert de nadruk op resultaten in termen van wat leerders kunnen doen ten koste van nadruk op aspecten van toenemende competenties.

Brown, Annie, Elder, Cathie, Lumley, Tom, McNamara, Tim and McQueen, J. 1992: Mapping abilities and skill levels using Rasch techniques. Paper presented at the 14th Language Testing Research Colloquium, Vancouver. Reprinted in Melbourne Papers in Applied Linguistics 1/1, 37–69.

Klassieke toepassing van de Rasch-schaalmethode op testitems om een leesvaardigheidsschaal te maken op basis van de in de verschillende items getoetste leestaken.

Carroll, J.B. 1993: Test theory and behavioural scaling of test performance. In Frederiksen, N., Mislevy, R.J. and Bejar, I.I. (eds.) Test theory for a new generation of tests. Hillsdale N.J. Lawrence Erlbaum Associates: 297–323.

Baanbrekend artikel waarin het gebruik van Rasch wordt aanbevolen om testitems te schalen en zo een vaardigheidsschaal te ontwikkelen.

Chaloub-Deville M. 1995: Deriving oral assessment scales across different tests and rater groups. Language Testing 12 (1), 16–33.

Studie die aan het licht brengt welke criteria Arabische moedertaalsprekers belangrijk vinden bij het beoordelen van leerders. Vrijwel het enige voorbeeld van de toepassing van meerdimensionale schalen op taaltoetsen.

Davidson, F. 1992: Statistical support for training in ESL composition rating. In Hamp-Lyons (ed.): Assessing second language writing in academic contexts. Norwood N.J. Ablex: 155–166.

Zeer heldere beschrijving van het valideren van een beoordelingsschaal in een cyclisch proces met behulp van Rasch-analyse. Pleit voor een 'semantische' benadering van schalen in plaats van de 'concrete' aanpak die bijvoorbeeld met de illustratieve descriptoren wordt gevolgd.

Fulcher 1996: Does thick description lead to smart tests? A data-based approach to rating scale construction. Language Testing 13 (2), 208–38.

Systematische benadering van descriptor- en schaalontwikkeling, die begint bij de juiste analyse van wat er feitelijk gebeurt bij de taalproductie. Zeer tijdrovende methode.

Gipps, C. 1994: Beyond testing. London, Falmer Press.

Pleidooi voor 'normgerichte beoordeling' door docenten/leerkrachten op basis van gemeenschappelijke referentiepunten die zijn opgebouwd door te netwerken. Bespreking van problemen als gevolg van vage descriptoren in het Britse nationale curriculum. Geldt voor alle curricula.

Kirsch, I.S. 1995: Literacy performance on three scales: definitions and results. In Literacy, economy and society: Results of the rst international literacy survey. Paris, Organisation for Economic Cooperation and development (OECD): 27–53.

Simpel niet-technisch rapport over geavanceerd gebruik van Rasch om een schaal samen te stellen vanuit testgegevens. Methode die is ontwikkeld om de moeilijkheid van nieuwe testitems te voorspellen en te verklaren vanuit de betrokken taken en competenties, dus binnen een referentiekader.

Kirsch, I.S. and Mosenthal, P.B. 1995: Interpreting the IEA reading literacy scales. In Binkley, M., Rust, K. and Wingleee, M. (eds.) Methodological issues in comparative educational studies: The case of the IEA reading literacy study. Washington D.C.: US Department of Education, National Center for Education Statistics: 135–192.

Gedetailleerde, meer technische versie van bovenstaande publicatie, waarin de ontwikkeling van de methode in drie verwante projecten wordt beschreven.

Linacre, J. M. 1989: Multi-faceted Measurement. Chicago: MESA Press.

Grote doorbraak in de statistiek waardoor de strengheid van examinatoren kan worden meegewogen bij het rapporteren van de uitslag van een toetsing. In het project toegepast om de illustratieve descriptoren te ontwikkelen en het verband tussen niveaus en schooljaren te controleren.

Liskin-Gasparro, J. E. 1984: The ACTFL proficiency guidelines: Gateway to testing and curriculum. In: Foreign Language Annals 17/5, 475–489.

Schets van de doelstellingen en de ontwikkeling van de Amerikaanse ACTFL-schaal vanuit de moederschaal van het Foreign Service Institute (FSI).

Lowe, P. 1985: The ILR proficiency scale as a synthesising research principle: the view from the mountain. In: James, C.J. (ed.): Foreign Language Prociency in the Classroom and Beyond. Lincolnwood (Ill.): National Textbook Company.

Gedetailleerde beschrijving van de ontwikkeling van de Amerikaanse Interagency Language Roundtable-schaal (ILR-schaal) vanuit de FSI-moederschaal. Functies van de schaal.

Lowe, P. 1986: Proficiency: panacea, framework, process? A Reply to Kramsch, Schulz, and particularly, to Bachman and Savignon. In: Modern Language Journal 70/4, 391–397.

Verdediging van een systeem dat goed werkte – in een specifieke context – tegen wetenschappelijke kritiek naar aanleiding van de verbreiding van de schaal en haar interviewmethodiek naar het onderwijs (met ACTFL).

Masters, G. 1994: Profiles and assessment. Curriculum Perspectives 14,1: 48–52.

Kort verslag van de manier waarop Rasch is gebruikt om testresultaten en oordelen van docenten/leerkrachten te schalen om in Australië een stelsel van curriculumprofielen tot stand te brengen.

Milanovic, M., Saville, N., Pollitt, A. and Cook, A. 1996: Developing rating scales for CASE: Theoretical concerns and analyses. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 15–38.

Klassiek verslag van het gebruik van Rasch om een schaal te verfijnen die bij een spreektoets wordt gebruikt, waarbij het aantal niveaus op de schaal wordt verlaagd tot het aantal dat beoordelaars doeltreffend kunnen gebruiken.

Mullis, I.V.S. 1981: Using the primary trait system for evaluating writing. Manuscript No. 10-W-51. Princeton N.J.: Educational Testing Service.

Klassieke beschrijving van de primaire-karakteristiekmethodiek voor de ontwikkeling van een beoordelingsschaal bij geschreven moedertaal.

North, B. 1993: The development of descriptors on scales of prociency: perspectives, problems, and a possible methodology. NFLC Occasional Paper, National Foreign Language Center, Washington D.C., April 1993.

Kritiek op de inhoud en ontwikkelingsmethodiek van traditionele taalvaardigheidsschalen. Projectvoorstel om in samenwerking met docenten/leerkrachten illustratieve descriptoren te ontwikkelen en deze te schalen met behulp van Rasch op basis van oordelen van docenten/leerkrachten.

North, B. 1994: Scales of language prociency: a survey of some existing systems, Strasbourg, Council of Europe CC-LANG (94) 24.

Alomvattende studie over curriculumschalen en beoordelingsschalen die later is gebruikt als uitgangspunt voor de ontwikkeling van illustratieve descriptoren.

North, B. 1996/2000: The development of a common framework scale of language prociency. PhD thesis, Thames Valley University. Reprinted 2000, New York, Peter Lang.

Bespreking van taalvaardigheidsschalen en het verband tussen schalen, competentie en taalgebruik. Gedetailleerde beschrijving van de ontwikkelingsstappen in het project dat de illustratieve descriptoren heeft opgeleverd – de problemen die men tegenkwam en de oplossingen die men vond.

North, B. forthcoming: Scales for rating language performance in language tests: descriptive models, formulation styles and presentation formats. TOEFL Research Paper. Princeton NJ; Educational Testing Service.

Uitvoerige analyse en historisch overzicht van de soorten beoordelingsschalen die zijn gebruikt voor spreek- en schrijfvaardigheidstoetsen: voordelen, nadelen, valkuilen, enzovoort.

North, B. and Schneider, G. 1998: Scaling descriptors for language proficiency scales. Language Testing 15/2: 217–262.

Overzicht van het project dat de illustratieve descriptoren heeft opgeleverd. Bespreekt de resultaten en de stabiliteit van schalen. Voorbeelden van instrumenten en producten in een bijlage.

Pollitt, A. and Murray, N.L. 1996: What raters really pay attention to. In Milanovic, M. and Saville, N. (eds.) 1996: Performance testing, cognition and assessment. Studies in Language Testing 3. Selected papers from the 15th Language Testing Research Colloquium, Cambridge and Arnhem, 2–4 August 1993. Cambridge: University of Cambridge Local Examinations Syndicate: 74–91.

Interessant methodologisch artikel dat de analyse van de repertoirematrix koppelt aan een eenvoudige schaaltechniek om te identificeren waarop beoordelaars zich concentreren bij verschillende vaardigheidsniveaus.

Scarino, A. 1996: Issues in planning, describing and monitoring long-term progress in language learning. In Proceedings of the AFMLTA 10th National Languages Conference: 67–75.

Bekritiseert het vage woordgebruik en het gebrek aan informatie over hoe goed leerders presteren in gemiddelde beschrijvingen in Britse en Australische curriculumprofielen ten behoeve van beoordelingen door docenten/leerkrachten.

Scarino, A. 1997: Analysing the language of frameworks of outcomes for foreign language learning. In Proceedings of the AFMLTA 11th National Languages Conference: 241–258.

Als voorgaand.

Schneider, G and North, B. 1999: 'In anderen Sprachen kann ich' . . . Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Bern/Aarau: NFP 33/SKBF (Umsetzungsbericht).

Beknopt rapport over het project waaruit de illustratieve descriptoren zijn voortgekomen. Introduceert tevens een Zwitserse versie van de Portfolio (40 pagina's A5).

Schneider, G and North, B. 2000: 'Dans d'autres langues, je suis capable de …' Echelles pour la description, l'évaluation et l'auto-évaluation des competences en langues étrangères. Berne/ Aarau PNR33/CSRE (rapport de valorisation).

Als voorgaand.

Schneider, G and North, B. 2000: Fremdsprachen können – was heisst das? Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Chur/Zürich, Verlag Rüegger AG.

Volledig rapport over het project waaruit de illustratieve descriptoren zijn voortgekomen. Met een helder hoofdstuk over schalen in het Engels. Introduceert tevens een Zwitserse versie van de Portfolio.

Skehan, P. 1984: Issues in the testing of English for specific purposes. In: Language Testing 1/2, 202–220.

Bekritiseert de normatieve en relatieve formulering van de ELTS-schalen.

Shohamy, E., Gordon, C.M. and Kraemer, R. 1992: The effect of raters' background and training on the reliability of direct writing tests. Modern Language Journal 76: 27–33.

Eenvoudige beschrijving van een elementaire kwalitatieve methode om een analytische schrijfvaardigheidsschaal te ontwerpen. Leidde tot verbluffende onderlinge betrouwbaarheid van onopgeleide niet-professionele beoordelaars.

Smith, P. C. and Kendall, J.M. 1963: Retranslation of expectations: an approach to the construction of unambiguous anchors for rating scales. In: Journal of Applied Psychology, 47/2.

Eerste methode waarmee descriptoren werden geschaald en niet alleen schalen werden beschreven. Baanbrekend. Zeer moeilijk te lezen.

Stansfield C.W. and Kenyon D.M. 1996: Comparing the scaling of speaking tasks by language teachers and the ACTFL guidelines. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 124–153.

Gebruik van Rasch-schalen om de rangorde te bevestigen van taken die voorkomen in de ACTFL-richtlijnen. Belangwekkende methodologische studie die inspiratie leverde voor de ontwikkeling van de illustratieve descriptoren.

Takala, S. and F. Kaftandjieva (forthcoming). Council of Europe scales of language proficiency: A validation study. In J.C. Alderson (ed.) Case studies of the use of the Common European Framework. Council of Europe.

Rapport over de toepassing van een verder ontwikkeld Rasch-model om zelfbeoordelingen van taal te schalen met betrekking tot aanpassingen van de illustratieve descriptoren. Context: DIALANG-project: proefprojecten voor Fins.

Tyndall, B. and Kenyon, D. 1996: Validation of a new holistic rating scale using Rasch multifaceted analysis. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 9–57.

Eenvoudige beschrijving van de validatie van een schaal voor beoordelingsgesprekken over Engels als tweede taal bij toelating tot de universiteit. Klassieke toepassing van veelzijdig Rasch-model voor identificatie van opleidingsbehoeften.

Upshur, J. and Turner, C. 1995: Constructing rating scales for second language tests. English Language Teaching Journal 49 (1), 3–12.

Verfijnde uitwerking van de primaire-karakteristiektechniek om grafieken van binaire beslissingen te maken. Zeer relevant voor scholen.

Wilds, C.P. 1975: The oral interview test. In: Spolsky, B. and Jones, R. (Eds): Testing language prociency. Washington D.C.: Center for Applied Linguistics, 29–44.

De oorspronkelijke publicatie van de oorspronkelijke taalvaardigheidsschaal. Verdient zorgvuldig gelezen te worden om nuances te zien die sindsdien in de meeste interviewmethoden verloren zijn gegaan.