D-Coi en SoNaR

Het SoNaR-corpus wordt een zeer groot referentiecorpus van het geschreven Nederlands van ongeveer 500 miljoen woorden. Een deel daarvan zal uit vaktaal bestaan. Het corpus zal begin 2012 worden opgeleverd. Voordat aan de slag werd gegaan is een voorstudie uitgekomen onder de naam D-Coi. Op dit moment baseren we ons noodgedwongen nog op de informatie uit D-Coi. Begin 2012 zal blijken of alle plannen zijn uitgevoerd.

Het corpus zal zowel written to be read als written to be spoken materiaal bevatten. Wat de genres betreft, gaat het om elektronisch gepubliceerd materiaal (e-boeken, e-magazines, nieuwsbrieven, teletekst, Wikipedia, websites enz.) en om de meer traditionele kranten, tijdschriften en boeken. Ook wordt er ongepubliceerd elektronisch materiaal verzameld, zoals chats, e-mails en sms.

Voor de terminologie belooft dit een zeer rijke bron te worden, met onder andere juridische teksten (2,5 miljoen woorden), handleidingen (5 miljoen woorden), brochures (5 miljoen woorden), veel websites, ook bijvoorbeeld van overheidsdiensten, en vaktijdschriften. Te zijner tijd zullen we een meer gedetailleerd overzicht plaatsen.

Ga naar het SoNaR-corpus.

Website over het corpus

 

5 december 2013