Corpora

Illustratie zwarte boeken

Online raadpleegbare corpora

Vaktalig corpusmateriaal bij de TST-centrale

De TST-centrale beheert onder andere digitale bronnen voor het Nederlands. TST staat voor Taal- en Spraaktechnologie. De TST-centrale is gevestigd in Den Haag en onderdeel van de Nederlandse Taalunie. Op internet is de TST-centrale te vinden op www.tst-centrale.org.

In de digitale bronnen die de TST-centrale beheert is veel materiaal te vinden dat voor gebruikers van vaktaal en terminologie van belang kan zijn. Als u op zoek bent naar corpusmateriaal kunt u hieronder zien of er iets voor u bij zit. Het Steunpunt heeft daarvoor een overzicht gemaakt van relevante corpora en van de inhoud van die corpora. De bronnen staan chronologisch geordend.

Voor alle informatie en natuurlijk voor het verkrijgen van een licentie kunt u contact opnemen met de TST-centrale. Op de website van de TST vindt u de informatie over corpora onder het kopje producten: www.tst-centrale.org/nl/producten. Daarnaast vermelden we waar mogelijk een website van het corpus. Voor onderzoeksdoeleinden kan het materiaal in de regel gratis gebruikt worden, voor commercieel gebruik wordt een vergoeding gevraagd.

We bespreken hieronder de volgende corpora:

  1. Eindhoven-corpus (720.000 woorden)
  2. Renkema-corpus
  3. INL-corpus (5 mln woorden)
  4. INL-corpus (27 mln woorden)
  5. INL-corpus (38 mln woorden)
  6. D-Coi en SoNaR
  7. Dutch Parallel Corpus

Tot slot vermelden we nog dat op de site van de TST-centrale ook taalbronnen en tools genoemd zijn die extern beheerd worden en te raadplegen zijn. Die vindt u op www.tst-centrale.org/nl/over-de-tst-centrale/extern/overzicht-externe-taalmaterialen.

Gratis online vertaalgeheugens en parallelle corpora

Met behulp van vertaalgeheugens en parallelle corpora kan men sneller vertalen en bovendien de vertaling van een vakterm opzoeken in context. Vaak ontbreekt contextuele informatie in simpele termenlijsten en glossaria waardoor het onmogelijk is om te kiezen voor een juiste vertaling. Als men daarentegen de ingebouwde concordantiefunctie van een vertaalgeheugen gebruikt, is de contextuele informatie voldoende om de correctheid van de doeltaalterm te verifiëren. Een aantal van onderstaande sites bieden o.a. vertaalgeheugens aan om te downloaden. Handig als je vertaalsoftware gebruikt.

  1. Groot vertaalgeheugen van Translated.net
  2. European Parliament Proceedings Parallel Corpus 1996-2006
  3. Het OPUS-project
  4. TAUS

Zelf een corpus melden?

Ongetwijfeld zullen er corpora ontbreken. Help ons de lijst bij te werken. Stuur een e-mail met suggesties naar steunpunt@let.vu.nl

31 augustus 2015