Nieuwsberichten

CLTL bouwt lemmalijst voor AntConc

03/06/2015

Als u het handige en gratis concordantieprogramma AntConc gebruikt, heeft u allicht al eens behoefte gehad aan een Nederlandstalige lemmalijst in het voor dit programma juiste formaat. Emiel van Miltenburg, PHD-student bij het CLTL (Computational Lexicology and Terminology Lab) aan de Vrije Universiteit Amsterdam, heeft een eerste versie van zo'n lijst gemaakt. Met AntConc in combinatie met deze lijst kunt u met een druk op de knop frequentielijsten van lemma’s in Nederlandstalige tekst maken. Daarnaast kunt u met AntConc heel simpel concordanties en n-grammen maken. Meer informatie en ook de lijst zelf vindt u op NedTerm.

Lemmalijst voor gebruik in het AntConc concordantieprogramma

Van Miltenburg heeft een lemmalijst voor het Nederlands samengesteld. De lemmalijst bevat 71595 paren van lemma's (adjectieven, werkwoorden en zelfstandig naamwoorden) en woordvormen die terug te leiden zijn naar die lemma's. Met behulp van deze lijst kun je de variatie in woordvormen reduceren, zodat je kunt nagaan welke lemma's het meest voorkomen in een tekst.

Hoe is deze lemmalijst samengesteld?

De lijst is automatisch gegenereerd op basis van het NLcow14-corpus (AX-versie). Dit corpus telt 4,7 miljard woorden, en is samengesteld door Roland Schäfer en Felix Bildhauer van de Freie Universität Berlin (een uitleg staat hier).

Alle tekst is online verzameld van websites binnen het .nl-domein, en vervolgens automatisch verwerkt. Bij deze verwerking is taalkundige metadata toegevoegd, waaronder woordsoortinformatie en lemma-informatie. Die lemma-informatie komt deels uit lijsten met onregelmatige woorden, maar is ook deels automatisch afgeleid. Omdat het corpus zo groot is, bevat het de bijna alle regelmatige vervoegingen van de meest voorkomende woorden. Wij hebben het corpus doorzocht, en alle paren van lemma's en woordvormen opgeslagen. Waar een woordvorm in meerdere paren voorkwam, hebben we al die paren verwijderd; je weet dan immers niet welk lemma er gebruikt moet worden.

Hoe gebruik ik de lemmalijst?

De lemmalijst is gemaakt om te gebruiken in het open source concordantieprogramma AntConc. Op de AntConc-website staat een link naar een lemmalijst voor het Engels, maar niet voor het Nederlands. Met de Nederlandse lijst kan iedereen nu in een handomdraai frequentielijsten van Nederlandstalige tekst maken. De Nederlandse lemmalijst is te vinden op de NedTerm-website. De lijst is ongetwijfeld voor verbetering vatbaar. Meld daarom fouten en problemen bij het Steunpunt.

Nieuwsarchief


2017: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2016: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2015: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2014: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2013: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2012: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2011: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2010: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2009: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2008: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2007: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2006: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2005: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2004: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2003: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2002: 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1
2001: 12 | 11 | 10 | 9 | 8 | 6 | 5 | 4 | 3
2000: 10 | 7 | 6 | 5 | 4 | 3 | 2 | 1
0: 0