taalunieversum

Direct naar menu
U bent hier: start » taal » technologie » taal in bedrijf »

Taal in Bedrijf 2011 sessie7

sessie 7. Intelligente ontsluiting / Informatie-extractie (deel 2)

Er staat steeds meer (multimediale) informatie op internet waardoor gebruikers min of meer gedwongen worden om gebruik te maken van taal- en spraaktechnologie (TST) voor het zoeken, vinden en bekijken/beluisteren van de gewenste informatie. De afgelopen zes jaar zijn er verschillende Stevin-projecten geweest waarbij nieuwe TST werd ontwikkeld en bestaande TST werd gebruikt voor het beter ontsluiten van informatie. Drie projecten (zowel wetenschappelijke als toegepaste) zullen hun resultaten hier presenteren en aangeven wat het effect van de projecten op het verdere gebruik van TST bij het ontsluiten is geweest.

Hugo Van hamme (K.U.Leuven - ESAT): Wie zegt wat? Transcriptie van audioarchieven verrijkt met sprekeridentiteit.

Het doorzoeken van radio- of televisiearchieven is een tijdrovende operatie die in schril contrast met het gemak en de efficiëntie waarmee we de gigantische hoeveelheid tekst op het internet kunnen doorzoeken. Die tekst is vaak slechts een neerslag, een afspiegeling of een interpretatie door derden van een originele boodschap of gebeurtenis. Daarom willen we - als het kan - liever terughoren wat een opiniemaker beweerd heeft over een onderwerp of over een ander. De K.U.Leuven, R.U.Nijmegen en de VRT werken met ondersteuning van het IBBT en ICT-Regie aan een project (genaamd BATS) om audioarchieven doorzoekbaar te maken door ze van een zo nauwkeurig mogelijke woordelijke transcriptie te voorzien en door ze te verrijken met sprekeridentiteit. Om tot een nauwkeurige transcriptie te komen worden methoden ontwikkeld om een automatische spraakherkenner binnen een paar seconden aan te passen aan de stemkarakteristieken van een spreker. Zo kunnen snelle sprekerwissels afgehandeld worden. Het terugzoeken van sprekeridentiteit start bij het detecteren van die sprekerwissels. Vervolgens gaan we voor elke sprekerbeurt na wanneer diezelfde spreker aan het woord is. Tenslotte worden relaties gezocht met meta-informatie uit programmagidsen om sprekers een naam te geven. Het resultaat is een archief waarin je kan zoeken op sleutelwoorden en/of sprekers, waarin je makkelijk kan springen naar andere uitingen van een spreker en waarin de onderwerpen worden afgelijnd a.d.h.v. de betrokken sprekers.

Michel Boedeltje (Telecats): RechtSpraakHerkenning: Taal- en spraaktechnologie in de Nederlandse rechtbanken.

In de Nederlandse rechtbanken worden regelmatig geluidsopnames gemaakt van de rechtszittingen ter ondersteuning van de rechters en de griffiers. In het STEVIN-project RechtSpraakHerkenning laten we zien dat met behulp van taal- en spraaktechnologie de rechters, griffiers en officieren van justitie hun werk efficiënter kunnen uitvoeren. De griffiers worden ondersteund bij het uitwerken van de processen-verbaal en rechters en officieren van justitie krijgen gereedschappen om snel te zoeken en navigeren in de gemaakte opnames, waarbij zelfs automatisch een gesproken samenvatting kan worden gegenereerd.

Nathalie De Sutter (CrossLang): Ontsluiting en gebruik van parallelle corpora voor het bouwen van een domeinspecifiek automatisch vertaalsysteem.

Om het ECTS-label (European Credit Transfer and Accumulation System) te behalen zijn steeds meer onderwijsinstellingen genoodzaakt om hun educatieve informatie in het Engels aan te bieden. Ook om buitenlandse studenten aan te trekken en zich internationaal te profileren is het cruciaal dat ze deze informatie in het Engels of zelfs Chinees beschikbaar maken. Omdat dit om enorme volumes te vertalen tekst gaat, is het voor vele instellingen onbetaalbaar om deze informatie manueel te laten vertalen. De Bologna Translation Service wil hiervoor een oplossing bieden: een kwalitatieve, betaalbare, online vertaalmachine die specifiek ontworpen is voor vertalingen van studieprogramma's. Een aanzienlijk deel van het project wordt besteed aan het ontsluiten en verzamelen van data voor het trainen en verbeteren van de statistische MT systemen. Naast de vrij verkrijgbare corpora die het resultaat zijn van vroegere projecten zoals bijvoorbeeld het Dutch Parallel Corpus zullen ook bestaande vertalingen gebruikt worden die ter beschikking gesteld worden door de universitaire partners. Het Gentse CrossLang coördineert het project dat door de Europese Gemeenschap (ICT PSP) gefinancierd wordt. Samen leveren de Bolognapartners een hoogkwalitatieve en betaalbare vertaaltechnologie voor hogeronderwijsinstellingen. Die kunnen hierdoor hun studiegidsen en -programma's voordelig en efficiënt in het Engels en/of Chinees aanbieden en zo hun internationale positie bestendigen.


vorige sessie
volgende sessie



20 januari 2012

© Nederlandse Taalunie, 2000-2012 alle rechten voorbehouden
WegwijzerColofonContactVrijwaringOpmerkingen en reacties