taalunieversum

Direct naar menu
U bent hier: taalunieversum » taal » technologie » stevin »

projecten

Projectbeschrijvingen

Automata for deriving phoneme transcriptions of Dutch and Flemish names (AUTONOMATA)
Coreference Resolution for Extracting Answers (COREA)
Dutch Language Corpus Initiative (D-coi)
Identification and Representation of Multi-word Expressions (IRME)
Extension of CGN with speech of children, non-natives, elderly and human-machine interaction (JASMIN-CGN)
Rechtsorde
GemeenteConnect!
de Kentekenlijn
Detecting and Exploiting Semantic Overlap (Daeso)
Dutch Parallel Corpus (DPC)
Large Scale Syntactic Annotation of written Dutch (Lassy)
Missing Data Solutions (Midas)
Northern and Southern Dutch Benchmark Evaluation of Speech recognition Technology (NBest)
STEVIN can PRAAT
Speech Processing, Recognition & Automatic Annotation Kit (Spraak)
Combinatorial and Relational Network as Toolkit for Dutch Language Technology (Cornetto)
Audiokrant
Primus
Rechtspraakherkenning
Klinkende Taal
Spelspiek
Web Assess
Autonomata, Transfer of Output (Autonomata TOO)
Dutch lAnguage Investigation of Summarization technologY
Development and Integration of Speech technology into COurseware for language learning (DisCo)
Dutch Online Media Analysis (DuOMAn)
Parse and Corpus based Machine Translation (PaCo-MT)
Stevin Nederlandstalig Referentiecorpus (SoNaR)
Alfabetisering Anderstaligen Plan (AAP)
Your News
Hulp bij Auditieve Training na Cochleaire Implantatie (HATCI)
Nederlandstalige Ondertiteling (Neon)
Sprekende zelfcorrigerende woordvoorspeller voor dyslectische gebruikers (WooDy)
Kennislink TST
Dialectenherkenner en -demonstrator
ICT en dyslexie

 

Automata for deriving phoneme transcriptions of Dutch and Flemish names (AUTONOMATA)

Toegekend budget: 322.848 euro

Projectcoördinator:

Projectconsortium

  1. Prof. dr. ir. J.-P. Martens (Universiteit Gent, ELIS Speech Lab)
  2. Dr. H. van den Heuvel (Radboud Universiteit Nijmegen, Centre for Language and Speech Technology - CLST)
  3. Dr. ir. G. Bloothooft (Universiteit Utrecht, Utrecht institute of Linguistics - UiL-OTS)
  4. Ir. L. Peirlinckx (TeleAtlas)
  5. ir B. D'hoore (Nuance Communications International, Merelbeke)

Projectbeschrijving (UK)

This project aims to build two resources: (1) a grapheme-to-phoneme (g2p) conversion tool set for creating good phonetic transcriptions for TTS (Text-to-Speech) and ASR (Automatic Speech Recognition) applications with a focus on phonetic transcriptions of names, and (2) a corpus of spoken name utterances for supporting more research towards better automatic name recognition.

Since all presently available g2p converters perform poorly on names, the project will create and make available to third parties, dedicated name g2p converters (for Dutch and Flemish) that will be designed to produce high quality canonical name transcriptions of person names and address items. The machine learning tools that will be used to design these converters will be made available to third parties as well. This way they can be applied to develop dedicated g2p converters for name categories that are not handled in this project.

It is acknowledged that the deployment of LST applications involving ASR of Dutch and Flemish could be raised significantly if (among other things) one would succeed in surpassing the present state-of-the-art in name recognition. This will first of all require tools for creating good canonical transcriptions of these names, as envisaged in this project, but on top of that it will also call for new methods for predicting the kind of variations of these pronunciations one is likely going to encounter in spoken name utterances of native and non-native speakers of Dutch and Flemish. For the development of such methods, one needs a substantial corpus of spoken name utterances. Such a corpus is presently not available for Dutch nor Flemish, and this project proposes to create one.

Ga naar de AUTONOMATA-website.

terug naar boven

Coreference Resolution for Extracting Answers (COREA)

Toegekend budget: 353.875 euro

Projectcoördinator

Projectconsortium

  1. Dr. G. Bouma (Rijksuniversiteit Groningen, Alfa-informatica)
  2. Prof. dr. W. Daelemans (Universiteit Antwerpen, Centrum voor Nederlandse Taal and Spraak - CNTS, en Universiteit Tilburg, Induction of Linguistic Knowledge - ILK)
  3. J.-L. Verschelde (Language and Computing NV)

Projectbeschrijving (UK)

Co reference resolution is a key ingredient for the automatic interpretation of text. It has been studied mainly from a linguistic perspective, with an emphasis on establishing potential antecedents for pronouns. Practical applications, such as Information Extraction (IE), summarization and Question Answering (QA), require accurate identification of co reference relations between noun phrases in general. Computational systems for assigning such relations automatically, require the availability of a sufficient amount of annotated data for training and testing. For Dutch, annotated data is scarce and co reference resolution systems are lacking.

In this project, we aim to develop a robust system for assigning such relations automatically, and we will investigate the effect of making co reference relations explicit on the accuracy of systems for IE and QA. We will annotate a limited amount of application-specific corpus material, which is required for the evaluation of the co reference resolution system in the context of IE and QA.The project contributes to the goals of STEVIN by providing a robust co reference resolution system which is applicable in a range of applications for Dutch, such as information extraction, question answering and summarization. In addition, general guidelines for co reference annotation will become available and a tool will be developed to support the annotation of co reference in text. Finally, a limited amount of data annotated with co referential information, including spoken language data, will be produced.

Ga naar de COREA-website.

terug naar boven

Dutch Language Corpus Initiative (D-coi)

Toegekend budget: 566.531 euro

Projectcoördinator

Projectconsortium
  1. Dr. N. Oostdijk (Radboud Universiteit Nijmegen, Centre for Language and Speech Technology - CLST)
  2. Dr. A. van den Bosch (Universiteit Tilburg, Induction of Linguistic Knowledge - ILK)
  3. Drs. Th. van den Heuvel (Polderland Language and Speech Technology BV)
  4. Prof. dr. F. de Jong (Universiteit Twente, Human Media Interaction - HMI)
  5. Dr. P. Monachesi (Universiteit Utrecht, Utrecht institute of Linguistics - UiL-OTS)
  6. Dr. G. van Noord (Rijksuniversiteit Groningen, Alfa-informatica)
  7. Prof. dr. F. Van Eynde (Katholieke Universiteit Leuven, Centrum voor Computerlinguïstiek - CCL)

Projectbeschrijving (UK)

The project proposed here can be characterized as a preparatory project and aims to produce a blueprint for the construction of a 500-million-word corpus of contemporary written Dutch. This will entail the design of the corpus and the development (or adaptation) of protocols, procedures and tools that are needed for sampling data, cleaning up, converting file formats, marking up, annotating, post editing, and validating the data. In order to support these developments, a 50-million-word pilot corpus will be compiled, parts of which will be enriched with linguistic annotations. The pilot corpus is intended to demonstrate the feasibility of the approach. It will provide the necessary testing ground on the basis of which feedback can be obtained about the adequacy and practicability of various annotation schemes and procedures, and the level of success with which tools can be applied. Moreover, it will serve to establish the usefulness of this type of resource and annotations for different types of HLT research and the development of applications. The Danish Center for Sprogteknologi (CST) will undertake the evaluation of the protocols and procedures. At the end of the project, the pilot corpus together with all other results obtained within the project will be made available through the Flemish-Dutch HLT Agency (TST-centrale).

Ga naar de D-coi-website.

terug naar boven

Identification and Representation of Multi-word Expressions (IRME)

Toegekend budget: 389.500 euro

Projectcoördinator

Projectconsortium

  1. Prof. dr. J. Odijk (Universiteit Utrecht, Utrecht institute of Linguistics OTS - UiL-OTS)
  2. Dr. G van Noord (Rijksuniversiteit Groningen, Alfa-Informatica)
  3. Dr. G. Bouma (Rijksuniversiteit Groningen, Alfa-Informatica)
  4. Dr. A. Schenk (Van Dale Lexicografie BV)
Projectbeschrijving (UK)

The central problems that the project addresses are (i) the lack of large and rich formalized lexicons for multi-word expressions for use in NLP; (ii) the lack of proper methods and tools to extend the lexicon of an NLP-system for multi-word expressions given a text corpus in a maximally automated manner. Therefore, the project aims to develop innovative methods and tools for the automatic identification and lexical representation of multi-word expressions.Concomitantly, a 5.000 entry corpus-based multi-word expression lexical database for Dutch will be developed. The database will be externally validated, and its usability will be evaluated in two independent NLP-systems for Dutch.The project contributes to the development of electronic lexicons, in particular for Dutch. The MWE database to be developed fills a gap in existing lexical resources for Dutch. The project carries out strategic research into generic methods and tools for MWE identification and lexical representation, focusing on Dutch, but these tools will be largely language-independent and can also be used for other languages, new domains, and beyond this project. In this way the project contributes directly to strengthening the digital infrastructure for Dutch.

Ga naar de IRME-website.

terug naar boven

Extension of CGN with speech of children, non-natives, elderly and human-machine interaction (JASMIN-CGN)

Toegekend budget: 419.471 euro

Projectcoördinator

Projectconsortium

  1. Dr. C. Cucchiarini (Radboud Universiteit Nijmegen, Centre for Language and Speech Technology - CLST)
  2. Prof. dr. H. Van hamme (Katholieke Universiteit Leuven, ESAT/PSI Speech Group)
  3. Dr. ir. F.M.A. Smits (TalkingHome)

Projectbeschrijving (UK)

Large speech corpora (LSC) constitute an indispensable resource for conducting research in speech processing and for developing real-life speech applications. In 2004 the Spoken Dutch Corpus (Corpus Gesproken Nederlands - CGN) became available, which constitutes a plausible sample of standard Dutch as spoken by adult natives in the Netherlands and Flanders. Owing to budget constraints, CGN does not include speech of children, non-natives, elderly people and recordings of speech produced in human-machine interactions.

Since such recordings would be extremely useful for conducting research and for developing HLT applications for these specific groups of speakers of Dutch, the present proposal aims at extending CGN in three dimensions. First, by collecting a corpus of contemporary Dutch as spoken by children of different age groups, non-natives with different mother tongues and elderly people in the Netherlands and Flanders (JASMIN-CGN), we aim at an extension along the age and mother tongue dimensions. In addition, we intend to collect speech material in a communication setting that was not envisaged in CGN: human-machine interaction. Therefore, in this project part of the speech material from the three speaker groups will be collected in a setting of human-machine communication. We expect that the knowledge gathered from these data can be generalized to developing appropriate systems also for other speaker groups (i.e. adult natives). One third of the data will be collected in Flanders and two thirds in the Netherlands.

Ga naar de JASMIN-CGN-website.

terug naar boven

Rechtsorde

Projectkosten: 90.000 euro

Samenwerkende partijen:

  1. C-Content b.v., contactpersoon:
  2. Polderland Language & Speech Technology b.v., contactpersoon: Wilko Apperloo

Samenvatting:

De Nederlandse overheid is er de laatste jaren meer en meer toe overgegaan om elektronische informatie op het gebied van wet- en regelgeving (W&R) publiek toegankelijk te maken. Helaas wordt deze informatie verspreid over vele (niet gestandaardiseerde) websites van de overheid gepubliceerd. Dit maakt het haast onmogelijk voor een professionele gebruiker om de gezochte informatie snel boven water te krijgen. Er is daarom grote behoefte aan één centrale ingang waar alle openbare W&R informatie volledig en snel doorzocht kan worden. C-CONTENT is begin 2005 in dit "gat" gestapt en heeft een systeem "Rechtsorde.nl" gebouwd dat dagelijks, (geautomatiseerd) alle wet- en regelgeving informatie vergaart van verschillende vrij toegankelijke overheidssites en deze informatie vervolgens middels één portaal, www.rechtsorde.nl, doorzoekbaar maakt. Rechtsorde.nl is gericht op de professionele eindgebruiker en bevat o.a. wetten, jurisprudentie, cao's, ministeriele regelingen, officiële publicaties, verordeningen van lokale overheden etc. In dit demonstratieproject zal de zoekfunctionaliteit van Rechtsorde.nl uitgebreid worden met tal van taalondersteunende gereedschappen van Polderland. Het doel is dat de gezochte documenten gebruiksvriendelijker en efficiënter gevonden kunnen worden en dat de gebruiker middels suggesties meer geholpen wordt bij het vinden van de juiste documenten.

Ga naar de Rechtsorde demonstratie of bekijk een presentatie.

terug naar boven

GemeenteConnect!

Projectkosten: 60.000 euro

Samenwerkende partijen:

  1. Irion Technologies BV, contactpersoon:
  2. Dutchear BV, contactpersoon: Victor Huisman
  3. Gemeente Gilze en Rijen, contactpersoon: Frank Meulendijks

Samenvatting:

Gemeentes in Nederland werken aan een overbrugging van de kloof tussen overheid en burger. Zij kampen echter alle met een groot probleem: de hoeveelheid vragen die telefonisch of in direct baliecontact op ze afkomen is dermate groot dat de vraag vaak de capaciteit overstijgt. Het project GemeenteConnect! wordt opgezet om aan te tonen dat een slimme combinatie van spraak- en taaltechnologie dit probleem voor een fors deel kan oplossen: de meest voorkomende telefonische burgervragen aan gemeentes moeten ermee kunnen worden afgehandeld. Irion en Dutchear, beide spin-offs van TNO gevestigd in Delft, hebben een systeem ontwikkeld, waarmee via de telefoon interactief en op natuurlijke wijze informatie kan worden opgevraagd uit grote databases, zonder dat de gebruikers steeds met menutoetsen worden geconfronteerd. De voordelen van het systeem voor een gemeente zijn onder andere: Een belangrijk onderdeel van het project betreft PR-werkzaamheden om deze specifieke en succesvolle combinatie van taal- en spraaktechnologie voor gemeentes landelijke bekendheid te geven in zowel Nederland als Vlaanderen.

Ontdek ook een demonstratie en bekijk een zakelijke presentatie van dit project. Of ga naar de Gemeenteconnect webstek.

terug naar boven

de Kentekenlijn

Projectkosten: 50.315 euro

Samenwerkende partijen:

  1. Politie Utrecht, contactpersonen: Janneke Huijssoon, René nker
  2. Dutchear BV, contactpersoon:

Samenvatting:

Dutchear ontwerpt in samenwerking met de Politie Utrecht de Kentekenlijn. De Kentekenlijn zorgt ervoor dat agenten van Politie Utrecht altijd op een snelle, gemakkelijke en veilige manier voertuiginformatie kunnen krijgen. Momenteel belt een agent met zijn GSM naar de meldkamer of naar de infodesk, wanneer hij een kentekenplaat wil natrekken. De snelheid waarmee hij geholpen wordt is geheel afhankelijk van de beschikbaarheid van medewerkers op de meldkamer of bij de infodesk. De lijnen zijn echter regelmatig bezet waardoor de wachttijd voor de agent oploopt. De huidige situatie is daarom onwenselijk. Hoe sneller een agent over de relevante informatie beschikt, hoe veiliger de situatie voor hem en de maatschappij is. In de tijd dat de agent moet wachten op de informatie blijft mogelijk de onverzekerde auto doorrijden, of laat de agent een bestuurder van een gestolen auto wegrijden. Agenten kunnen lopend, op de mountainbike, in de auto en op de motor bellen met de Kentekenlijn. De agent spreekt het kenteken in en krijgt informatie (naam eigenaar, APK, verzekering, gestolen) over het betreffende voertuig teruggekoppeld via een Text-To-Speech engine (sprekende computer). Naast de terugkoppeling van de informatie door de telefoon ontvangt de agent bovendien een SMS met de aan hem voorgelezen informatie.

Ontdek een filmpje van dit project, en bekijk een zakelijke presentatie van dit project.

terug naar boven

Detecting and Exploiting Semantic Overlap (Daeso)

Toegekend budget: 487.000 euro

Projectcoördinator

Projectconsortium

  1. dr. E. Krahmer (Tilburg University)
  2. prof. dr. W. Daelemans (Antwerp University)
  3. prof. dr. M. de Rijke (University of Amsterdam)
  4. drs. J. Zavrel (Textkernel)

Samenvatting (UK):

The well-known fact that similar information can be expressed in many different ways is one of the major challenges in building robust NLP applications. It is commonly assumed that such applications can be improved with knowledge of how natural language expressions relate to each other, for instance in terms of paraphrases (same semantic content, different wording) or entailments (one expression implied by the other). DAESO investigates the detection of semantic overlap between Dutch sentences and the exploitation of this knowledge in a range of NLP applications. For this purpose, tools will be developed for the automatic alignment and classification of semantic relations (between words, phrases and sentences) for Dutch, as well as for a Dutch text-to-text generation application which fuses related sentences into a single grammatical sentence, which may be a generalization, a specification or a reformulation of the input sentences. To facilitate development and testing of these tools, an annotated monolingual Dutch parallel/comparable corpus of 1M words will be developed, consisting of pairs of texts that express comparable information. The utility of the resources and tools will be demonstrated in the context of three applications: (1) question-answering systems (improved recall, more complete answers), (2) information extraction (improved recall), and (3) summarization (beyond extraction: sentence compression, sentence fusion, anaphora resolution).

Ga naar de Daeso-website.

terug naar boven

Dutch Parallel Corpus (DPC)

Toegekend budget: 498.000 euro

Projectcoördinator

Projectconsortium

  1. Prof. Dr. Piet Desmet (Katholieke Universiteit Leuven Campus Kortrijk)
  2. Prof. Dr. Willy Vandeweghe (Hogeschool Gent, School of Translation Studies)
  3. Dr. Hans Paulussen (Katholieke Universiteit Leuven Campus Kortrijk)
  4. Dra. Lieve Macken (Hogeschool Gent, School of Translation Studies)

Samenvatting:

Gealigneerde parallelle corpora vormen noodzakelijk bronmateriaal voor een groot aantal multitalige toepassingen, zoals machinevertaling (in het bijzonder corpusgebaseerde MT zoals statische en example-based MT), computer-ondersteunde vertaaltools, informatie-extractie, multilinguale terminologie-extractie, en computer-ondersteund talenonderwijs.

Op dit ogenblik zijn er slechts weinig kwaliteitsvolle parallelle corpora met Nederlands als centrale taal beschikbaar, en hun beschikbaarheid wordt voor de onderzoeksgemeenschap bemoeilijkt door auteursrechterlijke restricties. Daarom is de aanmaak van een parallel corpus een van de prioriteiten van het STEVIN-programma.

In dit project beogen we een kwaliteitsvol zinsgealigneerd parallel corpus van 10 miljoen woorden aan te maken voor de talenparen Nederlands-Engels en Nederlands-Frans. Het corpus zal bidirectioneel zijn (Nederlands als brontaal en doeltaal), zodat het kan gebruikt worden als een comparable corpus (waarbij oorspronkelijk in het Nederlands geschreven teksten kunnen vergeleken worden met teksten vertaald naar het Nederlands). Een gedeelte van het corpus zal drietalig zijn, waarbij Nederlandse teksten vertalingen hebben naar het Engels en het Frans. Het corpus wordt verrijkt met taalkundige annotaties.

Om de kwaliteit van het corpus te waarborgen, evenals de multilinguale beschikbaarheid voor de gehele onderzoeksgemeenschap, zal iedere stap in de aanmaak, het structureren en het annoteren gevalideerd worden door een gebruikersgroep van specialisten in de taalkunde en taaltechnologie. Aangezien het Nederlands de scharniertaal is van het corpus, zullen we nauw samenwerken met de onderzoekers van het D-COI project die een pilootcorpus aanmaken van 50 miljoen woorden van hedendaags geschreven Nederlands.

Om het corpus beschikbaar te stellen van de hele onderzoeksgemeenschap, wordt voor de auteursrechten nauw samengewerkt met de TST-centrale die instaat voor de distributie van het corpus.

Ga naar de DPC-website.

terug naar boven

Large Scale Syntactic Annotation of written Dutch (Lassy)

Toegekend budget: 496.000 euro

Projectcoördinator

Projectconsortium

  1. Dr. G.J.M. van Noord (Alfa-informatica Groningen)
  2. Drs. I. Schuurman (CCL Leuven)
  3. Prof. dr. F. van Eynde (CCL Leuven)
  4. Dr. G. Bouma (Alfa-informatica Groningen)

Samenvatting:

A large corpus of written Dutch texts (1,000,000 words) is syntactically annotated (manually corrected), based on D-COI. In addition, the full D-COI corpus is syntactically annotated automatically. The project aims to extend the available syntactically annotated corpora for Dutch both in size as well as with respect to the various text genres and topical domains. In addition, various browse and search tools for syntactically annotated corpora will be further developed and made available. Their potential for applications in corpus linguistics and information extraction will be illustrated and evaluated.

Ga naar de Lassy-website.

terug naar boven

Missing Data Solutions (Midas)

Toegekend budget: 499.000 euro

Projectcoördinator

Projectconsortium

  1. Prof. dr. ir. H. Van hamme (Katholieke Universiteit Leuven)
  2. Dr. ir. B. Cranen (Radboud Universiteit Nijmegen)
  3. Dr. J. De Veth (Radboud Universiteit Nijmegen)
  4. Ir. B. D'hoore (Nuance Communications International)

Samenvatting:

Robustness to noise in automatic speech recognition is essential for the development of successful applications. Noise reduction techniques have been applied with some success in the past, but there remains a large performance gap between the best ASR implementations and human recognition, especially when the noise is non-stationary. This project tackles the noise robustness problem in ASR through missing data techniques (MDT) by addressing important open R&D issues for accuracy improvement and computational efficiency. Detectors of missing data will make minimal assumptions on the noise, while incorporating more knowledge about speech. The acoustic model in the recognizer's back-end will be refined and its evaluation will be made faster through algorithmic research. The developed algorithms will be integrated in the result of the STEVIN "call for tender - speech recognizer" (referred to as CFT-system) and made available through its distribution channels. This project contains language-independent research as well as work that is specific for Dutch, which both are of interest to the STEVIN program. It addresses three STEVIN priorities: 1) robustness of speech recognition, 2) tools and data for the development of robust speech recognition, and 3) confidence measures. How to account best for realistic environmental noise is largely language independent. However, the search for representations of speech that lead to better missing data implementations requires building new acoustic models that are language specific. In this project we will base our research on a "real-life" test suite that contains test material from the Dutch SpeechDat Car and Speecon databases.

Ga naar de Midas-website.

terug naar boven

Northern and Southern Dutch Benchmark Evaluation of Speech recognition Technology (NBest)

Toegekend budget: 470.000 euro

Projectcoördinator:

Projectconsortium

  1. Dr. D. A. van Leeuwen (TNO Coordination)
  2. Dr. H. van den Heuvel (SPEX Database recording)
  3. Prof. L. Boves (CLST, RU Nijmegen)
  4. Dr. R. J. F. Ordelman (HMI, Twente University)
  5. Prof. dr. P. Wambacq (ESAT, Leuven University)
  6. Prof. dr. J.-P. Martens (ELIS, Gent University)
  7. Dr. L. J. M. Rothkrantz (EWI Delft University)

Samenvatting (UK):

Over the years, standardised benchmark evaluation tests have proved indispensable for the development of several techniques in speech technology. In N-Best we will organise and execute an evaluation of large vocabulary speech recognition systems trained for Dutch (both Northern and Southern Dutch) in two evaluation conditions (Broadcast News and Conversational Telephony Speech). The goals of the project are the definition of a proper evaluation setup and a corresponding set of benchmark results. The evaluation framework can serve both as a basis for future evaluations, which can probe the progress in large vocabulary speech recognition for Dutch, and as an aid for the development of new speech recognition technologies for the Dutch language. Participants will use a common speech database, the Corpus Gesproken Nederlands (CGN), for acoustic training of their systems, as well as other common resources for language modeling and pronunciation modeling. They will co-operate through exchange of intermediate experiences, results and models of sub-technologies. The evaluation will be open to researchers outside the project, who will benefit from the common training and evaluation resources and the development experiences of the project partners. Intermediate and final exchange of experimental results and findings will be consolidated in workshops. The evaluation will be based on new speech material that will be collected and annotated for the purpose of this evaluation. All evaluation resources, materials and results will be made available via the TST-centrale.

Ga naar de NBest-website.

terug naar boven

STEVIN can PRAAT

Toegekend budget: 114.000 euro

Projectcoördinator

Projectconsortium

  1. Prof. dr. P. Boersma (ACLC, University of Amsterdam)
  2. Prof. dr. F. Hilgers (ACLC, University of Amsterdam / Nederlands Kanker Instituut - Anthonie van Leeuwenhoekziekenhuis)
  3. Prof. dr. V. van Heuven (University of Leiden)
  4. Dr. H. van den Heuvel (SPEX: Speech Processing EXpertise centre)
  5. Dr. D.J.M. Weenink (ACLC, University of Amsterdam / SpeechMinded)

Samenvatting:

Appropriate tools are indispensable for the scientist to perform his/her work. This holds true for speech science as well. The PRAAT program1 is an extensive application for language, music and speech research that is used by approximately 10,000 scientists and students around the globe. Some characteristics that explain its success right from the beginning, are the wide range of features, the user-friendliness and the scriptability, i.e. the possibility to create ones own processing for a series of inputs. The other aspect that adds to the enthusiastic and widespread use is the careful support available. This encompasses user help on diverse levels online, quick response to any questions by email, immediate handling of incidents and solving of problems, and last but not least, an infrastructure for user groups. The knowledge that the PRAAT program entails, is in this means passed on to many colleagues and students. Also, users have a way to relate to one another and share their insights with regard to the possibilities the PRAAT program offers. The software is freely available for all current computer platforms like Linux, Windows and Macintosh. The manuals, FAQ and help menu are included in the package; the user group is available on the internet. Despite the multitude of features already present in the application, some important functionality is still missing. We propose to develop a number of improvements and added functionality that will then additionally and freely become available for speech scientists via the PRAAT program. This project matches the STEVIN objectives since it delivers important tools to all speech scientists who need state of the art technology to tackle the newest ideas and the largest datasets.

Ga naar de STEVINcanPRAAT-website.

terug naar boven

Speech Processing, Recognition & Automatic Annotation Kit (Spraak)

Toegekend budget: 400.000 euro

Projectcoördinator

Projectconsortium

  1. Prof. P. Wambacq (Katholieke Universiteit Leuven - ESAT/PSI)
  2. Prof. L.W.J. Boves (Radboud Universiteit Nijmegen - Language and Speech RU)
  3. Dr. Ir. D.A. van Leeuwen (TNO Human Factors (Soesterberg) TNO)
  4. Dr. R. Ordelman (Universiteit Twente - Human Media Interaction UT)

Samenvatting:

The availability of a speech recognition system for Dutch is mentioned as one of the essential requirements for the language and speech technology (LST) community. Indeed, researchers now are faced with the problem that no good speech recognition tool is available for their purposes or existing tools lack functionality or flexibility. This project has two primary goals that will be accomplished within a single software framework. The first goal is to develop a highly modular toolkit for research into speech recognition algorithms. It allows researchers to focus on one particular aspect of speech recognition technology without needing to worry about the details of the other components. The second goal is to provide a state-of-the art recogniser for Dutch with a simple interface, so that it can be used by non-specialists with a minimum of programming requirements. Next to speech recognition, the resulting software will enable applications in related fields as well. Examples are linguistic and phonetic research where the software can be used to segment large speech databases or to provide high quality automatic transcriptions. We choose the existing ESAT recogniser, augmented with knowledge and code from the other partners in this project, as a starting point. This code base will be transformed to meet the specified requirements. The transformation is accomplished by improving the software interfaces to make the software package more user friendly and adapted for usage in a large user community, and by providing adequate user and developer documentation written in English, so as to make it easily accessible to the international LST community as well. Next to providing a reference speech recognition platform for the Dutch speaking community, this project also encompasses knowledge transfer between the different partners, hence strengthening the ties between the Netherlands and Flanders, and between research institutions and application developers.

Ga naar de SPRAAK-website.

terug naar boven

Combinatorial and Relational Network as Toolkit for Dutch Language Technology (Cornetto)

Toegekend budget: 399.000 euro

Projectcoördinator

Projectconsortium

  1. Prof. Dr. P. Vossen (Vrije Universiteit Amsterdam)
  2. Prof. Dr. M. de Rijke (Universiteit van Amsterdam)
  3. Prof. Dr. M.-F. Moens (Katholieke Universiteit Leuven)
  4. Joop van Gent (Irion Technologies BV)

Samenvatting:

Cornetto will build a lexical semantic database for Dutch, covering 40K entries, including the most generic and central part of the language and a specialized database for the legal and finance domain. The database will go beyond the structure and content of Wordnet and FrameNet. It will contain both vertical and horizontal semantic relations and combinatorial lexical constraints such as multiword expressions, idioms and collocations on the one hand, and lexical functions and frames on the other. The concepts will be aligned with the English Wordnet so that ontologies and domain labels can be imported. The semantic layer will be validated with a formal ontology, to make it usable in Semantic Web environments. In addition, Cornetto will develop a toolkit for the acquisition of new concepts and relations and the tuning and extraction of a domain specific sub-lexicon from a compiled corpus. A sub-lexicon will be extracted for the legal and finance domain. The lexical database will be evaluated by integration in IR and QA applications and the sub-lexicon will be evaluated by a user-group of language technology companies.

Ga naar de Cornetto-website.

terug naar boven

Audiokrant

Projectkosten: 92.400 euro

Samenwerkende partijen:

  1. Sensotec NV, contactpersoon:
  2. De Braillekrant vzw, contactpersoon: Katty Kloeck
  3. Katholieke Universiteit Leuven-SCD, contactpersoon: Jan Engelen

Samenvatting:

Voor personen met een leeshandicap is de toegankelijkheid tot kranteninformatie allesbehalve evident. Er bestaan dan ook al sinds enkele jaren speciale voorzieningen om deze toegankelijkheid te bewerkstelligen. In Vlaanderen zijn dat de initiatieven Braillekrant en DiGiKrant (gecoördineerd door Kamelego vzw), waarbij respectievelijk een extractie van de krant in Braille en een volledige krant in digitale vorm wordt aangeboden. Voor het lezen van de krant in digitale vorm dient men te beschikken over een pc uitgerust met vergrotingssoftware, synthetische spraakoutput en/of een braille leeslijn.

De beperking tot lezers met kennis van braille of die kunnen beschikken over pc met extra uitrusting gecombineerd met een voldoende basiskennis in pc gebruik heeft als gevolg dat het gedeelte van de doelgroep dat de krant kan lezen toch nog vrij beperkt blijft.

Anderzijds is er sinds 2004 voor wat betreft de gesproken boeken voor personen met een leeshandicap zowel in Vlaanderen als in Nederland de overstap gemaakt van verspreiding op cassette naar verspreiding op data-cd. Voor de verstrekking op cd maakt men gebruik van de internationale DAISY standaard, waarmee zowel audio als tekst op eenzelfde drager kan geplaatst worden. Voor het beluisteren van de Daisy cd's bestaan er specifieke voorleesapparaten en ongeveer iedere regelmatige gebruiker van gesproken boeken in Vlaanderen en Nederland beschikt ondertussen over zo'n (draagbaar) voorleesapparaat. Het gaat hierbij om een paar tienduizend dergelijke apparaten.

Binnen het AudioKrant project zullen we dagelijks een versie van de krant produceren die conform is met de Daisy standaard en kan voorgelezen worden met die voorleesapparaten. Vanwege het tijdskritische karakter van de productie van een krant, is het uitgesloten dat we, zoals voor de productie van gesproken boeken, gaan gebruik maken van voorlezers. Naar onze overtuiging kan de aanwending van spraaktechnologie (synthetische spraak) en hoogtechnologische taaltechnologie (voor de optimalisatie ervan) hier echter de oplossing brengen.

Ga naar de Audiokrant web site of bekijk een presentatie.

terug naar boven

Primus

Projectkosten: 96.730 euro

Samenwerkende partijen:

  1. Polderland Language & Speech Technology bv, contactpersoon:
  2. Technologie & Integratie b.v.b.a., contactpersoon: Jo Cremelie
  3. Die-'s-lekti-kus vzw, contactpersoon: Dirk Callebaut

Samenvatting:

Het resultaat van dit project is een spellingcontrole en een grammaticacontrole aangepast voor dyslectische gebruikers. De standaard spelling- en grammaticacontrole in Microsoft® Office worden in dit project zodanig aangepast dat ze beter aansluiten bij de typische fouten die dyslectische gebruikers maken (bijvoorbeeld 'eemoscho nele' i.p.v. 'emotionele' en 'brugste' i.p.v.'beruchtste'). Bovendien wordt aan de spelling- en grammaticacontrole de mogelijkheid toegevoegd om suggesties voorgelezen te krijgen door een spraaksyntheseprogramma. Omdat dyslectische gebruikers behalve spellingproblemen ook leesproblemen hebben ondersteunt de combinatie van een aangepaste spellingcontrole en een spraaksyntheseprogramma de dyslectische gebruiker maximaal in hun schrijfproces. Als laatste wordt ook de interface van de spellingcontrole aangepast op dyslectische gebruikers. Het project richt zich op dyslectische kinderen. Hierdoor kan het product al in de onderwijssituatie optimaal worden ingezet en zal het aantal kinderen dat door hun taalbeperking in het onderwijs buiten de boot valt verder beperkt kunnen worden. Aangezien de spelling- en grammaticacontrole ingebed zitten in Office en dus onder andere te gebruiken zijn in Word en Outlook is het eindresultaat ook zeer nuttig te gebruiken door volwassen dyslectische en door anderen met een taalbeperking zoals niet-moedertaalsprekers van het Nederlands, slechtzienden en kinderen met leerproblemen.

Bekijk een zakelijke presentatie van dit project.

terug naar boven

Rechtspraakherkenning

Projectkosten: 97.000 euro

Samenwerkende partijen:

  1. Telecats BV, contactpersoon:
  2. Carp Technologies BV, contactpersoon: D. Lie

Samenvatting:

Rechtbanken in Nederland zien zich in toenemende mate verplicht om de geluidsopnamen in de rechtszaal volledig uit te schrijven. Met behulp van bestaande taal- en spraaktechnologie is het mogelijk hulpmiddelen te ontwikkelen die de tijd die gemoeid is met het uitschrijven van gesproken geluidsopnamen, aanzienlijk kan verkorten. Bovendien kan vervolgens op relatief eenvoudige wijze de eenmaal uitgeschreven tekst doorzoekbaar worden gemaakt zodat gevonden passages dmv een muisklik ook beluisterbaar worden. Bijkomend voordeel van het inzetten van deze technologie is dat daarmee een goede basis wordt gelegd voor additionele toepassingen en innovaties, zoals bijvoorbeeld het (semi-) automatisch samenvatten van conversaties. Centraal in dit voorstel is dat technologie hier moet worden ingezet als hulpmiddel en niet als substitutie. Dat houdt in dat het werk nog steeds door (dezelfde) mensen wordt gedaan, maar dat door het inzetten van hulpmiddelen de benodigde tijd en dus werkdruk sterk verlaagd wordt.

Bekijk een zakelijke presentatie van dit project evenals een professioneel gemaakt demonstratiefilmpje.

terug naar boven

Klinkende Taal

Projectkosten: 92.200 euro

Samenwerkende partijen:

  1. GridLine BV, contactpersoon:
  2. Faculteit der Letteren van de Universiteit Utrecht - UiL OTS, contactpersoon: H. Pander Maat
  3. Faculteit Letteren van de Katholieke Universiteit Leuven - Centrum voor Computerlinguïistiek, contactpersoon: Frank Van Eynde
  4. Stichting Toepassing Inductieve Leertechnieken, contactpersoon: Antal Van den Bosch
  5. Provincie Brabant, contactpersoon: H. Maaskant
  6. Gemeente Den Haag - Dienst Voorlichting en Ext. Betrekkingen, contactpersoon: H. De Kievith

Samenvatting:

Van de Nederlandse overheid wordt in toenemende mate verwacht dat zij klare taal spreekt. Overheidsinstellingen produceren veel publieksgerichte teksten, in brochures en brieven en op websites. De leesbaarheid van de publieksgerichte communicatie kan worden verbeterd door de teksten van ambtelijk jargon te ontdoen. Het demonstratieproject speelt in op deze opgave door een dynamische jargon-bewaker op de markt te brengen. Het betreft een op maat aangeboden toepassing, die overheidsinstellingen in staat stelt hun teksten begrijpelijker te maken, namelijk door de opsporing en vervanging van termen die de doelgroep als jargon zal ervaren. Deze dynamische Jargonbewaker onderscheidt zich van bestaande woordkeuzetools doordat hij zich automatisch aanpast aan het kennisdomein van de organisatie en de doelgroep, alsmede aan de veranderingen die hierin optreden. De tool wordt aangeboden in een laagdrempelige vorm die aansluit op de bestaande werkwijze van de gebruiker. Het project richt zich speciaal op jargon-bewaking in publieksteksten van de lagere overheid, te weten provincies en gemeenten. Om deze lagere overheden te overtuigen van het nut van de applicatie zal een jargonbewaker-op-maat worden gebouwd voor twee proefgebruikers, te weten de provincie Brabant en de gemeente Den Haag. De effectiviteit van deze demonstrators wordt aangetoond door middel van een leesexperiment met proefpersonen. Het project voorziet tot slot in een grootscheeps marketing-offensief, waarbij overheidsinstellingen en communicatie-adviesbureaus via presentaties en workshops kennis zullen maken met de doeltreffendheid van automatische jargon-opsporing.

Probeer zelf de demonstrator uit of ga naar de Klinkende Taal-website.

terug naar boven

SpelSpiek

Projectkosten: 72.387 euro

Samenwerkende partijen:

  1. Instituut voor Nederlandse Lexicologie, dependance Vlaanderen, contactpersoon:
  2. Elitech, contactpersoon: J. Brouwers
  3. Polderland Language & Speech Technology bv, contactpersoon: Rob Bisseling
  4. Van Dale Lexicografie bv, contactpersoon: Heleen de Ryck

Samenvatting:

Op 1 augustus is de nieuwe spelling ingegaan. De spellingregels en meest recente bijstellingen aan die regels zijn lang niet bij iedereen bekend. Vooral jongeren zijn vaak niet op de hoogte van de spellingregels, maar ook de professionele taalgebruiker heeft wel eens zijn twijfels over de manier waarop je een bepaald woord moet schrijven. Er bestaan al verschillende kanalen via welke je de spelling van woorden kunt opzoeken, of de officiële regels van de spelling van de Nederlandse taal kunt bestuderen. De Taalunie heeft een website waar je de woorden uit de Woordenlijst van de Nederlandse Taal kunt opzoeken, en waar je de regels kunt lezen. Het Groene Boekje bestaat bovendien zowel in boekvorm als op cd-rom, en er is bovendien een elektronische versie van het Groene Boekje gratis online beschikbaar. Dynamische communicatiemiddelen als MSN en sms zijn erg populair, vooral onder jongeren. Het hierboven beschreven project maakt het mogelijk om deze communicatiemiddelen te gebruiken als spellinghulp, door het inzetten van een chatbot. Dat is een robot waarmee je via MSN kunt chatten. In dit geval is het een spellingchatbot: je kunt er bijvoorbeeld aan vragen: "Hoe spel je bjoetiekees?" De chatbot geeft dan direct het juiste antwoord terug. Op die manier heb je een snelle feedback over de juiste spelling van een woord. Zowel achter de computer als onderweg, want dezelfde service stellen we ook via sms beschikbaar. Daarnaast is de service ook gewoon via de webbrowser te bereiken. Drie moderne, populaire communicatiemiddelen dus. Bovendien wordt de bot door de tijd heen slimmer: woorden die de bot niet kent (of foutieve spellingen daarvan), worden bekeken door een spellingdeskundige, waarna die informatie wordt toegevoegd aan de bot. Op die manier wordt hij dus steeds beter in het corrigeren van woorden.

Ga naar de SpelSpiek-website.

Ontdek ook een demonstratie en bekijk een zakelijke presentatie van dit project.

terug naar boven

Web Assess

Projectkosten: 45.000 euro

Samenwerkende partijen:

  1. Telecats BV, contactpersoon:
  2. VO Consulting, contactpersoon: Geert van Ouwerkerk

Samenvatting:

Bedrijven besteden erg veel tijd en geld aan het selecteren van geschikte kandidaten voor het werken in call centers omdat slechts 10% van degene die zich aanmelden daadwerkelijk geschikt blijkt te zijn. Een goede automatische voorselectie geeft bedrijven de mogelijkheid om meer tijd en aandacht te besteden aan de geschiktheid van de geselecteerde kandidaten. Om dit te kunnen doen wordt een applicatie gemaakt die geheel automatisch een (min-of-meer voorgebakken) conversatie met de kandidaten aangaat. Spraakherkenning wordt gebruikt om te meten of bepaalde essentiële woorden wel of niet gezegd zijn. De dialoog verloopt op basis van de gegeven antwoorden omdat een vraag nogmaals (op een andere wijze) wordt gesteld wanneer één of meerdere sleutelwoorden ontbreken. De kandidaten die door het systeem gebeld worden, moeten eerst een reeds bestaande web-applicatie met goed gevolg doorlopen hebben. Deze web-applicatie die een gedegen uitleg geeft over het werken in het call center, is er op gericht de kandidaten te testen op hun kennis van de verschillende telefoniesystemen die ze gaan gebruiken. Als de kandidaten de web-applicatie met goed gevolg doorlopen hebben, kunnen ze het telefoonnummer invullen waarop ze bereikbaar zijn. De hier voorgestelde applicatie gaat ze dan op dat nummer bellen en begint dan de dialoog. Op deze gecombineerde manier (web en telefonie) kunnen veel kandidaten snel en tegen geringe kosten beoordeeld worden op hun mogelijke geschiktheid om als call center medewerker aan de slag te gaan. De applicatie is dus bedoeld voor de voorselectie om het kaf van het koren te scheiden. De eigenlijke selectie gebeurt daarna op de "ouderwetse" manier.

Bekijk een zakelijke presentatie van dit project of ga naar de Web Assess-website.

terug naar boven

Stevin Nederlandstalig Referentiecorpus (SoNaR)

Toegekend budget: fase 1: 99.950 euro; fase 2: 736.050 euro

Projectcoördinator: Dr. N. Oostdijk

Projectconsortium

  1. Dr. N. Oostdijk (CLST, Radboud University Nijmegen)
  2. Dr. V. Hoste (Dept. Vertaalkunde, Hogeschool Gent (HoGent))
  3. Prof. dr. F. de Jong (Human Media Interaction (HMI), Twente University)
  4. Dr. M. Reynaert (Induction of Linguistic Knowledge (ILK), Tilburg University)

Samenvatting (UK):

The project aims at the construction of a 500-million-word reference corpus of contemporary written Dutch for use in different types of linguistic (incl. lexicographic) and HLT research and the development of applications. The project will build on the results obtained in the D-COI and COREA projects which were awarded funding in the first call of proposals within the STEVIN programme. In the light of the budgetary constraints of the present call and the work conducted within other STEVIN projects (especially the LASSY project, which aims to construct a one-million-word treebank for Dutch. The data used constitute a subset of the pilot corpus that has been compiled in the D-COI project.), the present project will focus on the compilation of the corpus, while the entire corpus will be (automatically) POS tagged and lemmatized by means of the D-COI tagger/lemmatizer. In addition, for a one-million-word subset of the corpus different types of semantic annotation will be provided, viz. named entity labelling, annotation of co-reference relations, semantic role labelling and anno

Autonomata TOO

Toegekend budget: 416.750 euro

Projectcoördinator:

Projectconsortium

  1. Dr H. van den Heuvel (CLST, Radboud University Nijmegen)
  2. Prof. Dr J-P. Martens (ELIS, Ghent University)
  3. Dr Ir G. Bloothooft (Utrecht institute of Linguistics (UiL-OTS), Utrecht University)
  4. Ir L. Peirlinckx (TeleAtlas, Ghent)
  5. ir B. D'hoore (Nuance Communications International, Merelbeke)

Samenvatting (UK):

The aim of this application-oriented research project is to build a demonstrator version of a Dutch/Flemish Points of Interest (POI) information providing business service, and to investigate new pronunciation modeling technologies that can help to bring the spoken name recognition component of such a service to the required level of accuracy. The demonstrator service (running on a PC) will contain a simple user interface and a restricted but realistic database of POI information. It will give a flavor of what the envisaged service can offer to the user, and it will also be used as a vehicle for testing the benefits of the newly developed speech technology in a realistic setting, involving tests with end users at strategic moments during the project.

Ga naar de Autonomata Too web site.

terug naar boven

Dutch lAnguage Investigation of Summarization technologY (DAISY)

Toegekend budget: 457.300 euro

Projectcoördinator:

Projectconsortium

  1. Prof. dr. M.-F. Moens (Department of Computer, K.U.Leuven)
  2. Dr. G.J.M. van Noord (CLCG/Computational Linguistics, RuG University of Groningen)
  3. Dr. Leonoor van der Beek (Q-go Research & Development)

Samenvatting (UK):

Summarization of text is often a necessity when searching and selecting information from document repositories. However, current summarization technology is for a large part restricted to the extraction of sentences. Summarization technology for Dutch is very scarce. The aim of DAISY is to develop and evaluate essential technology for automatic summarization of Dutch informative texts. Innovative algorithms for topic salience detection, topic discrimination, rhetorical classification of content, sentence compression and text generation will be implemented. In addition, a demonstrator will be developed in collaboration with the company Q-Go.

The summarization demonstrator will be tested and evaluated in multiple ways in the QA environment of Q-go on documents in the financial and social security domains. Firstly, the system output will be compared against hand-made abstracts of the documents. Secondly, the effect of adding system-generated headline abstracts on retrieval will be measured. Finally, if suitable training and testing material can be obtained, tests will be done with automated email answering, where the summary of the email is used as input for the Q-go QA system.

Ga naar de Daisy-web site.

terug naar boven

Development and Integration of Speech technology into COurseware for language learning (DISCO)

Toegekend budget: 495.419 euro

Projectcoördinator:

Projectconsortium

  1. Dr. H. Strik (Centre for Language and Speech Technology, Radboud University Nijmegen)
  2. Prof. Dr. J. Colpaert (Linguapolis, Universiteit Antwerpen)
  3. J. Bakx (Universitair Taal- en Communicatiecentrum Nijmegen)
  4. R. Bisseling (Polderland Language & Speech Technology)

Samenvatting (UK):

Language learners are known to fare best in one-on-one interactive learning situations in which they receive optimal corrective feedback. However, providing this type of tutoring by trained language instructors is time-consuming and costly, and therefore not feasible for the majority of language learners. This particularly applies to oral proficiency, where corrective feedback has to be provided immediately after the utterance has been spoken, thus making it even more difficult to provide sufficient practice in the classroom. The recent appearance of Computer Assisted Language Learning (CALL) systems that make use of Automatic Speech Recognition (ASR) and other advanced automatic techniques offers new perspectives for training oral proficiency in a second language (L2).

The present project aims to develop and test a prototype of an ASR-based CALL application for training oral proficiency for Dutch as a second language (DL2). The application optimizes learning through interaction in realistic communication situations and provides intelligent feedback on various aspects of DL2 speaking, viz. pronunciation, morphology and syntax. The communicative settings employed in Nieuwe Buren (New Neighbours, a method for DL2 training developed by Malmberg publishers) will constitute the starting point for the application.

Ga naar de Disco-web site.

terug naar boven

Dutch Online Media Analysis (DuOMAn)

Toegekend budget: 440.447 euro

Projectcoördinator:

Projectconsortium

  1. Prof. dr. M. de Rijke (University of Amsterdam (UvA))
  2. R. Franz (TrendLight)
  3. T. Spaan (GridLine)
  4. Dr. G. van Noord (Rijksuniversiteit Groningen (RuG))
  5. Dr. V. Hoste (Dept. Vertaalkunde, Hogeschool Gent (HoGent))

Samenvatting (UK):

When marketing campaigns or policies on sensitive or broad-ranging issues need to be defined or revised, access to the opinion of the target group is vital. An explosion in online content---both edited and user-generated---has vastly increased the range of opinions potentially available to media analysts and the general public alike, but efficient and effective access methods are needed to unlock this potential. The DuOMAn project will carry out an ambitious research agenda that will result in the development of a set of Dutch language resources and tools for identifying and aggregating sentiments in online data sources.

DuOMAn aims to transform the volumes of online information that threaten to leave media analysts information-bound into aggregates of attitudes organized by topic by employing classification, information extraction, and cross-document linking. DuOMAn will provide media analysts and members of the general public with focused access to opinionated information on people, products and topics through an online demonstrator for the general public and through integration of the tools and resources it develops into the workflow of professional media analysts. Key research contributions include sentiment-oriented lexical resources and advancement in the areas of automated sentiment analysis, parsing, and entity detection and coreference resolution. Applied research on robustness and adaptability receives central emphasis.

Ga naar de DuOMAn-web site.

terug naar boven

Parse and Corpus based Machine Translation (PaCo-MT)

Toegekend budget: 494.474 euro

Projectcoördinator:

Projectconsortium

  1. Prof. Dr. F. Van Eynde (Centre for Computational Linguistics (CCL), K.U.Leuven)
  2. Dr. J. Tiedemann (Alfa-informatica, Rijksuniversiteit Groningen (RUG))
  3. Drs. K. Desmet (OneLiner Language & eBusiness Solutions BVBA)

Samenvatting (UK):

In this project, we aim at building a hybrid machine translation system combining the positive features of corpus based and rule based systems. The primary goal is to develop an open-domain MT system for Dutch-English and Dutch-French (in both directions) integrating proper linguistic analysis and syntactic transfer into a data-driven approach. Compared to other data-driven approaches, we emphasise the improvement of translation quality and the adaptability of the system to the users requirements. This will result in a flexible MT system that is accepted by professional translators. Adaptability to users needs will be supported by a post editing interface, making the system very flexible and able to improve gradually. This novel feature increases the acceptability of the system by professional users. An evaluation of the system by human judgement and automated scores like BLEU/NIST and edit distance will be made, as well as a user test in which the translation speed will be tested.

Ga naar de PaCo-MT-web site.

terug naar boven

Alfabetisering Anderstaligen Plan (AAP)

Projectkosten: 56.000 euro

Samenwerkende partijen:

  1. Polderland Language & Speech technology bv, contactpersoon:
  2. BEMO-materiaalontwikkeling, contactpersoon: Ad Bakker
  3. Uitgeverij Boom, contactpersoon: Geert van der Meulen
  4. Radboud Universiteit Nijmegen, contactpersoon: Helmer Strik

Samenvatting:

Dit project implementeert een demonstrator die bestaande spraaktechnologie toepast in het kader van alfabetisering. Hierbij is onmiddellijke feedback essentieel. De methode AAP (alfabetisering anderstaligen plan) wordt hiervoor gevolgd. De technologie zal kunnen geïntegreerd worden in toepassingen van derden.

Ontdek met deze presentatie hoe AAP het taalverwervingsproces met TST ondersteunt.

terug naar boven

Your News

Projectkosten: 19.800 euro

Samenwerkende partijen:

  1. Irion Technologies bv, contactpersoon:
  2. Carp Technologies, contactpersoon: Danny Lie
  3. MD Info contactpersoon: Bert Ponsen

Samenvatting:

In het kader van de nieuwsvoorziening is er een tendens naar dienstverlening zoals "news brokers" of knipseldiensten. Klanten van deze dienstverlening kunnen een profiel opgeven in de vorm van trefwoorden. Dat profiel wordt dan gebruikt om een selectie te maken uit de actuele nieuwsberichten. Het aanmaken van profielen op basis van trefwoorden vereist veel handwerk en de "matching" blijft laag. Automatische methoden daarentegen falen dikwijls omdat er gebruik gemaakt wordt van eenvoudige zoektechnologie of statistische methodes. Dit project zal een betere "matching" verwezenlijken. Als demo koppelt men een classificatiesysteem en een samenvattingsgenerator aan het standaardplatform van een aanbieder van gepersonaliseerde informatie. Met behulp van een testgroep worden er evaluaties uitgevoerd om de kwaliteit van het systeem te testen.

Ga naar de Your News demosite. Meer inhoudelijke informatie kan je hier vinden. Een een zakelijke presentatie is eveneens beschikbaar.

terug naar boven

Hulp bij Auditieve Training na Cochleaire Implantatie (HATCI)

Projectkosten: 48.482 euro

Samenwerkende partijen:

  1. Advanced Bionics NV, contactpersoon:
  2. ONICI contactpersoon: Leo De Raeve
  3. K.U.Leuven - ESAT/PSI, contactpersoon: Hugo Van hamme

Samenvatting:

Tijdens dit project wordt een applicatie gebouwd die m.b.v. een automatische spraakbeoordeling een therapeut ondersteunt bij het toepassen van de "speech tracking" als hoortherapie en -evaluatie bij revalidatie na cochleaire implantatie. Na cochleaire implementatie dient de patiënt te leren spreken en horen met zijn nieuwe implantaat. De doelgroep zijn vooral patiënten die reeds tot een goede articulatie komen, maar voor wie de hoornauwkeurigheid, het taalgevoel en de grammaticaverwerving verder gestimuleerd moeten worden. De demonstrator zal vooraf opgenomen teksten aan de patiënt aanbieden en hij/zij moet de tekst herhalen. De correctheid van deze herhaling wordt beoordeeld d.m.v. automatische spraakherkenning revalidatiestap.

Ontdek ook een zakelijke presentatie van dit project, evenals een aanschouwelijk filmpje.

terug naar boven

Nederlandstalige Ondertiteling (Neon)

Projectkosten: 85.730 euro

Samenwerkende partijen:

  1. Telecats bv, contactpersoon:
  2. Vlaamse Radio en Televisie, contactpersoon: Bernard Dewulf
  3. Nederlandse Publieke Omroep, contactpersoon: Jurgen Lentz
  4. K.U.Leuven - ESAT/PSI, contactpersoon: Patrick Wambacq
  5. Universiteit Gent - ELIS, contactpersoon: Jean-Pierre Martens
  6. Universiteit Antwerpen - CNTS, contactpersoon: Walter Daelemans

Samenvatting:

In dit project zal een geavanceerde en minder arbeidsintensieve spraakherkenningstoepassing geïmplementeerd worden voor ondertiteling van televisieprogramma's, met name gerealiseerd door het gecondenseerd aligneren van bestaande teksten of scripts met gesproken audio. Dit zal leiden tot een (semi-)automatische ondertiteling in het Nederlands. Dit gebeurt m.b.v. een spraakherkenningssysteem, waardoor automatisch rechtstreekse transcriptie van de audiostroom (het resultaat van de spraakherkenning) altijd in de achtergrond aanwezig is om op terug te vallen.

Ontdek ook een demonstratie en bekijk een zakelijke presentatie van dit project.

terug naar boven

Sprekende zelfcorrigerende woordvoorspeller voor dyslectische gebruikers (WooDy)

Projectkosten: 90.000 euro

Samenwerkende partijen:

  1. Sensotec NV, contactpersoon:
  2. Lexima bv, contactpersoon: Ria Janssen

Samenvatting:

Dit project bouwt een sprekende zelfcorrigerende woordvoorspeller voor dyslectische gebruikers d.m.v. van een combinatie van zelfcorrectie en woordvoorspelling. De kern bestaat uit de ontwikkeling van een basisset van woordenlijsten waaruit voorspelling wordt afgeleid, en van algoritmes ter bepaling van welke woorden aangereikt zullen worden rekening houdend met persoon-specifieke beperkingen. Dit alles wordt geïmplementeerd en gedemonstreerd met een prototype sprekende woordvoorspeller. Doelgroepen zijn individuele gebruikers met lees- en taalbeperkingen, en omkaderende dienstverlening.

Ontdek waar het project voor staat en hoe jouw bedrijf er zaken mee kan doen.

terug naar boven

TST-pagina's voor KennisLink

Projectkosten: 27.500 euro

Samenwerkende partijen:

  1. Kennislink (Stichting Nationaal Centrum voor Wetenschap en Technologie), contactpersoon:
  2. Landelijke Onderzoeksschool Taalkunde (LOT)

Samenvatting:

Een redactrice schrijft leuke TST-gerelateerde teksten (thematische dossiers en nieuwsberichten) om geïnteresseerden, in het bijzonder jongeren, op de hoogte te houden van wat er gebeurt rond TST voor het Nederlands.

Klik door naar de algemene Kennislink.nl Taal- en Spraakpagina of ga naar een overzicht van TST-gerelateerde artikels.

terug naar boven

Dialectenherkenner en -demonstrator

Projectkosten: 32.113 euro

Samenwerkende partijen:

  1. K.U.Leuven - ESAT - PSI, contactpersoon:
  2. TechnoPolis

Samenvatting:

Het DIADEMO-project bouwt een demonstrator die gesproken dialecten herkent. Deze demonstrator zal worden opgesteld in Technopolis (Mechelen). Technopolis, het Vlaams doe-centrum voor wetenschap en technologie, krijgt jaarlijks ca. 280.000 bezoekers over de vloer, schoolgroepen zowel als families. Op deze manier wil DIADEMO de resultaten uit het spraakonderzoek op een speelse wijze toegankelijk maken voor een breed publiek in Vlaanderen.

Info in deze presentatie. Meer uitleg vind je op de DiaDemo-pagina's.
Je kan ook een filmpje bekijken of enkele krantenberichten er op na slaan.

terug naar boven

ICT en Dyslexie

Projectkosten: 17.500 euro

Samenwerkende partijen:

  1. Dedicon , contactpersoon:
  2. Expertisecentrum Nederlands: Evelien Krikhaar

Samenvatting:

Voor kinderen met dyslexie is lezen, en daarmee leren, een probleem. Er zijn vele ICT-hulpmiddelen beschikbaar om deze kinderen te ondersteunen in het onderwijs. Veel van deze producten bevatten taal- en/of spraaktechnologie. De beschikbare hulpmiddelen worden tot nu toe slechts beperkt ingezet in het onderwijs. Docenten zijn onvoldoende geïnformeerd over het bestaan van de producten en hebben behoefte aan voorbeelden van goed gebruik. De masterclass ICT en Dyslexie geeft een overzicht van beschikbare hulpmiddelen, stelt leerkrachten uit primair en voortgezet onderwijs in de gelegenheid zelf met de hulpmiddelen aan de slag te gaan en stimuleert leerkrachten door succesverhalen van collega's vanuit de praktijk.

terug naar boven


31 januari 2010

© Nederlandse Taalunie, 2000-2010 alle rechten voorbehouden
WegwijzerColofonContactVrijwaringOpmerkingen en reacties