taalunieversum

Direct naar menu
U bent hier: start » taal » technologie »

taal- en spraaktechnologienieuws aug'10

Taal- en spraaktechnologienieuws augustus 2010
********************************************************************************
0. TST op de agenda
1. Nieuwe corpora beschikbaar bij TST-Centrale: LASSY en DPC
2. Politie bespaart 800.000 euro per jaar door de inzet van TST
3. Nieuw op Kennislink: Quizcomputer Watson doet mee aan tv-show
4. CLARIN-NL: Oproep voor projectvoorstellen
5. Vacature transcriptie van Nederlands gesproken interviews (K.U.Leuven/ESAT)

Heeft u ook een nieuwsbericht of een aankondiging, dan vernemen wij dat graag (sluitingsdatum volgend nummer: 25/10/2010). Deze en voorgaande edities van Taal- en spraaktechnologienieuws zijn online beschikbaar op http://taalunieversum.org/tst/nieuwsbrief/.

================================================================================
U ontvangt dit bericht omdat uw gegevens zijn opgenomen in de taal- en spraaktechnologiedatabank van de Nederlandse Taalunie (http://taalunieversum.org/tst/). Wijzigingen voor deze databank kunt u melden via tst@taalunie.org - dank u wel!
================================================================================

--------------------------------------------------------------------------------
0. TST op de agenda
********************************************************************************

- Workshop over biomedische text mining
(01/09 in Enschede)
- Interne STEVIN-programmadag
(14/10)
- Dag van de fonetiek
(23/12 in Utrecht)

--------------------------------------------------------------------------------
1. Nieuwe corpora beschikbaar bij TST-Centrale: LASSY en DPC
********************************************************************************

De productcatalogus van de TST-Centrale is onlangs uitgebreid met twee nieuwe corpora: LASSY en DPC.

Het LASSY-corpus (Large Scale Syntactic Annotation of Written Dutch) is een syntactisch geannoteerd corpus en bestaat uit twee delen. Het eerste deel, LASSY Klein, omvat een miljoen woorden. Dit corpus is manueel geverifieerd. Het tweede deel, LASSY Groot, omvat een half miljard woorden. Dit corpus is automatisch geannoteerd door de Alpino-parser (van Noord, 2006), en niet verder gecorrigeerd. In de automatisch toegekende annotaties werd ook extra informatie toegevoegd. Dit betreft meestal lexicale informatie zoals het gebruikte subcategorisatieframe. De producenten van het LASSY-corpus zijn de Rijksuniversiteit Groningen (Alfa-informatica) en de K.U. Leuven (CCL).

Het DPC-corpus (Dutch Parallel Corpus) is een parallel corpus van 10 miljoen woorden voor de taalparen Nederlands-Engels en Nederlands-Frans. Het is bidirectioneel - het Nederlands is zowel brontaal als doeltaal - en een gedeelte van het corpus is drietalig, waarbij Nederlandse teksten vertalingen hebben naar het Engels én het Frans. DPC is gealigneerd op zinsniveau en verrijkt met taalkundige annotaties. De producenten van het DPC-corpus zijn de K.U. Leuven (Campus Kortrijk) en het Departement Vertaalkunde van de Hogeschool Gent.

LASSY en DPC zijn beide ontwikkeld binnen het STEVIN-programma. STEVIN is een meerjarig onderzoeks- en stimuleringsprogramma voor Nederlandstalige taal- en spraaktechnologie dat gezamenlijk door de Vlaamse en Nederlandse overheid wordt gefinancierd.

Zie: http://www.inl.nl/tst-centrale

--------------------------------------------------------------------------------
2. Politie bespaart 800.000 euro per jaar door de inzet van TST
********************************************************************************

Het callcenter van het Korps Landelijke Politiediensten (KLPD) in Driebergen is sinds kort uitgerust met een spraakherkenningssysteem. Het systeem zorgt ervoor dat een mobiele beller door middel van een spraakcomputer direct wordt doorverbonden met het politiebureau waarmee hij of zij contact zoekt. Wordt de door de mobiele beller ingesproken plaatsnaam door de software niet herkend, dan zorgt een medewerker van het KLPD in Driebergen alsnog voor een verbinding met de gevraagde regio. De spraakherkenningsoplossing betekent voor de burger dat deze sneller met het juiste politiebureau wordt doorverbonden. Voor de Nederlandse politie levert deze service een besparing op van circa 800.000 euro op jaarbasis. Het spraakherkenningssysteem is ingevoerd door de bedrijven Newtel Essence en Telecats.

Zie: http://www.telecommerce.nl/nieuws.aspx?id=31342

--------------------------------------------------------------------------------
3. Nieuw op Kennislink: Quizcomputer Watson doet mee aan tv-show
********************************************************************************

In 1996 liet IBM de wereld versteld staan met Deep Blue, een schaakcomputer die grootmeester Garri Kasparov wist te verslaan. Komend najaar hoopt IBM eenzelfde slag te slaan, dit keer met Watson, een vraag-antwoordmachine die het op zal nemen tegen de beste spelers van het Amerikaanse tv-spelletje Jeopardy!

Zie: http://www.kennislink.nl/publicaties/quizomputer-watson-doet-mee-aan-tv-show

Voor het complete overzicht van op Kennislink gepubliceerde TST-artikelen, zie: http://taalunieversum.org/taal/technologie/stevin/pers/#kennislink

--------------------------------------------------------------------------------
4. CLARIN-NL: Oproep voor projectvoorstellen
********************************************************************************

Binnen CLARIN (Common Language Resources and Technology Infrastructure for the Humanities and Social Sciences) wordt een onderzoeksinfrastructuur ontwikkeld die nodig is voor een eScience-werkomgeving voor onderzoekers in de geesteswetenschappen en de bestudering van taal in het bijzonder. Taal- en spraaktechnologie speelt een belangrijke rol binnen CLARIN.

Binnen de Nederlandse tak van CLARIN is een tweede oproep voor projectvoorstellen opengesteld. De oproep richt zich specifiek op demonstratieprojecten, projecten gericht op de "curation" van bronnen, of projecten die beide aspecten combineren. Projectvoorstellen kunnen worden ingediend tot woensdag 29 september 2010.

Zie: http://www.clarin.nl/node/129

--------------------------------------------------------------------------------
5. Vacature transcriptie van Nederlands gesproken interviews (K.U.Leuven/ESAT)
********************************************************************************

For our research activities in fully automatic and optimal speech recognition of spoken Dutch interviews, we have an open position for a junior researcher working towards the PhD degree. The ESAT speech group is one of the leading institutes in speech recognition for the Dutch language. Over the past years we have developed a state-of-the-art speech recognition system, and have trained it extensively on the Dutch language, both for broadband and telephone speech. In the context of a pilot for the European CLARIN project we want to make our recognition system usable by researchers from the humanities and social sciences. One of the important speech recognition tasks for these researchers is the fully automatic transcription of spoken Dutch interviews, with the least possible intervention of non-experts in speech processing. To that end, the recognition system needs to be augmented with a module that automatically provides an optimal parameter set for the recognition, based on the description of the user's task and the available resources, with special attention for the recognition of spoken interviews. The textual output (best sentence, list of alternatives or word graph) of the recognizer should also fit optimally with the subsequent linguistic processing. In a test case, the language model of the recognizer should be adapted with probabilistic latent models to the task of extraction of ideological content of political speeches.

Qualifications:
Candidates ideally have a university degree in engineering or computer science. Candidates with a general science degree and excellent programming skills may apply as well. Previous experience in speech recognition is not required but knowledge of or experience in any the following areas form an asset:
- speech recognition and speech modelling
- programming experience in C/C++/Python
- strong mathematical and statistical background
- knowledge of the Dutch language

Related Projects:
CLARIN pilot projects TTNWW and Spraak2Taal

Term of the project:
Starting in September (or October the latest) 2010 for 2 years (with a possible extension)

Applications and more information:
Interested applicants should send their CV to Prof. Patrick Wambacq (Patrick.Wambacq at esat.kuleuven.be)

Zie: http://www.esat.kuleuven.be/psi/spraak/jobs/clarin_jobad.php

--------------------------------------------------------------------------------

© Nederlandse Taalunie, 2000-2012 alle rechten voorbehouden
WegwijzerColofonContactVrijwaringOpmerkingen en reacties