taalunieversum

Direct naar menu
U bent hier: start » taal » technologie »

taal- en spraaktechnologienieuws dec'07

Taal- en spraaktechnologienieuws december 2007 
**********************************************
  
0. TST op de agenda 
1. LangTech 2008 (Rome, 28-29/2)
2. Google lanceert Nederlandse online vertaaldienst 
3. Dutchear meest Veelbelovende Startup Zuid Holland
4. DGT-TM Translation Memory gratis beschikbaar
5. Microsoft gaat Word-plugin maken voor digitale audiostandaard
6. Michel Boedeltje krijgt ENIAC-scriptieprijs voor NLP-toepassing
7. "Het menselijk taalvermogen is uniek"
8. Stageplaats bij TNO: zoeksysteem voor gesproken documenten
9. Twee vacatures spraakherkenning Nuance Communications (Merelbeke)
10. Twee vacatures Named Entityspecialisten INL (Leiden)
11. Vacature postdoc Statistische NLP (Universiteit van Amsterdam)

Heeft u ook een nieuwsbericht of een aankondiging, dan vernemen wij 
dat graag (sluitingsdatum volgend nummer: 10/01/08). Deze en 
voorgaande edities van Taal- en spraaktechnologienieuws zijn on-line 
beschikbaar op 
http://taalunieversum.org/taal/technologie/nieuwsbrief/. 
  
==================================================================== 
U ontvangt dit bericht omdat uw gegevens zijn opgenomen in de taal- 
en spraaktechnologiedatabank van de Nederlandse Taalunie 
(www.taalunieversum.org/tst). Wijzigingen voor deze databank kunt u 
melden via tst@taalunie.org - dank u wel! 
==================================================================== 
  
-------------------------------------------------------------------- 

0. TST op de agenda 
******************* 

– LOT-cursus Fonetiek en spraaktechnologie
(07/01 tot 11/01 in Tilburg)

– com@modem.dag
(25/01 in Wilrijk)

Zie: http://taalunieversum.org/tst/ 
  
-------------------------------------------------------------------- 

1. LangTech 2008 (Rome, 28-29/2)
******************************** 

Na de succesvolle conferenties in Berlijn en Parijs, wordt LangTech 
in 2008 opnieuw gehouden op 28-29 feb in Rome. LangTech biedt als 
forum voor technologieleveranciers, applicatieontwikkelaars en 
onderzoeksinstellingen een kans om de ervaringen op het gebied van 
toepassingen van spraak- en taaltechnologie met elkaar te delen. U 
wordt van harte uitgenodigd om deel te nemen aan LangTech. Dat kan 
door de conferentie bij te wonen, door een poster te presenteren, 
als exhibitor een stand in te richten of sponsor te worden. MKB's 
kunnen aan een speciale Elevator Session deelnemen. 

Zie: http://www.langtech.it/.
  
-------------------------------------------------------------------- 

2. Google lanceert Nederlandse online vertaaldienst 
***************************************************

Vorige maand lanceerde het internetbedrijf Google een Nederlandse 
versie van zijn online vertaaldienst, Google Vertaling. 

De dienst maakt het mogelijk om Engelstalige teksten en webpagina's 
om te zetten in het Nederlands. Ook kunnen gebruikers woorden 
opzoeken in een online woordenboek, of in het Nederlands zoeken naar 
Engelstalige informatie op het web. In dat geval vertaalt Google de 
zoekopdracht in het Engels, doorzoekt het web en vertaalt de titels 
en samenvattingen van de resultaten weer naar het Nederlands. Er is
ook een vertaalgadget beschikbaar, waarmee webmasters een 
automatische vertaling van hun websites kunnen aanbieden. 

De vertaaldienst van Google bestaat al langer, maar sprak tot voor 
kort geen Nederlands. De site ondersteunde al wel onder meer Frans, 
Duits, Italiaans, Japans, Chinees, Russisch en Spaans. 

De vertalingen worden gemaakt door een computerprogramma. Ze zijn 
verre van perfect, maar moeten volgens Google mensen wel helpen 
teksten in vreemde talen beter te begrijpen. Gebruikers kunnen bij 
vertalingen suggesties voor verbeteringen insturen.

De dienst is gemengd ontvangen. De Telegraaf kopte op 8 december 
"Google spreekt kreupel Nederlands; Vertaalmachine kent grote 
beperkingen". Op basis van een kleine test concludeert de krant dat 
Google tekortschiet bij het vertalen van teksten waarin zaken als 
emotie, ironie en andere subtiliteiten en rol spelen. Maar: "Wie de 
vertaalmachine van Google raadpleegt voor huis-, tuin- en 
keukenvragen wordt redelijk bediend. Ook dán zijn de vertalingen 
geen hoogstandjes, maar met behulp van het eigen taalgevoel en een 
dosis gezond verstand komen we ver genoeg."

Een uitgebreidere test is terug te vinden in Language Magazine van 
28 november, onder de titel "Nog iemand lachen met Google 
Translate?" Language Magazine vergeleek de vertaalsystemen van 
Google, Systran en SDL met elkaar.

Zie: http://translate.google.com/translate_t?hl=nl
     http://www.languagemagazine.be/artikellm07202.html
  
--------------------------------------------------------------------

3. Dutchear meest veelbelovende startup Zuid Holland
****************************************************

Dutchear, een jong bedrijf dat spraaktechnologie inzet in zeer 
verschillende markten, heeft tijdens het Kennisfestival Zuid Holland 
2007 op 7 november de prijs uitgereikt gekregen voor meest 
veelbelovende startup van Zuid Holland. Dutchear kreeg de prijs 
omdat ze een bewezen technologie zeer succesvol inzet in zowel 
bestaande applicaties als innovatieve toepassingen, waardoor zij 
steeds meer klanten aan zich te binden. De prijs werd uitgereikt 
door Wim Fase van Bandridge aan Victor Huisman in aanwezigheid van 
o.a. Manita Koop, gedeputeerde Provincie Zuid-Holland en Bas 
Verkerk, burgemeester van Delft.

Dutchear maakt spraaktechnologische toepassingen voor telefonie. 
Spraakherkenning, spraaksynthese en sprekerverificatie worden 
ingezet om processen bij bedrijven goedkoper en klantvriendelijker 
te maken. Wim Fase: "Dutchear, die weliswaar de pluim krijgt voor 
veelbelovende startup, is de beginperikelen van de startup fase 
ruimschoots voorbij. Ondanks het feit dat ze pas kort bestaan, zijn 
ze in staat geweest grote klanten aan zich te binden, denk aan KPN, 
denk aan TNT, Wehkamp." De toepassingen van spraaktechnologie zijn 
legio en worden almaar meer. Je ziet spraaktechnologie oprukken in 
steeds meer uiteenlopende markten. Waar spraaktechnologie van 
oudsher veel werd toegepast bij callcenters, om druktoetsenmenu's te 
vervangen of aan te vullen, verovert het nu ook nieuwe markten, als 
de zorgmarkt en de overheid.

Zie: http://www.dutchear.nl/
     http://www.kennisfestival.com/
  
--------------------------------------------------------------------

4. DGT-TM Translation Memory gratis beschikbaar
***********************************************

The European Commission’s Directorate General for Translation (DGT) 
and the Joint Research Centre (JRC) have made available a 
multilingual Translation Memory (sentences and their translations, 
in standard TMX format) for the 22 official European Union languages 
Bulgarian, Czech, Danish, Dutch, English, Estonian, German, Greek, 
Finnish, French, Hungarian, Italian, Latvian, Lithuanian, Maltese, 
Polish, Portuguese, Romanian, Slovak, Slovene, Spanish and Swedish.

This release follows the public release - in May 2006 - of the JRC-
Acquis multilingual parallel corpus with sentence alignment for 231 
language pairs and a total size of over 1 Billion words.

The data releases of DGT and JRC are in line with the general effort 
of the European Commission to support multilingualism, language 
diversity and the re-use of Commission information. 

The Translation Memory contains most, but not all of the Acquis 
Communautaire, which is the entire body of European legislation, 
including all the treaties, regulations and directives adopted by 
the European Union (EU) and the rulings of the European Court of 
Justice. Since each new country joining the EU is required to accept 
the whole Acquis Communautaire, this body of legislation is 
translated into 22 official EU languages. For the 23rd official EU 
language, Irish, the Acquis is not translated on a regular basis.

A translation memory is a collection of small text segments and 
their translation. Tese segments can be sentences or sentence parts. 
Translation memories are used to support translators by ensuring 
that pieces of text that have already been translated do not need to 
be translated again. 

Zie: http://langtech.jrc.it/DGT-TM.html
  
-------------------------------------------------------------------- 

5. Microsoft gaat Word-plugin maken voor digitale audiostandaard
****************************************************************

Microsoft en het DAISY digital talking books consortium hebben 
laten weten dat ze samenwerken aan een plugin voor Word 2007 die het 
mogelijk maak om Word-documenten om te zetten naar een digitale 
audiostandaard, waar vervolgens weer digitale luisterboeken van 
gemaakt kunnen worden.

De plugin die ontwikkeld wordt, zal gratis te verkrijgen zijn en 
converteert documenten op basis van het Open XML formaat naar het 
DAISY XML formaat. Dit laatste formaat is ontwikkeld door het non-
profit Digital Accessible Information System consortium, kortweg 
DAISY. Het consortium werd in 1996 opgericht door bibliotheken voor 
luisterboeken om het converteren van analoge boeken naar digitale 
luisterboeken te promoten.

Voor het beluisteren van DAISY-documenten bestaan er specifieke 
voorleesapparaten, die vooral gebruikt worden door mensen met een 
visuele beperking. Vrijwel alle regelmatige gebruikers van gesproken 
boeken in Vlaanderen en Nederland beschikken ondertussen over zo'n 
(draagbaar) voorleesapparaat.

Microsoft en DAISY verwachten dat de gratis Word-plugin begin 2008 
beschikbaar zal zijn.
 
Zie: http://www.daisy.org/news/

Bron: Techzine, http://www.techzine.nl/nieuws/14231/

-------------------------------------------------------------------- 

6. Michel Boedeltje krijgt ENIAC-scriptieprijs voor NLP-toepassing
******************************************************************
 
Aan Michel Boedeltje van Telecats is de ENIAC-scriptieprijs 2006 
toegekend voor de scriptie "In response to your inquiry: automatic
e-mail answer suggestion in a Dutch contact center environment." 
Deze scriptie beschrijft een systeem om automatisch antwoorden te 
suggereren op vragen per e-mail. Hierbij wordt gebruikt gemaakt van 
Natural Language Processing (NLP), in een voor deze techniek nieuw 
toepassingsgebied.

Vrijdag 14 december 2007 is de prijs uitgereikt door de voorzitter 
van de jury Ir. E. Bredenhoff. Hier volgt een citaat uit het 
juryrapport: "De jury heeft voor deze scriptie gekozen vanwege de 
heldere wetenschappelijke aanpak en de leesbaarheid van het verslag. 
Het verslag legt door middel van treffende voorbeelden moeilijke 
materie op een heldere manier uit. Wat de jury zeer aansprak is dat 
kwantitatief is aangetoond dat de door Boedeltje beschreven aanpak 
tot grote verbeteringen kan leiden."

Hij werkt op dit moment met dezelfde techniek verder aan het Open 
Vraag Spraakherkenningssysteem van Telecats. Dat is een systeem dat 
de bellers begroet met een open vraag: welkom, hoe kan ik u helpen? 
Het ingesproken antwoord wordt met behulp van spraakherkenning 
omgezet naar tekst. Daarna wordt het antwoord geclassificeerd in een 
standaardcategorie waar een standaardantwoord of actie (bijv. 
doorverbinden naar een bepaalde afdeling) aan gekoppeld is. 

ENIAC (de ENschedese Informatica Alumni Club aan de Universiteit 
Twente) heeft de ENIAC-scriptieprijs in het leven geroepen om 
afstudeerders van de afdeling Informatie van de faculteit 
Elektrotechniek, Wiskunde en Informatica (EWI) van de Universiteit 
Twente aan te moedigen een kwalitatief goede scriptie af leveren. De 
prijs bestaande uit een schilderij, een certificaat en een 
geldprijs, wordt jaarlijks toegekend aan de student die tijdens het 
afgelopen studiejaar de kwalitatief meest hoogstaande scriptie heeft 
geschreven. Genomineerde scripties worden beoordeeld door een 
driekoppige jury op basis van vijf door ENIAC vastgestelde criteria. 

Zie: http://www.telecats.nl/
     http://www.eniac.utwente.nl/

-------------------------------------------------------------------- 

7. "Het menselijk taalvermogen is uniek"
****************************************

Op Kennislink.nl is een artikel te lezen over het onderzoek van 
computationeel taalkundige Jelle Zuidema aan het Institute for 
Logic, Language and Computation (ILLC) in Amsterdam. Zuidema startte 
in oktober een Veni-onderzoek naar het leervermogen van grammatica. 
Aan de hand van computermodellen probeert hij de bouwstenen van taal 
te identificeren. 

"Naast mogelijke technologische toepassingen zoals het maken van 
betere automatische vertaalsystemen, heeft Zuidema's onderzoek een 
meer cognitieve kant. Zo ontdekte hij dat de manier waarop een 
computer taal en de bijbehorende regels leert, overeenkomsten 
vertoont met de manier waarop kinderen een taal leren."

Zie: http://www.kennislink.nl/web/show?id=184368
  
-------------------------------------------------------------------- 

8. Stageplaats bij TNO: zoeksysteem voor gesproken documenten
*************************************************************

Binnen de afdeling Human Interfaces van TNO Defensie en Veiligheid 
in Soesterberg wordt onder andere onderzoek gedaan in
spraaktechnologie. Spraaktechnologie maakt het mogelijk om (meta-)
informatie te halen uit audiokanalen waardoor zowel woorden ('wat') 
als sprekers ('wie') herkend kunnen worden in een geluidsfragment. 
Door spraak om te zetten naar tekst kan er op trefwoorden gezocht 
worden in audiobestanden, bijvoorbeeld oude uitzendingen van het 
Radio 1 nieuws (wanneer was het onderwerp 'vulkaan' in het nieuws?). 
Met de toenemende hoeveelheid (internet)radio- en tv kanalen wordt 
de mogelijkheid om automatisch in audiovisuele archieven te zoeken 
steeds relevanter. TNO heeft een demonstrator ontwikkeld van een 
systeem dat op basis van trefwoorden oude uitzendingen van het Radio 
1 nieuws kan doorzoeken (een soort Google voor audio-bestanden). 
Daarnaast is ook een demonstrator voor een webservice ontwikkeld om
multimedia files of streams (audio of video) te kunnen doorzoeken. 
De taak van de stagiaire is de interface van de demonstrator te 
verbeteren / uit te breiden, met name waar het gaat om de 
zoekfunctionaliteit en de presentatie van de uitkomsten.

Wat vragen we van jou?
• een opleiding op HBO/universitair niveau; affiniteit met 
spraaktechnologie en mens-machine interfaces
• programmeerervaring, o.a. mySQL, Perl, bash, php/html
• in bezit van een paspoort van een NAVO lidstaat (i.v.m. screening)
• beheersing Nederlands (i.v.m. Nederlandse spraaktechnologie)
• affiniteit met onderzoek
• zelfstandig kunnen werken
• een collegiale instelling met bijbehorende communicatieve 
vaardigheden
• je bent ondernemend en initiatiefrijk

Je kunt solliciteren op deze stage door voor 1 januari 2008 een 
motivatiebrief te sturen aan Dr. R. Drullman (rob.drullman@tno.nl, 
of telefonisch 0346-356338).

Zie: http://www.tno.nl/
     http://speech.tm.tno.nl/radio1/index.html
  
-------------------------------------------------------------------- 

9. Twee vacatures spraakherkenning Nuance Communications (Merelbeke)
********************************************************************

In order to strengthen our Embedded ASR Research team, we are 
looking for a:

       SOFTWARE ENGINEER SPEECH DIALOGUE TOOLS

As part of our team, you will be creating solutions for voice user
interfaces for embedded applications on mobile and automotive 
platforms. 

In addition, we are looking for a:

       RESEARCH ENGINEER SPEECH DIALOGUE SYSTEMS

As part of our team, you will be creating speech technologies for 
embedded applications varying from simple command and control tasks 
up to natural language speech dialogues on mobile and automotive 
platforms. 

Zie: http://www.nuance.com/company/careers/center/
  
-------------------------------------------------------------------- 

10. Twee vacatures Named Entityspecialisten INL (Leiden)
********************************************************

Het Instituut voor Nederlandse Lexicologie zoekt per direct 2 
ervaren computerlinguïsten voor het ontwikkelen van Named Entity 
Processingtools in het kader van IMPACT. IMPACT is een nieuw 
Europees onderzoeksproject waar het INL aan deelneemt. Het project 
start per 1 januari 2008. Het betreft een 'Integrated Project' van 
een aantal bibliotheken, diverse onderzoeksinstellingen en twee 
commerciële partners.

Het hoofddoel van IMPACT is de toegankelijkheid van historische 
documenten aanzienlijk te verbeteren, zodat ze, waar mogelijk, even 
toegankelijk zijn als moderne digitale documenten. 

De Named Entityspecialisten verrichten hun werkzaamheden in het 
kader van de ontwikkeling van een toolbox voor het bouwen en 
benutten van historische lexica t.b.v. de verbetering van OCR-
resultaten en ontsluiting van historisch tekstmateriaal. Het werk 
betreft zowel implementatie als ontwerp van relevante algoritmen.

Profielschets:
. relevante wetenschappelijke opleiding op het gebied van 
computerlinguïstiek, informatica of toegepaste wiskunde 
. aantoonbare kennis van en ervaring met de ontwikkeling en 
implementatie van machine learning, statistische en andere 
computerlinguïstische algoritmen 
. stressbestendigheid, in staat tot goede samenwerking in een team 
dat in een kort tijdsbestek tot goede resultaten zal moeten komen 
. aantoonbare ervaring met de ontwikkeling van complexe software
. goede kennis van C, C++ en Java strekt tot aanbeveling 
. promotie of andere onderzoekservaring strekt tot aanbeveling
. ervaring met Named Entity Processing is zeer gewenst, kennis van 
OCR-technieken strekt tot aanbeveling 
. kennis van en ervaring met de behandeling van historisch 
taalmateriaal strekt tot aanbeveling 

Sluitingsdatum: 02-01-2008.

Zie: http://www.inl.nl/ 
  
-------------------------------------------------------------------- 

11. Vacature postdoc Statistische NLP (Universiteit van Amsterdam)
*****************************************************************

Position: POSTDOC researcher
Duration: 3 years  
Deadline for applications:  January 13 2008

You have obtained your Ph.D. recently (or will obtain it in the very 
near future, in which case testemoney from the PhD thesis Supervisor 
is needed) and a strong background, experience in and affinity with 
any subset of the following areas: 
. Computational Linguistics/Natural Language Processing
. Machine Learning Applied to NLP with good knowledge of 
unsupervised methods.
. Preference for candidates with experience in Statistical Parsing 
and/or Machine Translation. 
You are passionate about empirical research, statistical learning 
methods and NLP/CL. We seek a cooperative yet independent 
personality. We offer a 3 year postdoc position working with a young 
and creative group of researchers. Minor teaching and supervision 
duties are expected.

Project title: Priors for the Estimation of Probabilistic Grammars 
from Incomplete Natural Language Data

Example topics within the scope of the project:
.Statistical (data-driven) adaptation of a parser from one domain of 
language use to another, 
.Statistical unsupervised induction of parsers from raw corpora 
(including parallel corpora), 
.Statistical machine translation with syntactic and semantic 
structure.
Candidates are encouraged to suggest similar topics of their own for 
this position.

Zie: http://staff.science.uva.nl/~simaan/postdoc_adv.html
  
-------------------------------------------------------------------- 
© Nederlandse Taalunie, 2000-2008 alle rechten voorbehouden
WegwijzerColofonContactVrijwaringOpmerkingen en reacties