Taal- en spraaktechnologienieuws december 2007
**********************************************
0. TST op de agenda
1. LangTech 2008 (Rome, 28-29/2)
2. Google lanceert Nederlandse online vertaaldienst
3. Dutchear meest Veelbelovende Startup Zuid Holland
4. DGT-TM Translation Memory gratis beschikbaar
5. Microsoft gaat Word-plugin maken voor digitale audiostandaard
6. Michel Boedeltje krijgt ENIAC-scriptieprijs voor NLP-toepassing
7. "Het menselijk taalvermogen is uniek"
8. Stageplaats bij TNO: zoeksysteem voor gesproken documenten
9. Twee vacatures spraakherkenning Nuance Communications (Merelbeke)
10. Twee vacatures Named Entityspecialisten INL (Leiden)
11. Vacature postdoc Statistische NLP (Universiteit van Amsterdam)
Heeft u ook een nieuwsbericht of een aankondiging, dan vernemen wij
dat graag (sluitingsdatum volgend nummer: 10/01/08). Deze en
voorgaande edities van Taal- en spraaktechnologienieuws zijn on-line
beschikbaar op
http://taalunieversum.org/taal/technologie/nieuwsbrief/.
====================================================================
U ontvangt dit bericht omdat uw gegevens zijn opgenomen in de taal-
en spraaktechnologiedatabank van de Nederlandse Taalunie
(www.taalunieversum.org/tst). Wijzigingen voor deze databank kunt u
melden via tst@taalunie.org - dank u wel!
====================================================================
--------------------------------------------------------------------
0. TST op de agenda
*******************
LOT-cursus Fonetiek en spraaktechnologie
(07/01 tot 11/01 in Tilburg)
com@modem.dag
(25/01 in Wilrijk)
Zie: http://taalunieversum.org/tst/
--------------------------------------------------------------------
1. LangTech 2008 (Rome, 28-29/2)
********************************
Na de succesvolle conferenties in Berlijn en Parijs, wordt LangTech
in 2008 opnieuw gehouden op 28-29 feb in Rome. LangTech biedt als
forum voor technologieleveranciers, applicatieontwikkelaars en
onderzoeksinstellingen een kans om de ervaringen op het gebied van
toepassingen van spraak- en taaltechnologie met elkaar te delen. U
wordt van harte uitgenodigd om deel te nemen aan LangTech. Dat kan
door de conferentie bij te wonen, door een poster te presenteren,
als exhibitor een stand in te richten of sponsor te worden. MKB's
kunnen aan een speciale Elevator Session deelnemen.
Zie: http://www.langtech.it/.
--------------------------------------------------------------------
2. Google lanceert Nederlandse online vertaaldienst
***************************************************
Vorige maand lanceerde het internetbedrijf Google een Nederlandse
versie van zijn online vertaaldienst, Google Vertaling.
De dienst maakt het mogelijk om Engelstalige teksten en webpagina's
om te zetten in het Nederlands. Ook kunnen gebruikers woorden
opzoeken in een online woordenboek, of in het Nederlands zoeken naar
Engelstalige informatie op het web. In dat geval vertaalt Google de
zoekopdracht in het Engels, doorzoekt het web en vertaalt de titels
en samenvattingen van de resultaten weer naar het Nederlands. Er is
ook een vertaalgadget beschikbaar, waarmee webmasters een
automatische vertaling van hun websites kunnen aanbieden.
De vertaaldienst van Google bestaat al langer, maar sprak tot voor
kort geen Nederlands. De site ondersteunde al wel onder meer Frans,
Duits, Italiaans, Japans, Chinees, Russisch en Spaans.
De vertalingen worden gemaakt door een computerprogramma. Ze zijn
verre van perfect, maar moeten volgens Google mensen wel helpen
teksten in vreemde talen beter te begrijpen. Gebruikers kunnen bij
vertalingen suggesties voor verbeteringen insturen.
De dienst is gemengd ontvangen. De Telegraaf kopte op 8 december
"Google spreekt kreupel Nederlands; Vertaalmachine kent grote
beperkingen". Op basis van een kleine test concludeert de krant dat
Google tekortschiet bij het vertalen van teksten waarin zaken als
emotie, ironie en andere subtiliteiten en rol spelen. Maar: "Wie de
vertaalmachine van Google raadpleegt voor huis-, tuin- en
keukenvragen wordt redelijk bediend. Ook dán zijn de vertalingen
geen hoogstandjes, maar met behulp van het eigen taalgevoel en een
dosis gezond verstand komen we ver genoeg."
Een uitgebreidere test is terug te vinden in Language Magazine van
28 november, onder de titel "Nog iemand lachen met Google
Translate?" Language Magazine vergeleek de vertaalsystemen van
Google, Systran en SDL met elkaar.
Zie: http://translate.google.com/translate_t?hl=nl
http://www.languagemagazine.be/artikellm07202.html
--------------------------------------------------------------------
3. Dutchear meest veelbelovende startup Zuid Holland
****************************************************
Dutchear, een jong bedrijf dat spraaktechnologie inzet in zeer
verschillende markten, heeft tijdens het Kennisfestival Zuid Holland
2007 op 7 november de prijs uitgereikt gekregen voor meest
veelbelovende startup van Zuid Holland. Dutchear kreeg de prijs
omdat ze een bewezen technologie zeer succesvol inzet in zowel
bestaande applicaties als innovatieve toepassingen, waardoor zij
steeds meer klanten aan zich te binden. De prijs werd uitgereikt
door Wim Fase van Bandridge aan Victor Huisman in aanwezigheid van
o.a. Manita Koop, gedeputeerde Provincie Zuid-Holland en Bas
Verkerk, burgemeester van Delft.
Dutchear maakt spraaktechnologische toepassingen voor telefonie.
Spraakherkenning, spraaksynthese en sprekerverificatie worden
ingezet om processen bij bedrijven goedkoper en klantvriendelijker
te maken. Wim Fase: "Dutchear, die weliswaar de pluim krijgt voor
veelbelovende startup, is de beginperikelen van de startup fase
ruimschoots voorbij. Ondanks het feit dat ze pas kort bestaan, zijn
ze in staat geweest grote klanten aan zich te binden, denk aan KPN,
denk aan TNT, Wehkamp." De toepassingen van spraaktechnologie zijn
legio en worden almaar meer. Je ziet spraaktechnologie oprukken in
steeds meer uiteenlopende markten. Waar spraaktechnologie van
oudsher veel werd toegepast bij callcenters, om druktoetsenmenu's te
vervangen of aan te vullen, verovert het nu ook nieuwe markten, als
de zorgmarkt en de overheid.
Zie: http://www.dutchear.nl/
http://www.kennisfestival.com/
--------------------------------------------------------------------
4. DGT-TM Translation Memory gratis beschikbaar
***********************************************
The European Commissions Directorate General for Translation (DGT)
and the Joint Research Centre (JRC) have made available a
multilingual Translation Memory (sentences and their translations,
in standard TMX format) for the 22 official European Union languages
Bulgarian, Czech, Danish, Dutch, English, Estonian, German, Greek,
Finnish, French, Hungarian, Italian, Latvian, Lithuanian, Maltese,
Polish, Portuguese, Romanian, Slovak, Slovene, Spanish and Swedish.
This release follows the public release - in May 2006 - of the JRC-
Acquis multilingual parallel corpus with sentence alignment for 231
language pairs and a total size of over 1 Billion words.
The data releases of DGT and JRC are in line with the general effort
of the European Commission to support multilingualism, language
diversity and the re-use of Commission information.
The Translation Memory contains most, but not all of the Acquis
Communautaire, which is the entire body of European legislation,
including all the treaties, regulations and directives adopted by
the European Union (EU) and the rulings of the European Court of
Justice. Since each new country joining the EU is required to accept
the whole Acquis Communautaire, this body of legislation is
translated into 22 official EU languages. For the 23rd official EU
language, Irish, the Acquis is not translated on a regular basis.
A translation memory is a collection of small text segments and
their translation. Tese segments can be sentences or sentence parts.
Translation memories are used to support translators by ensuring
that pieces of text that have already been translated do not need to
be translated again.
Zie: http://langtech.jrc.it/DGT-TM.html
--------------------------------------------------------------------
5. Microsoft gaat Word-plugin maken voor digitale audiostandaard
****************************************************************
Microsoft en het DAISY digital talking books consortium hebben
laten weten dat ze samenwerken aan een plugin voor Word 2007 die het
mogelijk maak om Word-documenten om te zetten naar een digitale
audiostandaard, waar vervolgens weer digitale luisterboeken van
gemaakt kunnen worden.
De plugin die ontwikkeld wordt, zal gratis te verkrijgen zijn en
converteert documenten op basis van het Open XML formaat naar het
DAISY XML formaat. Dit laatste formaat is ontwikkeld door het non-
profit Digital Accessible Information System consortium, kortweg
DAISY. Het consortium werd in 1996 opgericht door bibliotheken voor
luisterboeken om het converteren van analoge boeken naar digitale
luisterboeken te promoten.
Voor het beluisteren van DAISY-documenten bestaan er specifieke
voorleesapparaten, die vooral gebruikt worden door mensen met een
visuele beperking. Vrijwel alle regelmatige gebruikers van gesproken
boeken in Vlaanderen en Nederland beschikken ondertussen over zo'n
(draagbaar) voorleesapparaat.
Microsoft en DAISY verwachten dat de gratis Word-plugin begin 2008
beschikbaar zal zijn.
Zie: http://www.daisy.org/news/
Bron: Techzine, http://www.techzine.nl/nieuws/14231/
--------------------------------------------------------------------
6. Michel Boedeltje krijgt ENIAC-scriptieprijs voor NLP-toepassing
******************************************************************
Aan Michel Boedeltje van Telecats is de ENIAC-scriptieprijs 2006
toegekend voor de scriptie "In response to your inquiry: automatic
e-mail answer suggestion in a Dutch contact center environment."
Deze scriptie beschrijft een systeem om automatisch antwoorden te
suggereren op vragen per e-mail. Hierbij wordt gebruikt gemaakt van
Natural Language Processing (NLP), in een voor deze techniek nieuw
toepassingsgebied.
Vrijdag 14 december 2007 is de prijs uitgereikt door de voorzitter
van de jury Ir. E. Bredenhoff. Hier volgt een citaat uit het
juryrapport: "De jury heeft voor deze scriptie gekozen vanwege de
heldere wetenschappelijke aanpak en de leesbaarheid van het verslag.
Het verslag legt door middel van treffende voorbeelden moeilijke
materie op een heldere manier uit. Wat de jury zeer aansprak is dat
kwantitatief is aangetoond dat de door Boedeltje beschreven aanpak
tot grote verbeteringen kan leiden."
Hij werkt op dit moment met dezelfde techniek verder aan het Open
Vraag Spraakherkenningssysteem van Telecats. Dat is een systeem dat
de bellers begroet met een open vraag: welkom, hoe kan ik u helpen?
Het ingesproken antwoord wordt met behulp van spraakherkenning
omgezet naar tekst. Daarna wordt het antwoord geclassificeerd in een
standaardcategorie waar een standaardantwoord of actie (bijv.
doorverbinden naar een bepaalde afdeling) aan gekoppeld is.
ENIAC (de ENschedese Informatica Alumni Club aan de Universiteit
Twente) heeft de ENIAC-scriptieprijs in het leven geroepen om
afstudeerders van de afdeling Informatie van de faculteit
Elektrotechniek, Wiskunde en Informatica (EWI) van de Universiteit
Twente aan te moedigen een kwalitatief goede scriptie af leveren. De
prijs bestaande uit een schilderij, een certificaat en een
geldprijs, wordt jaarlijks toegekend aan de student die tijdens het
afgelopen studiejaar de kwalitatief meest hoogstaande scriptie heeft
geschreven. Genomineerde scripties worden beoordeeld door een
driekoppige jury op basis van vijf door ENIAC vastgestelde criteria.
Zie: http://www.telecats.nl/
http://www.eniac.utwente.nl/
--------------------------------------------------------------------
7. "Het menselijk taalvermogen is uniek"
****************************************
Op Kennislink.nl is een artikel te lezen over het onderzoek van
computationeel taalkundige Jelle Zuidema aan het Institute for
Logic, Language and Computation (ILLC) in Amsterdam. Zuidema startte
in oktober een Veni-onderzoek naar het leervermogen van grammatica.
Aan de hand van computermodellen probeert hij de bouwstenen van taal
te identificeren.
"Naast mogelijke technologische toepassingen zoals het maken van
betere automatische vertaalsystemen, heeft Zuidema's onderzoek een
meer cognitieve kant. Zo ontdekte hij dat de manier waarop een
computer taal en de bijbehorende regels leert, overeenkomsten
vertoont met de manier waarop kinderen een taal leren."
Zie: http://www.kennislink.nl/web/show?id=184368
--------------------------------------------------------------------
8. Stageplaats bij TNO: zoeksysteem voor gesproken documenten
*************************************************************
Binnen de afdeling Human Interfaces van TNO Defensie en Veiligheid
in Soesterberg wordt onder andere onderzoek gedaan in
spraaktechnologie. Spraaktechnologie maakt het mogelijk om (meta-)
informatie te halen uit audiokanalen waardoor zowel woorden ('wat')
als sprekers ('wie') herkend kunnen worden in een geluidsfragment.
Door spraak om te zetten naar tekst kan er op trefwoorden gezocht
worden in audiobestanden, bijvoorbeeld oude uitzendingen van het
Radio 1 nieuws (wanneer was het onderwerp 'vulkaan' in het nieuws?).
Met de toenemende hoeveelheid (internet)radio- en tv kanalen wordt
de mogelijkheid om automatisch in audiovisuele archieven te zoeken
steeds relevanter. TNO heeft een demonstrator ontwikkeld van een
systeem dat op basis van trefwoorden oude uitzendingen van het Radio
1 nieuws kan doorzoeken (een soort Google voor audio-bestanden).
Daarnaast is ook een demonstrator voor een webservice ontwikkeld om
multimedia files of streams (audio of video) te kunnen doorzoeken.
De taak van de stagiaire is de interface van de demonstrator te
verbeteren / uit te breiden, met name waar het gaat om de
zoekfunctionaliteit en de presentatie van de uitkomsten.
Wat vragen we van jou?
een opleiding op HBO/universitair niveau; affiniteit met
spraaktechnologie en mens-machine interfaces
programmeerervaring, o.a. mySQL, Perl, bash, php/html
in bezit van een paspoort van een NAVO lidstaat (i.v.m. screening)
beheersing Nederlands (i.v.m. Nederlandse spraaktechnologie)
affiniteit met onderzoek
zelfstandig kunnen werken
een collegiale instelling met bijbehorende communicatieve
vaardigheden
je bent ondernemend en initiatiefrijk
Je kunt solliciteren op deze stage door voor 1 januari 2008 een
motivatiebrief te sturen aan Dr. R. Drullman (rob.drullman@tno.nl,
of telefonisch 0346-356338).
Zie: http://www.tno.nl/
http://speech.tm.tno.nl/radio1/index.html
--------------------------------------------------------------------
9. Twee vacatures spraakherkenning Nuance Communications (Merelbeke)
********************************************************************
In order to strengthen our Embedded ASR Research team, we are
looking for a:
SOFTWARE ENGINEER SPEECH DIALOGUE TOOLS
As part of our team, you will be creating solutions for voice user
interfaces for embedded applications on mobile and automotive
platforms.
In addition, we are looking for a:
RESEARCH ENGINEER SPEECH DIALOGUE SYSTEMS
As part of our team, you will be creating speech technologies for
embedded applications varying from simple command and control tasks
up to natural language speech dialogues on mobile and automotive
platforms.
Zie: http://www.nuance.com/company/careers/center/
--------------------------------------------------------------------
10. Twee vacatures Named Entityspecialisten INL (Leiden)
********************************************************
Het Instituut voor Nederlandse Lexicologie zoekt per direct 2
ervaren computerlinguïsten voor het ontwikkelen van Named Entity
Processingtools in het kader van IMPACT. IMPACT is een nieuw
Europees onderzoeksproject waar het INL aan deelneemt. Het project
start per 1 januari 2008. Het betreft een 'Integrated Project' van
een aantal bibliotheken, diverse onderzoeksinstellingen en twee
commerciële partners.
Het hoofddoel van IMPACT is de toegankelijkheid van historische
documenten aanzienlijk te verbeteren, zodat ze, waar mogelijk, even
toegankelijk zijn als moderne digitale documenten.
De Named Entityspecialisten verrichten hun werkzaamheden in het
kader van de ontwikkeling van een toolbox voor het bouwen en
benutten van historische lexica t.b.v. de verbetering van OCR-
resultaten en ontsluiting van historisch tekstmateriaal. Het werk
betreft zowel implementatie als ontwerp van relevante algoritmen.
Profielschets:
. relevante wetenschappelijke opleiding op het gebied van
computerlinguïstiek, informatica of toegepaste wiskunde
. aantoonbare kennis van en ervaring met de ontwikkeling en
implementatie van machine learning, statistische en andere
computerlinguïstische algoritmen
. stressbestendigheid, in staat tot goede samenwerking in een team
dat in een kort tijdsbestek tot goede resultaten zal moeten komen
. aantoonbare ervaring met de ontwikkeling van complexe software
. goede kennis van C, C++ en Java strekt tot aanbeveling
. promotie of andere onderzoekservaring strekt tot aanbeveling
. ervaring met Named Entity Processing is zeer gewenst, kennis van
OCR-technieken strekt tot aanbeveling
. kennis van en ervaring met de behandeling van historisch
taalmateriaal strekt tot aanbeveling
Sluitingsdatum: 02-01-2008.
Zie: http://www.inl.nl/
--------------------------------------------------------------------
11. Vacature postdoc Statistische NLP (Universiteit van Amsterdam)
*****************************************************************
Position: POSTDOC researcher
Duration: 3 years
Deadline for applications: January 13 2008
You have obtained your Ph.D. recently (or will obtain it in the very
near future, in which case testemoney from the PhD thesis Supervisor
is needed) and a strong background, experience in and affinity with
any subset of the following areas:
. Computational Linguistics/Natural Language Processing
. Machine Learning Applied to NLP with good knowledge of
unsupervised methods.
. Preference for candidates with experience in Statistical Parsing
and/or Machine Translation.
You are passionate about empirical research, statistical learning
methods and NLP/CL. We seek a cooperative yet independent
personality. We offer a 3 year postdoc position working with a young
and creative group of researchers. Minor teaching and supervision
duties are expected.
Project title: Priors for the Estimation of Probabilistic Grammars
from Incomplete Natural Language Data
Example topics within the scope of the project:
.Statistical (data-driven) adaptation of a parser from one domain of
language use to another,
.Statistical unsupervised induction of parsers from raw corpora
(including parallel corpora),
.Statistical machine translation with syntactic and semantic
structure.
Candidates are encouraged to suggest similar topics of their own for
this position.
Zie: http://staff.science.uva.nl/~simaan/postdoc_adv.html
--------------------------------------------------------------------
©
Nederlandse Taalunie, 2000-2008 alle rechten voorbehouden
Wegwijzer – Colofon – Contact – Vrijwaring – Opmerkingen en reacties
Wegwijzer – Colofon – Contact – Vrijwaring – Opmerkingen en reacties