Taal in Bedrijf 2011

Dit is een archiefpagina. Het kan zijn dat verwijzingen niet werken.

De aandacht ging dit jaar uit naar het STEVIN-programma, een meerjarig onderzoeks- en stimuleringsprogramma voor Nederlandstalige taal- en spraaktechnologie

Op dinsdag 29 november 2011 vond deze derde editie van het evenement plaats in concert- en congresgebouw de Doelen in Rotterdam. Naast demonstraties en workshops waren er op Taal in Bedrijf ook veel mogelijkheden zijn om te netwerken. Taal in Bedrijf is gericht op leveranciers, wetenschappers, investeerders, bestuurders en vooral gebruikers.

Programma

Deze editie van Taal in Bedrijf heeft speciale aandacht besteed aan de afsluiting van het Vlaams-Nederlandse STEVIN-programma: een meerjarig onderzoeks- en stimuleringsprogramma voor Nederlandstalige taal- en spraaktechnologie. Daarnaast is er de hele middag een bedrijvenmarkt waar u kunt kennismaken met vele organisaties, die hun toepassingen op het gebied van taal- en spraaktechnologie presenteren.

13:22 - 13:44: presentatie 2

09:15 - 10:00: registratie en koffie
10:00 - 10:05: verwelkoming: Arjan van Hessen(dagvoorzitter)
10:05 - 10:15: opening: Linde van den Bosch (algemeen secretaris Nederlandse Taalunie)
10:15 - 10:55: Building Watson: Language Technologies for DeepQA and the Jeopardy! Challenge: Bran Boguraev (IBM, TJ Watson Research Center, USA)
10:55 - 11:45: panelsessie 'Business Intelligence' (geleid door Arjan van Hessen met als deelnemers: Peter de Bie, Kees Groeneveld, Paul Heisterkamp, Lou Boves, Niek de Vet ) [in het Engels]
11:45 - 13:00: opening bedrijvenmarkt inclusief lunch
13:00 - 14:30: parallelsessies
  13:00 - 13:22: presentatie 1
 

  13:44 - 14:06: presentatie 3   14:06 - 14:30: presentatie 4 14:30 - 15:00: pauze 15:00 - 16:00: vervolg parallelsessies   15:00 - 15:20: presentatie 6   15:20 - 15:40:presentatie 7   15:40 - 16:00: presentatie 8 16:00 - 16:30: De impact van de combinatie van de singulariteit en TST op de creatieve sector: Yuri van Geest 16:30 - 17:30: afsluitende borrel op de bedrijvenmarkt

Parallelsessies

Tijdens de parallelsessies worden recente succesvolle toepassingen van taal- en spraaktechnologie, waaronder STEVIN-projecten, gepresenteerd.

sessie 1. Klantendiensten

Meer en meer bedrijven zien in dat een deel van hun klantendiensten te automatiseren valt door gebruik te maken van taal- en spraaktechnologie. Deze nieuwe aanpak moet ertoe leiden dat de wachttijden voor de klanten spectaculair naar beneden gaan en dat de kwaliteit van de dienstverlening verbetert doordat de beschikbare menskracht beter kan worden ingezet voor de behandeling van moeilijke vragen. In deze sessie komen een aantal succesvolle toepassingen aan bod maar wordt ook ingegaan op enkele specifieke problemen die een oplossing moeten krijgen om een goed resultaat te kunnen bereiken.

Dennis de Vries (GridLine): Zoekt u andere leuke programma's? ZieOok, recommendation met taal-boosting.

Bij de aanschaf van een boek, muziek-cd of film kiezen mensen vaak een titel uit de verkoop-top10. Mensen volgen nu eenmaal graag de keuzes van andere mensen. Webshops benutten dit gegeven door automatische recommendation in te zetten: bij deze klantendienst krijgt de bezoeker een persoonlijke titelselectie aangeboden op basis van het keuzegedrag van bezoekers met eenzelfde gebruikersprofiel. Dit heeft als groot nadeel dat de bezoekers gebaande paden blijven volgen en even geschikte titels die minder populair zijn over het hoofd zien.

Jean-Pierre Martens (UGent - ELIS): Kan ik voor vanavond nog een tafel bestellen in de Comme Chez Soi?

Bedrijven als TomTom stoppen heel wat informatie over POIs (Points of Interest) in hun kaartdata. Ze willen die niet alleen in autonavigatiesystemen exploiteren, maar ook b.v. in POI business services die je informatie kunnen geven over beschikbaarheden in restaurants, hotels, campings, etc. In het STEVIN AUTONOMATA-project werd onderzocht of je zo een service met de stem zou kunnen bevragen. Daarbij werd snel duidelijk dat dit wel kan, maar dat het uitermate belangrijk is de juiste instellingen van de spraakherkenner te kiezen en specifieke informatie over de uitspraak van POI-namen aan te wenden. In deze lezing worden kort een aantal problemen en oplossingen besproken en geprojecteerd naar andere toepassingen zoals b.v. productordersystemen.

Marieke Belt (Loket aangepast-lezen): Bibliotheek voor mensen met visuele beperking 24/7 geopend dankzij spraakherkenning.

Het Loket aangepast-lezen is de bibliotheek voor mensen met een visuele beperking. Vanwege de landelijke dekking is de manier waarop de collectie wordt ontsloten aan de klanten, zeer belangrijk. Online bestellen is voor veel klanten op leeftijd niet mogelijk en om toch 24/7 bereikbaar te zijn, is de telefonische bestellijn geëmplementeerd. Door middel van spraakherkenning kunnen klanten, zonder tussenkomst van een medewerker, boeken aan zichzelf uitlenen. In deze presentatie wordt dit proces toegelicht.

Martijn van de Runstraat (Telecats): 'Open vraag spraakherkenning succesvol ingezet bij AEGON'.

Met een groot aantal producten en de wens om één nummer te gaan communiceren, was een traditioneel keuzemenu voor AEGON niet meer toereikend. Klanten kunnen daarom tegenwoordig hun vraag aan AEGON inspreken, waarna ze direct met de juiste medewerker worden doorgeschakeld. In deze presentatie wordt u meegenomen in het proces van het idee tot een succesvolle implementatie van deze open vraag spraakherkenning oplossing.

sessie 2. Intelligente ontsluiting / Informatie-extractie (deel 1)

 

Er staat steeds meer (multimediale) informatie op internet waardoor gebruikers min of meer gedwongen worden om gebruik te maken van taal- en spraaktechnologie (TST) voor het zoeken, vinden en bekijken/beluisteren van de gewenste informatie. De afgelopen zes jaar zijn er verschillende Stevin-projecten geweest waarbij nieuwe TST werd ontwikkeld en bestaande TST werd gebruikt voor het beter ontsluiten van informatie. Vier projecten (zowel wetenschappelijke als toegepaste) zullen hun resultaten hier presenteren en aangeven wat het effect van de projecten op het verdere gebruik van TST bij het ontsluiten is geweest.

Marijn Huijbregts (X-MI): Spraakherkenningsdienst voor de erfgoedsector.

Het aantal digitale multimedia-archieven in de erfgoedsector neemt nog dagelijks toe. Bestaande archieven worden gedigitaliseerd (bv de bibliotheek van Rotterdam) en nieuwe archieven worden gevormd (bijvoorbeeld het interviewproject Nederlandse Veteranen). Omdat de onbewerkte opnames erg lang kunnen zijn, is goede zoekfunctionaliteit onontbeerlijk. Het handmatig toevoegen van gedetailleerde informatie aan de audiovisuele bestanden is een tijdrovende en daardoor dure taak. Voor het Catchplus-deelproject 'Spraakherkenning' heeft X-MI een spraakherkenningsservice gebouwd waarmee volledig automatisch metadata aan opnames kan worden toegevoegd. Met behulp van spraaktechnologie wordt elk gesproken woord in de opname omgezet naar tekst. Aan de hand van deze tekst (in de meegeleverde tijdcodes) kunnen later fragmenten teruggevonden worden. Vaak is de audiokwaliteit van veel opnames echter niet perfect, wordt er informeel gesproken of worden veel specifieke termen gebruikt. Deze drie kenmerken maken het lastiger voor de service om hoge kwaliteit spraakherkenning te leveren. Om een zo goed mogelijk resultaat te behalen moet het systeem voor elk archief worden aangepast. In de presentatie zal de service gedemonstreerd worden en zal een aantal voorbeelden worden gegeven van de typische aanpassingen die we toepassen.

Emiel Kramer (UvT): De computer leert parafrases herkennen: Het DAESO project.

Er zijn veel manieren om hetzelfde te zeggen. Vergelijk bijvoorbeeld de volgende twee openingszinnen, uit respectievelijk het NRC en de Telegraaf van 11 september 2006: "De 44-jarige Steve Irwin - bekend door zijn tv-programma's over dieren - stierf maandagmiddag (plaatselijke tijd) nadat hij tijdens het duiken voor de Australische noordoostkust bij Port Douglas in zijn borstkas werd gestoken door een giftige pijlstaartrog." en "Steve Irwin, de Australische televisiepresentator die bekend is als The Crocodile Hunter, is maandag overleden nadat hij tijdens een duikexpeditie was gestoken door een pijlstaartrog." Hoewel deze twee zinnen dezelfde gebeurtenis beschrijven, doen ze dit in grotendeels verschillende bewoordingen. Dit fenomeen wordt wel semantische overlap genoemd. Vanuit een taaltechnologisch perspectief vormt het automatisch detecteren van semantische overlap een hele uitdaging, die voor veel toepassingen (van automatisch samenvatten tot informatie-extractie) nuttig zou kunnen zijn. In dit praatje geef ik een overzicht van onderzoek dat op dit gebied gedaan is in het STEVIN-project DAESO (http://daeso.uvt.nl/)

Marie-Francine Moens (KU Leuven) en Fabrice Nauze (Rightnow): DAISY: automatisch samenvatten voor informatieve websites.

Het STEVIN-project DAISY (Dutch lAnguage Investigation of Summarization technologY) heeft technologieën ontwikkeld voor het samenvatten van Nederlandstalige tekst te vinden in informatieve Webpagina's zodat deze beter kunnen worden ontsloten door middel van een vraag-antwoordsysteem. De methoden betreffen de inhoudsextractie uit de Webpagina's, het herkennen van coherente segmenten en hun retorische rol, het inkorten van zinnen en het herschrijven van de samengevatte zinnen naar vloeiende, grammaticaal correcte zinnen. De ontwikkelde technologieën zijn publiek beschikbaar via een demonstrator en toevoegingen aan de Alpino-parser.

Jakub Zavrel (Textkernel): Procesoptimalisatie in recruitment door gebruik van taaltechnologie.

Op de arbeidsmarkt komen zowel vraag als aanbod (vacatures en CV's) primair in de vorm van ongestructureerde tekst voor. Door het gebruik van intelligente informatie-extractie, web mining, en semantische search en matching kunnen recruitmentprocessen veel efficiënter gemaakt worden. Dit zorgt ervoor dat bedrijven betere conversie halen uit hun investeringen in hun online recruitment portals en employer branding, dat werving- en selectiebureaus sneller betere kandidaten aan kunnen bieden, en dat in het algemeen het zoeken op concepten in plaats van keywords mogelijk wordt, zodat de match tussen vraag en aanbod beter wordt. In de presentatie bespreken we de belangrijkste factoren voor het slagen van de inzet van taaltechnologie bij recruitment, en geven we een aantal demo's van systemen van onze klanten en onderwerpen uit onze recente R&D.

sessie 3. Communicatie en Informatievoorziening

 

De dienstverlening van Overheid en Bedrijfsleven is op allerlei manieren verbonden met communicatie en informatievoorziening. Denk aan het informatieaanbod via websites, brochures en video's, het directe contact met klanten aan de balies en in call centra, gegevensuitwisseling via (online)formulieren, dossierbeheer, interne verslaglegging, DIV-diensten, kennisbanken, instructiesystemen voor experts et cetera. Taal- en spraaktechnologie biedt uitstekende mogelijkheden om deze cruciale bedrijfsprocessen te ondersteunen. In deze sessie maakt u onder meer kennis met spraakgestuurd onderhoud uitvoeren, automatische hulp bij het schrijven van jargon-vrije brieven, en efficiëntieverbetering bij het ondertitelen van Nederlandse en Vlaamse televisieprogramma's.

Ruud Dullens (BlueTea): SAMM - De Monteur van de Toekomst.

Als winnende inschrijving van de Defensie Innovatie Competitie 2009 heeft het SAMM consortium bestaande uit Tedopres, Dutchear en BlueTea het concept SAMM (System for Asset Maintenance Management) ontwikkeld. Dit prototype is op 30 augustus opgeleverd aan Defensie. De wereld van onderhoud kampt met een te grote uitstroom en een te lage instroom. Hierdoor gaat kennis verloren en dienen er andere vormen van training en kennisoverdracht ingezet te worden om de vraag en het aanbod op elkaar af te stemmen. SAMM vormt hierbij een deel van de oplossing waarbij een monteur door technologie (Augmented Reality en spraak) wordt geholpen bij het uitvoeren van taken. Via spraaksynthese en spraakcommando's kan de monteur het systeem sturen waardoor deze stap voor stap begeleid wordt in het uitvoeren van de handelingen. Zowel voor onderhoud als diagnose biedt het systeem ondersteuning aan engineers die specialistische vaardigheden dienen te ontwikkelen of nieuwe machines moeten verkennen.

Odile Swankhuizen (GridLine): Klinkende Taal - helpt professionals bij het schrijven van begrijpelijke teksten.

Heldere teksten schrijven die meteen duidelijk zijn. Met Klinkende Taal kan voortaan iedereen dat. Met één druk op de knop markeert de applicatie wollig, ambtelijk taalgebruik, spaghettizinnen, eindeloze bepalingen, jargon en nog veel meer. Hoe meer van dit soort problemen, hoe minder leesbaar een tekst wordt en hoe hoger het vereiste taalniveau van de lezer. Hierdoor is de kans op miscommunicatie veel groter en klantvriendelijk is het ook niet. Klinkende Taal helpt professionals met begrijpelijk schrijven door het taalniveau van een tekst te bepalen en concrete tips te geven hoe dat taalniveau omlaag kan. Klinkende Taal is één van de vele taaloplossingen die GridLine organisaties te bieden heeft om efficiënter met documenten te werken. Denk bijvoorbeeld aan automatisch samenvatten, automatisch classificeren, thesauri en text mining. Waarom handmatig werken, als taaltechnologie het u uit handen kan nemen?

Laurens Satink (Telecats): Oplijnen van ondertitels in TV programma's bij de NPO en VRT.

Van de uitgezonden Nederlandstalige TV programma's moet het overgrote deel voorzien worden van ondertiteling. Het oplijnen ofwel het plaatsen van de juiste teksten op het juiste moment is een uitermate tijdrovend proces. Bij de NPO en de VRT is een project uitgevoerd om dit proces te optimaliseren. Door het toepassen van geavanceerde taal- en spraaktechnologie blijkt dat dit proces maar liefst 40% efficiënter kan.

Gunter Saerens (VRT): Spraakherkenning bij live-televisieprogramma's (al dan niet met delay).

Vandaag de dag is het werken met spraakherkenning volledig ingeburgerd op elke zichzelf respecterende ondertiteldienst. De zogenaamde respeaking-methode wordt ook door VRT dagelijks gebruikt om meerdere soorten van ondertiteling aan te pakken, waarvan live en semi-live (of live met delay) de twee belangrijkste exponenten zijn. In onze presentatie gaan we verder in op (het gebruik van) deze twee methodes.

sessie 4. Overheid

 

De overheid zet volop nieuwe ICT in voor een betere dienstverlening voor burgers en bedrijven en een hogere efficiëntie van interne werkprocessen. Onder meer in het verlengde van de EU voeren Nederland, België en Vlaanderen gericht beleid voor deze 'e-overheid' (digitale overheid). In deze sessie zal op verschillende manieren getoond worden hoe taal- en spraaktechnologie kan bijdragen aan de verwezenlijking van de e-overheiden, en efficiëntieverbetering bij het ondertitelen van Nederlandse en Vlaamse televisieprogramma's.

Bart Depoortere (Xplanation) en Vincent Vandeghinste (KU Leuven): Automatisch vertalen met een flexibel vertaalgeheugen.

In het professionele vertaalbedrijf zijn vertaalgeheugens al geruime tijd ingeburgerd als hulpmiddel. Ze helpen het vertaalproces versnellen, en zorgen ook voor consequentere vertalingen. Wat al vertaald is, hoeft niet opnieuw vertaald te worden, en wordt bovendien op dezelfde manier vertaald. Vaak zijn er kleine verschillen met wat in het vertaalgeheugen zit. Als deze automatisch aangepast worden door de computer, en niet langer manueel aangepast moeten worden door de vertaler, dan kunnen we spreken van een flexibel vertaalgeheugen. Naarmate de automatische aanpassing van zulke verschillen toeneemt gebruiken we eigenlijk automatische vertaling ipv een vertaalgeheugen. Het PaCo-MT systeem is een dergelijk systeem, gebaseerd op het idee achter flexibele vertaalgeheugens. PaCo-MT werd ontwikkeld binnen het STEVIN-programma.

Henny van Schie (Nationaal Archief): Scratch4All - Googelen in handgeschreven teksten.

Het ideaal van onderzoekers is het kunnen zoeken en vinden van informatie in gedigitaliseerde handgeschreven documenten. Archiefdiensten beheren enorme hoeveelheden handgeschreven materiaal dat niet of nauwelijks met moderne, digitale hulpmiddelen benaderbaar is. Vanuit het onderzoeksprogramma 'Scratch' wordt door de Rijksuniversiteit Groningen onderzocht hoe, aan de hand van software, uit handgeschreven, gescande documenten woorden en woordzones kunnen worden herkend uit handgeschreven patronen. De inmiddels ontwikkelde software, Monk genaamd, 'leert' de handschriften te lezen, waardoor er met succes gezocht kan worden. Scratch maakt deel uit van het onderzoeksprogramma 'Continuous Access To Cultural Heritage' (Catch) van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO).

Tigran Spaan (GridLine): Geen gedoe meer met metadata invoeren! Automatische trefwoorden voor de Tweede Kamer.

Voor de Tweede Kamer is het van groot belang om snel over alle stukken te beschikken die betrekking hebben op een actueel dossier, inclusief de meest recente artikelen in de media. De archiefdienst van de Tweede Kamer probeert hierin te voorzien door handmatig tienduizenden documenten per jaar van trefwoorden uit de Parlementsthesaurus te voorzien. Tweede Kamerleden kunnen deze documenten vervolgens opsporen door gebruik te maken van een zoekmachine. Hoewel dit goede resultaten oplevert, is het een relatief traag proces, waardoor er makkelijk enkele weken overheen kunnen gaan voordat een nieuw artikel beschikbaar is via het archief van de Tweede Kamer. Om dit te ondervangen, laat de archiefdienst momenteel een systeem ontwikkelen waarmee documenten automatisch van trefwoorden kunnen worden voorzien. Vooruitlopend op redactionele controle kunnen deze stukken alvast beschikbaar komen in de zoekmachine. Ook de redactie is ermee geholpen, want zij hoeft alleen maar te controleren of de toegekende trefwoorden juist zijn.

Sander Hesselink (Telecats): Spraakanalyse in het Contact Center van DUO (voorheen IB-Groep).

Met behulp van Spraakanalyse krijgen organisaties meer inzicht in de inhoud van telefonisch klantcontact. Met Spraakanalyse worden telefoongesprekken in het contact center opgenomen en met taal- en spraaktechnologie verwerkt en geanalyseerd op basis van de inhoud en "emotie" van het gesprek. Deze kennis kan worden gebruikt om de klantinteractieprocessen te optimaliseren en de klantvriendelijkheid te vergroten. Aan de hand van de 'DUO - IBGroep casus' laten we de onbegrensde mogelijkheden van Spraakanalyse zien.

sessie 5. Zorg

 

In de zorg kan taal- en spraaktechnologie worden ingezet om de communicatie tussen mens en machine natuurlijker en efficiënter te laten verlopen en om allerlei vormen van zorg op maat te kunnen aanbieden en daardoor zorgverlening betaalbaar te houden. Door de juiste hulpmiddelen te ontwikkelen en tijdig in te zetten kunnen ouderen, bijvoorbeeld, langer zelfstandig in hun vertrouwde leefomgeving blijven wonen. Op deze manier kan de vraag naar zorg worden verlicht. In deze sessie worden enkele voorbeelden getoond van het gebruik van taal- en spraaktechnologie in de zorg.

Toni Rietveld (St Maartenskliniek): Organisatorische vragen bij taal- en spraaktherapie op afstand.

In deze bijdrage wordt een aantal organisatorische vragen aan de orde gesteld bij de toepassing van spraak- en taaltherapie op afstand. De bespreking van die vragen zal geschieden mede aan de hand van een spraaktherapie op afstand die door de Sint Maartenskliniek in Nijmegen en de Faculteit der Letteren van de RU Nijmegen is ontwikkeld: EST: E-learning Speech Therapy. Een korte demonstratie van die therapie zal worden gegeven.

Frank Allemeersch (Sensotec): De Audiokrant, een hybride krant voor personen met een leesbeperking.

Voor personen met een leeshandicap is de toegankelijkheid tot kranteninformatie allesbehalve evident. Er bestaan dan ook al sinds enkele jaren speciale voorzieningen om deze toegankelijkheid te bewerkstelligen. In Vlaanderen zijn dat de initiatieven Braillekrant en DiGiKrant (gecoördineerd door de vzw Kamelego), waarbij respectievelijk een extractie van de krant in Braille en een volledige krant in digitale vorm wordt aangeboden. De Braillekrant op papier is zonder hulpmiddelen te lezen. Voor het lezen van de krant in digitale vorm dient men te beschikken over een pc uitgerust met vergrotingssoftware, synthetische spraakoutput en/of een braille leeslijn. De beperking tot lezers, met kennis van braille, of die kunnen beschikken over een pc met extra uitrusting gecombineerd met een voldoende basiskennis in pc-gebruik, heeft als gevolg dat het gedeelte van de doelgroep dat de krant kan lezen toch nog vrij beperkt blijft. Anderzijds is er sinds 2004 voor wat betreft de gesproken boeken voor personen met een leeshandicap zowel in Vlaanderen als in Nederland de overstap gemaakt van verspreiding op cassette naar verspreiding op data-CD. Voor de verstrekking op CD maakt men gebruik van de internationale DAISY standaard, waarmee zowel audio als tekst op eenzelfde drager kan geplaatst worden. Voor het beluisteren van de Daisy cd's bestaan er specifieke voorleesapparaten en ongeveer iedere regelmatige gebruiker van gesproken boeken in Vlaanderen en Nederland beschikt ondertussen over zo'n (draagbaar) voorleesapparaat. Het gaat hierbij om een paar tienduizend dergelijke apparaten. Binnen het STEVIN-project AudioKrant wordt dagelijks een versie van de krant geproduceerd die conform is met de Daisy standaard en kan voorgelezen worden met die voorleesapparaten. Vanwege het tijdskritische karakter van de productie van een krant, is het uitgesloten dat men, zoals voor de productie van gesproken boeken, gaat gebruik maken van voorlezers. De aanwending van spraaktechnologie (synthetische spraak) en hoogtechnologische taaltechnologie (voor de optimalisatie ervan) bracht hier echter de oplossing.

Leo de Raeve (ONICI): HATCI: Hulp bij Auditieve Training na Cochleaire Implantatie, gebruikmakend van Automatische Spraakherkenning.

Het STEVIN-project HATCI richtte zich op de ontwikkeling van een computerpakket dat gebruik maakt van automatische spraakherkenning (ASH) om het gehoor van slechthorende en dove personen te training, na aanpassing van een hoorapparaat of cochleair implantaat. In de applicatie werd vooraf opgenomen spraak, al dan niet ondersteund door het lipbeeld, aan de patiënt aangeboden. De herhaling van deze uiting wordt opgenomen en beoordeeld d.m.v. ASH. Gedurende het 8 maand durende demonstratieproject werd in eerste instantie leermateriaal aangemaakt, opgenomen en voorzien van een annotatie van verwachte herhalingsfouten. Parallel werd de gebruikersinterface ontwikkeld en de ASH aangepast aan deze taak. De applicatie kan ingezet worden als meetinstrument of als therapeutisch instrument. In het eerste geval beperkt de functionaliteit zich tot het registreren van het aantal woorden dat per minuut correct kan worden herhaald. De computer houdt de herhalingsfouten bij en berekent een score per foutsoort. In het tweede geval wordt feedback gegeven aan de patiënt. Binnen het project werd gezocht naar een optimale manier van feedback. Bij gebruik van automatische spraakherkenning is er verhoogde kans op verkeerdelijk gedetecteerde fouten (valse positieven), wat erg storend zou zijn voor de patiënt en mogelijk het leerproces nadelig zou beïnvloeden. De keerzijde van de medaille is dat ook een substantieel aantal fouten ongedetecteerd blijven. Toch werd een detectie niveau van 60 à 70% bereikt bij een valse alarm score onder de 5%. Bij deze scores bleek uit veldtesten duidelijk dat dit ondersteuningmiddel reeds onder deze omstandigheden een positief effect had op het leerproces.

sessie 6. Onderwijs

 

In het onderwijs is er een groeiende behoefte aan leermiddelen die leren op maat mogelijk maken in leertrajecten die onafhankelijk van tijd en plaats dienen te zijn. Men heeft daarbij nood aan motiverende interactieve leeromgevingen die rekening houden met specifieke kenmerken van de leerling. Deze sessie zal laten zien hoe taal- en spraaktechnologie op deze terreinen een belangrijke meerwaarde kan bieden.

Helmer Strik (Radboud Universiteit - CLST): Taalleren met de luisterende computer.

Bij het leren van vreemde talen blijkt het vooral lastig om spreekvaardigheid (uitspraak, e.d.) goed en voldoende te oefenen. In een standaard klassikale lessituatie kan de docent niet alle leerlingen afzonderlijk laten spreken en daar feedback op geven. De vraag is dan of 'luisterende computers' hier nuttig ingezet kunnen worden. Met andere woorden, kan taal- en spraaktechnologie hier een nuttige rol spelen? Spraak van taalleerders wijkt op vele manieren af van de spraak van moedertaalsprekers: andere uitspraak, woorden, woordvolgordes en woordvormen. Automatische verwerking van deze 'a-typische spraak' is dan ook zeer complex. Ons onderzoek en de door ons ontwikkelde computerprogramma's laten zien dat dit wel degelijk mogelijk is, mits ... Dit zal toegelicht worden in de presentatie.

Inge de Mönnink (Dedicon): TST-ondersteuning bij dyslexie.

Bij ongeveer 15% van de bevolking is sprake van een achterstand met lezen en/of spellen; bij 3,6% is sprake van problemen die dermate ernstig en hardnekkig zijn dat men spreekt van dyslexie. Alle docenten in Nederland en Vlaanderen krijgen wel eens te maken met een leerling met dyslexie. Een onderdeel van de ondersteuning van deze leerlingen bestaat uit het inzetten van remediërende, compenserende en dispenserende maatregelen met behulp van ICT-hulpmiddelen. In deze presentatie krijgt u een overzicht van de succesvolle toepassing van spraak- en taaltechnologie in ICT-hulpmiddelen bij dyslexie. Een aantal van de hulpmiddelen die de revue passeren zijn mede tot stand gekomen binnen een STEVIN-project. (Woody, Primus).

Catia Cucchiarini en Hanneke de Weger (Nederlandse Taalunie) en Theo van den Heuvel (Van den Heuvel HLT Consultancy): TST voor het onderwijs in en van het Nederlands: behoeften en mogelijkheden voor de toekomst.

De Taalunie wil zich inspannen om eraan bij te dragen dat het onderwijs in en van het Nederlands (basis- tot en met volwassenenonderwijs) in Nederland en Vlaanderen optimaal gebruik kan maken van de huidige en toekomstige mogelijkheden van TST. In deze presentatie krijgt u een overzicht van de resultaten van inventarisaties die de Taalunie recent heeft laten uitvoeren om na te gaan welk potentieel TST heeft voor het onderwijs in en van het Nederlands:

  • een inventarisatie van bestaande digitale taalleermethoden Nederlands in NL en VL waarbij is nagegaan in hoeverre in deze leermiddelen gebruik wordt gemaakt van taal- of spraaktechnologie;
  • een inventarisatie van behoeften bij docenten, scholieren en intermediairs en op welke manier TST daaraan zou kunnen voldoen;
  • enkele voorbeelden van mogelijke implementaties van taal- en spraaktechnologie in concrete taalleersituaties en ideeën voor pedagogisch relevante, nuttige extra functionaliteiten die TST mogelijk maakt.

sessie 7. Intelligente ontsluiting / Informatie-extractie (deel 2)

 

Er staat steeds meer (multimediale) informatie op internet waardoor gebruikers min of meer gedwongen worden om gebruik te maken van taal- en spraaktechnologie (TST) voor het zoeken, vinden en bekijken/beluisteren van de gewenste informatie. De afgelopen zes jaar zijn er verschillende Stevin-projecten geweest waarbij nieuwe TST werd ontwikkeld en bestaande TST werd gebruikt voor het beter ontsluiten van informatie. Drie projecten (zowel wetenschappelijke als toegepaste) zullen hun resultaten hier presenteren en aangeven wat het effect van de projecten op het verdere gebruik van TST bij het ontsluiten is geweest.

Hugo Van hamme (K.U.Leuven - ESAT): Wie zegt wat? Transcriptie van audioarchieven verrijkt met sprekeridentiteit.

Het doorzoeken van radio- of televisiearchieven is een tijdrovende operatie die in schril contrast met het gemak en de efficiëntie waarmee we de gigantische hoeveelheid tekst op het internet kunnen doorzoeken. Die tekst is vaak slechts een neerslag, een afspiegeling of een interpretatie door derden van een originele boodschap of gebeurtenis. Daarom willen we - als het kan - liever terughoren wat een opiniemaker beweerd heeft over een onderwerp of over een ander. De K.U.Leuven, R.U.Nijmegen en de VRT werken met ondersteuning van het IBBT en ICT-Regie aan een project (genaamd BATS) om audioarchieven doorzoekbaar te maken door ze van een zo nauwkeurig mogelijke woordelijke transcriptie te voorzien en door ze te verrijken met sprekeridentiteit. Om tot een nauwkeurige transcriptie te komen worden methoden ontwikkeld om een automatische spraakherkenner binnen een paar seconden aan te passen aan de stemkarakteristieken van een spreker. Zo kunnen snelle sprekerwissels afgehandeld worden. Het terugzoeken van sprekeridentiteit start bij het detecteren van die sprekerwissels. Vervolgens gaan we voor elke sprekerbeurt na wanneer diezelfde spreker aan het woord is. Tenslotte worden relaties gezocht met meta-informatie uit programmagidsen om sprekers een naam te geven. Het resultaat is een archief waarin je kan zoeken op sleutelwoorden en/of sprekers, waarin je makkelijk kan springen naar andere uitingen van een spreker en waarin de onderwerpen worden afgelijnd a.d.h.v. de betrokken sprekers.

Michel Boedeltje (Telecats): RechtSpraakHerkenning: Taal- en spraaktechnologie in de Nederlandse rechtbanken.

In de Nederlandse rechtbanken worden regelmatig geluidsopnames gemaakt van de rechtszittingen ter ondersteuning van de rechters en de griffiers. In het STEVIN-project RechtSpraakHerkenning laten we zien dat met behulp van taal- en spraaktechnologie de rechters, griffiers en officieren van justitie hun werk efficiënter kunnen uitvoeren. De griffiers worden ondersteund bij het uitwerken van de processen-verbaal en rechters en officieren van justitie krijgen gereedschappen om snel te zoeken en navigeren in de gemaakte opnames, waarbij zelfs automatisch een gesproken samenvatting kan worden gegenereerd.

Nathalie De Sutter (CrossLang): Ontsluiting en gebruik van parallelle corpora voor het bouwen van een domeinspecifiek automatisch vertaalsysteem.

Om het ECTS-label (European Credit Transfer and Accumulation System) te behalen zijn steeds meer onderwijsinstellingen genoodzaakt om hun educatieve informatie in het Engels aan te bieden. Ook om buitenlandse studenten aan te trekken en zich internationaal te profileren is het cruciaal dat ze deze informatie in het Engels of zelfs Chinees beschikbaar maken. Omdat dit om enorme volumes te vertalen tekst gaat, is het voor vele instellingen onbetaalbaar om deze informatie manueel te laten vertalen. De Bologna Translation Service wil hiervoor een oplossing bieden: een kwalitatieve, betaalbare, online vertaalmachine die specifiek ontworpen is voor vertalingen van studieprogramma's. Een aanzienlijk deel van het project wordt besteed aan het ontsluiten en verzamelen van data voor het trainen en verbeteren van de statistische MT systemen. Naast de vrij verkrijgbare corpora die het resultaat zijn van vroegere projecten zoals bijvoorbeeld het Dutch Parallel Corpus zullen ook bestaande vertalingen gebruikt worden die ter beschikking gesteld worden door de universitaire partners. Het Gentse CrossLang coördineert het project dat door de Europese Gemeenschap (ICT PSP) gefinancierd wordt. Samen leveren de Bolognapartners een hoogkwalitatieve en betaalbare vertaaltechnologie voor hogeronderwijsinstellingen. Die kunnen hierdoor hun studiegidsen en -programma's voordelig en efficiënt in het Engels en/of Chinees aanbieden en zo hun internationale positie bestendigen.

sessie 8. Sociale Media

 

Sociale media zoals e-mail, SMS, chat, Twitter, Facebook etc. zijn enorm populair en bieden nieuwe mogelijkheden om informatie uit te wisselen. Hoewel de meeste sociale media zijn ontstaan in de persoonlijke sfeer, worden ze ook steeds vaker in bedrijfsprocessen gebruikt. Taaltechnologie kan hierbij ondersteunen. Het taalgebruik in de sociale media wijkt echter nogal af van het taalgebruik in de klassieke media, wat speciale aanpassingen van de technologie vereist. De aard van het medium vereist speciale inspanningen om de erin aanwezige informatie beschikbaar te maken. Maar als dat lukt biedt taaltechnologie een enorm potentieel voor de optimale exploitatie van deze media.

Maaske Treurniet (Radboud Universiteit - CLST): Data van iedereen en niemand: uitdagende mogelijkheden.

Veel organisaties gebruiken nieuwe media en zoeken voortdurend naar toepassingen, als marketing en als service. Om dit doeltreffend en doelmatig te doen, is het belangrijk om het medium en de gebruiker ervan goed te kennen. In het kader van het SoNaR referentiecorpus geschreven Nederlands (een STEVIN-project) zijn ook data van dergelijke media verzameld. Onze ervaringen bij het verwerven van deze zeer diverse data, hebben interessante informatie opgeleverd over de eigenaardigheden van de verschillende media. Deze informatie willen we graag delen. Belangrijke voordelen van sociale media vormen vaak tegelijk een uitdaging. Zo zijn gegevens via sociale media vaak zeer toegankelijk, maar is niet altijd eenvoudig aan te geven wie over de rechten beschikt. Daarnaast zijn sociale media altijd up-to-date, maar is de gebruiker daardoor ook gedwongen om continu bezig te zijn met vernieuwingen. Het SoNaR-referentiecorpus, ondergebracht bij de TST-Centrale, zal de komende jaren een waardevolle bron vormen voor onderzoek en de ontwikkeling van toepassingen op een gebied waar de mogelijkheden voorlopig niet zullen eindigen.

Walter Daelemans (Universiteit Antwerpen): CSI Facebook: profiling met computerstylometrie in sociale media.

Computerstylometrie laat toe om leeftijd, sekse, afkomst, persoonlijkheid, opleidingsniveau en andere psychologische en sociologische eigenschappen van de auteur van een tekst te achterhalen. Deze automatische "profiling" maakt gebruik van robuuste taaltechnologie en zelflerende algoritmen. In sociale media maakt dit interessante nieuwe toepassingen mogelijk: in marketing kan klassieke opinie-mining bijvoorbeeld gecombineerd worden met informatie over demografische groepen ("wat vinden hoogopgeleide jonge vrouwen van mijn product?"). Een andere toepassing is de detectie van valse profielen in sociale netwerken als hulp voor moderatoren, bijvoorbeeld voor de detectie van "grooming" door pedofielen. Met deze laatste casus (project Daphne van de Universiteit Antwerpen) als uitgangspunt zal ik de huidige mogelijkheden en beperkingen van computerstylometrie laten zien.

Alex van Leeuwen (Buzzcapture): mogelijkheden van social media monitoring.

Buzzcapture monitort en analyseert uitingen over bedrijven, producten, merken, onderwerpen en mensen in sociale media. Daarnaast worden discussies rondom campagnes en evenementen getrackt waarbij het volume, de aard van de discussies en sentimenten in kaart worden gebracht. Via een online dashboard kunnen marketeers en communicatie professionals van grote organisaties bekijken wat er speelt rondom hun merk en de markt. Daarnaast wordt er marktonderzoek verricht voor merken op basis van data uit sociale media. De resultaten worden gebruikt voor het verbeteren en optimaliseren van de processen, service, producten en diensten. Alex van Leeuwen, oprichter van Buzzcapture, zal tijdens zijn presentatie vertellen over de mogelijkheden van social media monitoring.

Informatiemarkt 2011

Bedrijven en instellingen presenteren in stands succesvolle voorbeelden van toepassingen van taal- en spraaktechnologie op de informatiemarkt. De volgende organisaties zijn met een stand op de informatiemarkt aanwezig:

Gastsprekers

 

Bran Boguraev (IBM, TJ Watson Research Center, USA) houdt een voordracht over het DeepQA-project van IBM en het succes van Watson. Watson is een supercomputer van IBM die het eerder dit jaar in het Amerikaanse spelprogramma Jeopardy! (in Vlaanderen gekend als Waagstuk) opnam tegen de twee beste menselijke Jeopardy!-deelnemers ooit (meer info hier).Jeopardy! is een spel waarbij deelnemers een beschrijving (het antwoord) krijgen te horen en daar vervolgens de juiste bijbehorende vraag bij moeten raden. De taaltechnologie van Watson won het van de menselijke deelnemers. Deze technologie zal in de toekomst ingezet worden in de context van medische diagnostiek op basis van medische literatuur en andere digitale kennisbronnen.

Deze lezing wordt in het Engels gehouden en heeft als titel: "Language Technologies for DeepQA and the Jeopardy! Challenge".

Klik hier om enkele filmpjes over de wedstrijd Watson vs. menselijke Jeopardy!-topdeelnemers te bekijken.

De tweede spreker is Yuri van Geest, bekend als "digitaal strateeg" en van o.a. THNK, Mobile Monday Amsterdam, TEDx Amsterdam, Mobile Clicks en Trend8. Hij is een veel gevraagd spreker die het vooral heeft over toekomstvisies op (mobiele) communicatie, technologie, digitale media en marketing, en hoe evoluties in al deze domeinen (ook biotech en robotica enz.) samen komen (convergentie en symbiose). Dit is wat hij onder singulariteit verstaat. Wat zijn de koppelingen van voorgaande met TST? Wat zijn de use cases? En wanneer is TST overbodig als interface door outsourcing aan bots, robots, AI en Mechanical Turk? en wat betekent voorgaande aan kansen en mogelijkheden voor de creatieve sector in brede zin? Enkele voorbeelden worden gegeven, nu en in de toekomst. Een voorproefje op zijn lezing is hier te vinden.

De titel van zijn presentatie is: "De impact van de combinatie van de singulariteit en TST op de creatieve sector: voorbeelden en mogelijkheden"

Organisatie 2011

 

Taal in Bedrijf wordt georganiseerd in het kader van het Vlaams-Nederlandse STEVIN-programma. STEVIN is een meerjarig onderzoeks- en stimuleringsprogramma voor Nederlandstalige taal- en spraaktechnologie. Doel van het programma is het stimuleren van de taal- en spraaktechnologische sector in Vlaanderen en Nederland, zodat de innovatiecapaciteit van deze sector wordt vergroot en tegelijkertijd ook de positie van het Nederlands in de moderne informatie- en communicatiemaatschappij wordt versterkt. STEVIN wordt gecoördineerd en financieel beheerd door de Nederlandse Taalunie.

De organisatie van Taal in Bedrijf 2011 ligt in handen van een team bestaande uit het STEVIN-programmabureau (Brigit van der Pas), de Nederlandse Taalunie (Catia Cucchiarini, Folkert de Vriend), leden van de STEVIN-programmacommissie en werkgroep Flankerende Activiteiten (Jan Odijk, Jean-Pierre Martens, Arjan van Hessen, Oele Koornwinder).

Medewerking wordt verder verleend door de Stichting NOTaS, de Nederlandse Taalunie, en EWI (Departement Economie, Wetenschap en Innovatie van de Vlaamse overheid).

Voor de praktische organisatie staat "Kuiters idee en organisatie" in.

Deelnemers

 

Taal in Bedrijf is een ontmoetingsplatform voor investeerders, managers, bestuurders, wetenschappers én vooral de gebruikers.

In 2011 hadden zich 233 personen geregistreerd. 204 personen heben zich effectief aangemeld (Vlaanderen:45 en Nederland:159). Ze behoren tot 111 verschillende organisaties uit Vlaanderen (20) en Nederland (91).

  • Actonomy
  • Agentschap voor Kwaliteitszorg in Onderwijs en Vorming
  • CrossLang (2)
  • ElaN Languages (2)
  • IKnow - InterSystems
  • IWT
  • K.U.Leuven (10)
  • LT3 - Hogeschool Gent
  • Nuance Communications
  • ONICI
  • SAP
  • Sensotec NV
  • Universiteit Antwerpen (8)
  • Universiteit Gent (4)
  • VDAB - Vlaamse Dienst voor Arbeidsbemiddeling en Beroepsopleiding
  • Vlaamse overheid
  • VRT (4)
  • Xplanation
  • Yazzoom BVBA
  • Zetes Industries
  • ABN AMRO Bank
  • ACS
  • Agentschap NL
  • Artificial Solutions
  • AVB Vertalingen (3)
  • Bartiméus
  • Belastingdienst/Centrum voor kennis en communicatie
  • Bloomsday Language Services (2)
  • BlueTea
  • Buzzcapture
  • Cal Consult
  • Centraal bureau voor de statistiek
  • Cimico
  • Cindy van de Ven Onderwijskundig ontwerp
  • CINOP (2)
  • Data Archiving and Networked Services
  • Dedicon (2)
  • De Koning Teksten
  • Dialogica
  • Dienst Verslag en Redactie Staten-Generaal
  • Digistart 2001 BV
  • Duo decimo Advies & Redactiebureau
  • Dutchear (3)
  • Edia - Educatie Technologie
  • EUR
  • Everest BV
  • Flexmation (2)
  • Fluency
  • GridLine (5)
  • Gryps-VU
  • Indicator
  • ING
  • INL (3)
  • KleurRijker BV
  • Knowledge Concepts BV (2)
  • KPN
  • Landsbergen Talen VOF
  • Lexima
  • Linguistic Systems BV (2)
  • Logica Nederland BV (2)
  • Loket aangepast-lezen
  • Meertens Instituut
  • Ministerie van Buitenlandse Zaken
  • Ministerie van Onderwijs, Cultuur en Wetenschap
  • Ministerie van Veiligheid en Justitie
  • Nationaal Archief
  • Nederlandse Taalunie (8)
  • NL-Term
  • NOTaS (2)
  • NotuBiz (2)
  • Nuance Communications, Inc.
  • NWO (3)
  • Oxyme
  • Parabots B.V.
  • Philips
  • Plus Projects
  • Pronto Vertalingen
  • Radboud Universiteit Nijmegen (11)
  • ReadSpeaker BV (2)
  • Regionaal Archief Leiden
  • RightNow Technologies (4)
  • RTD Het Dorp (2)
  • Rijksuniversiteit Groningen (2)
  • Sint Maartenskliniek (3)
  • Sound of Data
  • Steunpunt Nlstalige Terminologie / VU
  • Stichting Bevorderen Efficiënt Betalen
  • Stichting Expertisecentrum ETV.nl
  • SURFnet
  • Taalprofs.com | Inspirerend leren
  • TALO BV
  • Tekst & Redactie
  • Telecats (4)
  • Textkernel (3)
  • Think Legal BV
  • Tilburg University (2)
  • TNO
  • TomTom International BV (2)
  • TU Delft (2)
  • Tweede Kamer der Staten-Generaal (6)
  • Uitgeverij Zwijsen
  • Universiteit Utrecht (2)
  • Universiteit Twente
  • Universiteit van Amsterdam
  • Van Dale Uitgevers (2)
  • Van den Heuvel HLT Consultancy
  • VHN Office
  • Vrije Universiteit
  • W3Lab
  • X-MI
  • Zwijsen

 

7 januari 2016