sessie 2. Intelligente ontsluiting / Informatie-extractie (deel 1)
Er staat steeds meer (multimediale) informatie op internet waardoor gebruikers min of meer gedwongen worden om gebruik te maken van taal- en spraaktechnologie (TST) voor het zoeken, vinden en bekijken/beluisteren van de gewenste informatie. De afgelopen zes jaar zijn er verschillende Stevin-projecten geweest waarbij nieuwe TST werd ontwikkeld en bestaande TST werd gebruikt voor het beter ontsluiten van informatie. Vier projecten (zowel wetenschappelijke als toegepaste) zullen hun resultaten hier presenteren en aangeven wat het effect van de projecten op het verdere gebruik van TST bij het ontsluiten is geweest.
Marijn Huijbregts (X-MI): Spraakherkenningsdienst voor de erfgoedsector.
Het aantal digitale multimedia-archieven in de erfgoedsector neemt nog dagelijks toe. Bestaande archieven worden gedigitaliseerd (bv de bibliotheek van Rotterdam) en nieuwe archieven worden gevormd (bijvoorbeeld het interviewproject Nederlandse Veteranen). Omdat de onbewerkte opnames erg lang kunnen zijn, is goede zoekfunctionaliteit onontbeerlijk. Het handmatig toevoegen van gedetailleerde informatie aan de audiovisuele bestanden is een tijdrovende en daardoor dure taak. Voor het Catchplus-deelproject 'Spraakherkenning' heeft X-MI een spraakherkenningsservice gebouwd waarmee volledig automatisch metadata aan opnames kan worden toegevoegd. Met behulp van spraaktechnologie wordt elk gesproken woord in de opname omgezet naar tekst. Aan de hand van deze tekst (in de meegeleverde tijdcodes) kunnen later fragmenten teruggevonden worden. Vaak is de audiokwaliteit van veel opnames echter niet perfect, wordt er informeel gesproken of worden veel specifieke termen gebruikt. Deze drie kenmerken maken het lastiger voor de service om hoge kwaliteit spraakherkenning te leveren. Om een zo goed mogelijk resultaat te behalen moet het systeem voor elk archief worden aangepast. In de presentatie zal de service gedemonstreerd worden en zal een aantal voorbeelden worden gegeven van de typische aanpassingen die we toepassen.
Emiel Kramer (UvT): De computer leert parafrases herkennen: Het DAESO project.
Er zijn veel manieren om hetzelfde te zeggen. Vergelijk bijvoorbeeld de volgende twee openingszinnen, uit respectievelijk het NRC en de Telegraaf van 11 september 2006: "De 44-jarige Steve Irwin - bekend door zijn tv-programma's over dieren - stierf maandagmiddag (plaatselijke tijd) nadat hij tijdens het duiken voor de Australische noordoostkust bij Port Douglas in zijn borstkas werd gestoken door een giftige pijlstaartrog." en "Steve Irwin, de Australische televisiepresentator die bekend is als The Crocodile Hunter, is maandag overleden nadat hij tijdens een duikexpeditie was gestoken door een pijlstaartrog." Hoewel deze twee zinnen dezelfde gebeurtenis beschrijven, doen ze dit in grotendeels verschillende bewoordingen. Dit fenomeen wordt wel semantische overlap genoemd. Vanuit een taaltechnologisch perspectief vormt het automatisch detecteren van semantische overlap een hele uitdaging, die voor veel toepassingen (van automatisch samenvatten tot informatie-extractie) nuttig zou kunnen zijn. In dit praatje geef ik een overzicht van onderzoek dat op dit gebied gedaan is in het STEVIN-project DAESO (http://daeso.uvt.nl/)
Marie-Francine Moens (KU Leuven) en Fabrice Nauze (Rightnow): DAISY: automatisch samenvatten voor informatieve websites.
Het STEVIN-project DAISY (Dutch lAnguage Investigation of Summarization technologY) heeft technologieën ontwikkeld voor het samenvatten van Nederlandstalige tekst te vinden in informatieve Webpagina's zodat deze beter kunnen worden ontsloten door middel van een vraag-antwoordsysteem. De methoden betreffen de inhoudsextractie uit de Webpagina's, het herkennen van coherente segmenten en hun retorische rol, het inkorten van zinnen en het herschrijven van de samengevatte zinnen naar vloeiende, grammaticaal correcte zinnen. De ontwikkelde technologieën zijn publiek beschikbaar via een demonstrator en toevoegingen aan de Alpino-parser.
Jakub Zavrel (Textkernel): Procesoptimalisatie in recruitment door gebruik van taaltechnologie.
Op de arbeidsmarkt komen zowel vraag als aanbod (vacatures en CV's) primair in de vorm van ongestructureerde tekst voor. Door het gebruik van intelligente informatie-extractie, web mining, en semantische search en matching kunnen recruitmentprocessen veel efficiënter gemaakt worden. Dit zorgt ervoor dat bedrijven betere conversie halen uit hun investeringen in hun online recruitment portals en employer branding, dat werving- en selectiebureaus sneller betere kandidaten aan kunnen bieden, en dat in het algemeen het zoeken op concepten in plaats van keywords mogelijk wordt, zodat de match tussen vraag en aanbod beter wordt. In de presentatie bespreken we de belangrijkste factoren voor het slagen van de inzet van taaltechnologie bij recruitment, en geven we een aantal demo's van systemen van onze klanten en onderwerpen uit onze recente R&D.
| vorige sessie |
| volgende sessie |
20 februari 2012
Wegwijzer – Colofon – Contact – Vrijwaring – Opmerkingen en reacties