A Nyelv- és Beszédtechnológiai Platform sikeres bemutatkozó konferenciát rendezett 2008. december 2-án az Intercontinental Budapest szállóban. Sajtóanyag Konferencia program
A konferencián a szakmai közönség és partnereink számára bemutattuk a platformtagok már most is alkalmazható eredményeit, a nyelv- és beszédtechnológia jelenlegi kutatási irányait, az elérhető lehetőségeket, a működő alkalmazásokat.
letölthető az előadások anyaga
A konferencián továbbá aktív és interaktív formában megismertettük a gazdasági élet vezetőit és a politikai döntéshozókat eme új technológia lehetőségeivel, a jövő irányaival.
COST Action 2102 (2006-2011)
Kutató fejlesztő: BME TMIT Beszédakusztikai Laboratórium
Az Action fő célja a spontán, szemtől szembeni verbális és nem verbális kommunikációs jelek egy haladó akusztikai, érzékelési és pszichológiai elemzésének fejlesztése, hogy azonosíthatóak legyenek az algoritmusok és az automatikus eljárások, amelyek képesek azonosítani az emberi érzelmi állapotokat. Számos kulcsszempontot kell figyelembe venni, mint például a távközlésben való alkalmazásra kifejlesztett algoritmusok és eljárások integrációját, és az érzelmi állapotok, gesztusok, beszédbeli- és arckifejezések felismerését, megelőzve az intelligens avatarok és az interaktív dialógusrendszerek kivitelezését, amelyeket a felhasználók jövőbeni távközlési rendszerekhez való csatlakozásának javítására használnának.
TéT – Balaton projekt (208-2009)
Fejlesztő, kutató: BME TMIT Beszédakusztikai Laboratórium
A prozódia fontos szerepet játszik a kommunikációban. A prozódiai kulcsok segítik az embereket az üzenetek megértésében egy beszélgetésen keresztül, így a különböző prozódiai kulcsok korrekt kiejtése rendkívül fontos. Ezenfelül a prozódiát a beszélő érzelmi állapotának meghatározására is használni fogjuk, amelyet ugyancsak figyelembe kell venni az interfész esetében. A projekt egyik elsődleges célja a számítógép által segített beszédtanulási módszerek fejlesztése sérült gyermekek számára (hallássérült, vagy autista gyermekek) a prozódiamodellek bemutatásával. A kialakított modelleket a beszédhibás gyermekek prozódiájának fejlesztésére fogják használni.
Partnerek:
Az Institute of Intelligent Systems and Robotics ISIR CNRS FRE2507 (Franciaország) széles körű tapasztalatokkal rendelkezik a beszédtechnológia különböző osztályozási technológiái terén. Ezenfelül a intézet több projektet vezet egészséges és autista gyermekek bevonásával.
Soknyelvű beszédvezérelt telematikai rendszer személyre szabott automatikus szolgáltatásokhoz.
Fejlesztő: BME TMIT Beszédlaborcsoportok
A BME TMIT feladata a projekten belül a személygépkocsikban ülő felhasználó természetes nyelven feltett kérdéseinek automatikus felismerése, és saját földrajzi helyüknek megfelelő válaszok rendszerének a megszerkeztése. A rendszernek a projekt végére 6 nyelven, magyarul, angolul, franciául, németül, olaszul és spanyolul kell működnie. Az eljárás egyesített módszerrel kezel adatokat és hangkapcsolatot. A beszélgetés a felhasználó kérésével kezdődik, és a kívánt adatok letöltésével végződik. A kéréseket egy beszédfelismerő rendszer értelmezi. Ha megtörténne, hogy meghibásodik, vagy képtelenné válik a felhasználó kérésének teljesítésére, egy emberi operátor veszi át szerepét.
Partnerek:
Az Ygomi Europe Kft., mint a konzorcium vezetője, felelős a teljes projekt kidolgozásáért. A társaság aktív szerepet vállal a nemzetközi szabványosító egyesületek munkájában. Az Ygomi részt vesz az Ertico, Európa ITS (Intelligent Traffic Services) szervezetének munkájában, amely finanszírozza a kutatásokat és definiálja az ipari szabványokat az intelligens transzportálás területén.
A ROC Development Hungary Kft. sokéves tapasztalattal rendelkezik az automatikus szoftverfejlesztés, a távközlés területén, különös tekintettel az automatikus kommunikációs protokollok fejlesztésére.
http://alpha.tmit.bme.hu/speech/research.php
https://www.tmit.bme.hu/labgroup/speech!hun
A beszédfelismerés főbb témakörei
A gépi beszédfelismerés távlati célja az általános a beszéd-szöveg átalakítás környezeti zajtól, beszélőtől és témakörtől függetlenül. Ilyen "mindentudó" beszédfelismerő rendszer még semmilyen nyelvre nem létezik. Azonban szűkítve a témakört, számos részterületen már a gyakorlatban is használható megoldások születtek, illetve koncentráltabb kutatások folynak.
▪ izolált szavas (parancsszó) felismerés: adott, kisméretű szótárban szereplő szavak, kifejezések közül egyet bemondva, a felismerés nagy hatékonyságú lehet
▪ kulcsszó keresés: akár folyamatos beszédben egy kulcsszó halmaz keresése és a találat jelzése
▪ nagyszótáras folyamatos beszéd felismerése: egy adott témakörben elhangzó folyamatos beszéd átírása szöveggé (alacsony hibaarány csak nagymértékben kötött témakör esetén várható)
▪ morfológiailag gazdag nyelveken történő beszédfelismerés: a magyar, finn, török, stb. nyelvek alaktani gazdagságát kezelő nyelvi és akusztikai modellezés kutatása beszédfelismerés céljából
▪ spontán beszéd felismerése: a spontán beszéd sajátosságait kezelő beszédfelismerési módszerek kutatása
▪ zajtűrő beszédfelismerés: zajos környezethez (pl. autóban) alkalmazkodó jelfeldolgozó és modellezési eljárások kutatása
▪ beszélő felismerés: a beszélő személy azonosítása
▪ a beszéd érzelmi töltetének felismerése: érzelmi kategóriák (öröm, harag, félelem, stb.) felismerése a beszéd akusztikai jegyei alapján
A beszédszintézis néhány témaköre, alkalmazása
Kutatási szinten
▪ érzelem kifejezése a gépi beszédben
▪ az emberi hangszín megközelítése
▪ az emberi prozódiai változatosság modellezése
Fejlesztés
A beszédszintetizátort minden esetben hozzá kell illeszteni a tervezett alkalmazáshoz.
▪ beszéd előállítása általános szövegből
▪ regényfelolvasás
▪ játékok hanggal való ellátása
▪ hírfelolvasás
▪ időjárásjelentés
▪ szövegfeldolgozás és gépi beszédkeltés célzott alkalmazásokhoz
▪ elektronikus-levél felolvasó (beolvassa a telefonba a levél tartalmát)
▪ SMS-felolvasó (vezetékes telefonra is küldhető SMS, a gép felolvassa azt)
▪ név- és címfelolvasás céginformációkhoz
▪ menetrendi információk gépi generálása telefonba és állomásokon
▪ banki rendszerek, számlafelolvasók
▪ időpont, dátum, devizaárfolyam stb. felolvasók (például kötvényárfolyamok)
▪ vakok és gyengénlátók részére készített beszélő alkalmazások számítógépre és mobiltelefonra
▪ lakossági beszédinformációs rendszerek
▪ nyilvános gyógyszerinformációs rendszer (T: (06-1)-886-94-90) Felolvassa a betegtájékoztató szövegét)
▪ beszélő bankautomata (gyengén látókat segíti hanggal a gép kezelésében)
▪ telefonos tudakozó az előfizető száma szerint (T: 12-70) (Felolvassa a bebillentyűzött magyar telefonszám előfizetőjének adatait)
▪ orvosi területen használt eszköz pl. MONDOM-2000 beszédhallást vizsgáló szűrő készülék (új módszerrel, szintetikus beszéddel méri a hallás károsodását).
Főleg óvodákban használják.
▪ Automatikus ékezet ellenőrzés a szövegben
▪ Ékezet nélküli szöveg automatikus visszaékezetesítése