Saját hangunkon beszélhetünk folyékonyan kínaiul, franciául vagy bármely más, számunkra idegen nyelven a Microsoft új fejlesztésének segítségével, amely a hangzó beszédet alakítja át "gépi szinkrontolmácsként" a választott nyelvre. 

Az utóbbi évtizedekben tudósok azon dolgoztak, hogy a számítógépek felismerjék az emberi nyelvet. Nehézséget okoz, hogy mindegyik ember máshogyan beszél, és még egy adott ember is másképp ejti a szavakat a szövegkörnyezettől függően. A hetvenes években azonban fordulat következett be a beszédfelismerésben, a Carnegie Mellon University kutatói úgynevezett Markov-modell alapján statisztikai nyelvi rendszereket használtak, hatalmas adatbázist gyűjtöttek össze emberi beszédből. Hatalmas előrelépés volt ez, az elmúlt harminc évben ezen az alapon ismerték fel egyre jobban és hatékonyabban a gépek az emberi beszédet. De még mindig nagyon sok hibát vétenek. Sokan használják ezeket a beszédfelismerőket, például telefonos ügyfélszolgálatok, az Xbox Kinect, valamint az Apple Siri szolgáltatása.

Néhány évvel ezelőtt a Microsoft a Torontói Egyetemmel közösen kezdett új fejlesztésbe, az ötletük az volt, hogy az emberi gondolkodást veszik alapul, és sokkal több adatot használtak, mint korábban. Harminc százalékkal jobb eredményt értek el beszédfelismerésben, eddig minden negyedik-ötödik szó volt hibás, ezt sikerült leszorítani arra, hogy csak minden hetedik-nyolcadik szót tévessze el a rendszer. A cikkben látható videóban is ezt a technológiát használják, így nyomon követhető a beszédfelismerő pontossága. Ezek után már csak egy ugrás volt, hogy a technológiát fordításokra is használják.

A Galaxis útikalauz stoposoknak című Douglas Adams-regény kitalált élőlénye, amelyet bárki a fülébe dugva azonnal megért minden nyelvet már nem a jövő zenéje. Rick Rashid, a Microsoft szoftveróriás kutatási igazgatójának blogbejegyzéséből kiderül, hogy a program jelenlegi állapotában ugyan még számos hibát ejt, mégis sokkal jobb, mint bármely korábbi hasonló próbálkozás. Rashid az októberi, Tiencsinben tartott bemutatón néhány mondatát mandarin nyelven mondta el a program segítségével.

A fejlesztők számára a legnagyobb kihívást a beszélő megértése jelenti - idézi az igazgatót a TechNewsDaily.com című online magazin. Ezen a problémán már azóta dolgoznak, mióta a számítógép létezik. A több generációnyi fejlesztés mai eredménye például az Egyesült Államok bizonyos bankjaiban működő telebankrendszer, amelyben a komputer ismeri fel a hívó által bemondott bankszámlaszámot. az ilyen rendszerekben a beszédfelismerés azonban csak a számnevekre és esetenként néhány menüpontra - például "átutalás", "nyitva tartás" - korlátozódik.

Az emberi agy működéséhez hasonló elven működik

Sokkal nehezebb azonban a kötetlen beszéd digitális "megértése". Egészen mostanáig az efféle programok a beszédnek legfeljebb 75-80 százalékát voltak képesek értelmezni - mondta Rashid. A Microsoft ezt az arányt igyekezett javítani a Deep Neural Networks rendszerének segítségével, amelyben a processzorok úgy kapcsolódnak egymáshoz, mint az emberi és állati agysejtek. A Google ugyanezt a technikát használta a nyáron egy olyan számítógép megépítéséhez, amely meg tudja tanulni macskákról készül képek felismerését.

A szoftvercég szakértőjének elmondása szerint a beszédfelismerés hatékonyságának hibaarányát azzal tudták jelentős mértékben csökkenteni, hogy az emberi agy működéséhez hasonló elvű gépi algoritmust alkottak meg. Rashid előadásának második felében a képernyőn már valós időben megjelent szavainak kínai nyelven írott változata, zárószavait pedig már az ő beszédstílusát utánzó robothang mondta el ugyancsak kínaiul. Bár a robottolmács próbálja utánozni az eredeti beszélő hangtónusát és hangsúlyait, az illúzió még nem tökéletes, kihallatszik a digitális jelleg.

Rashid szerint az új fejlesztés mára a szabad beszélt nyelv 86-88 százalékát felismeri. "Még mindig távol van a tökéletestől, mégis ez a legdrámaibb fejlődés az 1979 óta". Miután a rendszer felismeri, hogy mit mond angolul a felhasználó, a Microsoft fordítóprogramja átalakítja azt kínai szavakká, majd a szórendet a nyelvtani szabályok szerint megváltoztatja. A megfelelő hangszín eléréséhez Rashidnak egy órányi beszédére volt szükség, valamint fel kellett vennie egy mandarin anyanyelvű személy néhány órás beszédét is.

"Még sok munka vár ránk, de a technológia nagyon ígéretes. Reméljük, hogy néhány éven belül olyan rendszerek állnak majd rendelkezésünkre, amelyeket teljességgel lebontják az emberek között nyelvi akadályokat" - mondta az igazgató.

A Microsoft mellett egy sor más cég, többek közt a Google és a japán NTT Docomo is kísérletezik valós idejű fordítással: utóbbi cég már kiadott erre szolgáló, japán nyelvről és nyelvre fordító - még ugyancsak nem teljesen tökéletes - okostelefonos alkalmazást is.

VIDEÓ: