slideslideslideslide

Novinky

MILAN RUSKO: Všetko začína hrou. Neustálym experimentovaním dochádza k rozširovaniu vedeckého poznania

11.11.2019

Milan Rusko sa venuje analýze a syntéze reči. Venuje sa telekomunikačným systémom, ale pracoval aj pre slovenskú vládu. Napríklad vytváral moderného pomocníka pre súdny a vyšetrovací spis, ktorý umožňuje automaticky prepisovať hovorené slovo. Pracuje na rozhraní medzi strojom a človekom. Jeho cieľom je naučiť stroje, aby rozumeli ľudskej reči. 

miroslav rusko

Prvé jednoduché pokusy sú pre človeka hrou

Je podľa vás dnes dostatok záujmu zo strany mladých o vedu a techniku?

Technika nás dnes obklopuje omnoho viac ako v minulosti. Mladí sledujú, spoznávajú a prirodzene používajú technické novinky. Akceptujú ich ako súčasť svojho života oveľa pružnejšie ako staršia generácia.

Vy ste ako dieťa experimentovali s chémiou a elektronikou. Je experiment to, čo robí vedu vedou?

Hrou to všetko začína, a v lepšom prípade aj pokračuje. Prvé jednoduché pokusy robí človek ako zábavu a hru. Čím viac ich robí, tým viac sa zaujíma o oblasť svojho experimentovania, študuje ju a získava skúsenosti, neskôr začína objavovať nové súvislosti a fakty, ktoré neboli dovtedy zrejmé. Neustálym experimentovaním dochádza k rozširovaniu vedeckého poznania. A pre zanieteného vedca to môže stále byť zábavou a hrou.

Komunikácia medzi človekom a strojom

Vedecky ste sa začali realizovať na oddelení zameranom na komunikáciu medzi človekom a strojom prostredníctvom ľudskej reči. Prakticky stále sa tejto oblasti venujete, spolupracovali ste na vývoji ste syntetizátorov reči, automatickom prepisovaní, automatickom titulkovaní… Čo považujete za najprínosnejšie?

Komunikovať rečou je pre ľudí najprirodzenejšie. Preto treba umožniť, aby aj automatické systémy, ktoré majú ľuďom slúžiť, vedeli s nimi komunikovať rečou. Aby ste sa mohli rozprávať napríklad s robotom, musí vedieť rozumieť, aké slová hovoríte – to je automatické rozpoznávanie reči.  Musí pochopiť význam vašich slov – to je automatické porozumenie reči.  Ak vám má odpovedať, musí vedieť podávať svoje správy formou umelej reči – to je syntéza reči. Všetky tieto oblasti automatického spracovania reči sú potrebné pre to, aby sa človek mohol „porozprávať“ so strojom. Nedá sa povedať, že jedna by bola dôležitejšia ako iná.

miroslav rusko

Je dnes ľahké dekódovať ľudský hlas a ľudskú reč?

Dekódovaním asi máte na mysli automatické rozpoznávanie reči.

Áno.

Dnes je už pomerne ľahké „dekódovať“ ľudskú reč – ale len z pohľadu používateľov, tí totiž vidia už len výsledok práce generácií vedcov a vývojárov a využívajú ho. Výskumníci ale musia stále pokračovať v riešení množstva zložitých problémov, aby rozpoznávanie reči ďalej vylepšovali. Isto to nie je ľahké ani pre samotné počítače, pretože moderné systémy rozpoznávania reči sú mimoriadne výpočtovo náročné. Nedajte sa oklamať zdaním, že to „zvláda aj váš telefón“. V skutočnosti sa reč z telefónu posiela na výkonné servery, kde prebieha samotné rozpoznávanie.

Ako fungujú systémy na rozpoznávanie reči? 

Moderné systémy rozpoznávania reči sú založené na strojovom učení a vyžadujú enormné množstvo textov, aby si vytvorili matematický jazykový model, ktorý odráža pravdepodobnosti výskytu jednotlivých slov a slovných spojení v danom jazyku. Potrebujú aj tisícky hodín nahrávok reči od mnohých ľudí, aby vytvorili akustický model, ktorý nesie informácie, ako ľudia vyslovujú hlásky a ich spojenia, aká je zvuková podoba reči v danom jazyku. Prepis je teda možné automatizovať v každom jazyku, pre ktorý sú k dispozícii dostatočne veľké množstvá textov a nahrávok reči.

Čo o vás prezradí hlas 

Čo dokážete vyrozumieť z hlasu, tónu a reči? Sú nielen oči, ale aj hlas oknami či dverami do duše?

Aby vám automatický systém rozumel čo najlepšie a prispôsobil svoje služby práve pre vás, môže sa pokúsiť odhadnúť váš vek, pohlavie, náladu, či povahové črty – to všetko sa dá do istej miery zistiť analýzou vašej reči. Človek pokojný a rozvážny hovorí pomalším tempom, ako prchký a zbrklý. Hlas unaveného alebo depresívneho človeka je väčšinou tichší a hlbší. Reč nadšeného je zas rýchlejšia so silnejším a vyšším hlasom. Na reči sa odráža odkiaľ pochádzate, aké máte vzdelanie a kultúrne zázemie, dajú sa v nej identifikovať varovné znaky niektorých vážnych ochorení, a to dokonca skôr, ako sa prejavia fyziologické zmeny, ktoré sledujú lekári.

Potrebujete vo svojej práci aj ticho? Mimochodom, má v reči svoj význam aj ticho? Ako s ním pracovať?

Aby si človek mohol vychutnať zvuk, musí mať možnosť počúvať aj ticho. Ticho je kontrastom ku každému inému zvuku, je to čistota, je to „čierna farba“ zvuku. Úplné ticho je veľmi vzácne a nie sme naň zvyknutí, lebo dnes je istá hladina hluku všadeprítomná.

V reči je ticho reprezentované pauzami. Pauzy môžu vznikať pri nadychovaní, ale aj oddeľujú slová a vety, a ich rôzna dĺžka môže dať vetám rôzny význam. Pauzy sú rovnako dôležité ako hlásky. Isto poznáte vyjadrenie „veľavýznamne mlčal“ alebo „spravil veľavýznamnú pauzu“ – ticho jednoznačne má svoj význam.

Odporúčate aj iným venovať sa podobnej oblasti analýzy a syntézy reči? Kto sa na takúto prácu hodí?

Oblasť automatického spracovania reči si mňa, aj mojich kolegov podmanila, a verím, že by dokázala potešiť aj mnohých ďalších budúcich vedcov a vývojárov. Ak je človek zvedavý, ak ho zaujíma, ako veci fungujú, ak má rád hudbu a zvuk, ak sa nebojí technických otázok, tak ho oblasť oblasti analýzy a syntézy reči určite nesklame.