Počítačový systém našich vědců ovládl mluvenou norštinu a umí ji přepisovat

IMG_4044.jpg
Jan Nouza před webovou stránkou vytvořenou univerzitním týmem, jež běží na cloudu Newton Technologies s několika desítkami cizojazyčných rádií. Systém souběžně promluvy zapisuje. Foto: Radek Pirkl, TUL

Moderátorka norského rádia hovoří a počítačový systém vyvinutý našimi vědci její řeč okamžitě plynule zapisuje. A to téměř bez chyb. Ovládnutí zápisu obtížné mluvené norštiny je výsledkem spolupráce Technické univerzity v Liberci (TUL), Norwegian University of Science and Technology (NTNU) a české společnosti Newton Technologies.

Norština je nyní dvacátým jazykem, s nímž si dokázaly poradit neuronové sítě sycené daty vědců z Laboratoře počítačového zpracování řeči Fakulty mechatroniky, informatiky a mezioborových studií TUL (FM).

„Projekt řešíme rok a už nyní máme velmi dobré výsledky, které oceňuje i norská strana. Jsou už dnes srovnatelné s největšími hráči, což je Google a Microsoft,“ říká Jan Nouza, zakladatel SpeechLabu, Laboratoře počítačového zpracování řeči na FM, jež dnes patří k nejúspěšnějším pracovištím v oboru hlasových technologií v České republice.

Systém zápisu mluvené norštiny nyní partneři libereckých vědců z NTNU testují. Výsledky zápisu pomocí algoritmů porovnávají s tím, jak by promluvy zapsal člověk. Úspěšnost je nyní asi osmdesát osm procent. „To je velmi dobré, když si uvědomíme, že systém si musí poradit i s nejrůznějšími ruchy, přeřeky, špatnou výslovností nebo vadami řeči, které se objevují ve zpracovávaných reportážích a na nahrávkách,“ doplňuje profesor Nouza.

Práci ztížily dialekty a dvě spisovné formy

Jeho tým se především musí poprat se zásadní záludností mluvené norštiny. Ta má totiž dvě rovnoprávné spisovné formy. Bokmål [ˈbuːkˌmɔːl] a nynorsk [ˈnyːˌnɔʂːk] a k tomu mnoho dialektů. „Je to, jako by systém slyšel hanácký, chodský i ostravský dialekt a ještě slovenštinu a musel promluvu zapsat buď spisovnou češtinou, nebo slovenštinou. Musí se sám rozhodnout, co je nejpravděpodobněji správné. I s tím se pojí drobná chybovost, kterou ještě vylaďujeme,“ líčí Jan Nouza.

Zápis efektivně běží díky složitému systému algoritmů, který naprogramovali vědci SpeechLabu. Ale i díky obrovskému množství dodaných dat. Do neuronových sítí tak vstupuje slovo za slovem v podobě zvuku. A sítě se postupně učí, jak vypadá textový přepis každého slova. Preciznost zápisu se zlepšuje s přibývajícím počtem dat.

Databáze nyní obsahuje 600 tisíc norských slov obou spisovných forem a stále se rozšiřuje. Učí se na obrovském množství televizních nebo rozhlasových reportáží a textů ze zpravodajských webů. Ale i za pomoci audio a elektronických knih.

„Vždy, když začínáme s novým jazykem, stahujeme si všechny možné veřejně dostupné texty. Většinou to bývá více než 1 GB  textů. Pak v nich hledáme nejčastěji se opakující slova. Naučit systém mluvenou podobu je těžší. Takže sháníme všemožné zdroje mluvené norštiny, kde existuje alespoň přibližný přepis. Používáme třeba zpravodajské pořady norské televize, ke kterým existují titulky. Neuronovým sítím vlastně předkládáme zvuk a k tomu informaci, jak má vypadat přepis,“ vysvětluje Jan Nouza.

Systém dnes dokáže odfiltrovat řeč i od okolního ruchu v soudních síních, call centrech nebo reportážích například z továren. Zkrátka všude tam, kde mluvčím není dobře rozumět. „Neuronová síť se naučí, že i toto je řeč.“

Systém se učí i na norských poslancích

Mezinárodní tým předpokládá, že systém letos začne zkušebně pracovat v norském parlamentu. Na zápisech a nahrávkách z jednání norských poslanců ostatně tým už dnes ladí učení neuronových sítí. Pomáhat by mohl také při zapisování soudních jednání. A sloužit bude také pro převádění televizních a rozhlasových pořadů do psané formy za účelem mediálního monitoringu. Právě s touto činností má Newton Technologies mnohaleté zkušenosti.

Tým FM dosud zpracoval dvě desítky jazyků. Slovanských, germánských i románských. V portfoliu nechybí ani maďarština.

Profesor Nouza se problematice zápisu mluvené řeči věnuje od poloviny 90. let a za tu dobu spolu se svým týmem vytvořil vlastní rozpoznávací engine, který nyní pracuje na principu neuronových sítí. Systém je vytvořený modulárně. Některé moduly jsou jazykově závislé (zejména inventář znaků a fonémů, dále samozřejmě slovník a tzv. akustický a jazykový model). Vlastní rozpoznávač může zůstat stejný. „Je naprogramovaný tak univerzálně, že si poradí i s jinými jazyky.“

Všech dvacet řečí, které profesor Nouza s týmem spolupracovníků zpracovával, v dané chvíli pasivně ovládl. „Jak připravuji data pro učení modulů, sleduji zprávy a reálie daného státu. Je to ale jen pasivní znalost, která odezní, když jazyk přestanete používat,“ směje se Jan Nouza.

Počítač zapíše latinku i azbuku

S firmou Newton Technologies spolupracuje univerzitní tým na výzkumu a zdokonalování programu a jeho zavádění do praxe již řadu let. Jan Nouza ukazuje webovou stránku vytvořenou univerzitním týmem, jež běží na cloudu Newton Technologies s několika desítkami cizojazyčných rádií. Systém u všech v reálném čase přepisuje mluvenou řeč. Češtinu, angličtinu nebo španělštinu v latince, ruštinu v azbuce, srbštinu v cyrilici. Hudební předěly dokáže odfiltrovat a nepřepisuje je.

Během pandemie také vznikla aplikace Newton Technologies – Beey.tv, jež titulkuje vybrané televizní nebo internetové pořady a pomáhá tak neslyšícím. Na T-UNI jsme psali.

Tým SpeechLabu rovněž vyvinul program MyVoice. Lidem s nepohyblivýma rukama umožňuje hlasem ovládat nejen počítač, ale i další elektronická zařízení. Jeho nejnovější verze je dílem docenta Josefa Chaloupky.

Nový obor inteligentní technologie

Přibližně desetičlenný tým, který Jan Nouza založil v roce 1993, nyní přebírá docent Petr Červa. „Mám radost, že se mi podařilo vychovat nástupce a že se nám daří naším novým studijním oborem Inteligentní technologie oslovovat nadprůměrné studenty. Učíme je moderní přístupy založené na strojovém učení, a to   nejen při zpracování řeči, ale i obrazů nebo textů, lékařských i biologických dat. A ty nejšikovnější zaměstnáváme na projektech, kde se mohou seznámit se všemi aspekty výzkumu a vývoje a zároveň si přivydělat,“ říká Jan Nouza.

Uznávaný vědec, jenž loni převzal ocenění Pocta hejtmana za celoživotní přínos v oblasti vývoje komunikačních technologií, proslul i jako zapálený triatlonista a znalec rozhleden. Jako autor populárních publikací a spoluautor scénáře k televiznímu cyklu Rozhlédni se, člověče, pomohl odstartovat celorepublikový zájem o české a moravské rozhledny. „Do přírody se bohužel dostanu méně a méně. Poslední dobou mě ale hodně chytlo stavění složitých mechanismů, robotů a staveb z Lega. Modelů už mám doma tolik, že začínám mít problém s volným prostorem,“ směje se profesor Nouza.

Výtvory, které profesor Nouza postavil, mnohé na základě návrhů či námětů jiných tvůrců, si můžete prohlédnout.

Adam Pluhař

 

Prof. Ing. Jan Nouza, CSc.

(*1957, Ústí nad Labem)

Spoluzakladatel Fakulty mechatroniky, informatiky a mezioborových studií TUL (FM) a zakladatel SpeechLabu, laboratoře zabývající se počítačovým zpracováním řeči. Spoluautor prvního českého programu pro hlasové ovládání počítače MyVoice. Úspěchy slaví diktovací program Newton Dictate, vyvinutý a distribuovaný ve spolupráci s firmou Newton Technologies i systém automatického přepisu řeči v médiích. Zvládá už přepisovat a analyzovat dvacet jazyků.

 

KORONAVIRUS – OPATŘENÍ A NAŘÍZENÍ

Vedení školy aktualizuje opatření a nařízení v souvislosti s pandemií koronaviru. AKTUÁLNÍ INFORMACE

Další články v rubrice

PER_2235-2.jpg

Řídí samo. Vyvíjíme vozidlo s vlastními smysly

Výzkumný tým TUL složený z vědců a studentů čtyř fakult vyvíjí elektrické vozidlo vybavené vlastním viděním a smysly, jež se dokáže samo pohybovat a vyhýbat překážkám. Autonomní modulární elektrická platforma má najít uplatnění všude tam, kde je...

7. 12. 2021 | Věda a výzkum | 374

Zůstaň v kontaktu s univerzitou

T-UNI Univerzitní časopis /
University Magazine

Nepřehlédněte
tipy redakce