Naučili počítač slyšet a rozumět. Teď už ve dvaceti jazycích

Petr Červa.jpg
Výzkumnou laboratoř SpeechLab dnes na Fakultě mechatroniky, informatiky a mezioborových studiích TUL vede docent Petr Červa. Foto: Radek Pirkl

Před třiceti lety poprvé přiměli liberečtí vědci počítač pouhým slovem, aby vykonal příkaz. A „kompjutr“ dokázal například kreslit nebo zvětšovat. Za úspěchem stála výzkumná laboratoř SpeechLab, kterou na Fakultě mechatroniky, informatiky a mezioborových studií TUL proslavil profesor Jan Nouza se svým týmem. Z laboratoře vzešly celosvětově používané programy na zápis mluvené řeči – dnes už ve dvaceti jazycích – programy na ovládání počítače hlasem, přepis a monitoring médií nebo automatické titulkování videí. Laboratoř dnes vede Petr Červa.

A s docentem Červou jsme si povídali o tom, jak naučit počítač, aby rozuměl lidské řeči nebo o tom, zda se máme bát umělé inteligence.

 

Pane docente, píšete víc na klávesnici, nebo už jen diktujete?
Píšu na klávesnici, protože sdílím kancelář s více kolegy a diktování by je rušilo.

Ptám se proto, že převod mluveného slova na jedničky a nuly je to, co vaši laboratoř nejvíc zaměstnává. Navíc, rozpoznávání řeči se už používá v řadě u hlasových asistentů, chatbotů, u automatické tvorby titulků nebo hlasovém ovládání auta. Myslíte, že hlas jednou nahradí klasické ťukání do klávesnice?

V některých situacích už se tak do velké míry stalo, například při tvorbě titulků či diktování radiologických nebo jiných medicínských nálezů. Ve většině případů ale bude z důvodů soukromí a rušení stále převládat psaní na klávesnici.

Před 30 lety vyvinula laboratoř SpeechLab na FM první funkční rozpoznávač VoiceCad, jenž uměl na základě 33 povelů ovládat hlasem počítač. Bylo to tehdy něco jako technologický zázrak?

Úplný zázrak to nebyl, protože podobný vývoj probíhal i jinde ve světě, ale v rámci ČR byl tehdy pan profesor Nouza skutečně jedním z prvních, kteří podobnou aplikaci vytvořili.

V roce 2005 jste vyvinuli program MyVoice, díky němuž dokázali handicapovaní ovládat počítač pouhým hlasem. Kolika lidem už pomohl?

Program se stále šíří mezi další a další uživatele, kterých jsou řádově už stovky. Je to nyní zásluha hlavně spolku Silou hlasu. Zakladatelka a předsedkyně tohoto spolku Dita Horochovská za tuto činnost získala Cenu Olgy Havlové 2022 – lidem s omezenou schopností pohybu předává zkušenosti s ovládáním počítače pomocí hlasu. Loni dokonce dostala státní vyznamenání od prezidenta Petra Pavla.

Byli jste tehdy v rámci českých nebo i světových pracovišť unikátní, nebo se podobnou činností zabývalo více pracovišť? A v čem spočívá vaše unikátnost dnes?

V rámci českých pracovišť jsme byli určitě jedni z prvních. Další laboratoře podobného zaměření vznikaly postupně v Plzni, na ČVUT v Praze a pak také na FIT v Brně. Naše unikátnost je nyní právě v počtu jazyků, které zvládneme a v tom, že řada z nich je skutečně prakticky nasazena díky spolupráci s firmou Newton.

 

 

Jak dlouho trvá, než se počítač, který rozumí řeči jedniček a nul, naučí porozumět nějakému jazyku? Co je k tomu učení zjednodušeně řečeno zapotřebí?

Nám to trvalo v podstatě 30 let vývoje. Přidat další jazyk je ale dnes pro tým, který má potřebné know-how a hardwarové vybavení, otázka několika měsíců práce. V rámci nich je zejména třeba vytěžit z veřejných zdrojů nebo jinak zpracovat zhruba 1000 hodin zvukových dat s přesným textovým přepisem.

Pomáhá vám v tomto výzkumu živelný rozvoj umělé inteligence a neuronových sítí? A je díky tomu trénování jazykových modelů jednodušší a rychlejší?

Rozvoj algoritmů AI a hlubokých neuronových sítí znamenal v posledních letech do té doby bezprecedentní nárůst přesnosti přepisu. Trénování je dnes ovšem řádově výpočetně náročnější.

V rámci mezinárodního grantu ve spolupráci s firmou Newton a univerzitou NTNU jste nedávno ovládli rozpoznávání velmi složité mluvené norštiny s mnoha dialekty a dvěma psanými formami. Dosáhli jste vyšší přesnosti než obdobné nástroje od Googlu nebo Microsoftu. Jak jste toho dosáhli?

Přesnost našich systémů je založena na použití dobrých, a námi různě optimalizovaných modelů. A pak na poctivé a mravenčí práci, která spočívá v důkladné přípravě trénovacích dat, která nesmí být zatížena žádnými chybami referenčního přepisu. Systém je nyní nabízen firmou Newton ve Skandinávii různým institucím, například pro přepis jednání v parlamentu.

Hluk už brzy zápis nezkreslí

Přepis na diktafon nahraných rozhovorů jako je tento, zabere několik hodin. Volně dostupných nástrojů zápisu řeči jsem už přitom vyzkoušel mnoho a jsou stále nekvalitní a nespolehlivé. Čím to?

I když se přesnost systémů rozpoznávání řeči za poslední období opravdu obecně výrazně zvýšila, tak jsou stále situace, kde, podobně jako lidské ucho a mozek, nefungují spolehlivě. Jde například o přepis řeči v prostředí se silným okolním ruchem a podobně. Navíc open-source modely nebo systémy často trpí tím, že jejich tvůrci si nedali často příliš práci s výběrem a čistěním trénovacích dat, což zhoršuje jejich přesnost.

Na čem nyní pracujete?
Aktuálně pracujeme zejména na vylepšování kvality přepisu v rušném prostředí, typicky například při použití vzdáleného mikrofonu.

Pokud byste nyní naším povídáním motivoval budoucí studenty, co je na FM naučíte? A mohou se vůbec přidat k vám do týmu a spolupracovat s vámi třeba na učení počítače novému jazyku?

V rámci studijního programu Informační technologie nabízíme specializaci Inteligentní systémy, kde studenty naučíme porozumět různým metodám strojového učení a naučíme je tyto metody aplikovat při řešení úloh v oblasti zpracování řeči, obrazu i psaného textu. Do našeho týmu se pak mohou přidat již během studia v rámci řešení projektů nebo bakalářských či diplomových prací.

Jaký je váš názor na umělou inteligenci? Bude se její vývoj dál zrychlovat? A bude nám pomáhat, nebo se jí máme bát? "Vypnout" už asi nikdy nepůjde.
Vývoj AI se opravdu neustále zrychluje a je v něm tolik peněz, že vypnout ho již nikdo nedokáže. Už dnes nám pomáhá a třeba v diagnostice různých nemocí nám bude pomáhat ještě více. Bát se musíme spíš sami sebe, neboť lidé dokáží proti sobě zneužít v podstatě cokoli.

Adam Pluhař

doc. Ing. Petr Červa, Ph.D.

(* 1980)

V listopadu 2021 obhájil habilitační práci Adaptation of speech recognition systems to selected real-world deployment conditions a přednesl habilitační přednášku na téma Adaptace systémů rozpoznávání řeči na vybrané reálné podmínky nasazení a byl jmenován docentem ve vědním oboru technická kybernetika.

Působí v Ústavu informačních technologií a elektroniky Fakulty mechatroniky, informatiky a mezioborových studií TUL, kde vede Laboratoř umělé inteligence.

Další články v rubrice

0052_vitezove_cWvS_2025_-0474.jpg

Cena Wernera von Siemense míří opět na TUL

Zcela unikátní metodu měření dynamiky fotoluminiscence vymyslel a ve své dizertační práci popsal doktorand Fakulty mechatroniky, informatiky a mezioborových studií TUL Jiří Junek. Metoda se využije například při analýze defektů v solárních...

27. 3. 2025 | Věda a výzkum | 397
Profesor Lukáš.jpg

Profesor Lukáš o důležitosti sdílení vědeckých dat

Profesor David Lukáš, uznávaný expert na fyzikální principy tvorby polymerních nanovláken, zdůrazňuje význam otevřeného sdílení dat pro rozvoj vědeckých teorií. Dát k dispozici nasbíraná vědecká data a umožnit jejich dlouhodobou dohledatelnost je...

8. 11. 2024 | Věda a výzkum | 325
DSC_2181.jpg

Zahradní kuchyně z recyklovaného textilního odpadu

Použitý textil, který je globálním problémem, nachází díky katedře hodnocení textilií, další uplatnění. Tentokrát jako součást materiálu, ze kterého jsou vyrobeny venkovní modulární kuchyně. Na trh je právě v těchto dnech uvádí firma Dimatex CS ze...

16. 5. 2025 | Věda a výzkum | 312

Zůstaň v kontaktu s univerzitou

T-UNI Univerzitní časopis /
University Magazine

Nepřehlédněte
tipy redakce

1000012936-2.jpg

Tričko probudí usínajícího řidiče

Plíživou únavu si ještě řidič za volantem neuvědomí, ale bezpečně ji už v zárodku pozná tričko vyvíjené na katedře oděvnictví Fakulty textilní TUL. Senzory totiž neomylně změří zpomalující se dech. Smart textile tak může pomoci snížit počty nehod...

10. 4. 2025 | Věda a výzkum | 716
0052_vitezove_cWvS_2025_-0474.jpg

Cena Wernera von Siemense míří opět na TUL

Zcela unikátní metodu měření dynamiky fotoluminiscence vymyslel a ve své dizertační práci popsal doktorand Fakulty mechatroniky, informatiky a mezioborových studií TUL Jiří Junek. Metoda se využije například při analýze defektů v solárních...

27. 3. 2025 | Věda a výzkum | 397