Rozpoznávání řeči v systému Linux sleduje platformy Windows a Mac, protože Microsoft i Apple investovaly značné množství času a nákladů do přidání softwaru pro hlasové příkazy nebo hlasové asistenty do svých hlavních operačních systémů.
I když pro Linux není situace bezútěšná, jako je tomu u mnoha špičkových technologií, volný a otevřený vesmír zůstává o krok pozadu, zejména s nástroji hlasových příkazů.
Nativní linuxové rozpoznávání řeči
Žádná distribuce Linuxu se nezaměřuje na rozpoznávání řeči. Aplikace, které podporují schopnost rozpoznávání řeči, se však spoléhají na hrst otevřených knihoven včetně Sphinx, Kaldi, Julius a Mozilla Deepspeech.
Negativespace / Mockup. Fotografie
Tyto knihovny se spoléhají na řečový korpus, který nabízí variace zvuků pro trénování AI, a proto správně převádí řeč na text. Open-source projekty jsou však méně sofistikované (protože si užívají menší příspěvky k trénování AI), což znamená, že většina aplikací převodu textu na řeč pro Linux konverzi často zkomplikuje. Obvykle to tak důkladně zpackají, že není jasné, jaký mohl být původní projev.
Možnosti pro Linux Speech to Text
Použijte jednu z pěti cest řešení.
- Spolehněte se na nativní aplikace pro Linux dostupné v úložištích vaší distribuce - pokud se objeví.
- Amazon zpřístupnil Alexa pro Linux, včetně Raspberry Pi. Aby toto uspořádání fungovalo, budete muset provést hodně přizpůsobení, ale bude to fungovat.
- Přístup k rozhraní Google Speech API ve vašem prohlížeči prostřednictvím DictationIO. Tato služba funguje pouze pro diktát; nemůžete jej použít pro hlasový příkaz. Je poháněn umělou inteligencí Google, takže kvalita je dobrá.
- Použijte službu jako Alexa nebo Google Assistant jako nástroj pro hlasové příkazy pro Linux prostřednictvím služby Triggercmd. Triggercmd běží na vašem počítači; použijte jej k vyvolání Alexa nebo Google Assistant a nechte tyto nástroje spouštět konkrétní Bash skripty na základě vašeho příkazu. Řekněte něco jako: „Dobře, Google, zeptejte se spouštěcího příkazu k otevření kalkulačky.“ Google Assistant slouží jako prostředník Triggercmd ke spuštění skriptu Bash specifikovaného frází „otevřete kalkulačku“.
- Použijte Wine nebo virtuální stroj se softwarem pro Windows, jako je Dragon NaturallySpeaking. Se správným vyladěním můžete pro přepis použít engine Dragon, i když toto řešení nefunguje pro aplikace hlasových příkazů.