Skip to content

Стан розпізнавання голосу Linux

5 de Липень de 2021

Розпізнавання мови в Linux переслідує платформи Windows і Mac, оскільки і Microsoft, і Apple вклали значний час і витрати на додавання програмного забезпечення голосового управління або голосового помічника в свої основні операційні системи. Хоча для Linux ситуація не є похмурою, як і з багатьма передовими технологіями, всесвіт із відкритим кодом залишається на крок позаду, особливо з інструментами голосового управління.

Розпізнавання мови Linux

Жоден дистрибутив Linux не фокусується на розпізнаванні мови. Однак програми, що підтримують можливість розпізнавання мови, покладаються на кілька бібліотек з відкритим кодом, включаючи Sphinx, Kaldi, Julius та Mozilla Deepspeech.

Негативний простір / Макет. Фотографії
Ці бібліотеки покладаються на мовний корпус, щоб пропонувати варіації звуків для тренування ШІ і, отже, правильно перекладати мовлення в текст. Однак проекти з відкритим кодом є менш складними (оскільки вони отримують менший внесок у навчання ШІ), а це означає, що більшість програм для перетворення тексту в мову для Linux часто псують перетворення. Зазвичай вони обробляють це так ретельно, що незрозуміло, якою могла бути оригінальна мова.

Параметри для мовлення Linux в текст

Використовуйте один із п’яти шляхів розв’язання.

  • Покладайтеся на програми Linux, доступні у сховищах вашого дистрибутива – якщо такі з’являються.
  • Amazon зробила Alexa доступною для Linux, зокрема для Raspberry Pi. Вам потрібно буде виконати багато налаштувань на замовлення, щоб зробити цей механізм ефективним, але він спрацює.
  • Доступ до Google Speech API у вашому браузері через DictationIO. Ця послуга працює лише для диктування; ви не можете використовувати його для голосових команд. Він працює на основі ШІ від Google, тому якість хороша.

Google Assistant відображає стенограму для перевірених дзвінків.

  • Використовуйте таку службу, як Alexa або Google Assistant, як програму голосового управління для Linux через службу Triggercmd. Triggercmd працює на вашому комп’ютері; використовуйте його, щоб викликати Alexa або Google Assistant, і нехай ці інструменти виконують певні сценарії Bash на основі вашої команди. Скажіть щось на зразок: “OK Google, попроси команду тригера, щоб відкрити калькулятор”. Google Assistant служить посередником у Triggercmd для запуску сценарію Bash, зазначеного фразою “відкрити калькулятор”.
  • Використовуйте Wine або віртуальну машину з програмним забезпеченням для Windows, як Dragon NaturallySpeaking. За допомогою правильної настройки ви можете використовувати движок Dragon для транскрипції, хоча це рішення не працює для програм голосового управління.