Программа была интересная, хотя качество распознавания было достаточно средним. Она позволяла голосом вводить текст в редакторе и активировать голосом различные программные функции. Вскоре, ворох других проблем поглотил меня и идея была забыта на долгий срок. Спустя четырнадцать лет каким то образом она всплыла заново и я решил узнать - что же изменилось в этих технологиях за прошедшие годы.
Простой поиск дал понять, что ничего революционного не произошло, однако куча различных программ некогда имеющие собственные алгоритмы распознавания исчезли, а современные работают на универсальном наборе библиотек от Микрософт, называемых Microsoft Speech API и которые можно свободно скачать и использовать в собственных программах. Так-же я нашёл древнюю утилитку Voice Commander написаную а России аж в 2000 году и с тех пор не обновляемую. Утилитка имела два достоинства - собственный редактор команд и грамотный минимализм функциональности и интерфейса, а работала на основе библиотек от Микрософта.
Моя цель была простая - запрограммировать компьютер на выполнение команд отданных голосом. То есть я придумываю фразу и указываю какие действия должен выполнить компьютер когда "услышит" её. Например, открыть приложение, навигация по файловой системе, переключение треков в музыкальном плейре, открытие закладок в браузере. К сожалению, при всех достоинствах, программа имела огромные недостатки. Во-первых, она глючила, а именно периодически вылетала. Во-вторых, редактор команд был весьма беден - только линейное исполнение, без возможности введения проверок на дополнительные условия и запуска сторонних процедур. Вот это видео демонстрирует то, чего удалось добиться за первый вечер работы с программой. (если видео коряво - вот прямой линк http://www.youtube.com/watch?v=uf73t0CHU0s)
На последних секундах видео видно как программа вылетает, а посему было принято решение написать свою программу на основе имеющихся библиотек с требуемой функциональностью и удовлетворяющим сервисом. В интернете было найдено описание классов библиотеки, готовые простые примеры их использования, включая синтез речи из текста и в настоящее время я с этим потихоньку разбираюсь.
Я полностью отдаю себе отчёт в том, что данная технология на современном этапе истории не может полностью заменить мышь и клавиатуру. Но в некоторых областях распознавание отдельных команд может оказаться удобным, полезным и интересным. Например, в нас в Японии, в доме прохладно и я, при просмотре фильмов или аниме, накидываю на себя одеяло а под него пускаю тепло от сушилки. В этом случае голосовое управление мне очень помогает - ведь я могу не снимать оделяло, что-бы освободить руки. Или, по приходу домой, голосом из другой комнаты запустить проверку почты или музыку. В перспективах, данные технологии можно использовать для управления оборудованием - включать голосом свет, кондиционер или вентилятор. Конечно, можно сказать что это просто игрушки, но я люблю эту технологию и верю, что однажды мы будем свободно говорить с компьютером и он тоже ответит нам.