Название: Дороги, дураки и компьютеры. Есть ли будущее у России
Автор: Эдуард Нистратов
Издательство: СУПЕР Издательство
Жанр: Документальная литература
isbn: 978-5-907040-33-5
isbn:
Компьютер и телефон – близнецы-братья
– Вот говорят: Карузо, Карузо… Ни слуха, ни голоса, да еще и картавит.
– А вы слышали?
– Сам не слышал, но мне Рабинович по телефону напел.
Обучить компьютер понимать человеческую речь и «озвучивать» текстовые сообщения – заманчивая задача. Именно ее решает компьютерная телефония – технология, основанная на интеграции телефона и компьютера в единую среду. С одной стороны, компьютер используется для коммутации телефонных вызовов, а с другой, телефон превращается в средство удаленного доступа к компьютерным ресурсам. Сюда же относятся и другие компьютерные системы, связанные с поддержкой передачи информации по телефонным линиям, такие как голосовая почта, факсимильная почта, факс-серверы и т. д.
Упрощенно процесс машинного распознавания речи можно описать в нескольких фразах. Аналоговый сигнал, генерируемый микрофоном, оцифровывается, далее в речи выделяются так называемые фонемы, то есть элементарные фрагменты, из которых состоят произносимые слова и определяется, какое слово какому сочетанию фонем соответствует. Из всего этого строится словарь. Распознать слово – значит, найти его в этом словаре по произнесенному сочетанию фонем.
Но, во-первых, человек обычно не делает паузы между словами, а при слитном произнесении к задаче распознавания прибавляется еще и задача выделения слов из потока речи. Особенно «неприятной» кажется необходимость выделять односложные слова – именно с ними и связано максимальное число ошибок реально существующих систем. Можно, конечно, потребовать, чтобы человек произносил слова по одному, делая достаточно продолжительные паузы. Не очень удобно, но для подачи простых команд сгодится.
Следующая проблема – различие диалектов, дикций и прочие особенности говорящих. Для того чтобы система работала устойчиво, она должна, например, «осознавать», что мягкое южное и твердое северное «г» – это одна и та же буква. А звук «р» чего стоит! Специалисты утверждают, что речь человека столь же индивидуальна, как отпечатки пальцев. Именно из-за этих и многих других проблем до полного решения задачи распознавания речи по-прежнему весьма далеко. И все-таки, уже появились технологии, которые позволяют работать с почтой, контактной информацией и расписанием через голосовой интерфейс.
Так называется СКАЧАТЬ