Язык эмоций и эмоциональный слух. Избранные труды. Владимир Морозов
Чтение книги онлайн.

Читать онлайн книгу Язык эмоций и эмоциональный слух. Избранные труды - Владимир Морозов страница 13

СКАЧАТЬ по данной проблеме доктор технических наук М. Сулуквадзе, работающий в Институте систем управления Академии наук Грузинской ССР, считает, что «автоматическое распознавание речи следует считать одной из наиболее сложных проблем технической кибернетики. Мы не уверены, что она будет полностью решена и через 50 лет, то есть к 2034 году. Под термином „полностью“ подразумевается уровень восприятия и понимания речи человеком в реальных условиях его речевого взаимодействия с другими людьми».

      Рис. 9. Раритет

      Причина столь упорного «нежелания» ЭВМ научиться в совершенстве понимать речь кроется в индивидуальных и эмоциональных особенностях речи людей, сильно искажающих ту фонетическую структуру стандартного речевого сигнала, на распознавание которого заранее настраивается машина. Так, известно, что речевая информация кодируется формантной структурой (частотой формант и их динамикой). Но частота особенно первых формант существенно зависит от частоты основного тона голоса: повышается при повышении голоса и снижается при понижении основного тона речи. Изменения во времени основного тона голоса – это важнейшее средство эмоциональной выразительности (интонации голоса), и происходят они в связи с эмоциями в пределах до одной, полутора и даже двух октав (!), как это наблюдается при сильном эмоциональном возбуждении. Это и приводит к сильнейшей деформации всей спектральной структуры речи и непониманию речи машиной. По данным Г. Фанта, женские и детские голоса, имеющие повышенную, по сравнению с мужскими, частоту основного тона, характеризуются и повышенными формантными частотами (в среднем на 17–25 %).

      Очевидно, в мозгу есть механизм, учитывающий информацию о повышении средних частот формант в связи с повышением основного тона голоса (высота голоса). Потому-то нам практически безразлично, на какой высоте основного тона голоса произносятся слова: произносит ли их мужской, женский или детский голос – разборчивость, понятность речи обеспечиваются.

      Но перечисленные трудности – это лишь малая толика всех их, стоящих на пути обучения ЭВМ пониманию речи. Образно говоря, все виды речевой информации – лингвистической и экстралингвистической – как бы «растворены» в звуке голоса человека. Наш слух не испытывает затруднений в их разделении и учете, а машина «затрудняется». Поэтому можно надеяться, что изучение индивидуально-эмоциональных особенностей речи и механизмов, на которые опирается наш слух и мозг при их разделении, позволит наконец окончательно решить и проблему ее автоматического распознавания. Может быть, здесь пригодятся данные о том, что для восприятия и переработки логической и эмоциональной информации речи в мозгу человека имеются два специализированных и вместе с тем взаимодействующих отдела: левое полушарие мозга – для логики, правое – для эмоций. Кстати, в одной из работ под редакцией виднейшего американского специалиста по автоматическому распознаванию СКАЧАТЬ