Техника - молодёжи 1998-10, страница 45

Техника - молодёжи 1998-10, страница 45

на временной оси — не что иное как «фонетический алфавит»; а периметры изображений импульсов на осциллограмме — «фонетический почерк».

Теперь «выжмем» еще немного пользы из параллели с радиопередатчиком. Его индивидуальные параметры — мощность и частотный диапазон. Ими же в значительной степени характеризуется человеческий голос. Не исключено, что речевые универсалии суть ТУРБУЛЕНТНАЯ часть речевого потока, а дикторская речь — ВИХРЕВАЯ. Не исключено, далее, что запись информации, которую сей поток несет, если не любой информации вообще, в мозгу происходит путем фазовой рельефографии.

ЧТО ДЕЛАТЬ?

Кажется очевидным, что анализатор речи должен базироваться на компьютере с соответствующим программным обеспечением. Исходя из всего, что мы знаем и предполагаем, — как математизировать речевой сигнал, придать ему форму, «привычную» компьютеру?

Пока я не готов детально ответить — ибо не все тут ясно, а часть того, что ясно, — ноу-хау. Но считаю себя обязанным дать хотя бы общие теоретические выкладки.

Я допускаю, что речевые универсалии, как цифровая компонента речи, описываются интегральными уравнениями, а дикторская речь (аналоговая) — дифференциальными. Почти несомненна возможность использования таких математических аппаратов, как теория подобия для речевых универсалий и Фурье-преобразование для дикторской речи. Кроме того, предположительно применимы ряды Гаусса, ряды и коды Фибоначчи, годограф Пуанкаре, полином Чебышева, теорема Веерштрасса, методы нахождения оптимальной статистической вероятности и анализа критических точек. Безусловно, необходим упомянутый выше фильтр случайных процессов.

Теперь — о физическом принципе анализатора речи. Он может быть основан на использовании следующих феноменов и методов: фазовой рельефографии; электронно-дырочной проводимости; фоно-акустического эффекта. В конструкцию

анализатора, видимо, войдут релейные системы. Что же получится в итоге?

Настала пора поговорить об универсальном анализаторе динамических процессов (УАДП) вообще — ибо анализатор речи есть, безусловно, его частный случай. Физическая база УАДП состоит в том, что любые динамические процессы сводятся к выработке или расходу энергии во времени. Тогда они описываются классическими уравнениями движения и работы, принятыми в ньютоновской механике (см. любой учебник физики). Современные средства измерений, математические аппараты и компьютерная техника вполне позволяют изготовить действующий УАДП — налицо как «программно-математические», так и «приборостроительные» предпосылки. Назначение УАДП — измерение с высокой точностью и анализ изменения во времени следующих параметров динамического процесса: энергии; мощности; частоты; фазовых характеристик. А для радиосигналов — стало быть, и для подобных им речевых — еще и характера их модуляции.

Если прочнее «привязать» УАДП к нашей задаче — распознаванию человеческой речи машиной, — перспективу предлагаемого подхода я вижу в создании устройств

Романс Рубинштейна на стихи Лермонтова «Демон» в исполнении Шаляпина: развертка фонемы «у» в слове «воздушном» (из первой строки — «На воздушном

трех типов: фоноскопа — анализатора речевых универсалий; диктоскопа — анализатора дикторской речи (т.е. прибора для идентификации диктора!); наконец, диктографа — принтера, печатающего с голоса.

Из них наиболее необходимое и к тому же наиболее простое для проектирования и конструирования — фоноскоп. Диктограф, как легко понять, должен разрабатываться на его основе. Чтобы фоноскоп отвечал предъявляемым требованиям, достаточно использовать в нем обычный микрофон, маломощное устройство ввода и малый по объему памяти, но быстродействующий компьютер. Плюс, повторяю, возможно применение релейных систем. Для дикто

скопа же необходимы высокочувствительный микрофон (электретный или динамический), высокопроизводительное устройство ввода и быстродействующий компьютер с обширной памятью. Сказанное означает, что диктоскоп по своим техническим данным годится и для распознавания речевых универсалий (т.е. может быть «переделан» в фоноскоп) — но не наоборот.

Здесь читатель, пожалуй, спросит: ежели автор все так разложил по полочкам — отчего ж он до сих пор не решил задачу, над которой бьется не первый год?

НЕ ЧИСЛОМ, А УМЕНЬЕМ, или ЛУЧШЕ МЕНЬШЕ, ДА ЛУЧШЕ

Исследователи, уповающие на амплитудно-частотный спектр, обыкновенно объясняют свои неудачи отсутствием достаточно мощных компьютеров. Вот когда, мол, появится ЭВМ, способная вызубрить весь словарь Ожегова (57000 слов)...

Но даже мощности ЭВМ 80-х гг. вполне хватило бы на хороший фоноскоп, чей «загашник» должен содержать лишь 41 эталон! Довести начатое до конца мне мешали как объективные, так и субъективные причины. Конечно, и недостаток понимания со стороны специалистов (инерция мышления?) сыграл свою роль. Кроме того, проблемой обучения машины человечьему языку я занимался не столько по долгу службы, сколько в свободное от него время.

Очень соблазнительно было бы сослаться на то, что для решения столь сложной проблемы необходим большой штат сотрудников. Но в том-то и дело, что всю практическую часть работы вполне реально выполнить по-суворовски, малым числом и, кстати, за малое время — от силы года за два! По моим прикидкам, достаточно исследовательской группы из 4 — 5 человек: руководителя, он же главный конструктор, математика, программиста, конструктора и специалиста по производству и маркетингу. Конкретный результат их совместной деятельности ожидается следующий. Будут написаны две программы — для распознавания речевых универсалий и для идентификации диктора. Их область применения — как в универсальных компьютерах, так и для создания специализированных устройств — фоноскопов, дикто-скопов и диктографов. Согласно Суворову, победить не числом, а уменьем удается, когда уменье есть. Насколько плодотворны изложенные здесь теоретические принципы — покажет, как обычно, практика.

ЛИНГВИСТИЧЕСКИЙ «СПОТЫКАЧ»

В заключение — о некоторых сугубо языковедческих трудностях.

Я утверждал, что единица распознавания речевых универсалий есть фонема. В действительности все не так просто. Допустим, анализатор шутя «раскусывает» отдельные звуки в слитной устной речи. Ну, а каким манером он поймет, где кончается одно слово и начинается следующее? Как он — с голоса! — восстановит пунктуацию фразы? Как узнает, повествовательная она, вопросительная или восклицательная?

Выходит, к речевым универсалиям относится НЕ ТОЛЬКО ФОНЕТИЧЕСКИЙ КОД. Придется включить сюда и ИНТОНАЦИИ — предварительно вычленив ту их часть, что не характеризует манеру диктора, а опре

ТЕХНИКА-МОЛОДЕЖИ 1098

ЕЖ