Техника - молодёжи 1984-12, страница 32

Техника - молодёжи 1984-12, страница 32

В какой-то мере здесь уместна аналогия с алфавитом и письменным текстом, почерком. В основе каждого письменного текста лежит алфавит, принятый в том или ином языке (или группе языков). В струк туре каждой буквы определенного алфавита (мы здесь берем за основу прежде всего латинский и образованные от него алфавиты) есть сумма геометрических элементов, которые позволяют нам в принципе прочитать любой рукописный или печатный текст. Конфигурацию письменного знака можно описать математически и научить ЭВМ распознавать ее.

Тогда возникает вопрос: а нельзя ли дать фонеме, как и букве, адекватное математическое описа ние, с помощью которого мы могли бы выделить ее из всего речевого потока вне зависимости от характера текста и произношения диктора? Ведь после этого ЭВМ получила бы возможность четко выделять фонетический код и читать слова и целые фразы пофонемно. Прекрасная перспектива — свести распознавания речевых сигналов к анализу нескольких десятков фонем!

Давайте проведем следующую аналогию. Представим себе, что говорящий — это радиостанция, а ЭВМ — приемник. При обычной радиопередаче сигнал передается на строго определенной длине вол ны. С технической точки зрения эта несущая волна определяет весь характер процесса, не будь его — при емник, естественно, не мог бы ничего принять. При этом сама информация, которую передают в эфир (сообщение), может быть какой угодно. И если, например, радиостанция начнет хаотически, абсолютно случайным образом менять длину волны, то нужное сообщение не дойдет до потребителя. Так вот, именно это и происходит в «живом» разговоре: интонация, произношение могут меняться случайным образом, они искажаются непредсказуемо. Другими словами, обычная человеческая речь заключает в себе два «.противоборствующих» фактора. Во-первых, в основе речевого сигнала лежит строгая закономерность, иначе мы не могли бы понимать друг друга. Во-вторых, эта закономерность проявляется каждый раз как индивидуальное, случайное явление, и мы, каким-то образом «запоминая» случайность, легко определяем принадлежность голоса тому или иному человеку...

Итак, наша речь — это «радиопередача» наоборот: в ней жестко закодирована семантическая, смысловая часть сигнала, и весьма случаен его вид.

Как это ни странно, уже неодно-

мнАЛИъцтор

PF ЧИ

Устройство для обучения иностранным языкам. При правильном произнесении слова или фразы на экране появляется графический образ.

х

I 1\|1лАлл/1 t -- 11 \J ' i'—"Ч,

Г

И

ЧГ77

V«r

Один из способов анализа речевого сигнала: наложение множества индивидуальных речевых характеристик друг на друга позволяет найти усредненный типичный вид графически отображенного звука.

кратно появлялись сообщения о создании устройств, распознающих речевые сигналы у произвольного диктора и с неограниченным словарем. На поверку же все это оказывалось очередным блефом.

Как же все-таки обстоит дело?

Сегодня исследователи активно разрабатывают два подхода. Первый, более «старый», характерен тем, что вначале изучают свойства словаря, произносимого довольно большим количеством дикторов, выявляют некие обобщенные признаки употребляемых слов и на их основе строят правила распознавания команд, позволяющие с большой степенью вероятности отличить каждое произносимое слово. Таким способом можно распознавать от 10 до 100 слав с точностью до 95%.

Второй метод основан на том, что система настраивается на конкретный голос. Здесь, конечно, общеупотребительность процесса снижена, но зато словарь становится значительно полнее. Уже есть системы, оперирующие 2000 слов, а совсем недавно в печати промелькнуло сообщение, что одному американскому конструктору удалось «настроить» компьютер на распознавание 12 тыс. слов! Достоинство подобных систем заключается в том, что можно «закладывать» в память ЭВМ любой, 'самый (произвольный словарь; а недостаток — необходимость «подстройки» под диктора и его утомляемость при наговаривании текста.

Чаще всего — в зависимости от характера практической задачи — выбирают тот или иной способ «общения» с умной машиной. Вот, например, понадобилось педагогам облегчить процесс усвоения интонационных особенностей иностранной речи, и создали в Московском педагогическом институте имени Мориса Тореза специальный прибор — интонограф ОК-3. Из речевого сигнала выделяется параметр, характеризующий интонацию, — частота колебаний голосовых связок. Электронное устройство анализирует его, выводит на. экран дисплея в графическом виде. Произнес студент какое-то слово или фразу интонационно правильно — экран подтверждает это. Тем самым человеку легче следить оа своими успехами в освоении чужого языка...

Надо сказать, что и первый и второй способы распознавания опять-таки имеют один существенный недостаток. Слова или фразы из «набора» должны четко разделяться во времени, их нельзя произносить слитно, как мы это делаем обычно. Но, в конце концов, с этим можно смириться, если мы хотим уже сегодня вести диалог с современной техникой.

...«Речь-1». Это устройство создано киевскими и минскими учеными.

Я наговариваю два десятка слов на русском, английском, немецком языке. Все они распознаны правильно. Но вот я изменил произно

30