Юный техник 1966-11, страница 38

Юный техник 1966-11, страница 38

даже один звук неоднороден. Например, гласный «о» в женском произношении начинается с у-образного элемента, затем переходит собственно в «о», а в конце приближается к «а». Поэтому первое, что следует сделать, — это расчленить речь на отрезки, соответствующие определенным звукам.

Если зрительный образ неподвижен, то речь — это процесс динамический. Во время звучания речевого отрезка меняются сила звука, его частотный состав. И даже продолжительность одного и того же звука в разных словах неодинакова. Понятно поэтому, что для описания звуков речи нужно выбрать координаты. В экспериментальной фонетике ими стали: частота — интенсивность — время. Для распознавания речи этих координат оказалось недостаточно.

Один и тот же звук, произнесенный разными людьми и записанный, например, в виде осциллограммы, имеет различные изображения. Конечно, некоторое сходство все-таки есть, иначе вообще было бы бессмысленно говорить об идентификации. Но и отличий между такими

звуками очень много. Интересно отметить и такую деталь: изображение звука так же постоянно для каждого человека, как и отпечатки его пальцев. Криминалисты на Западе уже пытаются использовать это обстоятельство для опознания преступников. А ученые Грузии намерены на этой основе создать машины, выполняющие команды только определенных лиц.

На этом список сложностей на пути распознавания речи можно окончить, хотя он и не полон. Пессимистически настроенный читатель может подумать, что задача вообще неразрешима. И тем не менее...

Тем не менее уже несколько фирм, выпускающих вычислительные машины, сообщали о том, что ими разработаны устройства для ввода информации в машины в виде речи. Правда, эти «уши» еще не все слышат, как правило, они различают только произнесенные цифры от О до 9. Но и это уже достижение. Как же были устранены указанные препятствия?

Для распознавания слов, обозначающих цифры, — а их всего 10 — стали распознавать не звуки, из которых они состоят, а сами слова. Здесь оказалось возможным использовать, помимо указанных трех координат, еще и такие, как длительность слова, картина распределения интенсивности по времени в процессе звучания слова. Проблема сегментации членения звуков тоже оказалась не такой уж сложной: нужно лишь произносить слова отчетливо и раздельно. Меньше мешают и индивидуальные особенности речи говорящего.

36