Техника - молодёжи 1998-10, страница 43

Техника - молодёжи 1998-10, страница 43

ПРОБЛЕМЫ

ПОИСКИ

Звуки умертвив,

Музыку я разъял, как труп. Поверил Я алгеброй гармонию.

А.С.Пушкин. «Моцарт и Сальери»

Проблеме этой едва ли не столько же лет, сколько самой машине — вернее, технике в современном понимании. Работы по созданию устройств, понимающих человеческую речь, ведутся в разных странах вот уже полвека, но результат по-прежнему маячит на горизонте, упорно не желая достигаться. Почему? Мы, по крайней мере, знаем человека, который не устает повторять: не там ищем! Правда, сам он, хотя ищет «там» (многие годы!), тоже пока нашел далеко не все. Есть объективные и субъективные причины, мешающие инженеру Анатолию Савельевичу ВАЙСМАНУ уже сегодня создать автоматический анализатор речи. Но нет худа без добра: как известно, доброкачественная теория — залог практического успеха. А доброкачественность она приобретает постепенно. И действительно, со времени последней публикации А.С.Вайсмана в «ТМ» (№ 12 за 1984 г.) его концепция заметно продвинулась в развитии...

НЕ ТОЛЬКО ЧЕЛОВЕКА ТРУДНЕЕ НАУЧИТЬ СЛУШАТЬ, ЧЕМ ГОВОРИТЬ

В науке принято начинать публичное выступление с обоснования актуальности проблемы. В нашем случае она настолько очевидна, что я избавлен от нужды тратить время на ее доказательство. Замечу лишь, что дело не только в создании устройств, печатающих текст непосредственно с голоса, под диктовку. Сложность техники, в том числе бытовой, возрастает с неверо-

Поговоршъ с машиной

нажер, помогающий выправить обратимые дефекты речи при некоторых заболеваниях... Я намеренно привожу в пример разработки еще 70-х (!) гг.

Что же до анализаторов... Увы, достигнутое сводится к тому, что машина либо опознает довольно много слов, но рассчитана на определенного диктора («признает только хозяина»), либо «слушается» кого

А

к

ятной быстротой, и попутно усложняется управление ею. Чтобы изучить все функции, выполняемые CD-плейером не самого высокого класса, подчас требуются недели — столько у него всяких кнопок и режимов. Что уж говорить о монструозных пультах управления на АЭС...

Безусловно, техника, «рассчитанная на дурака», о которой все мечтают, есть та, которая нас ПОНИМАЕТ. Компьютер станет по-настоящему умной машиной, лишь когда его удастся оснастить речевым вводом информации. Иными словами, его необходимо научить СЛУШАТЬ.

Но пока он умеет только ГОВОРИТЬ.

Исследования по обучению техники человеческому языку изначально велись в двух направлениях;разработка синтезаторов речи и анализаторов ее. Первые удались весьма скоро и на славу — достаточно упомянуть американские читающие машины для слепых, американское же устройство для обучения орфографии Speak and Spell («Говори и пиши»), по заданной программе произносящее слова и оценивающее правильность их буквенного представления обучаемым на алфавитной клавиатуре, французский медицинский тре

Блок-схема алгоритма цифровой фильтрации звукового сигнала. Обозначения: 1 — начало; 2 — ввод параметров частотной характеристики фильтра; 3 — дисплей; 4 — ввод звукового кадра с магнитного диска; 5 — магнитный диск;

6 — Фурье-преобразование звукового кадра (что такое п и М — см. любой справочник высшей математике); 7 — коррекция спектра звукового кадра; 8 — обратное Фурье-преобразование звукового кадра; 9 — вывод звукового кадра на магнитный диск; 10 — конец. Блок-схема анализатора речи. Обозначения: 1 — блок преобразования сигнала (микрофон, дискриминатор, АЦП); 2 — блок исследования сигнала (точечно-растровый дисплей с возможностью манипуляций сигналом); 3 — фоноскоп с памятью, содержащей эталоны фонем, и блоком определения степени подобия; 4 — диктоскоп с эталонами дикторской речи и опять-таки блоком определения степени подобия; 5 — исполнительное устройство фоноскопа (например, диктограф); 6 — исполнительное устройство диктоскопа (например, речевой «замок»).

угодно, но понимает считанные сотни слов. А если совсем откровенно — не понимает ни одного (что, кстати, роднит такой анализатор с синтезатором речи: тот, по сути, абсолютно не ведает, о чем «болтает»!).

Дело в том, что подобные устройства распознают произнесенное вслух слово путем сравнения его звучания с одним из эталонов, хранящихся в памяти. «Вперед» непохоже на «назад», и если матрицы обоих слов в память заложены, анализатор их не перепутает. Но СМЫСЛ их для него, строго говоря, темен: он просто выбирает подходящий эталон и дальше использует его как обычную команду, как если бы ее дали нажатием кнопки.

Нам же нужны конструкции, распознающие — и понимающие! — человеческую речь, независимо от того, КТО говорит, и располагающие вокабуляром, равным или близким к полному словарному составу того или иного языка. Таков идеал.

И не столь уж он недостижим, как может показаться. Надо понять, по каким принципам и признакам разбирает речь человеческий мозг, и научить машину работе по тем же — вернее, аналогичным — алгоритмам.

ДВА СЛОВА О ТУПИКЕ

С самого начала исследователи оттолкнулись от рабочей гипотезы, будто мозг распознает речевой сигнал по его амплитудно-частотному спектру. Тогда эта идея казалась неопровержимой, но в конце концов выявила свое бесплодие, ничего не дав практике. Хотя нелогичной ее не назовешь: у животных, начиная с насекомых и кончая позвоночными, акустические сигналы идентифицируются именно по амплитудно-частотным параметрам.

Но аналогия между коммуникацией, скажем, сверчков и человеческим общением не выдерживает критики: у сверчков нет ЯЗЫКА как такового. Издаваемые ими трели не более информативны, нежели заводской гудок: тот сообщает, что пора на работу (или с работы), а призывный сигнал самца какого-нибудь Melanogryllus desertus извещает «своих» самок, что вот здесь под камушком сидит мужчина, желающий пораз-множаться и готовый к употреблению, — не сверх того. Настоящий же язык характеризуется — кстати, подобно генетическому коду! — наличием фиксированного набора элементов, комбинированием коих и кодируется разнообразнейшая информация. Выдающийся швейцарский лингвист Фердинанд де Соссюр писал: «Мы прежде всего различаем внутри общего феномена, каким является речевая деятельность, два фактора: язык и речь. Язык для нас — это речевая деятельность минус сама речь. Он есть совокупность лингвистических навыков, позволяющих отдельному человеку понимать других и быть ими понятым».

Отсюда легко сделать вывод: у братьев наших меньших нередко есть речь, но никогда нет языка. Следовательно, анализ амплитудно-частотного спектра голоса — тупиковый путь исследования речи ЧЕЛОВЕКА.

Еще в 60-х гг. к такому выводу пришел академик ААХаркевич. И тем не менее

ТЕХНИКА-МОЛОДЕЖИ 10 9 8

ЕШ ~

Обсуждение
Понравилось?
Войдите чтобы оставить комментарий
Понравилось?