Техника - молодёжи 1994-07, страница 16пускник Карнеги Меллон Кай Фу Ли просве ил ученое общество относительно существования системы, распознающей слова, произнесенные практически кем угодно, а не только диктором, на чей голос она «натаскана» (для пущего эффекта автор, прогуливаясь по залу с микрофоном, предлагал всем желающим лично проверить данное утверждение). Подсчет Уровня NIST показал, что у системы Ли удивительно низкая норма ошибок... и, конечно, уже все Ведущие Игроки в Распознавание Речи (Карнеги Меллон, SRI, IBM, AT&T, Массачусетсский технологический, BBN Systems and Technologies) используют его speaker-independent технологию. Недавно Джон Макхоул и его сотрудники из BBN (основатели — Боулт Беранек и Ньюмен) продемонстрировали, что распознающая система, работающая на обычном оборудовании, может справиться с 20-тысячным словарем независимо от особенностей говорящего и без введения неестественных пауз между словами. А в перспективе, не забудем, переход на нейронные сети. Но все еще требуется нечто вроде акробатического прыжка от распознавания речи к ее быстрому и точному переводу — особенно по мере возрастания объема словаря и снижения требовании к грамматичности спонтанных (свободно порождаемых) высказываний. Одно из главных препятствий — недостаточность скорости и объема памяти современных ЭВМ. Например, при 20-тысячном словаре (задача диктовки из Wall Street Journal) типичные системы, использующие самые быстрые из существующих компьютеров, обрабатывают отдельное предложение в 10 — 30 раз дольше, чем его произносит диктор. Системы автоматического перевода нуждаются в обратной связи посредством диалога: ведь переводчик-человек, чего-то не поняв, обязательно переспросит информатора! Создатель JANUS'a Вэйбел намерен на второй стадии разработки снабдить систему такой возможностью, равно как и способностью «переваривать» аграмматичные конструкции, отсутствие паузации, нечеткое произношение и «паразитную» фонацию (типа кашля и чихания), характерные для спонтанной речи. «Кажется, мы разинули рот на слишком большой каравай»,— меланхолически высказался программист-исследователь проекта JANUS Артур Макнайр. Кроме того, в полный рост встает проблема фактической темы разговора — поскольку людям свойственно в процессе коммуникации совершенно естественным обра
зом переходить от одного предмета к другому, третьему и т.д. Вэибел и его команда, записывая подлинные диалоги у регистрационного стола на реальной конференции, обнаружили, что немалое число визит ров отклоняются от темы в весьма н ожиданных направлениях. Так, некая ученая дама вдруг начала вводить администратора в курс бурных перипетии своего недавнего развода... и только в самом конце продолжительной дискуссии выяснилось, что вышеизложенным она мотивировала настоятельную необходимость освободить ее от обязательного взноса за участие! «Наша система не вынесет разговоров о королях и капусте»,— замечает Вэибел. В подобных случаях автоматич скии транслятор способен распознать какие-то слова, но не в состоянии определить их смысл из контекста К примеру, «эксперт-переводчик по обмену валюты >, прекрасно справляясь с двусторонним переводом реплик в предусмотренной ситуации, встанет в тупик перед словосочетанием «большие банки»... если вы толкуете о домашнем консервировании. Одна из наиболее ффективных систем, работающая в Канаде, производит двусторонний перевод между английским и французским с точностью превышающей 99%... но только потому, что имеет дело исключительно со сводками погоды. Большая часть исследовательских групп по-прежнему ориентируется на устную коммуникацию в пределах небольшого (проблемно-ориентированного) словаря и заданного набора ситуации. В поисках новых путей совершенствования переводящих систем Дэвид Роу и его коллеги из AT&T Bell Laboratories решили вернуться к основам — и пытаются отыскать более тонкие методы распознавания и более эффективный математический аппарат для определения того, является ли некая последовательность слов полноценным (valid) предложением. Не следует забывать, что устная речь несет дополнительную, так называемую экстралингвистическую информацию — настроение собеседника, уровень вежливости, тон замечания, указывающий на подтекст, и тому подобное; кроме того, существуют непрестанно изме няющиеся сленговые выражения. Кажется почти невероятным, что машина» когда-нибудь сможет с этим разобраться... хотя, сказать по правде, теоретических ограничении все же нет. «Необходимо извлекать из входящего сигнала гораздо больше информации, чем обычно делается, резюмирует Вэйбел.— Именно поэтому задача перевода речи — куда более дерзкое предприятие, чем простое распознавание». Принимая во внимание все эти сложности, приходится констатировать, что реальный телефон-переводчик — увы! — дело довольно отдаленного будущего. Хотя, по словам Дэвида Роу, несколько ведущих менеджеров корпорации AT&T активно заинтересовались красивой мечтой вести прямые телефонные переговоры с иноязычными партнерами. А это действительно мечта! — добавляет он, однако же AT&T продолжает поддерживать проект. Что касается чистого распознавания речи, то туг перспективы настолькс многообещающи, что правительство Германии выступило с инициативой 8-летнего проекта Verbmobil (живое слово) нацеленного на создание портативного транслятора, а японская ATR уже приступила ко второму этапу упомянутой выше работы. Людмила ЩЕКОТОВА, лингвист 14 |