Техника - молодёжи 1995-03, страница 14

Техника - молодёжи 1995-03, страница 14

ПРОБЛЕМЫ

И

ПОИСКИ

ОТПЕЧАТКИ ГОЛОСА ОСТАЮТСЯ... НА ОКОНЧАНИЯХ ПРОИЗНОСИМЫХ

— Пожалуйста, представьтесь, — попросил меня доктор технических наук В.Д. Сердюков, директор по науке Научно-исследовательского центра распознавания образов.

Я протянул ему редакционное удостоверение.

— Да не мне, а вот ей, — он кивнул на машину.— Возьмите микрофон и скажите: "Мое имя — Владимир Сердюков". И постарайтесь под мой голос...

Просьбу я выполнил. Признавать меня Сердюковым компьютер отказался.

— Ага! — обрадовался Сердюков. — Видите, машина распознала подлог, хотя вы усердно копировали мою интонацию...

Радость Владимира Дмитриевича можно понять, если учесть, что во всем мире ученые и инженеры вот уже несколько десятилетий бьются над проблемой "как научить машину отличать один человеческий голос от другого". Это необходимо хотя бы для того, чтобы создать надежные электронные замки, реагирующие лишь на слова хозяина. Причем реакция должна быть исключительно точной, чтобы не повторилась, скажем, драма, описанная в сказке о волке и семерых козлятах.

Впрочем, что сказки! Тут жизненные трагедии случаются чуть ли не ежедневно. О том, например, хорошо знают сотрудники ВНИИ судебной экспертизы. Здесь, в лаборатории фоноскопии, изо дня в день устанавливают идентичность тех или иных голосов, записанных на магнитную ленту.

Причем фоноскопическая экспертиза — удовольствие достаточно дорогое. Ведь редко когда на исследования приходят чистые, незашумленные записи. Делают их чаще всего отнюдь не в студии — на оборудовании, весьма далеком от идеала. Специалистам приходится сначала эти записи "чистить", освобождать от посторонних шумов, а уж потом приступать непосредственно к экспертизе, отождествляя голоса, давать заключение — была ли запись смонтирована, а значит, является ложной, или разговор происходил на самом деле?

Нельзя сказать, что действуют специ-

1. Контурные спектрограммы английского слова "you", произнесенного пятью дикторами. Внимательный взгляд может определить, что первая и шестая спектограммы принадлежат голосу одного человека.

2. Структурная схема аналоговой обработки ре чевого сигнала а системе, разработанной фирмой Texas Instruments.

Речевой сигнал через микрофон (1) и каскады усилителя (2,3) попадает в нормализатор уровня сигнала. В данном случае его роль выполняет схема автоматического регулирования усилителя (АРУ) (4). Затем - на 16-канальную гребенку полосовых фильтров (ПФ) (5, 7, 6), равномерно распределенных по диапазону 300 — 3000 Гц. После детектирования выходные сигналы подаются на полосовой фильтр(5) и фильтры низких частот (ФНЧ) (6), где сглаживаются. Полученные таким образом огибающие детек-тируются, квантуются (7) во времени через каждые Юме и представляются по амплитуде 7 битами Дополнительный 17-й канал используется для получени общей интенсивности сигнала, чтобы обеспечить выделе-

НАМИ СЛОВ!

Станислав ЗИГУНЕНКО

алисты сугубо по интуиции — какое-никакое оборудование, те же компьютеры, у них есть. И все-таки сегодня большей частью им приходится полагаться на собственные органы чувств.

Да-да, нередко фонограммы сравнивают именно "на глазок". А предложили делать это еще в 1964 г. американские исследователи С.Пружанский и М.Меть-юз. Они обратили внимание на такой факт. Если электрический аналоговый сигнал, полученный от микрофона, вывести на экран осциллографа, то на "картинке" можно выявить некоторые характерные признаки, свойственные данному голосу. На основе проведенных исследований ими же была сконструирована одна из первых в мире систем автоматической идентификации (или верификации — от латинского verus — истинный и facio — делаю). Она была широко разрекламирована и послужила отправной точкой целой серии работ того же направления.

Для того чтобы надежно идентифицировать говорящего, исследователи старались выделить какие-то характерные особенности говора, тембра и т.д., при-

2 16-канальная гребенка ГИ&

-Q

-

-

:

6 -

7

6

_J

lllllL.....J|[

.iaLiik II

iii!Ui.M

ilk......in

MjU, . „—Hi., I

Ik,Jill!,

iiiiili, i,J!

IlilliiiillLlii li

1

lldlkJii

hit., ...jii

IlLiJlL II.

Ilk. .Ahulli

сущие ему. Причем одни, не надеясь лишь на общий "рисунок", искали более конкретные составляющие, другие же старались понять закономерности верификации слитной разговорной речи в целом. Так со временем в мире сложилось два основных направления, две школы идентификации голосов.

Представители первой из них (например, украинский исследователь В.Т. Винцюк) идут "от человека", то есть пытаются уяснить, как люди понимают друг друга, опознают, кто именно говорит, даже сквозь треск телефонных и радиопомех. Разобравшись в этом, можно, наверное, создать по аналогии компьютерную систему, решить проблему распознавания речи раз и навсегда. Однако какими-либо достижениями представители такого направления похвастать пока не могут — уж слишком сложна оказалась задача.

Пожалуй, больших успехов сегодня добились представители второго направления, к которым принадлежит и В.Д. Сердюков. Они создают локальные системы, по тем или иным параметрам "настраиваемые" на звучание одного или нескольких голосов, а затем распознающие только их.

Так, еще в 70-е годы сотрудники фирмы Texas Instruments сконструировали систему автоматического распознавания голосов (САРГ), которая предназначалась для контрольно-пропускных пунктов (КПП) на военных базах, закрытых заводах, КБ и т.д. Она как будто неплохо показала себя. По крайней мере среди 120 человек, каждый из которых произносил определенные парольные фразы, выделяла "своих" или "чужих" с погрешностью 1,6% по одной фразе, 0,42% — по двум и 0,23% — по трем и более. В среднем же — с вероятностью 99,99% не пропускала "чужих" через КПП, услышав полторы парольные фразы.

Однако в ходе опытной эксплуатации выявились и недостатки. Электронный "Сезам" довольно часто относил к "чужим" людей с простудными заболеваниями верхних дыхательных путей, а

ние гласных — наиболее мощных звуков речи. На этих участках далек выбираются 6 спектральных срезов для контроля В результате такой обработки каждая фраза представляется 16x6x7=672 би тами информации, что и считается эталонным описанием данного голоса. Сам процесс верификации заключается в непрерывном сравнении по ступающих в ЭВМ спектральных срезов контролируемого речевого материала с набором эталонных спектральных срезов-векторов. Решающее правило основано на измерении минимума квад рата отклонения спектральных срезов опорных точек испытуемой фразы к эталонным векторам.

3. Двенадцать распределений интегральных признаков голоса, принадлежащих 9 дикторам. Здесь на каждой картинке первые 20 признаков слева характеризуют высшие формантные области речевых сигналов, правые 3 представляют соответственно средние значения темпа речи, частоты основного тона голоса и интенсивности сигнала. Легко заметить: то, что в левом столбце, относится к одному человеку; остальное же принадлежит восьми разным дикторам, читающим одинаковый такст.

ТЕХНИКА-МОЛОДЕЖИ

3 ' 9 5