Строительные исследования

Строительные исследования



назад    Оглавление    вперед


страница - 0

Распознавание дикторов по методу обеляющего фильтра

Акатьев Д.Ю. (akatjev@lunn.sci-nnov.ru), Бочаров И.В. (ibv@bercut.ru)

Нижегородский государственный лингвистический университет

Введение

В связи с бурным распространением цифровой вычислительной техники вызывает повышенный интерес компьютерная обработка информации, в том числе и речи. К числу центральных задач в этом направлении относится задача автоматического распознавания речевых сигналов от разных дикторов, или задача аудио-аутентификации. Известные методы её решения чаще всего сводятся к методам корреляционного или спектрального анализа. К сожалению, эти методы характеризуются недостаточной эффективностью, что объясняется общеизвестной избыточностью данных в речевых сигналах, а также повышенной сложностью в реализации алгоритмов. Одним из радикальных средств к использованию избыточности может служить идея сжатия данных за счёт экономного кодирования. При этом наибольшее распространение получили линейные коды типа кодов линейного предсказания речи (ЛИР) на основе авторегрессионной (АР) модели наблюдений.

Наиболее перспективным направлением в данных исследованиях является метод распознавания речевых сигналов, основанный на теоретико-информационном подходе и универсальной метрике Кульбака-Лейблера [1]. В применении к АР-модели наблюдения, указанный выше критерий формулируется в терминах обеляющего фильтра. Решение принимается по признаку минимума средней мощности отклика на анализируемый сигнал в системе из R параллельных обеляющих фильтров.

Актуальность темы связана с возможностью создания звукового канала аутентификации в автоматических системах. В отличии от уже существующих систем, так или иначе использующих технические средства идентификации, например такие как пластиковые карты, системы использующие речевой канал освобождают клиента от необходимости носить с собой технический идентификатор: идентификация производится по голосу. Существующие методы видео-аутентификации, по изображению частей тела: лицо, отпечаток пальца и т. п. требуют применения специальной дорогостоящей аппаратуры и на современном этапе развития техники трудно реализуемы. Звуковая аутентификация в этой области имеет значительные преимущества.

Системы аудио-аутентификации используются в:

•системах доступа к банковскому счёту: банкоматы и POS-терминалы;

•системах ограничения доступа в помещения;

•системах автоматического определения языка видеоинтерфейса;

•при распознавании звонящего абонента.

Применяемый здесь метод отличается большим коэффициентом сжатия речевой информации и этим определяется его эффективность в задачах обработки речи.


Действительно, в отличие от традиционных, предложенный метод позволяет преобразовать информацию, содержащуюся в нескольких тысячах отсчётах, в несколько единиц или десятков коэффициентов, причём эти коэффициенты будут содержать полную информацию, необходимую для дальнейшего сравнения сигналов в многомерном пространстве. Кроме того, статистический характер предложенной

модели речевого сигнала подразумевает высокую степень адаптации под конкретного диктора и адаптацию к изменяющимся параметрам тракта записи сигналов.

В результате данного исследования разработан и реализован на ЭВМ алгоритм

распознавания диктора на основе новых методов спектрального анализа

отталкивающихся от авторегрессионной модели наблюдений и теоретико-информационного подхода. Теоретической основой работы послужила статья [1], в которой разработан критерий многоальтернативного различения гауссовских сигналов методом обеляющего фильтра по выборке конечного объёма. Модификация алгоритма, реализующая указанный метод, получена на базе фильтра линейного предсказания решетчатой структуры и гармоническом методе Берга [2,3], который был использован для получения АР-коэффициентов.

В работе [1] поставлена и решена задача оптимального различения случайных гауссовских сигналов на основе предварительно оценивания их спектральных плотностей мощности.

Пусть X(t) - центрированный гауссовский процесс, заданный последовательностью своих эквидистантных отсчетов, взятых с периодом дискретизации т= trtj ]=const в серии из М>1 независимых наблюдений

x m = col{xm (i)}, m = 1,M . Здесь col{»} обозначает вектор-столбец размера nxl,

п=1,2,... В ограниченной полосе частот {-F,F}, где F=1/(2t) определён конечный набор различных оценок спектральной плотности мощности Gr(f), r=1,R этого случайного

процесса. Необходимо по имеющимся выборочным данным {x m} = X оптимально

различить R гауссовских сигналов, тоесть найти Gv(f), v<R. Таким образом, задача

проверки R альтернативных гипотезв терминах классической теории проверки статистических гипотез выглядит так:

Hr: P=Pr, i=1,R(1)

Здесь Pr = N {fir, Kr} - означает нормальный закон распределения вектора r-го

сигнала, заданный п-ым вектором средних значений jur и матрицей Kr=Fn{Gr(f)} автоковариаций, которая полагается неособенной.

Следуя критерию максимального правдоподобия, решение Hv(X) в пользу одной из гипотез H1,...,HR, 1<v<R будем принимать из условия:

Hv(X) : pv(X)=max р(Х)(2)

где pr(X)- функция правдоподобия для r-ой гипотезы.

В предположении о независимости наблюдений {x m } совокупности имеем систему равенств (набор функций правдоподобия):

Метод обеляющего фильтра

m=1

Здесь Kr - определитель ковариационной матрицы;

x m - n-вектор-столбец выборочных данных, соответствующий т-му

наблюдению; К/1 - обратная матрица.


Оптимальное по критерию максимального правдоподобия решение задачи различения R гауссовских сигналов в формулировке (1)-(3) отвечает принципу наименьшего отклонения закона PX от искомого распределения Р v в метрике Кульбака-Лейблера I[Px\Pv], r-1,R. Асимптотически оптимальный алгоритм принятия решений по выборкам конечного объема n<oo. будет соответствовать случаю:

G (f)

1 f

Gr(f)

+ ln Gr (f)

здесь

Gx(f) = 77 Z

MFn

i=1

(5)

выборочная оценка СПМ с усреднением по М независимым векторным наблюдениям.

Таким образом, для различения набора из R различных спектральных оценок предполагается следующая совокупность операций над имеющимися наблюдениями:

1.формирование выборочной оценки спектральной плотности мощности;

2.вычисление набора решающих статистик интегрального вида (4);

3.определение решающей статистики наименьшего значения принятие соответствующего решения (4) в пользу наиболее правдоподобной из конкурирующих оценок Gv(f).

Предложенный алгоритм для сигналов vr , формируемых из белого гауссовского шума {nr(i)} путем его линейной фильтрации в заданной полосе частот [-F,F] на множестве физически-реализуемых линейных фильтров преобразуется в следующий

вид:

Hv(X): Л jGKf)df + ln al -> min(6)

Gr -F K r

реализуемый по схеме R-канальной параллельной фильтрации наблюдений с последующим выбором v-го канала по критерию минимума дисперсии его отклика

F G (f) F1 m

а2Ы = jt1 df = j Gy (f)df = M Z /Л m);(7)

отнесенной к соответствующей дисперсии порождающего процесса ar2 и смещенной на пропорциональную ей величину lnar2.

Для решения задач с нормированным набором спектральных оценок различаемых сигналов по дисперсиям порождающих шумов к некоторому постоянному уровню ar2 =a0 =const , r=l,R алгоритм записывается в более компактном виде:

Hv (X): a2 j Gx (f )K-2 df\=vv - min(8)

Описанный алгоритм получил название метода обеляющего фильтра. Его принцип реализуется по схеме, изображенной на рисунке 1.

2




содержание:
[стр.Введение] [стр.1] [стр.2]