Разделы сайта

Методы оценки качества воспроизведения речи при цифровой передаче

где NR- число верных ответов; Nw - число неверных ответов; N - общее число использованных слов.

Обычно оценка этого теста колеблется от 75 до 95 %. Для определения смысла полученных результатов с оценками разборчивости обычно связывают категории характеристик. Например, 95 . 100 соответствует «превосходно», 87 .95 - «хорошо», 79 .87 - «посредственно», 70 .79 -«недостаточно», меньше 70 рассматривается как недопустимый результат или «плохо».

Для большинства стандартных кодеров речи, работающих на скоростях выше 4 кбит/с, оценка DRT выше 90%.

К недостаткам перечисленных методов оценки качества речи в первую очередь следует отнести низкую оперативность и сложность получения результатов. Поэтому чаще всего предпочитают использовать объективные (формализованные показатели) качества.

Объективные измерения эффективны с точки зрения цены и повторяемости результатов, однако много внимания должно быть уделено выбору правильного метода измерения для данных типов кодеров. Примеры объективных измерений речи включают:

· отношение сигнал/шум и воспринимаемое взвешенное отношение сигнал/шум;

· индекс артикуляции (AI);

· искажения логарифмического спектра (LSD) и логарифмическое кепстральное расстояние (LCD).

Наиболее общим измерением искажений является среднеквадратическая ошибка (Mean Square Error, MSE), определяемая как:

где х - вектор входных значений, у - вектор оценок, N - общее число отсчетов.

Популярность среднеквадратической ошибки связана с её простотой. В методе среднеквадратической ошибки допускается, что искажения, вносимые каждым элементом вектора х, имеют равный вес. В общем случае можно ввести неравные веса, чтобы отразить вклады отдельных элементов в искажение как более важные, чем другие. Таким образом, взвешенная среднеквадратическая ошибка определяется как:

где W- положительно определённая взвешивающая матрица.

Для количественной оценки качества речевого сигнала обычно используют нормированный показатель погрешности, характеризующий средний квадрат ошибки воспроизведения , усреднённой по времени и приведённой к дисперсии сообщения :

(1)

Величина, обратная нормированному показателю погрешности, является отношением мощности сигнала к мощности шумов:

При объективных методах оценки для анализа качества систем передачи речи необходимо оценивать отношение мощности сигнала к суммарной мощности шума - ОСШE и знать взаимосвязь между ОСШE и S.

Известно, что значения ОСШ имеют устойчивую связь с субъективными оценками качества восприятия речи. При субъективных оценках наиболее часто используются численные характеристики разборчивости фрагментов речи, в частности слогов. Для слоговой разборчивости S* найдены функции взаимосвязи с другими видами разборчивости: слов, фраз, фонем.

Поскольку в выражении (1) используется дисперсия сигнала и шума , вычисленные (или измеренные) за время речевого теста, данный показатель будем именовать долгосрочным ОСШ.

Следует отметить, что исследование цифровых методов передачи речи и особенно различных адаптивных методов кодирования, выявили серьёзные расхождения субъективных оценок при одинаковых значениях ОСШ. Это объясняется различным характером искажений, создаваемых адаптивными и неадаптивными системами передачи. В неадаптивных системах имеет место стационарный шум с уровнем, независящим от уровня сигнала. Качество тракта передачи при этом определяется, главным образом, по восприятию шума в паузах речи. В адаптивных системах шумы незанятого канала могут быть неощущаемыми на слух. Восприятие искажений будет определяться нестационарным сопровождающим шумом, дисперсия которого определяется и уровнем сигнала и его спектральными характеристиками. В связи с этим при объективной оценке различных алгоритмов кодирования и восстановления речи используются специальные устройства, генерирующие шум, коррелированный с речевым сигналом. Такие устройства называются MNRU (Modulated Noise Reference Unit).

Использование MNRU позволяет учесть нестационарность возникновения шумов при изменении текущей мощности речевого сигнала. Отметим, однако, что не учитывается изменение модели спектра сигнала при произношении вокализованных и невокализованных звуков.

Кроме того, при использовании адаптивных кодеров, например АДИКМ, выявились значительные расхождения субъективных и объективных оценок. В результате для оценки качества предложена более корректная оценка, получившая название сегментного ОСШ:

Перейти на страницу: 1 2 3

Интересное из раздела

Оборудование аудио и видео
Сейчас весь мир пользуется множеством различных устройств, в разных сферах индустрии. Прогресс не стоит на месте, каждый год, месяц появляются различны ...

Линейная антенная решетка
Антенны СВЧ широко применяют в различных областях радиоэлектроники - связи, телевидении, радиолокации, радиоуправлении, а также в системах инструмент ...

Цифровой КИХ-фильтр для частотной селекции измерительных сигналов
Цифровой фильтр (ЦФ) - устройство, пропускающее, либо подавляющее заданные в цифровой форме сигналы в определенной полосе частот. В отличие от аналоговых фильтров, у кото ...