Метод извлечения разреженных и энергоэффективных признаков на основе Delta-Gated Spike Encoding (DGSE)

Основное содержимое статьи

П.Б. Нуримов
О.Ж. Бабомурадов

Аннотация

В данной статье предлагается новый метод извлечения признаков для задачи распознавания личности по голосу – Delta-Gated Spike Encoding (DGSE). Предложенный подход объединяет логарифмические Mel-спектрограммы, временные дельта-признаки, адаптивный порог, энергетический шлюз и этапы кодирования положительных/отрицательных спайков. Цель метода заключается в извлечении информативных временно-частотных изменений в акустическом сигнале и формировании разреженного представления, удобного для последующих спайковых или энергоэффективных моделей. Эксперименты были проведены на наборе данных VoxCeleb1 с использованием трехэтапного параметрического поиска. Были сопоставлены результаты первоначального грубого поиска, последующего расширенного поиска и финального точного поиска. Наилучший результат был получен при параметрах alpha = 1.0, beta = 0.05, energy_thr = -5.25. В этом случае были достигнуты следующие значения: total spike rate = 0.079585, sparsity = 0.920415, gate open rate = 0.718533. Полученные результаты показывают, что метод DGSE сохраняет информативные части сигнала при обеспечении высокой разреженности. Это делает его перспективным решением для устройств с ограниченными ресурсами, а также для гибридных систем распознавания говорящего на основе CNN-SNN.

Информация о статье

Как цитировать
Нуримов, П., & Бабомурадов, О. (2026). Метод извлечения разреженных и энергоэффективных признаков на основе Delta-Gated Spike Encoding (DGSE). Международный Журнал Теоретических и Прикладных Вопросов Цифровых Технологий, 9(2), 86–91. https://doi.org/10.62132/ijdt.v9i2.379
Раздел
Articles

Библиографические ссылки

Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1980. Vol. 28, No. 4. P. 357–366.

Furui S. Speaker-independent isolated word recognition using dynamic features of speech spectrum // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1986. Vol. 34, No. 1. P. 52–59.

Furui S. Recent advances in speaker recognition // Pattern Recognition Letters. 1997. Vol. 18, No. 9. P. 859–872.

Nagrani A., Chung J. S., Zisserman A. VoxCeleb: A large-scale speaker identification dataset // Proc. Interspeech. 2017. P. 2616–2620.

Chung J. S., Nagrani A., Zisserman A. VoxCeleb2: Deep speaker recognition // Proc. Interspeech. 2018. P. 1086–1090.

Snyder D., Garcia-Romero D., Sell G., Povey D., Khudanpur S. X-vectors: Robust DNN embeddings for speaker recognition // Proc. ICASSP. 2018. P. 5329–5333.

Desplanques B., Thienpondt J., Demuynck K. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification // Proc. Interspeech. 2020. P. 3830–3834.

Nagrani A., Chung J. S., Xie W., Zisserman A. VoxCeleb: Large-scale speaker verification in the wild // Computer Speech & Language. 2020. Vol. 60. Article 101027.

Rathi N. et al. Exploring neuromorphic computing based on spiking neural networks: Algorithms to hardware // ACM Computing Surveys. 2023. Vol. 55, No. 12. P. 1–49.

O’Shaughnessy D. Review of methods for automatic speaker verification // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2024. Vol. 32. P. 172–198.