Метод извлечения разреженных и энергоэффективных признаков на основе Delta-Gated Spike Encoding (DGSE)
Основное содержимое статьи
Аннотация
В данной статье предлагается новый метод извлечения признаков для задачи распознавания личности по голосу – Delta-Gated Spike Encoding (DGSE). Предложенный подход объединяет логарифмические Mel-спектрограммы, временные дельта-признаки, адаптивный порог, энергетический шлюз и этапы кодирования положительных/отрицательных спайков. Цель метода заключается в извлечении информативных временно-частотных изменений в акустическом сигнале и формировании разреженного представления, удобного для последующих спайковых или энергоэффективных моделей. Эксперименты были проведены на наборе данных VoxCeleb1 с использованием трехэтапного параметрического поиска. Были сопоставлены результаты первоначального грубого поиска, последующего расширенного поиска и финального точного поиска. Наилучший результат был получен при параметрах alpha = 1.0, beta = 0.05, energy_thr = -5.25. В этом случае были достигнуты следующие значения: total spike rate = 0.079585, sparsity = 0.920415, gate open rate = 0.718533. Полученные результаты показывают, что метод DGSE сохраняет информативные части сигнала при обеспечении высокой разреженности. Это делает его перспективным решением для устройств с ограниченными ресурсами, а также для гибридных систем распознавания говорящего на основе CNN-SNN.
Информация о статье

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Библиографические ссылки
Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1980. Vol. 28, No. 4. P. 357–366.
Furui S. Speaker-independent isolated word recognition using dynamic features of speech spectrum // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1986. Vol. 34, No. 1. P. 52–59.
Furui S. Recent advances in speaker recognition // Pattern Recognition Letters. 1997. Vol. 18, No. 9. P. 859–872.
Nagrani A., Chung J. S., Zisserman A. VoxCeleb: A large-scale speaker identification dataset // Proc. Interspeech. 2017. P. 2616–2620.
Chung J. S., Nagrani A., Zisserman A. VoxCeleb2: Deep speaker recognition // Proc. Interspeech. 2018. P. 1086–1090.
Snyder D., Garcia-Romero D., Sell G., Povey D., Khudanpur S. X-vectors: Robust DNN embeddings for speaker recognition // Proc. ICASSP. 2018. P. 5329–5333.
Desplanques B., Thienpondt J., Demuynck K. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification // Proc. Interspeech. 2020. P. 3830–3834.
Nagrani A., Chung J. S., Xie W., Zisserman A. VoxCeleb: Large-scale speaker verification in the wild // Computer Speech & Language. 2020. Vol. 60. Article 101027.
Rathi N. et al. Exploring neuromorphic computing based on spiking neural networks: Algorithms to hardware // ACM Computing Surveys. 2023. Vol. 55, No. 12. P. 1–49.
O’Shaughnessy D. Review of methods for automatic speaker verification // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2024. Vol. 32. P. 172–198.