Метод извлечения разреженных и энергоэффективных признаков на основе Delta-Gated Spike Encoding (DGSE)

П.Б. Нуримов; О.Ж. Бабомурадов

doi:10.62132/ijdt.v9i2.379

PDF

Опубликован: May 15, 2026

DOI: https://doi.org/10.62132/ijdt.v9i2.379

Ключевые слова:

распознавание говорящего, извлечение признаков, log-Mel, spike-кодирование, разреженность, нейроморфные вычисления, VoxCeleb1, DGSE

П.Б. Нуримов

Национальный исследовательский университет “Ташкентский институт инженеров ирригации и механизации сельского хозяйства”, Ташкент, Узбекистан

О.Ж. Бабомурадов

Джизакский филиал Казанского федерального университета

Аннотация

В данной статье предлагается новый метод извлечения признаков для задачи распознавания личности по голосу – Delta-Gated Spike Encoding (DGSE). Предложенный подход объединяет логарифмические Mel-спектрограммы, временные дельта-признаки, адаптивный порог, энергетический шлюз и этапы кодирования положительных/отрицательных спайков. Цель метода заключается в извлечении информативных временно-частотных изменений в акустическом сигнале и формировании разреженного представления, удобного для последующих спайковых или энергоэффективных моделей. Эксперименты были проведены на наборе данных VoxCeleb1 с использованием трехэтапного параметрического поиска. Были сопоставлены результаты первоначального грубого поиска, последующего расширенного поиска и финального точного поиска. Наилучший результат был получен при параметрах alpha = 1.0, beta = 0.05, energy_thr = -5.25. В этом случае были достигнуты следующие значения: total spike rate = 0.079585, sparsity = 0.920415, gate open rate = 0.718533. Полученные результаты показывают, что метод DGSE сохраняет информативные части сигнала при обеспечении высокой разреженности. Это делает его перспективным решением для устройств с ограниченными ресурсами, а также для гибридных систем распознавания говорящего на основе CNN-SNN.

Как цитировать

Нуримов, П., & Бабомурадов, О. (2026). Метод извлечения разреженных и энергоэффективных признаков на основе Delta-Gated Spike Encoding (DGSE). Международный Журнал Теоретических и Прикладных Вопросов Цифровых Технологий, 9(2), 86–91. https://doi.org/10.62132/ijdt.v9i2.379

Выпуск

Том 9 № 2 (2026): Международный журнал теоретических и прикладных вопросов цифровых технологий

Раздел

Articles

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Библиографические ссылки

Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1980. Vol. 28, No. 4. P. 357–366.

Furui S. Speaker-independent isolated word recognition using dynamic features of speech spectrum // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1986. Vol. 34, No. 1. P. 52–59.

Furui S. Recent advances in speaker recognition // Pattern Recognition Letters. 1997. Vol. 18, No. 9. P. 859–872.

Nagrani A., Chung J. S., Zisserman A. VoxCeleb: A large-scale speaker identification dataset // Proc. Interspeech. 2017. P. 2616–2620.

Chung J. S., Nagrani A., Zisserman A. VoxCeleb2: Deep speaker recognition // Proc. Interspeech. 2018. P. 1086–1090.

Snyder D., Garcia-Romero D., Sell G., Povey D., Khudanpur S. X-vectors: Robust DNN embeddings for speaker recognition // Proc. ICASSP. 2018. P. 5329–5333.

Desplanques B., Thienpondt J., Demuynck K. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification // Proc. Interspeech. 2020. P. 3830–3834.

Nagrani A., Chung J. S., Xie W., Zisserman A. VoxCeleb: Large-scale speaker verification in the wild // Computer Speech & Language. 2020. Vol. 60. Article 101027.

Rathi N. et al. Exploring neuromorphic computing based on spiking neural networks: Algorithms to hardware // ACM Computing Surveys. 2023. Vol. 55, No. 12. P. 1–49.

O’Shaughnessy D. Review of methods for automatic speaker verification // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2024. Vol. 32. P. 172–198.

Боковая панель статьи

Основное содержимое статьи

Аннотация

Информация о статье

Библиографические ссылки