Совместное распознавание акустических сцен и аудиособытий с помощью многозадачного обучения компактных моделей

М. К. Сурков

doi:10.17586/2226-1494-2024-24-5-758-769

Совместное распознавание акустических сцен и аудиособытий с помощью многозадачного обучения компактных моделей

М. К. Сурков

https://doi.org/10.17586/2226-1494-2024-24-5-758-769

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Введение. Задача распознавания метаинформации заключается в выявлении и извлечении данных различной природы (речь, шумы, акустическая сцена, акустические события, аномальные звуки) из входного аудиосигнала. Существуют подходы, способные обеспечить высокую точность распознавания метаинформации различной природы в аудиозаписях. Данные модели часто опираются на глубокие нейронные сети с числом обучаемых параметров более сотни миллионов. Как следствие, такие модели невозможно использовать в реальных коммерческих системах, так как они ограничены в вычислительных ресурсах. Это влияет на работу умных устройств, таких как мобильные телефоны, умные часы, колонки, системы «умный дом». Обычно к умным устройствам предъявляются серьезные требования по энергоэффективности, что влияет на применение тех или иных компонентов в составе таких продуктов. Тактовые частоты процессоров, объемы оперативной и дисковой памяти в таких устройствах сильно ограничены и не способны работать с нейросетевыми моделями с большим числом обучаемых параметров. Подобные ограничения требуют поиска возможных решений, которые бы позволили применять технологии распознавания метаинформации в коммерческих устройствах. Возможным решением могут стать так называемые компактные нейросетевые модели, которые за счет архитектуры и многозадачных алгоритмов обучения способны распознавать метаинформацию в аудиозаписях и используют ограниченное число обучаемых параметров. Коммерческий интерес к данной задаче согласуется и с заинтересованностью научного сообщества. Так, в рамках международного конкурса под названием «Detection and Classification of Acoustic Scenes and Events» организаторами были сформулированы специальные подзадачи — распознавание акустической сцены при использовании низкоресурсных систем («Low- Complexity Acoustic Scene Classification») и детекции аудиособытий («Sound Event Detection with Weak Labels and Synthetic Soundscapes»). Важными исследовательскими вопросами являются как создание оптимальной архитектуры компактной нейронной сети, так и алгоритмов их обучения для получения низкоресурсной высокоточной системы распознавания акустических сцен и аудиособытий.
Метод. Исследование выполнено на основе корпуса данных задач Challenge «Low-Complexity Acoustic Scene Classification» и «Sound Event Detection with Weak Labels and Synthetic Soundscapes». Предложена архитектура многозадачной нейронной сети, состоящая из общего кодировщика и двух независимых декодировщиков для каждой из двух задач. Рассмотрены классические алгоритмы многозадачного обучения SoftMTL и HardMTL, а также разработаны их модификации CrossMTL, которые опираются на идею переиспользования данных от одной задачи при обучении декодировщика решать вторую задачу, и FreezeMTL, в процессе которого обученные веса общего кодировшика замораживаются после обучения на первой задаче и используются для оптимизации второго декодировщика.
Основные результаты. Показано, что применение модификации CrossMTL дает возможность существенно увеличить точность классификации акустических сцен и детекции аудиособытий по сравнению с классическими подходами SoftMTL и HardMTL. Алгоритм FreezeMTL позволяет получить модель, демонстрирующую точность классификации сцен в 42,44 % и детекции событий в 45,86 %, что сравнимо с показателями базовых решений задач 2023 года.
Обсуждение. Предложена компактная нейронная сеть, состоящая из 633,5 тыс. обучаемых параметров, требующая 43,2 млн арифметических операций для обработки аудио длиной в одну секунду. Модель использует на 7,8 % меньше обучаемых параметров и на 40 % меньше арифметических операций по сравнению с наивным применением двух независимых моделей. Разработанную модель можно применить в умных устройствах за счет уменьшения числа обучаемых параметров и арифметических операций, необходимых для ее применения.

Ключевые слова

распознавание акустической сцены, детекция аудиособытий, компактные модели, многозадачные нейронные сети, многозадачное обучение, распознавание метаинформации, умные устройства, нейронные сети

Об авторе

М. К. Сурков

Университет ИТМО
Россия

Сурков Максим Константинович - аспирант

Санкт-Петербург, 197101

Список литературы

1. Kriman S., Beliaev S., Ginsburg B., Huang J., Kuchaiev O., Lavrukhin V., Leary R., Li J., Zhang Y. Quartznet: Deep automatic speech recognition with 1D time-channel separable convolutions // Proc. of the ICASSP 2020 — 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020. P. 6124–6128. https://doi.org/10.1109/icassp40776.2020.9053889

2. Lakhotia K., Kharitonov E., Hsu W.-N., Adi Y., Polyak A., Bolte B., Nguyen T.-A., Copet J., Baevski A., Mohamed A., Dupoux E. On generative spoken language modeling from raw audio // Transactions of the Association for Computational Linguistics. 2021. V. 9. P. 1336–1354.

3. Gulati A., Qin J., Chiu C.-C., Parmar N., Zhang Y., Yu J., Han W., Wang S., Zhang Z., Wu Y., Pang R. Conformer: Convolutionaugmented transformer for speech recognition // Proc. of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2020. P. 5036–5040. https://doi.org/10.21437/interspeech.2020-3015

4. Hsu W.N., Tsai B., Bolte Y.-H.H., Salakhutdinov R., Mohamed A. HuBERT: How much can a bad teacher benefit ASR pre-training? // Proc. of the ICASSP 2021 — 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2021. P. 6533–6537. https://doi.org/10.1109/icassp39728.2021.9414460

5. Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust speech recognition via large-scale weak supervision // Proceedings of Machine Learning Research, PMLR. 2023. V. 202. P. 28492–28518.

6. Gong Y., Khurana S., Karlinsky L., Glass J. Whisper-at: Noise-robust automatic speech recognizers are also strong general audio event taggers // Proc. of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2023. P. 2798–2802. https://doi.org/10.21437/interspeech.2023-2193

7. Panayotov V., Chen G., Povey D., Khudanpur S. Librispeech: an asr corpus based on public domain audio books // Proc. of the IEEE International Conference On Acoustics, Speech and Signal Processing (ICASSP). 2015. P. 5206–5210. https://doi.org/10.1109/icassp.2015.7178964

8. Moritz N., Wichern G., Hori T., Le Roux J. All-in-One transformer: Unifying speech recognition, audio tagging, and event detection // Proc. of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2020. P. 3112–3116. https://doi.org/10.21437/interspeech.2020-2757

9. Karita S., Soplin N.E.Y., Watanabe S., Delcroix M., Ogawa A., Nakatani T. Improving transformer-based end-to-end speech recognition with connectionist temporal classification and language model integration // Proc. of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2019. P. 1408–1412. https://doi.org/10.21437/interspeech.2019-1938

10. Chen S., Wu Y., Wang C., Liu S., Tompkins D., Chen Z., Che W., Yu X., Wei F. Beats: Audio pre-training with acoustic tokenizers // Proceedings of Machine Learning Research. 2023. V. 202, P. 4672–4712.

11. Gemmeke J.F., Ellis D.P.W., Freedman D., Jansen A., Lawrence W., Moore R.C., Plakal M., Ritter M. Audio set: An ontology and humanlabeled dataset for audio events // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2017. P. 776–780. https://doi.org/10.1109/icassp.2017.7952261

12. Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S., Uszkoreit J., Houlsby N. An image is worth 16x16 words: Transformers for image recognition at scale // Proc. of the ICLR 2021 — 9th International Conference on Learning Representations. 2021.

13. Drossos K., Lipping S., Virtanen T. Clotho: An audio captioning dataset // Proc. of the ICASSP 2020 — 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020. P. 736–740. https://doi.org/10.1109/icassp40776.2020.9052990

14. Poria S., Hazarika D., Majumder N., Naik G., Cambria E., Mihalcea R. MELD: A multimodal multi-party dataset for emotion recognition in conversations // Proc. of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. P. 527–536. https://doi.org/10.18653/v1/p19-1050

15. Lipping S., Sudarsanam P., Drossos K., Virtanen T. Clotho-AQA: A crowdsourced dataset for audio question answering // Proc. of the 30th European Signal Processing Conference (EUSIPCO). 2022. P. 1140–1144. https://doi.org/10.23919/eusipco55093.2022.9909680

16. Engel J., Resnick C., Roberts A., Dieleman S., Norouzi M., Eck D., Simonyan K. Neural audio synthesis of musical notes with wavenet autoencoders // Proceedings Conference on Machine Learning, PMLR. 2017. V. 70. P. 1068–1077.

17. Chu Y., Xu J., Zhou X., Yang Q., Zhang S., Yan Z., Zhou C., Zhou J. Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models // arXiv. 2023. arXiv:2311.07919. https://doi.org/10.48550/arXiv.2311.07919

18. Bai J., Bai S., Chu Y., Cui Z. Qwen technical report // arXiv. 2023. arXiv:2309.16609. https://doi.org/10.48550/arXiv.2309.16609

19. Schmid F., Morocutti T., Masoudian S., Koutini K., Widmer G. CPJKU submission to dcase23: Efficient acoustic scene classification with cp-mobile: Technical Report / Detection and Classification of Acoustic Scenes and Events (DCASE). 2023. 5 p.

20. Salamon J., MacConnell D., Cartwright M., Li P., Bello J.P. Scaper: A library for soundscape synthesis and augmentation // Proc. of the IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). 2017. P. 344–348. https://doi.org/10.1109/waspaa.2017.8170052

21. Tarvainen A., Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results // Advances in Neural Information Processing Systems. 2017. V. 30. P. 1196–1205.

22. Zhang Z., Luo P., Loy C.C., Tang X. Facial landmark detection by deep multi-task learning // Lecture Notes in Computer Science. 2014. V. 8694. P. 94–108. https://doi.org/10.1007/978-3-319-10599-4_7

23. Dai J., He K., Sun J. Instance-aware semantic segmentation via multitask network cascades // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 3150–3158. https:// doi.org/10.1109/cvpr.2016.343

24. Zhao X., Li H., Shen X., Liang X., Wu Y. A modulation module for multi-task learning with applications in image retrieval // Lecture Notes in Computer Science. 2018. V. 11205. P. 415–432. https://doi.org/10.1007/978-3-030-01246-5_25

25. Liu S., Johns E., Davison A.J. End-to-end multi-task learning with attention // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 1871–1880. https://doi.org/10.1109/cvpr.2019.00197

26. Ma J., Zhao Z., Yi X., Chen J., Hong L., Chi E.H. Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts // Proc. of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018. P. 1930–1939. https://doi.org/10.1145/3219819.3220007

27. Misra I., Shrivastava A., Gupta A., Hebert M. Cross-stitch networks for multi-task learning // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. P. 3994–4003. https://doi.org/10.1109/cvpr.2016.433

28. Ruder S., Bingel J., Augenstein I., Søgaard A. Latent multi-task architecture learning // Proceedings of the AAAI Conference on Artificial Intelligence. 2019. V. 33. N 01. P. 4822–4829. https://doi.org/10.1609/aaai.v33i01.33014822

29. Krause D.A., Mesaros A. Binaural signal representations for joint sound event detection and acoustic scene classification // Proc. of the 30th European Signal Processing Conference (EUSIPCO). 2022. P. 399–403. https://doi.org/10.23919/eusipco55093.2022.9909581

30. Khandelwal T., Das R.K. A multi-task learning framework for sound event detection using high-level acoustic characteristics of sounds // Proc. of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2023. P. 1214–1218. https://doi.org/10.21437/interspeech.2023-909

31. French R.M. Catastrophic forgetting in connectionist networks // Trends in Cognitive Sciences. 1999. V. 3. N 4. P. 128–135. https://doi.org/10.1016/s1364-6613(99)01294-2

32. McCloskey M., Cohen N.J. Catastrophic interference in connectionist networks: The sequential learning problem // Psychology of Learning and Motivation. 1989. V. 24. P. 109–165. https://doi.org/10.1016/s0079-7421(08)60536-8

33. Kirkpatrick J., Pascanu R., Rabinowitz N., Veness J., Desjardins G., Rusu A.A., Milan K., Quan J., Ramalho T., Grabska-Barwinska A., Hassabis D., Clopath C., Kumaran D., Hadsell R. Overcoming catastrophic forgetting in neural networks // Proceedings of the national academy of sciences. 2017. V. 114. N 13. P. 3521–3526. https://doi.org/10.1073/pnas.1611835114

34. Kim J.W., Lee G.W., Kim H.K., Seo Y.S., Song I.H. Semi-supervised learning-based sound event detection using frequency-channel-wise selective kernel for DCASE challenge 2022 Task 4: Technical Report / Detection and Classification of Acoustic Scenes and Events (DCASE), 2022. 4 p.

Рецензия

Для цитирования:

Сурков М.К. Совместное распознавание акустических сцен и аудиособытий с помощью многозадачного обучения компактных моделей. Научно-технический вестник информационных технологий, механики и оптики. 2024;24(5):758-769. https://doi.org/10.17586/2226-1494-2024-24-5-758-769

For citation:

Surkov M.K. Low-complexity multi task learning for joint acoustic scenes classification and sound events detection. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2024;24(5):758-769. (In Russ.) https://doi.org/10.17586/2226-1494-2024-24-5-758-769

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Научно-технический вестник информационных технологий, механики и оптики

Совместное распознавание акустических сцен и аудиособытий с помощью многозадачного обучения компактных моделей

Полный текст:

Аннотация

Ключевые слова

Об авторе

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов