Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Применение FN-корректора с целью повышения качества классификации аудиособытий

https://doi.org/10.17586/2226-1494-2022-22-4-708-715

Аннотация

Предмет исследования. Рассмотрена проблема классификации акустических событий, активно применяемых в решениях задач безопасного города, умного дома, IoT устройств, а также для детектирования опасных ситуаций на производстве. Предложено решение повышения точности классификаторов без изменения их структуры и сбора дополнительных данных. Основным источником данных для экспериментов выбран открытый набор данных TUT Urban Acoustic Scenes 2018, Development Dataset. Метод. Предложен способ увеличения точности классификации аудиособытий с помощью использования FN-корректора. FN-корректор представляет собой линейный классификатор и работает в два этапа: преобразование пространства признаков в линейно-разделимое пространство и линейное отделение одного класса от другого. В случае применения корректора классы — типы ответов исходного классификатора: положительный (P), отрицательный (N), ложноположительный (FP) и ложноотрицательный (FN). В результате возможно обучить два типа корректоров FP и FN, которые работают как бинарные линейные классификаторы и разделяют ответы на положительные/ ложноположительные и отрицательные/ложноотрицательные соответственно. Выполнены эксперименты, где в качестве исходного классификатора использована сверточная нейронная сеть VGGish. Аудиосигнал преобразован в спектрограмму и передан на вход нейронной сети, которая формирует признаковое описание спектрограммы и производит классификацию. Основные результаты. В качестве примера демонстрации повышения точности классификации выбраны два «спутанных» класса. С помощью признакового описания аудиозаписей этих классов построен, обучен FN-корректор и подключен к исходному классификатору. Ответ от классификатора, а также признаковое описание передано на вход корректора. Далее корректор переводит пространство признаков в новый базис (в линейно разделимое пространство) и классифицирует ответ классификатора, таким образом «отвечает» на вопрос, ошибается ли исходный классификатор на таком векторе признаков или нет. Если исходный классификатор ошибся, то его ответ изменяется корректором на противоположный. Если нет — ответ остается тем же самым. Результаты экспериментов продемонстрировали снижение уровня спутывания классов и, соответственно, увеличение точности исходного классификатора без изменения его структуры и без сбора дополнительного набора данных. Практическая значимость. Полученные результаты могут быть использованы на устройствах IoT, имеющих существенные ограничения по размеру используемых моделей, а также при решении проблем доменной адаптации, актуальной в задачах аудиоаналитики.

Об авторах

А. М. Голубков
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина); ООО «ТЕХКОМПАНИЯ ХУАВЭЙ»
Россия

Голубков Александр Михайлович — кандидат технических наук, ассистент; лидер команды аудио
аналитики

sc 57190975154

Санкт-Петербург, 197022

Москва, 123007



Е. В. Шуранов
Университет ИТМО; ООО «ТЕХКОМПАНИЯ ХУАВЭЙ»
Россия

Шуранов Евгений Витальевич — кандидат технических наук, доцент; руководитель лаборатории

sc 57190970283

Санкт-Петербург, 197101

Москва, 123007



Список литературы

1. Grollmisch S., Cano E., Kehling C., Taenzer M. Analyzing the potential of pre-trained embeddings for audio classification tasks // Proc. of the 28th European Signal Processing Conference (EUSIPCO). 2021. P.790–794. https://doi.org/10.23919/Eusipco47968.2020.9287743

2. Matveev Y.N., Shuranov E.V., Avdeeva A.S., Shchemelinin V.L., Krylova E.V. Acoustic data based automatic object detection system // Proc. of the 2nd International Conference on Control in Technical Systems (CTS). 2017. P. 301–303. https://doi.org/10.1109/CTSYS.2017.8109551

3. Голубков А.М. Бинарная классификация изображений на примере задачи расп ознавания лиц // Известия СПбГЭТУ «ЛЭТИ». 2018. № 7. С. 26–30.

4. Голубков А.М., Клионский Д.М. Применение метода каскадной редукции к решению задачи распознавания лиц // Известия СПбГЭТУ «ЛЭТИ». 2019. № 8. С. 47–53.

5. Ono N., Miyamoto K., Le Roux J., Kameoka H., Sagayama S. Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram // Proc. of the 16th European Signal Processing Conference (EUSIPCO). 2008. P. 1–4.

6. Sutskever I., Martens J., Dahl G., Hinton G. On the importance of initialization and momentum in deep learning // Proc. of the 30th International Conference on Machine Learning (ICML). 2013. P. 2176–2184.

7. Gorban A., Golubkov A.M., Grechuk B., Mirkes E., Tyukin I.Y. Correction of AI systems by linear discriminants: probabilistic foundations // Information Sciences. 2018. V. 466. P. 303–322. https://doi.org/10.1016/j.ins.2018.07.040


Рецензия

Для цитирования:


Голубков А.М., Шуранов Е.В. Применение FN-корректора с целью повышения качества классификации аудиособытий. Научно-технический вестник информационных технологий, механики и оптики. 2022;22(4):708-715. https://doi.org/10.17586/2226-1494-2022-22-4-708-715

For citation:


Golubkov A.M., Shuranov E.V. Applying the FN-Corrector to improve the quality of audio event classification. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2022;22(4):708-715. (In Russ.) https://doi.org/10.17586/2226-1494-2022-22-4-708-715

Просмотров: 8


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)