Исследование влияния состязательных атак на классификацию и кластеризацию изображений на примере модели ResNet50
https://doi.org/10.17586/2226-1494-2025-25-4-694-702
Аннотация
Введение. Прогресс в области компьютерного зрения привел к созданию мощных моделей, способных точно распознавать и интерпретировать визуальную информацию в различных областях знаний. На этом фоне растет уязвимость таких моделей к состязательным атакам — преднамеренному манипулированию входными данными с целью исказить модель машинного обучения и привести к неверным результатам распознавания. В работе приведены результаты исследования влияния различных типов состязательных атак на модель ResNet50 в задачах классификации и кластеризации изображений.
Метод. Исследованы следующие типы состязательных атак: метод быстрого градиентного знака, базовый итерационный метод, метод проецируемого градиентного спуска, метод Карлини и Вагнера, состязательная атака с использованием Elastic-Net, Expectation Over Transformation Predicted Gradient Descent, атаки на основе джиттера. Для визуализации областей внимания модели применен метод Gradient-Weighted Class Activation Mapping (Grad-CAM). Для визуализации кластеров в пространстве признаков использован алгоритм t-SNE. Устойчивость к атакам оценивалась по показателям успешности атак с использованием алгоритмов k-ближайших соседей иерархического маленького мира с различными метриками сходства.
Основные результаты. Выявлены существенные различия в воздействии атак на внутренние представления модели и области фокусировки внимания. Показано, что итеративные методы атак вызывают значительные изменения в пространстве признаков и заметно влияют на визуализации Grad-CAM, тогда как простые атаки оказывают меньшее воздействие. Установлена высокая чувствительность большинства алгоритмов кластеризации к возмущениям. Наибольшую устойчивость среди исследованных подходов показала метрика внутреннего произведения.
Обсуждение. Полученные результаты указывают на зависимость устойчивости модели от параметров атак и выбора метрик сходства, что проявляется в особенностях формирования кластерных структур. Выявленные закономерности в перераспределении пространства признаков в условиях целенаправленных атак открывают перспективы для дальнейшей оптимизации алгоритмов кластеризации, способных обеспечить более высокую степень защиты систем компьютерного зрения.
Ключевые слова
Об авторах
Р. Р. БолозовскийРоссия
Роман Ростиславович Болозовский, аспирант
197022; Санкт-Петербург
А. Б. Левина
Россия
Алла Борисовна Левина, кандидат физико-математических наук, доцент, доцент кафедры
197022; Санкт-Петербург
sc 56427692900
К. С. Красов
Россия
Константин Сергеевич Красов, младший научный сотрудник
197022; Санкт-Петербург
Список литературы
1. Liu A. Guo J., Wang J., Liang S., Tao R., Zhou W., Liu C., Liu X., Tao D. X-adv: Physical adversarial object attacks against x-ray prohibited item detection // arXiv. 2023. arXiv:2302.09491. doi: 10.48550/arXiv.2302.09491
2. Goodfellow I.J., Shlens J., Szegedy C. Explaining and harnessing adversarial examples // arXiv. 2015. arXiv:1412.6572. doi: 10.48550/arXiv.1412.6572
3. Madry A., Makelov A., Schmidt L., Tsipras D., Vladu A. Towards deep learning models resistant to adversarial attacks // arXiv. 2019. arXiv:1706.06083. doi: 10.48550/arXiv.1706.06083
4. Carlini N., Wagner D. Towards evaluating the robustness of neural networks // Proc. of the IEEE Symposium on Security and Privacy (SP). 2017. P. 39–57. doi: 10.1109/SP.2017.49
5. Qian Y., He S., Zhao C., Sha J. Wang W., Wang B. Lea2: A lightweight ensemble adversarial attack via non-overlapping vulnerable frequency regions // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 4487–4498. doi: 10.1109/iccv51070.2023.00416
6. Schlarmann C., Singh N.D., Croce F., Hein M. Robust CLIP: unsupervised adversarial fine-tuning of vision embeddings for robust large vision-language models // Proc. of the 41<sup>st</sup> International Conference on Machine Learning. 2024. N 1779. P. 43684–43704.
7. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770–778. doi: 10.1109/CVPR.2016.90
8. Liu X., Hu J., Yang Q., Jiang M., He J., Fang H. A divide-and-conquer reconstruction method for defending against adversarial example attacks // Visual Intelligence. 2024. V. 2. P. 30. doi: 10.1007/s44267-024-00061-y
9. Zhang J., Wu W., Huang J., Huang Y., Wang W., Su Y., Lyu M. Improving adversarial transferability via neuron attribution-based attacks // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 14973–14982. doi: 10.1109/CVPR52688.2022.01457
10. Kurakin A., Goodfellow I., Bengio S. Adversarial examples in the physical world // Artificial Intelligence Safety and Security. 2018. P. 14. doi: 10.1201/9781351251389-8
11. Chen P.-Y., Sharma Y., Zhang H., Yi J. & Hsieh C.-J. Ead: Elastic-net attacks to deep neural networks via adversarial examples // Proc. of the 32<sup>nd</sup> AAAI Conference on Artificial Intelligence. 2018. V. 32. N 1. P. 10–17. doi: 10.1609/aaai.v32i1.11302
12. Zimmermann R.S. Comment on “adv-bnn: Improved adversarial defense through robust bayesian neural network” // arXiv. 2019. arXiv:1907.00895. doi: 10.48550/arXiv.1907.00895
13. Schwinn L., Raab R., Nguyen A., Zanca D., Eskofier B. Exploring misclassifications of robust neural networks to enhance adversarial attacks // Applied Intelligence. 2023. V. 53. N 17. P. 19843–19859. doi: 10.1007/s10489-023-04532-5
14. Selvaraju R.R., Cogswell M., Das A., Vedantam R., Parikh D., Batra D. Grad-cam: Visual explanations from deep networks via gradient-based localization // International Journal of Computer Vision. 2020. V. 128. N 2. P. 336–359. doi: 10.1007/s11263-019-01228-7
15. van der Maaten L., Hinton G. Visualizing data using t-SNE // Journal of Machine Learning Research. 2008. V. 9. P. 2579–2605.
16. Fix E., Hodges J. Discriminatory Analysis. Nonparametric Discrimination: Consistency Properties. USAF School of Aviation Medicine, 1951. 44 p.
17. Malkov Y.A., Yashunin D.A. Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020. V. 42. N 4. P. 824–836. doi: 10.1109/TPAMI.2018.2889473
18. ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Stanford Vision Lab, Stanford University, Princeton University. ImageNet Data [Электронный ресурс]. URL: https://www.image-net.org/download.php. (дата обращения: 03. 03. 2025).
Рецензия
Для цитирования:
Болозовский Р.Р., Левина А.Б., Красов К.С. Исследование влияния состязательных атак на классификацию и кластеризацию изображений на примере модели ResNet50. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(4):694-702. https://doi.org/10.17586/2226-1494-2025-25-4-694-702
For citation:
Bolozovskii R.R., Levina A.B., Krasov K.S. The impact of adversarial attacks on a computer vision models perception of images Set intersection protocol with privacy preservation. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(4):694-702. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-4-694-702