Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Применение гибридных методов искусственного интеллекта для практических производственных задач в условиях труднодоступности обучающих данных

https://doi.org/10.17586/2226-1494-2026-26-2-420-427

Аннотация

Введение. Современные производственные задачи, такие как контроль качества лазерной сварки и локализация геометрических признаков в промышленных процессах, требуют применения инновационных подходов машинного обучения. Недостаток размеченных данных и сложность геометрической аннотации являются критическими барьерами при разработке автоматизированных систем контроля. Научная новизна предлагаемого подхода заключается в комплексном использовании гибридных методов, объединяющих эволюционную оптимизацию, диффузионные модели и сверточные нейронные сети для эффективного решения практических инженерных задач с ограниченными ресурсами данных. Метод. Предложенный подход состоит из двух интегрированных компонентов. Первый компонент реализует гибридный алгоритм генерации синтетических данных, объединяющий эволюционную оптимизацию для генерации разнообразных геометрических вариантов с использованием диффузионных моделей для синтеза фотореалистичных изображений. Второй компонент включает специализированную архитектуру глубокого обучения, оптимизированную для точной локализации и классификации геометрических признаков в производственных контекстах. Обучение реализуется с применением комбинированной функции потерь, интегрирующей регрессионные и классификационные критерии. Основные результаты. На примере задачи контроля качества лазерной сварки синтетический набор данных расширен с 120 оригинальных изображений до 4537 реалистичных примеров, что позволило повысить точность сегментации швов с 2,4 до 0,75 по метрике потерь box loss. Для задачи локализации координат шва достигнута ошибка предсказания 31,8 пикселов по оси Y и 3,3 пиксела по оси X на исходном разрешении 1024 × 2448 пикселов. Экспериментальное сравнение показало превосходство сверточных архитектур над трансформерными моделями при сопоставимом количестве параметров, а также лучшую точность при регрессии с одного кадра, чем при использовании последовательности кадров. Обсуждение. Предложенные методы демонстрируют значительное превосходство по сравнению с классическими подходами масштабирования данных (mixup, cutmix) и чистыми подходами к диффузионному синтезу, которые требуют интенсивной подготовки наборов данных. Интеграция эволюционной оптимизации обеспечивает контролируемое разнообразие геометрических вариантов, а диффузионные модели гарантируют фотореалистичность синтезированных образцов. Данный гибридный подход имеет широкие перспективы применения в других промышленных секторах с ограниченной доступностью размеченных данных благодаря возможности построения полного конвейера синтеза труднодоступных промышленных данных, а затем их использования для обучения прикладных методов искусственного интеллекта, решающих целевые промышленные задачи.

Об авторах

Г. В. Соловьев
Университет ИТМО
Россия

Соловьев Глеб Витальевич — аспирант, инженер-исследователь

Санкт-Петербург, 197101

sc 59409934700



М. С. Соколов
Университет ИТМО
Россия

Соколов Михаил Сергеевич — кандидат технических наук, ведущий научный сотрудник

Санкт-Петербург, 197101

sc 56994304500



Список литературы

1. Xiao S., Liu Z., Yan Z., Wang M. Grad-MobileNet: A gradient-based unsupervised learning method for laser welding surface defect classification // Sensors. 2023. V. 23. N 9. P. 4563. https://doi.org/10.3390/s23094563

2. Vu T., Sun B., Yuan B., Ngai A., Li Y., Frahm J.-M. Supervision interpolation via lossmix: generalizing mixup for object detection and beyond // Proceedings of the AAAI Conference on Artificial Intelligence. 2024. V. 38. N 6. P. 5280–5288. https://doi.org/10.1609/aaai.v38i6.28335

3. Jin X., Zhu H., Li S., Wang Z., Liu Z., Tian J., et al. A survey on mixup augmentations and beyond // arXiv. 2024. arXiv:2409.05202. https://doi.org/10.48550/arXiv.2409.05202

4. Capogrosso L., Girella F., Taioli F., Chiara M., Aqeel M., Fummi F., et al. Diffusion-based image generation for in-distribution data augmentation in surface defect detection // Proc. of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. 2024. V. 2. P. 409–416. https://doi.org/10.5220/0012350400003660

5. Tai Y., Yang K., Peng T., Huang Z., Zhang Z. Defect image sample generation with diffusion prior for steel surface defect recognition // IEEE Transactions on Automation Science and Engineering. 2024. V. 22. P. 8239–8251. https://doi.org/10.1109/tase.2024.3482362

6. Alzarooni A., Iqbal E., Ullah Khan, S. Javed S., Moyo B., Abdulrahman Y. Anomaly detection for industrial applications: challenges, solutions, and future directions // International Journal of Computer Integrated Manufacturing. 2025. https://doi.org/10.1080/0951192X.2025.2599548

7. Bradski G. The openCV library // Dr. Dobb’s Journal: Software Tools for the Professional Programmer. 2000. V. 25. N 11. P. 120–123.

8. Zhang Q., Li H. MOEA/D: A multiobjective evolutionary algorithm based on decomposition // IEEE Transactions on Evolutionary Computation. 2007. V. 11. N 6. P. 712–731. https://doi.org/10.1109/tevc.2007.892759

9. Rezatofighi H., Tsoi N., Gwak J., Sadeghian A., Reid I., Savarese S. Generalized intersection over union: A metric and a loss for bounding box regression // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 658–666. https://doi.org/10.1109/cvpr.2019.00075

10. Bakurov I., Buzzelli M., Schettini R., Castelli M., Vanneschi L. Structural similarity index (SSIM) revisited: a data-driven approach // Expert Systems with Applications. 2022. V. 189. P. 116087. https://doi.org/10.1016/j.eswa.2021.116087

11. Zhang H., Liu Y., Yang J., Guo W., Wang X., Fua P. DiffAtlas: GenAIFying atlas segmentation via Image-Mask Diffusion // Lecture Notes in Computer Science. 2025. V. 15975. P. 161–172. https://doi.org/10.1007/978-3-032-05325-1_16

12. Gatys L.A., Ecker A.S., Bethge M. Image style transfer using convolutional neural networks // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 2414– 2423. https://doi.org/10.1109/CVPR.2016.265

13. Jiang P., Ergu D., Liu F., Cai Y., Ma B. A Review of Yolo algorithm developments // Procedia Computer Science. 2022. V. 199. P. 1066– 1073. https://doi.org/10.1016/j.procs.2022.01.135

14. Chen Y., Lin H., Zhang W., Chen W., Zhou Z., Heidari A.A., et al. ICycle-GAN: Improved cycle generative adversarial networks for liver medical image generation // Biomedical Signal Processing and Control. 2024. V. 92. P. 106100. https://doi.org/10.1016/j.bspc.2024.106100

15. Qin D., Leichner C., Delakis M., Fornoni M., Luo S., Yang F., et al. MobileNetV4: universal models for the mobile ecosystem // Lecture Notes in Computer Science. 2025. V. 15098. P. 78–96. https://doi.org/10.1007/978-3-031-73661-2_5

16. Graham B., El-Nouby A., Touvron H., Stock P., Joulin A., Jégou H., et al. LeViT: a vision transformer in convnet’s clothing for faster inference // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 12239–12249. https://doi.org/10.1109/ICCV48922.2021.01204

17. Ma N., Zhang X., Zheng H.-T., Sun J. ShuffleNet V2: practical guidelines for efficient CNN architecture design // Lecture Notes in Computer Science. 2018. V. 11218. P. 122–138. https://doi.org/10.1007/978-3-030-01264-9_8

18. Cai H., Li J., Hu M., Gan C., Han S. EfficientViT: lightweight multiscale attention for high-resolution dense prediction // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023 . P. 17256 – 17267. https://doi.org/10.1109/ICCV51070.2023.01587

19. Khanam R., Hussain M. YOLOv11: an overview of the key architectural enhancements // arXiv. 2024. arXiv:2410.17725. https://doi.org/10.48550/arXiv.2410.17725

20. Hara K., Kataoka H., Satoh Y. Learning spatio-temporal features with 3D residual networks for action recognition // Proc. of the IEEE International Conference on Computer Vision Workshops (ICCVW). 2017. P. 3154–3160. https://doi.org/10.1109/iccvw.2017.373

21. Imambi S., Prakash K.B., Kanagachidambaresan G.R. PyTorch // Programming with TensorFlow: Solution for Edge Computing Applications. 2021. P. 87–104. https://doi.org/10.1007/978-3-030-57077-4_10

22. Loshchilov I., Hutter F. Fixing weight decay regularization in Adam // arXiv. 2017.arXiv:1711.05101v2.

23. Meyer G.P. An alternative probabilistic interpretation of the Huber loss // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021. P. 5257–5265. https://doi.org/10.1109/cvpr46437.2021.00522

24. Huang P., Tian S., Su Y., Tan W., Dong Y., Xu W., et al. IA-CIOU: an improved IOU bounding box loss function for SAR ship target detection methods // IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. 2024. V. 17. P. 10569–10582. https://doi.org/10.1109/jstars.2024.3402540

25. Wan E.A., Van Der Merwe R. The unscented Kalman filter for nonlinear estimation // Proc. of the IEEE 2000 Adaptive Systems for Signal Processing, Communications, and Control Symposium (Cat. No.00EX373). 2000. P. 153–158. https://doi.org/10.1109/ASSPCC.2000.882463


Рецензия

Для цитирования:


Соловьев Г.В., Соколов М.С. Применение гибридных методов искусственного интеллекта для практических производственных задач в условиях труднодоступности обучающих данных. Научно-технический вестник информационных технологий, механики и оптики. 2026;26(2):420-427. https://doi.org/10.17586/2226-1494-2026-26-2-420-427

For citation:


Solovev G.V., Sokolov M.S. Application of hybrid artificial intelligence methods to practical industrial tasks under conditions of scarce training data. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2026;26(2):420-427. (In Russ.) https://doi.org/10.17586/2226-1494-2026-26-2-420-427

Просмотров: 12

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)