Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Детекция ключевых точек лица с помощью капсульных нейронных сетей

https://doi.org/10.17586/2226-1494-2023-23-3-506-518

Аннотация

Введение. Исследована актуальная и востребованная задача детекции ключевых точек лица. Рассмотрены существующие подходы к решению задачи детекции ключевых точек лица, часто классифицируемые на параметрические и непараметрические. Определен наиболее качественный на сегодняшний день подход, основанный на методах глубокого обучения. Предложено два решения: капсульная сеть с динамической маршрутизацией и глубокая капсульная сеть. В качестве данных для проведения эксперимента выбраны 10 000 сгенерированных лиц из базы сайта Kaggle, размеченных с помощью фреймворка MediaPipe. Метод. Предложен метод использования капсульных архитектур нейронных сетей для решения задачи детекции ключевых точек лица. Метод включает в себя использование сегментации по распознанным с помощью фреймворка MediaPipe ключевым точкам лица. Для построения сетки лица применена триангуляция Делоне. Предложена архитектура глубокой капсульной сети с учетом семантической сегментации. Основные результаты. На основе размеченных данных выполнены эксперименты по детекции ключевых точек с помощью разработанных капсульных нейронных сетей. По результатам тестирования получены значения функции потерь 2,5–2,9 и точности 0,87–0,9. Обсуждение. Предложенная архитектура может быть использована в технологиях по сопоставлению геометрий сеток лица реального человека и трехмерной модели. Архитектура может найти применение в исследованиях капсульных нейронных сетей в области обработки и анализа изображений.

Об авторах

А. А. Бойцев
Университет ИТМО
Россия

Бойцев Антон Александрович — кандидат физико-математических наук, доцент

sc 56401063400 

Санкт-Петербург, 197101 



Д. Г. Волчек
Университет ИТМО
Россия

Волчек Дмитрий Геннадьевич — кандидат технических наук, доцент 

sc 57197732532 

Санкт-Петербург, 197101



Е. Н. Магазенков
Университет ИТМО
Россия

Магазенков Егор Николаевич — студент 

Санкт-Петербург, 197101



М. К. Неваев
ЗАО «Центр финансовых технологий»
Россия

Неваев Максим Кириллович — системный проектировщик 

Санкт-Петербург, 191002



А. А. Романов
Университет ИТМО
Россия

Романов Алексей Андреевич — кандидат технических наук, доцент 

sc 57194976341 

Санкт-Петербург, 197101



Список литературы

1. Волкова С.С., Матвеев Ю.Н. Применение сверточных нейронных сетей для решения задачи противодействия атаке спуфинга в системах лицевой биометрии // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 4. С. 702–710. https://doi.org/10.17586/2226-1494-2017-17-4-702- 710

2. Дикий Д.И., Артемьева В.Д. Исследование применимости искусственных нейронных сетей для верификации пользователей по динамике почерка // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 4. С. 677–684. https://doi.org/10.17586/2226-1494-2017-17-4-677-684

3. Abiodun O.I., Kiru M.U., Jantan A., Omolara A.E., Dada K.V., Umar A.M., Linus O.U., Arshad H., Kazaure A.A., Gana U. Comprehensive review of artificial neural network applications to pattern recognition // IEEE Access. 2019. V. 7. P. 158820–158846. https://doi.org/10.1109/access.2019.2945545

4. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks // Communications of the ACM. 2017. V. 60. N 6. P. 84–90. https://doi.org/10.1145/3065386

5. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770–778. https://doi.org/10.1109/cvpr.2016.90

6. Redmon J., Divvala S., Girshick R., Farhadi A. You only look once: Unified, real-time object detection // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 779– 788. https://doi.org/10.1109/cvpr.2016.91

7. Sabour S., Frosst N., Hinton G.E. Dynamic routing between capsules // Advances in Neural Information Processing Systems. 2017. V. 30. P. 3856–3866.

8. Nguyen H.H., Yamagishi J., Echizen I. Capsule-forensics: Using capsule networks to detect forged images and videos // Proc. of the ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. P. 2307–2311. https://doi.org/10.1109/icassp.2019.8682602

9. Wang N., Gao X., Tao D., Yang H., Li X. Facial feature point detection: A comprehensive survey // Neurocomputing. 2018. V. 275. P. 50–65. https://doi.org/10.1016/j.neucom.2017.05.013

10. Beham M.P., Roomi S.M.M. A review of face recognition methods // International Journal of Pattern Recognition and Artificial Intelligence. 2013. V. 27. N 4. P. 1356005. https://doi.org/10.1142/S0218001413560053

11. Li H., Lin Z.L., Brandt J., Shen X., Hua G. Efficient boosted exemplar-based face detection // Proc. of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. 2014. P. 1843–1850. https://doi.org/10.1109/cvpr.2014.238

12. Sun Y., Wang X., Tang X. Deep convolutional network cascade for facial point detection // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition. 2013. P. 3476–3483. https://doi.org/10.1109/cvpr.2013.446

13. Zhang Z., Luo P., Loy C.C., Tang X. Facial landmark detection by deep multi-task learning // Lecture Notes in Computer Science. 2014. V. 8694. P. 94–108. https://doi.org/10.1007/978-3-319-10599-4_7

14. Trigeorgis G., Snape P., Nicolaou M.A., Antonakos E., Zafeiriou S. Mnemonic descent method: A recurrent process applied for end-toend face alignment // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 4177–4187. https://doi.org/10.1109/cvpr.2016.453

15. Zhu X., Lei Z., Liu X., Shi H., Li S.Z. Face alignment across large poses: A 3D solution // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 146–155. https://doi.org/10.1109/cvpr.2016.23

16. Jourabloo A., Liu X. Large-pose face alignment via CNN-based dense 3D model fitting // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 4188–4196. https://doi.org/10.1109/cvpr.2016.454

17. Kartynnik Y., Ablavatski A., Grishchenko I., Grundmann M. Realtime facial surface geometry from monocular video on mobile GPUs // arXiv. 2019. arXiv:1907.06724. https://doi.org/10.48550/arXiv.1907.06724

18. Wood E., Baltrušaitis T., Hewitt Ch., Johnson M., Shen J., Milosavljević N., Wilde D., Garbin S., Sharp T., Stojiljković I., Cashman T., Valentin J. 3D face reconstruction with dense landmarks // Lecture Notes in Computer Science. 2022. V. 13673. P. 160–177. https://doi.org/10.1007/978-3-031-19778-9_10

19. Pechyonkin M. Understanding Hinton’s Capsule Networks. Part I: Intuition. Medium. 2018, December 18 [Электронный ресурс]. URL: https://medium.com/ai%C2%B3-theory-practice-business/understanding-hintons-capsule-networks-part-i-intuitionb4b559d1159b (дата обращения: 12.12.2022).

20. Yu D., Wang H., Chen P., Wei Z. Mixed pooling for convolutional neural networks // Lecture Notes in Computer Science. 2014. V. 8818. P. 364–375. https://doi.org/10.1007/978-3-319-11740-9_34

21. Ding Y., Chen F., Zhao Y., Wu Z., Zhang C., Wu D. A stacked multiconnection simple reducing net for brain tumor segmentation // IEEE Access. 2019. V. 7. P. 104011–104024. https://doi.org/10.1109/access.2019.2926448


Рецензия

Для цитирования:


Бойцев А.А., Волчек Д.Г., Магазенков Е.Н., Неваев М.К., Романов А.А. Детекция ключевых точек лица с помощью капсульных нейронных сетей. Научно-технический вестник информационных технологий, механики и оптики. 2023;23(3):506-518. https://doi.org/10.17586/2226-1494-2023-23-3-506-518

For citation:


Boitsev A.A., Volchek D.G., Magazenkov E.N., Nevaev M.K., Romanov A.A. Facial keypoints detection using capsule neural networks. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2023;23(3):506-518. (In Russ.) https://doi.org/10.17586/2226-1494-2023-23-3-506-518

Просмотров: 16


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)