Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Сегментация жестов слов на видео жестового языка

https://doi.org/10.17586/2226-1494-2023-23-5-980-988

Аннотация

Введение. Несмотря на широкое распространение средств автоматического распознавания речи и сопровождения видео субтитрами, язык жестов по-прежнему является ключевым средством коммуникации для людей с нарушениями слуха. Важной задачей в процессе автоматического распознавания жестового языка является сегментация видео на фрагменты, соответствующие отдельным словам. В отличие от известных методов сегментации слов жестового языка, предложен подход, не требующий использования сенсоров (акселерометров). Метод. Для сегментации видео на слова использована оценка динамики изображения, а граница между словами определена с помощью порогового значения. На практике в кадре, кроме диктора, могут присутствовать сторонние движущиеся объекты, которые создают шум. В связи с этим предложено оценить динамику по среднему изменению от кадра к кадру евклидова расстояния между координатными характеристиками кисти, предплечья, глаз и рта. Вычисление координатных характеристик рук и головы осуществлено с помощью библиотеки MediaPipe. Основные результаты. Разработанный алгоритм апробирован для жестового вьетнамского языка на открытом наборе из 4364 видео, собранном во Вьетнамском центре обучения языку жестов. Алгоритм продемонстрировал высокую точность, сопоставимую с ручной сегментацией видео оператором, и низкую ресурсоемкость, что позволяет его использовать при автоматическом распознавании жестов в реальном времени. Обсуждение. Выполненные эксперименты показали, что задача сегментации языка жестов в отличие от известных методов может быть эффективно решена без использования сенсоров. Как и другие методы сегментации жестов, предложенный алгоритм неудовлетворительно работает при высокой скорости жестового языка, когда имеет место наложение слов друг на друга. Данная проблема является предметом дальнейших исследований.

Об авторах

Д. Хань
Университет ИТМО
Россия

Данг Хань — аспирант

 Санкт-Петербург, 197101



И. А. Бессмертный
Университет ИТМО
Россия

Бессмертный Игорь Александрович — доктор технических наук, профессор

sc 36661767800

Санкт-Петербург, 197101



Список литературы

1. Thoa N.T.K. Vietnamese sign language - unresolved isSUES // Proc. of the 4th Conference on Language Teaching and Learning” (LTAL). 2022. https://doi.org/10.21467/proceedings.132.23

2. Li D., Rodriguez C., Yu X., Li H. Word-level deep sign language recognition from video: A new large-scale dataset and methods comparison // Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2020. P. 1459–1469. https://doi.org/10.1109/wacv45572.2020.9093512

3. Min Y., Hao A., Chai X., Chen X. Visual alignment constraint for continuous sign language recognition // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 11522–11531. https://doi.org/10.1109/iccv48922.2021.01134

4. Camgoz N.C., Hadfield S., Koller O., Bowden R. SubUNets: End-to- end hand shape and continuous sign language recognition // Proc. of the IEEE International Conference on Computer Vision (ICCV). 2017. P. 3075–3084. https://doi.org/10.1109/iccv.2017.332

5. Camgoz N.C., Kindiroglu A., Karabuklu S., Kelepir M., Ozsoy A.S., Akarun L. BosphorusSign: A Turkish sign language recognition corpus in health and finance domains // Proc. of the International Conference on Language Resources and Evaluation (LREC). 2016.

6. Ko S.-K., Kim C.J., Jung H., Cho C. Neural sign language translation based on human keypoint estimation // Applied Sciences. 2019. V. 9. N 13. P. 2683. https://doi.org/10.3390/app9132683

7. Lea C., Vidal R., Reiter A., Hager G.D. Temporal convolutional networks: A unified approach to action segmentation // Lecture Notes in Computer Science. 2016. V. 9915. P. 47–54. https://doi.org/10.1007/978-3-319-49409-8_7

8. Kulkarni K., Evangelidis G., Cech J., Horaud R. Continuous action recognition based on sequence alignment // International Journal of Computer Vision. 2015. V. 112. N 1. P. 90–114. https://doi.org/10.1007/s11263-014-0758-9

9. Luc P., Neverova N., Couprie C., Verbeek J., LeCun Y. Predicting deeper into the future of semantic segmentation // Proc. of the 2017 IEEE International Conference on Computer Vision (ICCV). 2017. P. 648–657. https://doi.org/10.1109/ICCV.2017.77

10. Yi F., Wen H., Jiang T. ASFormer: Transformer for action segmentation // arXiv. 2021. arXiv:2110.08568. https://doi.org/10.48550/arXiv.2110.08568

11. Brognaux S., Drugman T. HMM-based speech segmentation: improvements of fully automatic approaches // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. V. 24. N 1. P. 5–15. https://doi.org/10.1109/TASLP.2015.2456421

12. Atmaja B.T., Akagi M. Speech emotion recognition based on speech segment using LSTM with attention model // IEEE International Conference on Signals and Systems (ICSigSys). 2019. P. 40–44. https://doi.org/10.1109/ICSIGSYS.2019.8811080

13. Gujarathi P.V., Patil S.R. Gaussian filter-based speech segmentation algorithm for Gujarati language // Smart Innovation, Systems and Technologies. 2021. V. 224. P. 747–756. https://doi.org/10.1007/978-981-16-1502-3_74

14. Chen M.-H., Li B., Bao Y., AlRegib G., Kira Z. Action segmentation with joint self-supervised temporal domain adaptation // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 9454–9463. https://doi.org/10.1109/cvpr42600.2020.00947

15. Madrid G.K.R., Villanueva R.G.R., Caya M.V.C. Recognition of dynamic Filipino Sign language using MediaPipe and long short-term memory // Proc. of the 2022 13th International Conference on Computing Communication and Networking Technologies (ICCCNT). 2022. https://doi.org/10.1109/ICCCNT54827.2022.9984599

16. Adhikary S., Talukdar A.K., Sarma K.K. A vision-based system for recognition of words used in Indian Sign Language using MediaPipe // Proc. of the 2021 Sixth International Conference on Image Information Processing (ICIIP). 2021. P. 390–394. https://doi.org/10.1109/ICIIP53038.2021.9702551

17. Zhang S., Chen W., Chen C., Liu Y. Human deep squat detection method based on MediaPipe combined with Yolov5 network // Proc. of the 2022 41st Chinese Control Conference (CCC). 2022. P. 6404– 6409. https://doi.org/10.23919/CCC55666.2022.9902631

18. Quiñonez Y., Lizarraga C., Aguayo R. Machine learning solutions with MediaPipe // Proc. of the 2022 11th International Conference On Software Process Improvement (CIMPS). 2022. P. 212–215. https://doi.org/10.1109/CIMPS57786.2022.10035706

19. Ma J., Ma L., Ruan W., Chen H., Feng J. A Wushu posture recognition system based on MediaPipe // Proc. of the 2022 2nd International Conference on Information Technology and Contemporary Sports (TCS). 2022. P. 10–13. https://doi.org/10.1109/TCS56119.2022.9918744

20. Nguyen D.Q., Vu T., Nguyen D.Q., Dras M., Johnson M. 2017. From word segmentation to POS tagging for Vietnamese // Proc. of the 15th Australasian Language Technology Association Workshop. 2012. P. 108–113.


Рецензия

Для цитирования:


Хань Д., Бессмертный И.А. Сегментация жестов слов на видео жестового языка. Научно-технический вестник информационных технологий, механики и оптики. 2023;23(5):980-988. https://doi.org/10.17586/2226-1494-2023-23-5-980-988

For citation:


Khanh D., Bessmertny I.A. Segmentation of word gestures in sign language video. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2023;23(5):980-988. (In Russ.) https://doi.org/10.17586/2226-1494-2023-23-5-980-988

Просмотров: 5


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)