Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

ViSL model: модель автоматической генерации предложений вьетнамского языка жестов

https://doi.org/10.17586/2226-1494-2024-24-5-779-787

Аннотация

Введение. Основной проблемой при построении интеллектуальных систем является недостаточность данных для машинного обучения, что особенно актуально для распознавания языка жестов для глухих и слабослышащих людей. Одним из способов увеличения объема данных для обучения интеллектуальных систем является их синтез. В отличие от синтеза речи, создавать последовательность жестов на вьетнамском и некоторых других языках, в точности повторяющих текст, невозможно. Это связано с существенной ограниченностью словаря жестов и отличающимся порядком слов в предложениях. Целью работы является обогащение обучающего набора видеоданных для создания систем распознавания вьетнамского языка жестов (Vietnamese Sign Language, ViSL).
Метод. Поскольку транслировать слова исходного текста в жесты невозможно, возникает задача перевода с обычного языка на жестовый. Для решения поставленной задачи в работе использован двухфазный процесс. На первой фазе выполняется предварительная обработка текста со стандартизацией текстового формата, сегментацией слов и предложений, а затем кодирование слов с помощью словаря языка жестов. На данном этапе не требуется удалять знаки препинания и стоп-слова, поскольку они связаны с точностью N-граммовой модели. На второй фазе вместо использования синтаксического анализа применяется статистический метод формирования последовательности жестов. При этом за основу берется марковская модель на графе переходов между словами, в которой вероятность следующего слова зависит только от двух предыдущих слов. Вероятности переходов вычисляются на существующем размеченном наборе ViSL. Метод графового поиска в ширину используется для составления списка всех предложений, сгенерированных на основе заданного грамматического правила и матрицы семантического взаимодействия между словами. Обратное значение логарифма произведения вероятности совместного появления последовательных словосочетаний из трех слов в предложении используется для оценки частоты встречаемости этого предложения в заданном наборе данных.
Основные результаты. Основываясь на данных ViSL, состоящих из 3234 слов, рассчитаны матрицы вероятности, представляющие отношения между словами, на основе данных ViSL с 50 млн предложений, собранных из вьетнамских газет и журналов. Для различных грамматических правил выполнено сравнение количества сгенерированных предложений и оценка точности 50 наиболее часто встречающихся предложений. Средняя точность составила 88 %. Точность сгенерированных предложений оценена статистическими методами. Показано, что число сгенерированных предложений зависит от количества частей слова, которые помечены в соответствии с правилами грамматики. Семантическая точность сгенерированных предложений высока, если поисковые слова помечены правильными частями речи.
Обсуждение. По сравнению с методами машинного обучения, предлагаемая модель дает хорошие результаты для языков без словоизменений и порядка слов, следующих определенным правилам, таких как вьетнамский язык, и не требует больших вычислительных ресурсов. Недостатком модели является зависимость точности от типа слова, предложения и сегментации слов. Взаимосвязь слов зависит от наблюдаемого набора данных. Будущее направление исследований — создание абзацев на языке жестов. Полученные данные могут быть использованы в моделях машинного обучения для задач обработки языка жестов.

Об авторах

Данг Хань
Университет ИТМО
Россия

Данг Хань - аспирант

Санкт-Петербург, 197101



И. А. Бессмертный
Университет ИТМО
Россия

Бессмертный Игорь Александрович - доктор технических наук, профессор, профессор

Санкт-Петербург, 197101



Список литературы

1. Katti R.K., Sujatha C., Desai P., Shankar G. Character and word level gesture recognition of indian sign language. Proc. of the 2023 IEEE 8th International Conference for Convergence in Technology (I2CT), 2023, pp. 1–6. https://doi.org/10.1109/I2CT57861.2023.10126314

2. Naz N., Sajid H., Ali S., Hasan O., Ehsan M.K. Signgraph: An efficient and accurate pose-based graph convolution approach toward sign language recognition. IEEE Access, 2023, vol. 11, pp. 19135–19147. https://doi.org/10.1109/ACCESS.2023.3247761

3. Boháček M., Hrúz M. Sign pose-based transformer for word-level sign language recognition. Proc. of the 2022 IEEE/CVF Winter Conference on Applications of Computer Vision Workshops (WACVW), 2022, pp. 182–191. https://doi.org/10.1109/WACVW54805.2022.00024

4. Jiang Y., Li F., Li Z., Liu Z., Wang Z. Enhancing continuous sign language recognition with Self-Attention and MediaPipe Holistic. Proc. of the 2023 8th International Conference on Instrumentation, Control, and Automation (ICA), 2023, pp. 97–102. https://doi.org/10.1109/ICA58538.2023.10273118

5. Nayan N., Ghosh D., Pradhan P.M. An unsupervised learning approach to handle movement epenthesis in continuous sign language recognition. Proc. of the 2022 17th International Conference on Control, Automation, Robotics and Vision (ICARCV), 2022, pp. 862–867. https://doi.org/10.1109/ICARCV57592.2022

6. Tran K.B., Nguyen U.D., Huynh Q.T. Continuous sign language recognition using MediaPipe. Proc. of the 2023 International Conference on Advanced Technologies for Communications (ATC), 2023, pp. 493–498. https://doi.org/10.1109/ATC58710.2023.10318855

7. Quach L.-D., Nguyen C.-N. Conversion of the Vietnammese grammar into sign language structure using the example-based machine translation algorithm. Proc. of the 2018 International Conference on Advanced Technologies for Communications (ATC), 2018, pp. 27–31. https://doi.org/10.1109/ATC.2018.8587584

8. Kagirov I., Ryumin D., Ivanko D., Axyonov A., Karpov A. Russian sign language: History, grammar and sociolinguistic situation in brief. Proc. of the Language Technologies for All (LT4All), 2019, pp. 71–74.

9. Singh C., Bansal R.K., Bansal S. Machine translation techniques using AI: A review. Proc. of the 2023 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI), 2023, pp. 1–5. https://doi.org/10.1109/CVMI59935.2023.10464455

10. Tan M., Chen D., Li Z., Wang P. Spelling error correction with BERT based on character-phonetic. Proc. of the 2020 IEEE 6th International Conference on Computer and Communications (ICCC), 2020, pp. 1146–1150. https://doi.org/10.1109/ICCC51575.2020.9345276

11. Huang C., Feng Y., Zhang Y., Zhang W. Knowledge Base System of Electrical equipment management and potential risk control based on natural language processing technology. Proc. of the 2023 Asia-Europe Conference on Electronics, Data Processing and Informatics (ACEDPI), 2023, pp. 439–445. https://doi.org/10.1109/ACEDPI58926.2023.00090

12. Liu S., Tang R., Chai J. A news automatic tagging method based on statistical language model. Proc. of the 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), 2017, pp. 1–5. https://doi.org/10.1109/CISP-BMEI.2017.8302092

13. Xiao J., Zhou Z. Research Progress of RNN Language Model. Proc. of the 2020 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA), 2020, pp. 1285–1288. https://doi.org/10.1109/ICAICA50127.2020.9182390

14. Ganai F., Khursheed F. Predicting next Word using RNN and LSTM cells: Stastical Language Modeling. Proc. of the 2019 Fifth International Conference on Image Information Processing (ICIIP), 2019, pp. 469–474. https://doi.org/10.1109/ICIIP47207.2019.8985885

15. Acheampong F.A., Nunoo-Mensah H., Chen W. Recognizing emotions from texts using an ensemble of transformer-based language models. Proc. of the 2021 18th International Computer Conference on Wavelet Active Media Technology and Information Processing (ICCWAMTIP), 2021, pp. 161–164. https://doi.org/10.1109/ICCWAMTIP53232.2021.9674102

16. Lee H., Kim J.-H., Hwang E.J., Kim J., Park J.C. Leveraging large language models with vocabulary sharing for sign language translation. Proc. of the 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW), 2023, pp. 1–5. https://doi.org/10.1109/ICASSPW59220.2023.10193533

17. Garg H., Gupta I., Kumar K., Kaur B., Pundir D. Artificial intelligence based dynamic approach to visualize the graphs. Proc. of the 2023 International Conference on Computational Intelligence, Communication Technology and Networking (CICTN), 2023, pp. 663–667. https://doi.org/10.1109/CICTN57981.2023.10140873


Рецензия

Для цитирования:


Хань Д., Бессмертный И.А. ViSL model: модель автоматической генерации предложений вьетнамского языка жестов. Научно-технический вестник информационных технологий, механики и оптики. 2024;24(5):779-787. https://doi.org/10.17586/2226-1494-2024-24-5-779-787

For citation:


Khanh D., Bessmertny I.A. ViSL model: The model automatically generates sentences of Vietnamese sign language. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2024;24(5):779-787. https://doi.org/10.17586/2226-1494-2024-24-5-779-787

Просмотров: 12


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)