Метод тестирования лингвистических моделей машинного обучения текстовыми состязательными примерами

А. Б. Менисов; А. Г. Ломако; Т. Р. Сабиров

doi:10.17586/2226-1494-2023-23-5-946-954

Метод тестирования лингвистических моделей машинного обучения текстовыми состязательными примерами

А. Б. Менисов, А. Г. Ломако, Т. Р. Сабиров

https://doi.org/10.17586/2226-1494-2023-23-5-946-954

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Введение. В настоящее время интерпретируемость лингвистических моделей машинного обучения неудовлетворительна в связи с несовершенством научно-методического аппарата описания функционирования как отдельных элементов, так и моделей в целом. Одной из проблем, связанной со слабой интерпретируемостью, является низкая надежность функционирования нейронных сетей, обрабатывающих тексты естественного языка. Известно, что небольшие возмущения в текстовых данных влияют на устойчивость нейронных сетей. В работе представлен метод тестирования лингвистических моделей машинного обучения на наличие угрозы проведения атак уклонения. Метод. Метод включает в себя следующие генерации текстовых состязательных примеров: случайная модификация текста и сеть генерации модификаций. Случайная модификация текста произведена с помощью омоглифов — переупорядочивания текста, добавления невидимых символов и удаления символов случайным образом. Сеть генерации модификаций основана на генеративно-состязательной архитектуре нейронных сетей. Основные результаты. Проведенные эксперименты продемонстрировали результативность метода тестирования на основе сети генерации текстовых состязательных примеров. Преимущество разработанного метода заключается в возможности генерации более естественных и разнообразных состязательных примеров, которые обладают меньшими ограничениями, не требуется многократных запросов к тестируемой модели. Это может быть применимо в более сложных сценариях тестирования, где взаимодействие с моделью ограничено. Эксперименты показали, что разработанный метод позволил добиться лучшего баланса результативности и скрытности текстовых состязательных примеров (например, протестированы модели GigaChat и YaGPT). Обсуждение. Результаты работы показали необходимость проведения тестирования на наличие дефектов и уязвимостей, которые могут эксплуатировать злоумышленники с целью снижения качества функционирования лингвистических моделей. Это указывает на большой потенциал в вопросах обеспечения надежности моделей машинного обучения. Перспективным направлением являются проблемы восстановления уровня защищенности (конфиденциальности, доступности и целостности) лингвистических моделей машинного обучения.

Ключевые слова

искусственный интеллект, обработка естественного языка, информационная безопасность, состязательные атаки, тестирование защищенности

Об авторах

А. Б. Менисов

Военно-космическая академия имени А.Ф. Можайского
Россия

Менисов Артем Бакытжанович — кандидат технических наук, докторант

sc 57220815185

Санкт-Петербург, 197198

А. Г. Ломако

Военно-космическая академия имени А.Ф. Можайского
Россия

Ломако Александр Григорьевич — доктор технических наук, профессор

sc 57188270500

Санкт-Петербург, 197198

Т. Р. Сабиров

Военно-космическая академия имени А.Ф. Можайского
Россия

Сабиров Тимур Римович — кандидат технических наук, старший преподаватель

sc 57188236500

Санкт-Петербург, 197198

Список литературы

1. Намиот Д.Е., Ильюшин Е.А., Чижов И.В. Атаки на системы машинного обучения-общие проблемы и методы // International Journal of Open Information Technologies. 2022. Т. 10. № 3. С. 17– 22.

2. Goodfellow I.J., Shlens J., Szegedy C. Explaining and harnessing adversarial examples // arXiv. 2014. arXiv:1412.6572. https://doi.org/10.48550/arXiv.1412.6572

3. Xu W., Agrawal S., Briakou E., Martindale M.J., Marine C. Understanding and detecting hallucinations in neural machine translation via model introspection // Transactions of the Association for Computational Linguistics. 2023. V. 11. P. 546–564. https://doi.org/10.1162/tacl_a_00563

4. Chang G., Gao H., Yao Z., Xiong H. TextGuise: Adaptive adversarial example attacks on text classification model // Neurocomputing. 2023. V. 529. P. 190–203. https://doi.org/10.1016/j.neucom.2023.01.071

5. Wallace E., Feng S., Kandpal N., Gardner M., Singh S. Universal adversarial triggers for attacking and analyzing NLP // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 2153–2162. https://doi.org/10.18653/v1/d19-1221

6. Alshemali B., Kalita J. Improving the reliability of deep neural networks in NLP: A review // Knowledge-Based Systems. 2020. V. 191. P. 105210. https://doi.org/10.1016/j.knosys.2019.105210

7. Chang K.W., He H., Jia R., Singh S. Robustness and adversarial examples in natural language processing // Proc. of the 2021 Conference on Empirical Methods in Natural Language Processing: Tutorial Abstracts. 2021. P. 22–26. https://doi.org/10.18653/v1/2021.emnlp-tutorials.5

8. Dong H., Dong J., Yuan S., Guan Z. Adversarial attack and defense on natural language processing in deep learning: a survey and perspective // Lecture Notes in Computer Science. 2023. V. 13655. P. 409–424. https://doi.org/10.1007/978-3-031-20096-0_31

9. Margarov G., Tomeyan G., Pereira M.J.V. Plagiarism detection system for Armenian language // Proc. of the 2017 Computer Science and Information Technologies (CSIT). 2017. P. 185–189. https://doi.org/10.1109/csitechnol.2017.8312168

10. Lupart S., Clinchant S. A study on FGSM adversarial training for neural retrieval // Lecture Notes in Computer Science. 2023. V. 13981. P. 484–492. https://doi.org/10.1007/978-3-031-28238-6_39

11. Du P., Zheng X., Liu L., Ma H. Defending against universal attack via curvature-aware category adversarial training // Proc. of the ICASSP 2022–2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. P. 2470–2474. https://doi.org/10.1109/icassp43922.2022.9746983

12. Wu C., Zhang R., Guo J., De Rijke M., Fan Y., Cheng X. PRADA: Practical black-box adversarial attacks against neural ranking models // ACM Transactions on Information Systems. 2023. V. 41. N 4. P. 1–27. https://doi.org/10.1145/3576923

13. Goldblum M., Tsipras D., Xie C., Chen X., Schwarzschild A., Song D., Madry A., Li B., Goldstein T. Dataset security for machine learning: Data poisoning, backdoor attacks, and defenses // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023. V. 45. N 2. P. 1563–1580. https://doi.org/10.1109/tpami.2022.3162397

14. Ding R., Liu H., Zhou X. IE-Net: Information-enhanced binary neural networks for accurate classification // Electronics. 2022. V. 11. N 6. P. 937. https://doi.org/10.3390/electronics11060937

15. Huang Y., Giledereli B., Köksal A., Özgür A., Ozkirimli E. Balancing methods for multi-label text classification with long-tailed class distribution // Proc. of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. P. 8153–8161. https://doi.org/10.18653/v1/2021.emnlp-main.643

16. Zhang S., Yao H. ACE: An actor ensemble algorithm for continuous control with tree search // Proceedings of the AAAI Conference on Artificial Intelligence. 2019. V. 33. N 01. P. 5789–5796. https://doi.org/10.1609/aaai.v33i01.33015789

17. Antoun W., Baly F., Hajj H. AraBERT: Transformer-based model for Arabic language understanding // arXiv. 2020. arXiv:2003.00104. https://doi.org/10.48550/arXiv.2003.00104

18. Borges L., Martins B., Calado P. Combining similarity features and deep representation learning for stance detection in the context of checking fake news // Journal of Data and Information Quality (JDIQ). 2019. V. 11. N 3. P. 1–26. https://doi.org/10.1145/3287763

19. Wang X., Yang Y., Deng Y., He K. Adversarial training with fast gradient projection method against synonym substitution based text attacks // Proceedings of the AAAI Conference on Artificial Intelligence. 2021. V. 35. N 16. P. 13997–14005. https://doi.org/10.1609/aaai.v35i16.17648

20. Yang X., Qi Y., Chen H., Liu B., Liu W. Generation-based parallel particle swarm optimization for adversarial text attacks // Information Sciences. 2023. V. 644. P. 119237. https://doi.org/10.1016/j.ins.2023.119237

21. Peng H., Wang Z., Zhao D., Wu Y., Han J., Guo S., Ji S., Zhong M. Efficient text-based evolution algorithm to hard-label adversarial attacks on text // Journal of King Saud University — Computer and Information Sciences. 2023. V. 35. N 5. P. 101539. https://doi.org/10.1016/j.jksuci.2023.03.017

22. Hauser J., Meng Z., Pascual D., Wattenhofer R. Bert is robust! A case against word substitution-based adversarial attacks // Proc. of the ICASSP 2023–2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023. P. 1–5. https://doi.org/10.1109/icassp49357.2023.10095991

Рецензия

Для цитирования:

Менисов А.Б., Ломако А.Г., Сабиров Т.Р. Метод тестирования лингвистических моделей машинного обучения текстовыми состязательными примерами. Научно-технический вестник информационных технологий, механики и оптики. 2023;23(5):946-954. https://doi.org/10.17586/2226-1494-2023-23-5-946-954

For citation:

Menisov A.B., Lomako A.G., Sabirov T.R. Method for testing NLP models with text adversarial examples. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2023;23(5):946-954. (In Russ.) https://doi.org/10.17586/2226-1494-2023-23-5-946-954

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Научно-технический вестник информационных технологий, механики и оптики

Метод тестирования лингвистических моделей машинного обучения текстовыми состязательными примерами

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов