Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Метод аугментации текстовых данных с сохранением стиля речи и лексики персоны

https://doi.org/10.17586/2226-1494-2023-23-4-743-749

Аннотация

Введение. В настоящее время часто для различных задач обработки естественного языка требуются большие наборы данных. Однако для многих задач сбор большого набора данных является трудоемким, дорогостоящим процессом и требует привлечения экспертов. Увеличение объема информации возможно достичь с использованием методов аугментации данных. Вместе с тем использование классических подходов может привести к включению в корпус данных фраз, которые отличаются по стилю речи и лексикону целевой персоны. Это сопровождается изменением целевого класса и появлением реплик с неестественным использованием лексики и отсутствием смысла. Предложен новый метод аугментации тестовых данных, учитывающий стиль и лексикон персоны. Метод. В работе разработан новый метод аугментации текстовых данных, сохраняющий индивидуальные речевые характеристики и словарный запас. Основная идея метода заключается в формировании индивидуальных шаблонов для каждого человека на основе анализа синтаксических деревьев высказываний и последующего создания новых реплик по сформированным шаблонам. Основные результаты. Метод апробирован на задаче оценки эмоционального состояния пользователя в диалоге. Исследования проведены для датасетов на английском и русском языках. Предложенный метод позволил повысить качество решения этих задач как для английского, так и для русского языков. Получено увеличений значений метрик accuracy и weighted F1 для разных моделей. Обсуждение. Результаты работы могут быть применены для повышения метрик accuracy и weighted F1 моделей, предназначенных для решения различных задач для английского и русского языков.

Об авторах

А. А. Матвеева
Университет ИТМО
Россия

Матвеева Анастасия Андреевна — инженер

sc 57204215042

Санкт-Петербург, 197101



О. В. Махныткина
Университет ИТМО
Россия

Махныткина Олеся Владимировна — кандидат технических наук, доцент

sc 57208002090

Санкт-Петербург, 197101



Список литературы

1. Giridhara P.K., Mishra C., Venkataramana R.K., Bukhari S.S., Dengel A.R. A study of various text augmentation techniques for relation classifcation in free text // Proc. of the 8th International Conference on Pattern Recognition Applications and Methods. 2019. P. 360–367 https://doi.org/10.5220/0007311003600367

2. Papadaki M. Data Augmentation Techniques for Legal Text Analytics: A thesis submitted to Athens University of Economics and Business in fulfllment of the requirements for the degree of Master in Data Science. 2017. 33 p.

3. Zhang Z., Zweigenbaum P. GNEG: Graph-based negative sampling for word2vec // Proc. of the 56th Annual Meeting of the Association for Computational Linguistics. V. 2. 2018. P. 566–571. https://doi.org/10.18653/v1/P18-2090

4. Wei J., Zou K. EDA: Easy data augmentation techniques for boosting performance on text classifcation tasks // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2018. P. 6382–6388. https://doi.org/10.18653/v1/D19-1670

5. Wu X., Xia Y., Zhu J., Wu L., Xie S., Fan Y., Qin T. mixSeq: A simple data augmentation method for neural machine translation // Proc. of the 18th International Conference on Spoken Language Translation (IWSLT 2021). 2021. P. 192–197. https://doi.org/10.18653/v1/2021.iwslt-1.23

6. Kumar V., Choudhary A., Cho E. Data augmentation using pre-trained transformer models // Proc. of the 2nd Workshop on Life-long Learning for Spoken Language Systems. 2020. P. 18–26.

7. Kobayashi S. Contextual augmentation: Data augmentation by words with paradigmatic relations // Proc. of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). 2018. P. 452–457. https://doi.org/10.18653/v1/N18-2072

8. Yu A., Dohan D., Luong M., Zhao R., Chen K., Norouzi M., Le Q. QANet: Combining local convolution with global self-attention for reading comprehension // Proc. of the ICLR Conference. 2018.

9. Mehdi R., Meyer M., Goutal S. Text Data Augmentation: Towards better detection of spear-phishing emails // arXiv. 2020. arXiv:2007.02033. https://doi.org/10.48550/arXiv.2007.02033

10. Edunov S., Ott M., Auli M., Grangier D. Understanding backtranslation at scale // Proc. of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018. P. 489–500. https://doi.org/10.18653/v1/D18-1045

11. Guo H., Mao Y., Zhang R. Augmenting data with mixup for sentence classifcation: An empirical study // arXiv. 2019. arXiv:1905.08941. https://doi.org/10.48550/arXiv.1905.08941

12. Coulombe C. Text data augmentation made simple by leveraging NLP cloud APIs // arXiv. 2018. arXiv:1812.04718. https://doi.org/10.48550/arXiv.1812.04718

13. Shen T., Lei T., Barzilay R., Jaakkola T. Style transfer from nonparallel text by cross-alignment // Advances in Neural Information Processing Systems. 2017. V. 30.

14. Yang S., Huang X., Lau J.H., Erfani S. Robust task-oriented dialogue generation with contrastive pre-training and adversarial fltering // Findings of the Association for Computational Linguistics (EMNLP 2022). 2022. P. 1220–1234.

15. Kovriguina L., Shilin I., Shipilo A., Putintseva A. Russian tagging and dependency parsing models for stanford CoreNLP natural language toolkit // Communications in Computer and Information Science. 2017. V. 786. P. 101–111. https://doi.org/10.1007/978-3-319-69548-8_8

16. Matveev Y., Matveev A., Frolova O., Lyakso E., Ruban N. Automatic speech emotion recognition of younger school age children // Mathematics. 2022. V. 10. N 14. P. 2373. https://doi.org/10.3390/math10142373

17. Lyakso E., Frolova O., Matveev A., Matveev Y., Grigorev A., Makhnytkina O., Ruban N. Recognition of the emotional state of children with down syndrome by video, audio and text modalities: human and automatic // Lecture Notes in Computer Science. 2022. V. 13721. P. 438–450. https://doi.org/10.1007/978-3-031-20980-2_38

18. Kim T., Vossen P. EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa // arXiv. 2021. arXiv:2108.12009. https://doi.org/10.48550/arXiv.2108.12009

19. Song X., Zang L., Zhang R., Hu S., Huang L. Emotionfow: Capture the dialogue level emotion transitions // Proc. of the ICASSP 2022– 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. P. 8542–8546. https://doi.org/10.1109/ICASSP43922.2022.9746464

20. Shen W., Chen J., Quan X., Xie Z. DialogXL: All-in-One XLNet for multi-party conversation emotion recognition // Proceedings of the AAAI Conference on Artifcial Intelligence. 2021. V. 35. N 15. P. 13789–13797 https://doi.org/10.1609/aaai.v35i15.17625

21. Shen W., Wu S., Yang Y., Quan X. Directed acyclic graph network for conversational emotion recognition // Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021. P. 1551–1560.


Рецензия

Для цитирования:


Матвеева А.А., Махныткина О.В. Метод аугментации текстовых данных с сохранением стиля речи и лексики персоны. Научно-технический вестник информационных технологий, механики и оптики. 2023;23(4):743-749. https://doi.org/10.17586/2226-1494-2023-23-4-743-749

For citation:


Matveeva A.A., Makhnytkina O.V. Text augmentation preserving persona speech style and vocabulary. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2023;23(4):743-749. (In Russ.) https://doi.org/10.17586/2226-1494-2023-23-4-743-749

Просмотров: 6


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)