Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Многозадачное обучение на основе префиксов для устойчивого текстового поиска

https://doi.org/10.17586/2226-1494-2024-24-6-1016-1023

Аннотация

Введение. Экспоненциальный рост цифровой информации требует устойчивых методов текстового поиска, поскольку большинство методов направлено на решение конкретной задачи или домена, что ограничивает их использование. Решением в таком случае могут являться многозадачные модели, требующие использования методов разделения задач. Многие исследования изучают многозадачное обучение для улучшения обобщения и фокусируются на больших моделях. Вместе с тем в реальных задачах речевой аналитики, требующих поиска среди сотен миллионов векторов в реальном времени, более подходящими становятся модели меньшего размера.

Метод. В работе представлен новый подход к повышению устойчивости многозадачных моделей текстового поиска на основе префиксов. Применяется контрастное обучение как для многозадачных, так и однозадачных моделей-энкодеров. Выполнено сравнение моделей на устойчивость и проанализирована эффективность различных стратегий использования подсказок, включая жесткие, представленные явными инструкциями на естественном языке (инструктивные префиксы), и мягкие подсказки разной длины, представленные специальными токенами модели (обучаемые префиксы) разной длины. Эксперименты выполнены с применением подсказок как к запросу и кандидату, так и отдельно к запросам, для повторного использования предварительно закодированных кандидатов в многозадачном поиске без значительной потери качества.

Основные результаты. Проведено сравнение полученных результатов по метрикам R@1, R@5 и MRR, являющимися наиболее применимыми для оценки поисковых моделей внутри и вне домена обучения. Однозадачные модели показали себя лучше при работе с данными в пределах домена обучения. Многозадачные модели продемонстрировали лучшую применимость на данных вне домена обучения, что подчеркивает их повышенную устойчивость к его смене. Для сохранения этого свойства в данной работе рассмотрено применение префиксов к обоим элементам — запросу и документу, что обеспечивает лучшую устойчивость, чем их обособленное применение к запросу. Обучаемые префиксы оказались более предпочтительными по сравнению с инструктивными, поскольку они лучше адаптируют модель к различным доменам.

Обсуждение. Результаты исследования могут быть полезны для улучшения моделей текстового поиска, особенно в сценариях, связанных с многозадачными системами, где требуется высокая адаптивность и производительность на новых данных. Обучаемые префиксы могут быть эффективным инструментом повышения устойчивости моделей в различных приложениях, таких как информационный поиск и системы вопросов-ответов.

Об авторах

С. М. Маслюхин
Университет ИТМО; ООО «ЦРТ-инновации»
Россия

Маслюхин Сергей Михайлович - инженер, Санкт-Петербург, 197101;

ведущий научный сотрудник, Санкт-Петербург, 194044



П. А. Посохов
Университет ИТМО; ООО «ЦРТ-инновации»
Россия

Посохов Павел Александрович - аспирант, программист, Санкт-Петербург, 197101;

научный сотрудник, Санкт-Петербург, 194044



С. С. Скрыльников
ООО «ЦРТ-инновации»
Россия

Скрыльников Степан Сергеевич - магистр, младший научный сотрудник, 

Санкт-Петербург, 194044



О. В. Махныткина
Университет ИТМО
Россия

Махныткина Олеся Владимировна - кандидат технических наук, доцент, доцент,

Санкт-Петербург, 197101



Т. Ю. Ивановская
Университет ИТМО
Россия

Ивановская Татьяна Юрьевна - преподаватель,

Санкт-Петербург, 197101



Список литературы

1. Hambarde K.A., Proença H. Information retrieval: recent advances and beyond // IEEE Access. 2023. V. 11. P. 76581–76604. https://doi.org/10.1109/access.2023.3295776

2. Zhang W., Xiong C., Stratos K., Overwijk A. Improving multitask retrieval by promoting task specialization // Transactions of the Association for Computational Linguistics. 2023. V. 11. P. 1201– 1212. https://doi.org/10.1162/tacl_a_00597

3. Muennighoff N., Tazi N., Magne L., Reimers N. MTEB: Massive Text Embedding Benchmark // Proc. of the 17th Conference of the European Chapter of the Association for Computational Linguistics. 2023. P. 2014–2037. https://doi.org/10.18653/v1/2023.eacl-main.148

4. Thakur N., Reimers N., Rücklé A., Srivastava A., Gurevych I. BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models // Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021. P. 105.

5. Muennighoff N., Su H., Wang L., Yang N., Wei F., Yu T., Singh A., Kiela D. Generative representational instruction tuning // arXiv. 2024. arXiv:2402.09906. https://doi.org/10.48550/arXiv.2402.09906

6. Reimers N., Gurevych I. Sentence-BERT: Sentence embeddings using siamese BERT-Networks. Sentence-BERT // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 3982–3992. https://doi.org/10.18653/v1/d19-1410

7. Wang L., Yang N., Huang X., Jiao B., Yang L., Jiang D., Majumder R., Wei F. Text embeddings by weakly-supervised contrastive pretraining // arXiv. 2024. arXiv:2212.03533. https://doi.org/10.48550/arXiv.2212.03533

8. Chen T., Zhang M., Lu J., Bendersky M., Najork M. Out-of-Domain semantics to the rescue! Zero-shot hybrid retrieval models // Lecture Notes in Computer Science. 2022. V. 13185. P. 95–110. https://doi.org/10.1007/978-3-030-99736-6_7

9. Ruder S. An overview of multi-task learning in deep neural networks // arXiv. 2017. arXiv:1706.05098. https://doi.org/10.48550/arXiv.1706.05098

10. Maillard J., Karpukhin V., Petroni F., Yih W., Oğuz B., Stoyanov V., Ghosh G. Multi-task retrieval for knowledge-intensive tasks // Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Vol. 1. 2021. P. 1098–1111. https://doi.org/10.18653/v1/2021.acl-long.89

11. Su H., Shi W., Kasai J., Wang Y., Hu Y., Ostendorf M., Yih W., Smith N.A., Zettlemoyer L., Yu T. One embedder, any task: Instruction-finetuned text embeddings // Findings of the Association for Computational Linguistics: ACL 2023. 2023. P. 1102–1121. https://doi.org/10.18653/v1/2023.findings-acl.71

12. Li X.L., Liang P. Prefix-tuning: Optimizing continuous prompts for generation // Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Vol. 1. 2021. P. 4582–4597. https://doi.org/10.18653/v1/2021.acl-long.353

13. Matveev Y., Makhnytkina O., Posokhov P., Matveev A., Skrylnikov S. Personalizing hybrid-based dialogue agents // Mathematics. 2022. V. 10. N 24. P. 4657. https://doi.org/10.3390/math10244657

14. Posokhov P., Apanasovich K., Matveeva A., Makhnytkina O., Matveev A. Personalizing dialogue agents for Russian: Retrieve and refine // Proc. of the 31st Conference of Open Innovations Association (FRUCT). 2022. P. 245–252. https://doi.org/10.23919/fruct54823.2022.9770895

15. Posokhov P., Matveeva A., Makhnytkina O., Matveev A., Matveev Y. Personalizing retrieval-based dialogue agents // Lecture Notes in Computer Science. 2022. V. 13721. P. 554–566. https://doi.org/10.1007/978-3-031-20980-2_47

16. Wang L., Yang N., Huang X., Yang L., Majumder R., Wei F. Improving text embeddings with large language models // Proc. of the 62nd Annual Meeting of the Association for Computational Linguistics. Vol. 1. 2024. P. 11897–11916. https://doi.org/10.18653/v1/2024.acl-long.642

17. Xu L., Xie H., Qin S.-Z.J., Tao X., Wang F.L. Parameter-efficient fine-tuning methods for pretrained language models: A critical review and assessment // arXiv. 2023. arXiv:2312.12148. https://doi.org/10.48550/arXiv.2312.12148


Рецензия

Для цитирования:


Маслюхин С.М., Посохов П.А., Скрыльников С.С., Махныткина О.В., Ивановская Т.Ю. Многозадачное обучение на основе префиксов для устойчивого текстового поиска. Научно-технический вестник информационных технологий, механики и оптики. 2024;24(6):1016-1023. https://doi.org/10.17586/2226-1494-2024-24-6-1016-1023

For citation:


Masliukhin S.M., Posokhov P.A., Skrylnikov S.S., Makhnytkina O.V., Ivanovskaya T.Yu. Prompt-based multi-task learning for robust text retrieval. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2024;24(6):1016-1023. https://doi.org/10.17586/2226-1494-2024-24-6-1016-1023

Просмотров: 10


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)