Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Улучшение вопросно-ответных систем в области программирования с дообучением языковых моделей на структурированных разнородных данных онлайн-форумов

https://doi.org/10.17586/2226-1494-2024-24-6-1024-1034

Аннотация

Введение. Тематические вопросно-ответные онлайн-форумы предметных сообществ, такие как Stack Overflow, сегодня становятся незаменим инструментом разработчиков программного обеспечения. Форумы обеспечивают быстрый и эффективный поиск решений и оперативный отклик сообщества. Современные большие языковые модели, обучаемые, в том числе, на данных таких форумов, обладают потенциалом для автоматизации ответов на тематические вопросы. Но часто языковые модели демонстрируют существенную ограниченность в сложных областях, таких как программирование из-за разнородности области и контекстов задаваемых вопросов.

Метод. В работе представлен подход к решению проблемы разнородных данных на основе структурирования данных сложной предметной области. На первом этапе предлагается декомпозиция доступных данных форумов с выделением тематических подмножеств. Далее, для отдельных тематик происходит дообучение моделей, применяя обучение с подкреплением с человеческой обратной связью (Reinforcement Learning with Human Feedback, RLHF) с использованием пользовательских оценок доступных в данных. Для управления ансамблем дообученных моделей используется классификация вопросов с последующим выбором соответствующей модели.

Основные результаты. Экспериментальные исследования были проведены на подмножестве вопросов, связанных с Python, из Stack Overflow, с использованием модели Llama 7B в качестве базовой языковой модели. Результаты исследований показали, что путем классификации вопросов возможно повысить производительность модели до +22,5 % по метрике Rouge. Кроме того, включение RLHF привело к дополнительному улучшению до +11,2 %. Для валидации этих результатов выполнена экспертная оценка сгенерированных ответов, которая подтвердила эффективность представленного подхода.

Обсуждение. Исследование показывает, что путем структурирования данных онлайн-форумов и обработки неявной обратной связи возможно значительно улучшить производительность больших языковых моделей в таких сложных областях, характеризующихся высокой неоднородностью, как разработка программного обеспечения.

Об авторах

А. В. Горбатовский
Университет ИТМО
Россия

Горбатовский Алексей Валерьевич - студент,

Санкт-Петербург, 197101



А. Д. Разин
Университет ИТМО
Россия

Разин Александр Дмитриевич - студент,

Санкт-Петербург, 197101



А. А. Алиев
Санкт-Петербургский государственный университет
Россия

Алиев Артем Александрович - старший преподаватель,

Санкт-Петербург, 199034



С. В. Ковальчук
Университет ИТМО
Россия

Ковальчук Сергей Валерьевич - кандидат технических наук, доцент,

Санкт-Петербург, 197101



Список литературы

1. Koubaa A., Boulila W., Ghouti L., Alzahem A., Latif S. Exploring ChatGPT capabilities and limitations: A survey // IEEE Access. 2023. V. 11. P. 118698–118721. https://doi.org/10.1109/access.2023.3326474

2. Dave T., Athaluri S.A., Singh S. ChatGPT in medicine: an overview of its applications, advantages, limitations, future prospects, and ethical considerations // Frontiers in Artificial Intelligence. 2023. V. 6. https://doi.org/10.3389/frai.2023.1169595

3. Hadi M.U., Tashi Q.A., Qureshi R., Shah A., Muneer A., Irfan M., Zafar A., Shaikh M.B., Akhtar N., Hassan S.Z., Shoman M., Wu J., Mirjalili S., Shah M. Large language models: a comprehensive survey of its applications, challenges, limitations, and future prospects // Authorea Preprints. 2023.

4. Bird C., Ford D., Zimmermann T., Forsgren N., Kalliamvakou E., Lowdermilk T., Gazit I. Taking Flight with Copilot: Early insights and opportunities of AI-powered pair-programming tools // Queue. 2022. V. 20. N 6. P. 35–57. https://doi.org/10.1145/3582083

5. Ernst N.A., Bavota G. AI-Driven Development Is Here: Should You Worry? // IEEE Software. 2022. V. 39. N 2. P. 106–110. https://doi.org/10.1109/ms.2021.3133805

6. Liang J.T., Yang C., Myers B.A. A large-scale survey on the usability of AI programming assistants: successes and challenges // Proc. Of the 46th IEEE/ACM International Conference on Software Engineering (ICSE ‘24). 2024. P. 605–617. https://doi.org/10.1145/3597503.3608128

7. Roy P.K., Saumya S., Singh J.P., Banerjee S., Gutub A. Analysis of community question-answering issues via machine learning and deep learning: State-of-the-art review // CAAI Transactions on Intelligence Technology. 2023. V. 8. N 1. P. 95–117. https://doi.org/10.1049/cit2.12081

8. Blanco G., Pérez-López R., Fdez-Riverola F., Lourenço A.M.G. Understanding the social evolution of the Java community in Stack Overflow: A 10-year study of developer interactions // Future Generation Computer Systems. 2020. V. 105. P. 446–454. https://doi.org/10.1016/j.future.2019.12.021

9. Beyer S., Macho C., Di Penta M., Pinzger M. What kind of questions do developers ask on Stack Overflow? A comparison of automated approaches to classify posts into question categories // Empirical Software Engineering. 2020. V. 25. N 3. P. 2258–2301. https://doi.org/10.1007/s10664-019-09758-x

10. Yuan S., Qin H., Gu X., Shen B. Clean and learn: Improving robustness to spurious solutions in API question answering // International Journal of Software Engineering and Knowledge Engineering. 2022. V. 32. N 7. P. 1101–1123. https://doi.org/10.1142/s0218194022500449

11. Kovalchuk S., Lomshakov V., Aliev A. Human perceiving behavior modeling in evaluation of code generation models // Proc. of the 2nd Workshop on Natural Language Generation, Evaluation, and Metrics (GEM). 2022. P. 287–294. https://doi.org/10.18653/v1/2022.gem-1.24

12. Nakano R., Hilton J., Balaji S., Wu J., Ouyang L., Kim C., Hesse C., Jain S., Kosaraju V., Saunders W., Jiang X., Cobbe K., Eloundou T., Krueger G., Button K., Knight M., Chess B., Schulman J. WebGPT: Browser-assisted question-answering with human feedback // arXiv. 2022. arXiv:2112.09332. 2021. https://doi.org/10.48550/arXiv.2112.09332

13. Casper S., Davies X., Shi C. Open problems and fundamental limitations of reinforcement learning from human feedback // arXiv. 2023. arXiv:2307.15217. https://doi.org/10.48550/arXiv.2307.15217

14. Gorbatovski A., Kovalchuk S. Bayesian networks for named entity prediction in programming community question answering // Lecture Notes in Computer Science. 2023. V. 14074. P. 282–289. https://doi.org/10.1007/978-3-031-36021-3_28

15. Rvanova L., Kovalchuk S. Automatic structuring of topics for natural language generation in community question answering in programming domain // Lecture Notes in Computer Science. 2023. V. 14074. P. 322–329. https://doi.org/10.1007/978-3-031-36021-3_33

16. Hu E.J., Shen Y., Wallis P., Allen-Zhu Z., Li Y., Wang S., Wang L., Chen W. LoRA: Low-rank adaptation of large language models // International Conference on Learning Representations (ICLR). 2022.

17. Stiennon N., Ouyang L., Wu J., Ziegler D.M., Lowe R., Voss C., Radford A., Amodei D., Christiano P. Learning to summarize from human feedback // Advances in Neural Information Processing Systems. 2020. V. 33. P. 3008–3021.

18. Ouyang L., Wu J., Jiang X., Almeida D., Wainwright C.L., Mishkin P., Zhang C., Agarwal S., Slama K., Ray A., Schulman J., Hilton J., Kelton F., Miller L., Simens M., Askell A., Welinder P., Christiano P., Leike J., Lowe R. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems. 2022. V. 35. P. 27730–27744.

19. Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal policy optimization algorithms // arXiv. 2017. arXiv:1707.06347. https://doi.org/10.48550/arXiv.1707.06347

20. Zhou C., Liu P., Xu P., Iyer S., Sun J., Mao Y., Ma X., Efrat A., Yu P., Yu L., Zhang S., Ghosh G., Lewis M., Zettlemoyer L., Levy O. LIMA: Less Is More for Alignment // arXiv. 2023. arXiv:2305.11206. https://doi.org/10.48550/arXiv.2305.11206

21. Achiam J., Adler S., Agarwal S. et. al. GPT-4 Technical Report // arXiv. 2023. arXiv:2303.08774. https://doi.org/10.48550/arXiv.2303.08774

22. Hunter D.R. MM algorithms for generalized Bradley-Terry models // Annals of Statistics. 2003. V. 32. N 1. P. 384–406. https://doi.org/10.1214/aos/1079120141

23. Sorokin N., Abulkhanov D., Piontkovskaya I., Malykh V. Ask me anything in your native language // Proc. of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2022. P. 395–406. https://doi.org/10.18653/v1/2022.naacl-main.30

24. Lee H., Phatale S., Mansoor H., Mesnard T., Ferret J., Lu K., Bishop C., Hall E., Carbune V., Rastogi A., Prakash S. RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback // arXiv. 2023. arXiv:2309.00267. https://doi.org/10.48550/arXiv.2309.00267

25. Askell A., Bai Y., Chen A. et al. A general language assistant as a laboratory for alignment // arXiv. 2021. arXiv:2112.00861. https://doi.org/10.48550/arXiv.2112.00861

26. Dong X., Shen J. Triplet loss in siamese network for object tracking // Lecture Notes in Computer Science. 2018. V. 11217. P. 472–488. https://doi.org/10.1007/978-3-030-01261-8_28

27. Wang L., Yang N., Huang X., Jiao B., Yang L., Jiang D., Majumder R., Wei F. Text embeddings by weakly-supervised contrastive pretraining // arXiv. 2022. arXiv:2212.03533. https://doi.org/10.48550/arXiv.2212.03533

28. Wang Y., Wang W., Joty S., Hoi S.C.H. CodeT5: Identifier-aware unified pre-trained encoder-decoder models for code understanding and generation // Proc. of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. P. 8696–8708. https://doi.org/10.18653/v1/2021.emnlp-main.685

29. Song K., Tan X., Qin T., Lu J., Liu T.-Y.et al. MPNet: Masked and permuted pre-training for language understanding // Advances in Neural Information Processing Systems. 2020. V. 33. P. 16857–16867.

30. Touvron H., Lavril T., Izacard G., Martinet X., Lachaux M.-A., Lacroix T., Rozière B., Goyal N., Hambro E., Azhar F., Rodriguez A., Joulin A., Grave E., Lample G. LLaMA: Open and efficient foundation language models // arXiv. 2023. arXiv:2302.13971. https://doi.org/10.48550/arXiv.2302.13971

31. Lin C.-Y. ROUGE: A Package for automatic evaluation of summaries // Text Summarization Branches Out. 2004. P. 74–81.

32. Post M. A Call for Clarity in Reporting BLEU Scores // Proc. of the Third Conference on Machine Translation: Research Papers 2018. P. 186–191. https://doi.org/10.18653/v1/w18-6319

33. Zhang T., Kishore V., Wu F., Weinberger K.Q., Artzi Y. BERTScore: Evaluating Text Generation with BERT // International Conference on Learning Representations (ICLR). 2020.

34. Popović M. chrF++: words helping character n-grams // Proc. of the Second Conference on Machine Translation. Copenhagen, Denmark: Association for Computational Linguistics, 2017. P. 612–618. https://doi.org/10.18653/v1/w17-4770

35. Artstein R., Poesio M. Inter-Coder Agreement for Computational Linguistics // Computational Linguistics. 2008. V. 34. N 4. P. 555– 596. https://doi.org/10.1162/coli.07-034-r2


Рецензия

Для цитирования:


Горбатовский А.В., Разин А.Д., Алиев А.А., Ковальчук С.В. Улучшение вопросно-ответных систем в области программирования с дообучением языковых моделей на структурированных разнородных данных онлайн-форумов. Научно-технический вестник информационных технологий, механики и оптики. 2024;24(6):1024-1034. https://doi.org/10.17586/2226-1494-2024-24-6-1024-1034

For citation:


Gorbatovski A.V., Razin A.D., Aliev A.A., Kovalchuk S.V. Improving question answering in programming domain with pretrained language model finetuning using structured diverse online forum data. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2024;24(6):1024-1034. https://doi.org/10.17586/2226-1494-2024-24-6-1024-1034

Просмотров: 12


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)