Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Оптимизация моделей дистилляции знаний для языковых моделей

https://doi.org/10.17586/2226-1494-2025-25-4-737-743

Аннотация

   Введение. Обсуждается проблема оптимизации больших нейронных сетей на примере языковых моделей. Размеры больших языковых моделей являются препятствием для их практического применения в условиях ограниченных объемов вычислительных ресурсов и памяти. Одним из развиваемых направлений сжатия моделей больших нейронных сетей служит дистилляция знаний — передача знаний от большой модели учителя к меньшей модели ученика без существенной потери точности результата. Известные в настоящее время методы дистилляции знаний имеют определенные недостатки: неточная передача знаний, долгий процесс обучения, накапливание ошибки в длинных последовательностях.

   Метод. Предлагаются методы, способствующие повышению качества дистилляции знаний применительно к языковым моделям: выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация. Первый подход основан на передаче токенов учителя при обучении ученика на слои нейронной сети, для которых достигается экспоненциально убывающий порог измерений расхождения между распределениями вероятностей учителя и ученика. Второй подход предлагает уменьшение количества параметров в нейронной сети путем замены полносвязных слоев на низкоранговые, что позволяет снизить риск переобучения и ускорить процесс обучения. Показаны ограничения каждого метода при работе с длинными последовательностями. Предложено комбинировать методы для получения усовершенствованной модели классической дистилляции знаний для длинных последовательностей.

   Основные результаты. Применение комбинированного подхода к дистилляции знаний на длинных последовательностях позволило значительно сжать результирующую модель с небольшой потерей качества, а также ощутимо снизить затрачиваемую память GPU и время вывода ответа.

   Обсуждение. Взаимодополняющие подходы к оптимизации процесса передачи знаний и сжатию моделей показали лучшие результаты, чем выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация по отдельности. Таким образом, качество ответов усовершенствованной модели классической дистилляции знаний на длинных последовательностях показало 97 % качества полной донастройки и 98 % качества метода низкоранговой адаптации по показателям ROGUE-L и Perplexity, при учете того, что количество обучаемых параметров снижается на 99 % по сравнению с полной донастройкой и на 49 % в сравнении с низкоранговой адаптацией. Кроме того, использование памяти GPU в сравнении с этими же методами уменьшается на 75 % и 30 % соответственно, а время вывода ответа на 30 %. Предложенная комбинация методов дистилляции знаний может найти применение в задачах с ограниченными вычислительными ресурсами.

Об авторах

Т. М. Татарникова
Санкт-Петербургский государственный университет аэрокосмического приборостроения
Россия

Татьяна Михайловна Татарникова, доктор технических наук, профессор, директор института

институт информационных технологий и программирования

190000; Санкт-Петербург

sc 36715607400



Н. С. Мокрецов
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина)
Россия

Никита Сергеевич Мокрецов, аспирант

197022; Санкт-Петербург

sc 57821230900



Список литературы

1. Дудихин В.В., Кондрашов П.Е. Методология использования больших языковых моделей для решения задач государственного и муниципального управления по интеллектуальному реферированию и автоматическому формированию текстового контента // Государственное управление. Электронный вестник. 2024. № 105. C. 169–179. doi: 10.55959/MSU2070-1381-105-2024-169-179

2. Кузнецов А.В. Цифровая история и искусственный интеллект: перспективы и риски применения больших языковых моделей // Новые информационные технологии в образовании и науке. 2022. № 5. С. 53–57. doi: 10.17853/2587-6910-2022-05-53-57

3. Мокрецов Н.С., Татарникова Т.М. Алгоритм оптимизации моделей нейронных сетей для обработки текста на естественном языке // Прикладной искусственный интеллект: перспективы и риски : Сборник докладов Международной научной конференции. 2024. C. 280–282.

4. Houlsby N., Giurgiu A., Jastrzebski S., Morrone B., Laroussilhe Q., Gesmundo A., Attariyan M., Gelly S. Parameter-efficient transfer learning for NLP // Proc. of the 36<sup>th</sup> International Conference on Machine Learning. 2019. V. 97. P. 2790–2799.

5. Liao B., Meng Y., Monz C. Parameter-efficient fine-tuning without introducing new latency // Proc. of the 61<sup>st</sup> Annual Meeting of the Association for Computational Linguistics. 2023. V. 1. P. 4242–4260. doi: 10.18653/v1/2023.acl-long.233

6. Lv K., Yang Y., Liu T., Guo Q., Qiu X. Full parameter fine-tuning for large language models with limited resources // Proc. of the 62<sup>nd</sup> Annual Meeting of the Association for Computational Linguistics. 2024. V. 1. P. 8187–8198. doi: 10.18653/v1/2024.acllong.445

7. Khurana A., Subramonyam H., Chilana P.K. Why and when LLM-based assistants can go wrong: investigating the effectiveness of prompt-based interactions for software help-seeking // Proc. of the 29<sup>th</sup> International Conference on Intelligent User Interfaces. 2024. P. 288–303. doi: 10.1145/3640543.3645200

8. Мокрецов Н.С., Татарникова Т.М. Оптимизация процесса обучения при ограниченном объеме вычислительных ресурсов // Международная конференция по мягким вычислениям и измерениям. 2024. Т. 1. C. 205–208.

9. Ouyang L., Wu J., Jiang X., Almeida D., Wainwright C., Mishkin P., Zhang C., Agarwal S., Slama K., Ray A., et al. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems. 2022. V. 35. P. 27730–27744.

10. Borgeaud S., Mensch A., Hoffmann J., Cai T., Rutherford E., Millican K., et al. Improving language models by retrieving from trillions of tokens // Proc. of the 39<sup>th</sup> International Conference on Machine Learning. 2022. P. 2206–2240.

11. Белякова А.Ю., Беляков Ю.Д. Обзор задачи автоматической суммаризации текста // Инженерный вестник Дона. 2020. № 10 (70). C. 142–159.

12. Швыров В.В., Капустин Д.А., Кущенко А.В., Сентяй Р.Н. Дообучение больших языковых моделей с использованием техники LoRA для решения задач статического анализа программного кода // Вестник Луганского государственного университета имени Владимира Даля. 2023. № 12 (78). C. 210–215.

13. Liu Z., Lin W., Shi Y., Zhao J. A robustly optimized BERT pre-training approach with post-training // Lecture Notes in Computer Science. 2021. V. 12869. P. 471–484. doi: 10.1007/978-3-030-84186-7_31

14. Jiao X., Yin Y., Shang L., Jiang X., Chen X., Li L., Wang F., Liu Q. TinyBERT: distilling BERT for natural language understanding // Findings of the Association for Computational Linguistics: EMNLP. 2020. P. 4163–4174. doi: 10.18653/v1/2020.findingsemnlp.372


Рецензия

Для цитирования:


Татарникова Т.М., Мокрецов Н.С. Оптимизация моделей дистилляции знаний для языковых моделей. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(4):737-743. https://doi.org/10.17586/2226-1494-2025-25-4-737-743

For citation:


Tatarnikova T.M., Mokretsov N.S. Optimizing knowledge distillation models for language models. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(4):737-743. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-4-737-743

Просмотров: 56


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)