Классификация пептидных последовательностей с использованием  скрытых марковских моделей, учитывающих отрицательные примеры

В. А. Полежаева; Д. А. Клеверов; А. А. Шалыто; М. Артемов

doi:10.17586/2226-1494-2025-25-5-888-901

Классификация пептидных последовательностей с использованием скрытых марковских моделей, учитывающих отрицательные примеры

В. А. Полежаева, Д. А. Клеверов, А. А. Шалыто, М. Артемов

https://doi.org/10.17586/2226-1494-2025-25-5-888-901

Полный текст:

PDF (Eng)

сгенерировать QR код

Аннотация

Введение. Скрытые марковские модели могут применяться к задаче идентификации ядра связывания пептида с молекулами главного комплекса гистосовместимости, выявляя общие аминокислотные паттерны анализируемых последовательностей. Представлен усовершенствованный подход к решению этой задачи на основе ансамбля скрытых марковских моделей. Ранее предложенный авторами метод адаптирован к задаче классификации пептидов на два класса: связывающиеся и не связывающиеся.

Метод. Разработанный подход включает в себя обучения двух типов моделей: первый тип — обученный с использованием связывающихся пептидов (положительных примеров данных), второй — не связывающихся пептидов (отрицательных примеров данных). Отбор моделей в ансамбль и классификация последовательностей выполнялась на основе оценки условной вероятности между полученными моделями.

Основные результаты. Модифицированная стратегия обучения ансамбля моделей протестирована для шести различных аллелей главного комплекса гистосовместимости с использованием двух архитектур моделей. В первом случае использовалась упрощенная структура с девятью состояниями модели, соответствующими ядру связывания пептида, и двумя состояниями-циклами для аминокислот вне этого ядра. Во втором случае применялась расширенная схема, где состояния-циклы заменялись девятью дополнительными состояниями. Оценка эффективности моделей производилась в сравнении с современным методом MixMHC2pred, в ходе которой обученные модели продемонстрировали статистически значимое повышение точности предсказаний класса пептидов.

Обсуждение. Разработанная стратегия обучения моделей учитывает как связывающиеся, так и не связывающиеся с комплексом пептиды, позволяет повысить точность предсказания класса связывания скрытыми марковскими моделями даже в условиях ограниченного объема положительных данных. Повышение предсказания в этом случае достигается за счет использования фонового распределения аминокислотных последовательностей, полученного из отрицательной выборки.

Ключевые слова

связывание пептидов, скрытые марковские модели, отрицательная выборка, предсказание связывающей способности, предсказание эпитопов, главные комплексы гистосовместимости, связывающие мотивы, машинное обучение

Об авторах

В. А. Полежаева

Университет ИТМО
Россия

Полежаева Валерия Александровна — студент

Санкт-Петербург, 197101

Д. А. Клеверов

Университет Вашингтона в Сент-Луисе. Медицинская Школа. Отдел патологии и иммунологии
Соединённые Штаты Америки

Клеверов Денис Анатольевич — приглашенный научный сотрудник

sc 58741254400

Сент-Луис, 63110

А. А. Шалыто

Университет ИТМО
Россия

Шалыто Анатолий Абрамович — доктор технических наук, профессор, профессор

sc 56131789500

Санкт-Петербург, 197101

М. Артемов

Университет ИТМО; Университет Вашингтона в Сент-Луисе. Медицинская Школа. Отдел патологии и иммунологии
Россия

Артемов Максим — PhD, химические науки, профессор (исследователь), профессор; профессор

sc 9242717500

Санкт-Петербург, 197101

Сент-Луис, 63110

Список литературы

1. Corradin G. Antigen processing and presentation. Immunology Letters, 1990, vol. 25, no. 1–3, pp. 11–13. https://doi.org/10.1016/0165-2478(90)90082-2

2. Abualrous E.T., Sticht J., Freund C. Major histocompatibility complex (MHC) class I and class II proteins: impact of polymorphism on antigen presentation. Current Opinion in Immunology, 2021, vol. 70, pp. 95–104. https://doi.org/10.1016/j.coi.2021.04.009

3. Waldman A.D., Fritz J.M., Lenardo M.J. A guide to cancer immunotherapy: from T cell basic science to clinical practice. Nature Reviews Immunology, 2020, vol. 20, no. 11, pp. 651–668. https://doi.org/10.1038/s41577-020-0306-5

4. Wieczorek M., Abualrous E.T., Sticht J., Alvaro-Benito M., Stolzenberg S., Noé F., Freund C. Major histocompatibility complex (MHC) class I and MHC class II proteins: conformational plasticity in antigen presentation. Frontiers in Immunology, 2017, vol. 8, pp. 292. https://doi.org/10.3389/fimmu.2017.00292

5. Kleverov D.A., Shalyto A.A., Artyomov M.N. A method for constructing interpretable hidden Markov models for the task of identifying binding cores in sequences. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2023, vol. 23, no. 5, pp. 989–1000. (in Russian). https://doi.org/10.17586/2226-1494-2023-23-5-989-1000

6. Gutiérrez S.E., Esteban E.N., Lützelschwab C.M., Juliarena M.A. Major histocompatibility complex-associated resistance to infectious diseases: the case of bovine leukemia virus infection. Trends and Advances in Veterinary Genetics, 2017, pp. 101–126. https://doi.org/10.5772/intechopen.68416

7. Eddy S.R. Profile hidden Markov models. Bioinformatics, 1998, vol. 14, no. 9, pp. 755–763. https://doi.org/10.1093/bioinformatics/14.9.755

8. Alspach E., Lussier D.M., Miceli A.P., Kizhvatov I., DuPage M., Luoma A.M., et al. MHC-II neoantigens shape tumour immunity and response to immunotherapy. Nature, 2019, vol. 574, no. 7780, pp. 696–701. https://doi.org/10.1038/s41586-019-1671-8

9. Kim M.W., Gao W., Lichti C.F., Gu X., Dykstra T., Cao J., et al. Endogenous self-peptides guard immune privilege of the central nervous system. Nature, 2025, vol. 637, no. 8044, pp. 176–183. https://doi.org/10.1038/s41586-024-08279-y

10. Vita R., Blazeska N., Marrama D., Duesing S., Bennett J., Greenbaum J., et al. The Immune Epitope Database (IEDB): 2024 update. Nucleic Acids Research, 2025, vol. 53, no. D1, pp. D436– D443. https://doi.org/10.1093/nar/gkae1092

11. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, 2009, 767 p. https://doi.org/10.1007/978-0-387-84858-7

12. Capietto A.H., Jhunjhunwala S., Pollock S.B., Lupardus P., Wong J., Hänsch L., et al. Mutation position is an important determinant for predicting cancer neoantigens. Journal of Experimental Medicine, 2020, vol. 217, no. 4, pp. e20190179. https://doi.org/10.1084/14.

13. Rahman K.S., Chowdhury E.U., Sachse K., Kaltenboeck B. Inadequate reference datasets biased toward short non-epitopes confound B-cell epitope prediction. The Journal of Biological Chemistry, 2016, vol. 291, no. 28, pp. 14585–14599. https://doi.org/10.1074/jbc.M116.729020

14. Mudge J.M., Carbonell-Sala S., Diekhans M., Martinez J.G., Hunt T., Jungreis I., et al. GENCODE 2025: reference gene annotation for human and mouse. Nucleic Acids Research, 2025, vol. 53, no. D1, pp. D966–D975. https://doi.org/10.1093/nar/gkae1078

15. Forney G.D. The viterbi algorithm. Proceedings of the IEEE, 1973, vol. 61, no. 3, pp. 268–278. https://doi.org/10.1109/proc.1973.9030

16. Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 1989, vol. 77, no. 2, pp. 257–286. https://doi.org/10.1109/5.18626

17. Nielsen M., Lundegaard C., Lund O. Prediction of MHC class II binding affinity using SMM-align, a novel stabilization matrix alignment method. BMC Bioinformatics, 2007, vol. 8, pp. 238. https://doi.org/10.1186/1471-2105-8-238

18. DeLong E.R., DeLong D.M., Clarke-Pearson D.L. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics, 1988, vol. 44, no. 3, pp. 837–845. https://doi.org/10.2307/2531595

19. Sun X., Xu W. Fast implementation of DeLong’s algorithm for comparing the areas under correlated receiver operating characteristic curves. IEEE Signal Processing Letters, 2014, vol. 21, no. 11, pp. 1389–1393. https://doi.org/10.1109/LSP.2014.2337313

20. Virtanen P., Gommers R., Oliphant T.E., Haberland M., Reddy T., Cournapeau D., et al. SciPy 1.0: fundamental algorithms for scientific computing in Python. Nature Methods, 2020, vol. 17, no. 3, pp. 261– 272. https://doi.org/10.1038/s41592-019-0686-2

21. Racle J., Michaux J., Rockinger G.A., Arnaud M., Bobisse S., Chong C., et al. Robust prediction of HLA class II epitopes by deep motif deconvolution of immunopeptidomes. Nature Biotechnology, 2019, vol. 37, no. 11, pp. 1283–1286. https://doi.org/10.1038/s41587-019-0289-6

22. Koşaloğlu-Yalçın Z., Sidney J., Chronister W., Peters B., Sette A. Comparison of HLA ligand elution data and binding predictions reveals varying prediction performance for the multiple motifs recognized by HLA-DQ2.5. Immunology, 2021, vol. 162, no. 2, pp. 235–247. https://doi.org/10.1111/imm.13279jem.20190179

Рецензия

Для цитирования:

Полежаева В.А., Клеверов Д.А., Шалыто А.А., Артемов М. Классификация пептидных последовательностей с использованием скрытых марковских моделей, учитывающих отрицательные примеры. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(5):888-901. https://doi.org/10.17586/2226-1494-2025-25-5-888-901

For citation:

Polezhaeva V.A., Kleverov D.A., Shalyto A.A., Artyomov M. Incorporating negative examples into Hidden Markov Model-based classification of peptide sequences. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(5):888-901. https://doi.org/10.17586/2226-1494-2025-25-5-888-901

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Научно-технический вестник информационных технологий, механики и оптики

Классификация пептидных последовательностей с использованием скрытых марковских моделей, учитывающих отрицательные примеры

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов