Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Метод построения интерпретируемых скрытых марковских моделей для задачи поиска связываемых участков пептидов в последовательностях белков

https://doi.org/10.17586/2226-1494-2023-23-5-989-1000

Аннотация

Введение. Решение задачи предсказания иммунного ответа организма на чужеродные фрагменты белковых последовательностей, обработанные клеткой, является ключевым этапом разработки персонализированных вакцин от рака. Отбор пептидов, участвующих в иммунном ответе, представляет собой сложный многоступенчатый процесс фильтрации исходных последовательностей для презентации их фрагментов на поверхности клетки. Наиболее изученной является задача предсказания одного из этапов такой фильтрации — вероятности связывания пептидов с молекулами главного комплекса гистосовместимости. Современные методы предсказания данного этапа обычно основаны на алгоритмах, использующих искусственные нейронные сети, что не позволяет в должной мере интерпретировать результаты работы моделей. Одним из методов решения проблемы является использование интерпретируемых скрытых марковских моделей. В работе выполнен анализ задачи предсказания связывающей способности и предложен метод построения интерпретируемых моделей, учитывающих ограничения и требования предметной области. Метод. Разработан метод построения, обучения и интерпретации скрытых марковских моделей для каждого класса молекул. Построение и обучение моделей основано на поддержании архитектуры модели, способной извлекать и визуализировать связываемый участок пептида. Интерпретация возможна благодаря анализу графа модели. Основные результаты. Предложенный метод протестирован в задаче обучения модели, позволяющей помимо предсказания получать позицию связываемого участка пептида и распределение аминокислот в нем. Обучены модели предсказания для двух разновидностей молекул с использованием данных связывания. Распределения аминокислот связываемого участка совпадают с распределениями состояний модели. Паттерны последовательностей участков, извлеченные с помощью обученных моделей для двух наборов пептидных данных, соответствуют паттернам из открытых источников, что подтверждает успешную апробацию метода. Обсуждение. Интерпретируемые модели лучше описывают предметную область задачи и помогают сделать выводы о характеристиках пептидов, основываясь на информации, извлеченной из модели. Эта информация позволит исследователям лучше понять остальные шаги процессинга пептидов при иммунном ответе: изучить взаимосвязи между ними и произвести перенос знаний из моделей, обученных для одного этапа, на другие. Таким образом, предлагаемый метод построения позволит обучать модели в условиях недостатка обучающих данных.

Об авторах

Д. А. Клеверов
Университет ИТМО
Россия

Клеверов Денис Анатольевич — аспирант,

Санкт-Петербург, 197101



А. А. Шалыто
Университет ИТМО
Россия

Шалыто Анатолий Абрамович — доктор технических наук, профессор

sc 56131789500

Санкт-Петербург, 197101



М. Артемов
Университет ИТМО ; Университет Вашингтона в Сент-Луисе. Медицинская Школа. Отдел патологии и иммунологии
Россия

Артемов Максим — PhD, химические науки, профессор (исследователь), профессор

sc 9242717500

Санкт-Петербург, 197101

Сент-Луис, 63110



Список литературы

1. Chen D.S., Mellman I. Oncology meets immunology: The cancer- immunity cycle // Immunity. 2013. V. 39. N 1. P. 1–10. https://doi.org/10.1016/j.immuni.2013.07.012

2. Matsushita H., Vesely M.D., Koboldt D.C., Rickert C.G., Uppaluri R., Magrini V.J., Arthur C.D., White J.M., Chen Y.-S., Shea L.K., Hundal J., Wendl M.C., Demeter R., Wylie T., Allison J.P., Smyth M.J., Old L.J., Mardis E.R., Schreiber R.D. Cancer exome analysis reveals a T-cell-dependent mechanism of cancer immunoediting // Nature. 2012. V. 482. N 7385. P. 400–404. https://doi.org/10.1038/nature10755

3. Corradin G. Antigen processing and presentation // Immunology Letters. 1990. V. 25. N 1–3. P. 11–13. https://doi.org/10.1016/0165-2478(90)90082-2

4. Waldman A.D., Fritz J.M., Lenardo M.J. A guide to cancer immunotherapy: from T cell basic science to clinical practice // Nature Reviews Immunology. 2020. V. 20. N 11. P. 651–668. https://doi.org/10.1038/s41577-020-0306-5

5. Ott P.A., Hu Z., Keskin D.B., Shukla S.A. et al. An immunogenic personal neoantigen vaccine for patients with melanoma // Nature. 2017. V. 547. N 7662. P. 217–221. https://doi.org/10.1038/nature22991

6. Alspach E., Lussier D.M., Miceli A.P., Kizhvatov I., DuPage M., Luoma A.M., Meng W., Lichti C.F., Esaulova E., Vomund A.N., Runci D., Ward J.P., Gubin M.M., Medrano R.F.V., Arthur C.D., White J.M., Sheehan K.C.F., Chen A., Wucherpfennig K.W., Jacks T., Unanue E.R., Artyomov M.N., Schreiber R.D. MHC-II neoantigens shape tumour immunity and response to immunotherapy // Nature. 2019. V. 574. N 7780. P. 696–701. https://doi.org/10.1038/s41586-019-1671-8

7. Reynisson B., Alvarez B., Paul S., Peters B., Nielsen M. NetMHCpan-4.1 and NetMHCIIpan-4.0: improved predictions of MHC antigen presentation by concurrent motif deconvolution and integration of MS MHC eluted ligand data // Nucleic Acids Research. 2020. V. 48. N W1. P. 449–454. https://doi.org/10.1093/nar/gkaa379

8. O’Donnell T.J., Rubinsteyn A., Laserson U. MHCflurry 2.0: Improved pan-allele prediction of MHC class I-presented peptides by incorporating antigen processing // Cell Systems. 2020. V. 11. N 1. P. 42–48. https://doi.org/10.1016/j.cels.2020.06.010

9. Phloyphisut P., Pornputtapong N., Sriswasdi S., Chuangsuwanich E. MHCSeqNet: a deep neural network model for universal MHC binding prediction // BMC Bioinformatics. 2019. V. 20. N 1. P. 270. https://doi.org/10.1186/s12859-019-2892-4

10. Shao X.M., Bhattacharya R., Huang J., Sivakumar I.K.A., Tokheim C., Zheng L., Hirsch D., Kaminow B., Omdahl A., Bonsack M., Riemer A.B., Velculescu V.E., Anagnostou V., Pagel K.A., Karchin R. High-throughput prediction of MHC class I and II neoantigens with MHCnuggets // Cancer Immunology Research. 2020. V. 8. N 3. P. 396–408. https://doi.org/10.1158/2326-6066.cir-19-0464

11. Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition // Proceedings of the IEEE. 1989. V. 77. N 2. P. 257–286. https://doi.org/10.1109/5.18626

12. Ревзин Л.М., Фильченков А.А., Тулупьев А.Л. Представление многозначных линейных по структуре скрытых марковских мо- делей в виде алгебраических байесовских сетей // Труды СПИИРАН. 2012. Т. 1. № 20. С. 186–199. https://doi.org/10.15622/sp.20.10

13. Eddy S.R. Profile hidden Markov models // Bioinformatics. 1998. V. 14. N9. P. 755–763. http://doi.org/10.1093/bioinformatics/14.9.755

14. Bui H.-H., Sidney J., Peters B., Sathiamurthy M., Sinichi A., Purton K.-A., Mothé B.R., Chisari F.V., Watkins D.I., Sette A. Automated generation and evaluation of specific MHC binding predictive tools: ARB matrix applications // Immunogenetics. 2005. V. 57. N 5. P. 304–314. https://doi.org/10.1007/s00251-005-0798-y

15. Sarkizova S., Klaeger S., Le P.M., Li L.W., Oliveira G., Keshishian H., Hartigan C.R., Zhang W., Braun D.A., Ligon K.L., Bachireddy P., Zervantonakis I.K., Rosenbluth J.M., Ouspenskaia T., Law T., Justesen S., Stevens J., Lane W.J., Eisenhaure T., Zhang G.L., Clauser K.R., Hacohen N., Carr S.A., Wu C.J., Keskin D.B. A large peptidome dataset improves HLA class I epitope prediction across most of the human population // Nature Biotechnology. 2020. V. 38. N 2. P. 199–209. https://doi.org/10.1038/s41587-019-0322-9

16. Gomez-Perosanz M., Ras-Carmona A., Reche P.A. PCPS: A web server to predict proteasomal cleavage sites // Methods in Molecular Biology. 2020. V. 2131. P. 399–406. https://doi.org/10.1007/978-1-0716-0389-5_23

17. Schmidt J., Smith A.R., Magnin M., Racle J., Devlin J.R., Bobisse S., Cesbron J., Bonnet V., Carmona S.J., Huber F., Ciriello G., Speiser D.E., Bassani-Sternberg M., Coukos G., Baker B.M., Harari A., Gfeller D. Prediction of neo-epitope immunogenicity reveals TCR recognition determinants and provides insight into immunoediting // Cell Reports Medicine. 2021. V. 2. N 2. P. 100194. https://doi.org/10.1016/j.xcrm.2021.100194

18. Capietto A.H., Jhunjhunwala S., Pollock S.B., Lupardus P., Wong J., Hänsch L., Cevallos J., Chestnut Y., Fernandez A., Lounsbury N., Nozawa T., Singh M., Fan Z., de la Cruz C.C., Phung Q.T., Taraborrelli L., Haley B., Lill J.R., Mellman I., Bourgon R., Delamarre L. Mutation position is an important determinant for predicting cancer neoantigens // Journal of Experimental Medicine. 2020. V. 217. N 4. P. e20190179. https://doi.org/10.1084/jem.20190179

19. Andreatta M., Karosiene E., Rasmussen M., Stryhn A., Buus S., Nielsen M. Accurate pan-specific prediction of peptide-MHC class II binding affinity with improved binding core identification // Immunogenetics. 2015. V. 67. N 11–12. P. 641–650. https://doi.org/10.1007/s00251-015-0873-y

20. Punt J., Stranford S., Jones P., Owen J.A. Kuby Immunology. New York: Macmillan Education, 2019. 994 p.

21. Dendrou C.A., Petersen J., Rossjohn J., Fugger L. HLA variation and disease // Nature Reviews Immunology. 2018. V. 18. N 5. P. 325–339. https://doi.org/10.1038/nri.2017.143

22. Robinson J., Halliwell J.A., Hayhurst J.D., Flicek P., Parham P., Marsh S.G.E. The IPD and IMGT/HLA database: allele variant databases // Nucleic Acids Research. 2015. V. 43. N D1. P. D423– D431. https://doi.org/10.1093/nar/gku1161

23. Тулупьев А.Л., Николенко С.И., Сироткин А.В. Основы теории байесовских сетей. СПб.: Изд-во С.-Петерб. ун-та, 2019. P. 399.

24. Ng S.K., Krishnan T., McLachlan G.J. The EM algorithm // Handbook of Computational Statistics. 2012. P. 139–172. https://doi.org/10.1007/978-3-642-21551-3_6

25. Forney G.D. The viterbi algorithm // Proceedings of the IEEE. 1973. V. 61. N 3. P. 268–278. https://doi.org/10.1109/proc.1973.9030

26. Tareen A., Kinney J.B. Logomaker: beautiful sequence logos in Python // Bioinformatics. 2020. V. 36. N 7. P. 2272–2274. https://doi.org/10.1093/bioinformatics/btz921

27. Vita R., Mahajan S., Overton J.A., Dhanda S.K., Martini S., Cantrell J.R., Wheeler D.K., Sette A., Peters B. The immune epitope database (IEDB): 2018 update // Nucleic Acids Research. 2019. V. 47. N D1. P. D339–D343. https://doi.org/10.1093/nar/gky1006

28. Rapin N., Hoof I., Lund O., Nielsen M. MHC motif viewer // Immunogenetics. 2008. V. 60. N 12. P. 759–765. https://doi.org/10.1007/s00251-008-0330-2

29. Berman H.M. The protein data bank // Nucleic Acids Research. 2000. V. 28. N 1. P. 235–242. https://doi.org/10.1093/nar/28.1.235

30. Andreatta M., Lund O., Nielsen M. Simultaneous alignment and clustering of peptide data using a Gibbs sampling approach // Bioinformatics. 2013. V. 29. N 1. P. 8–14. https://doi.org/10.1093/bioinformatics/bts621

31. van Balen P., Kester M.G.D., de Klerk W., Crivello P., Arrieta- Bolaños E., de Ru A.H., Jedema I., Mohammed Y., Heemskerk M.H.M., Fleischhauer K., van Veelen P.A., Falkenburg J.H.F. Immunopeptidome analysis of HLA-DPB1 allelic variants reveals new functional hierarchies // The Journal of Immunology. 2020. V. 204. N 12. P. 3273–3282. https://doi.org/10.4049/jimmunol.2000192

32. Koşaloğlu-Yalçın Z., Sidney J., Chronister W., Peters B., Sette A. Comparison of HLA ligand elution data and binding predictions reveals varying prediction performance for the multiple motifs recognized by HLA-DQ2.5 // Immunology. 2021. V. 162. N 2. P. 235– 247. https://doi.org/10.1111/imm.13279

33. Kawashima S., Kanehisa M. AAindex: Amino Acid index database // Nucleic Acids Research. 2000. V. 28. N 1. P. 374–374. https://doi.org/10.1093/nar/28.1.374


Рецензия

Для цитирования:


Клеверов Д.А., Шалыто А.А., Артемов М. Метод построения интерпретируемых скрытых марковских моделей для задачи поиска связываемых участков пептидов в последовательностях белков. Научно-технический вестник информационных технологий, механики и оптики. 2023;23(5):989-1000. https://doi.org/10.17586/2226-1494-2023-23-5-989-1000

For citation:


Kleverov D.A., Shalyto A.A., Artyomov M.N. A method for constructing interpretable hidden Markov models for the task of identifying binding cores in sequences. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2023;23(5):989-1000. (In Russ.) https://doi.org/10.17586/2226-1494-2023-23-5-989-1000

Просмотров: 6


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)