Применение марковских цепей Монте-Карло и машинного обучения для поиска активного модуля в биологических графах
https://doi.org/10.17586/2226-1494-2024-24-6-962-971
Аннотация
Введение. В биологии информация о взаимодействии изучаемых белков или генов может быть представлена в виде биологического графа. Связный подграф, вершины которого выполняют общую биологическую функцию, называется активным модулем. Марковская цепь Монте-Карло (MCMC) — эффективный алгоритм для идентификации активного модуля в биологических графах. В контексте белок-белковых взаимодействий точное нахождение активного модуля позволяет определить, какое нарушение белковой функции приводит к возникновению определенных изменений (например, болезни) в биологической системе (клетке/организме). Показано, что применение MCMC совместно с обучением моделей, учитывающих топологию графа, обеспечивает более высокую точность определения активного модуля.
Метод. В работе независимо используется граф белок-белковых взаимодействий (InWebIM) и сеть функциональных ассоциаций между генами GeneMANIA для обучения модели и сравнения с известным методом на основе MCMC. В качестве методов поиска активного модуля использовалась комбинация из MCMC и метода машинного обучения — градиентного бустинга — xgboost.
Основные результаты. Совместное применение метода на основе MCMC и xgboost повышает точность нахождения активного модуля по сравнению с методом на основе MCMC на симулированных данных.
Обсуждение. Повышение точности поиска активного модуля имеет важное значение для исследования биологических механизмов заболеваний и обнаружения отдельных белков, функционально связанных с возникновением заболеваний.
Об авторах
Д. А. УсольцевСоединённые Штаты Америки
Усольцев Дмитрий Андреевич - аспирант, Санкт-Петербург, 197101;
старший научный сотрудник, Детская больница Нейшенвайд, Колумбус, 43205
И. И. Молотков
Соединённые Штаты Америки
Молотков Иван Игоревич - старший научный сотрудник, Детская больница Нейшенвайд, Колумбус, 43205;
аспирант, Колумбус, 43210
Н. Н. Артемов
Соединённые Штаты Америки
Артемов Никита Николаевич - кандидат химических наук, доцент, главный исследователь, Детская больница Нейшенвайд, Колумбус, 43205;
профессор, Колумбус, 43210
А. А. Сергушичев
Соединённые Штаты Америки
Сергушичев Алексей Александрович - кандидат технических наук, доцент,
Сент-Луис, 63110
А. А. Шалыто
Россия
Шалыто Анатолий Абрамович - доктор технических наук, профессор, главный научный сотрудник, профессор,
Санкт-Петербург, 197101
Список литературы
1. Huber W., Carey V.J., Long L., Falcon S., Gentleman R. Graphs in molecular biology // BMC Bioinformatics. 2007. V. 8. Suppl. 6. P. S8. https://doi.org/10.1186/1471-2105-8-S6-S8
2. Szczepanski A.P., Wang L. Emerging multifaceted roles of BAP1 complexes in biological processes // Cell Death Discovery. 2021. V. 7. N 1. P. 20. https://doi.org/10.1038/s41420-021-00406-2
3. Carbone M., Yang H., Pass H.I., Krausz T., Testa J.R., Gaudino G. BAP1 and cancer // Nature Reviews Cancer. 2013. V. 13. N 3. P. 153– 159. https://doi.org/10.1038/nrc3459
4. Lin J.S., Lai E.M. Protein-protein interactions: Co-Immunoprecipitation // Methods in Molecular Biology. 2017. V. 1615. P. 211–219. https://doi.org/10.1007/978-1-4939-7033-9_17
5. Tamara S., den Boer M.A., Heck A.J.R. High-resolution native mass spectrometry // Chemical Reviews. 2022. V. 122. N 8. P. 7269–7326. https://doi.org/10.1021/acs.chemrev.1c00212
6. Okpara M.O., Hermann C., van der Watt P.J., Garnett S., Blackburn J.M., Leaner V.D. A mass spectrometry-based approach for the identification of Kpnβ1 binding partners in cancer cells // Scientific Reports. 2022. V. 12. N 1. P. 20171. https://doi.org/10.1038/s41598-022-24194-6
7. Li T., Wernersson R., Hansen R.B., Horn H., Mercer J., Slodkowicz G., Workman C.T., Rigina O., Rapacki K., Stærfeldt H.H., Brunak S., Jensen T.S., Lage K. A scored human protein-protein interaction network to catalyze genomic interpretation // Nature Methods. 2017. V. 14. N 1. P. 61–64. https://doi.org/10.1038/nmeth.4083
8. Zhu Q.M., Hsu Y.H., Lassen F.H., MacDonald B.T., Stead S., Malolepsza E., Kim A., Li T., Mizoguchi T., Schenone M., Guzman G., Tanenbaum B., Fornelos N., Carr S.A., Gupta R.M., Ellinor P.T., Lage K. Protein interaction networks in the vasculature prioritize genes and pathways underlying coronary artery disease // Communications Biology. 2024. V. 7. N 1. P. 87. https://doi.org/10.1038/s42003-023-05705-1
9. Nehme R., Pietiläinen O., Artomov M., Tegtmeyer M., Valakh V., Lehtonen L., Bell C., Singh T., Trehan A., Sherwood J., Manning D., Peirent E., Malik R., Guss E.J., Hawes D., Beccard A., Bara A.M., Hazelbaker D.Z., Zuccaro E., Genovese G., Loboda A.A., Neumann A., Lilliehook C., Kuismin O., Hamalainen E., Kurki M., Hultman C.M., Kähler A.K., Paulo J.A., Ganna A., Madison J., Cohen B., McPhie D., Adolfsson R., Perlis R., Dolmetsch R., Farhi S., McCarroll S., Hyman S., Neale B., Barrett L.E., Harper W., Palotie A., Daly M., Eggan K. The 22q11.2 region regulates presynaptic geneproducts linked to schizophrenia // Nature Communications. 2022. V. 13. N 1. P. 3690. https://doi.org/10.1038/s41467-022-31436-8
10. Nguyen H., Shrestha S., Tran D., Shafi A., Draghici S., Nguyen T. A Comprehensive survey of tools and software for active subnetwork identification // Frontiers in Genetics. 2019. V. 10. P. 155. https://doi.org/10.3389/fgene.2019.00155
11. Mitra K., Carvunis A.R., Ramesh S.K., Ideker T. Integrative approaches for finding modular structure in biological networks // Nature Reviews Genetics. 2013. V. 14. N 10. P. 719–732. https://doi.org/10.1038/nrg3552
12. Strauss B.S. Biochemical genetics and molecular biology: The contributions of George Beadle and Edward Tatum // Genetics. 2016. V. 203. N 1. P. 13–20. https://doi.org/10.1534/genetics.116.188995
13. Montecino-Rodriguez E., Casero D., Fice M., Le J., Dorshkind K. Differential expression of PU.1 and key T lineage transcription factors distinguishes fetal and adult T cell development // Journal of Immunology. 2018. V. 200. N 6. P. 2046–2056. https://doi.org/10.4049/jimmunol.1701336
14. Suzuki K., Hatzikotoulas K., Southam L., Taylor H.J., Yin X., Lorenz K.M. et al. Genetic drivers of heterogeneity in type 2 diabetes pathophysiology // Nature. 2024. V. 627. P. 347–357. https://doi.org/10.1038/s41586-024-07019-6
15. Kim T.K., Park J.H. More about the basic assumptions of t-test: normality and sample size // Korean Journal of Anesthesiology. 2019. V. 72. N 4. P. 331–335. https://doi.org/10.4097/kja.d.18.00292
16. Barton S.J., Crozier S.R., Lillycrop K.A., Godfrey K.M., Inskip H.M. Correction of unexpected distributions of P values from analysis of whole genome arrays by rectifying violation of statistical assumptions // BMC Genomics. 2013. N 14. P. 161. https://doi.org/10.1186/1471-2164-14-161
17. Alexeev N., Isomurodov J., Sukhov V., Korotkevich G., Sergushichev A. Markov chain Monte Carlo for active module identification problem // BMC Bioinformatics. 2020. V. 21. Suppl. 6. P. 261. https://doi.org/10.1186/s12859-020-03572-9
18. Dittrich M.T., Klau G.W., Rosenwald A., Dandekar T., Müller T. Identifying functional modules in protein-protein interaction networks: an integrated exact approach // Bioinformatics. 2008. V. 24. N 13. P. i223–i231. https://doi.org/10.1093/bioinformatics/btn161
19. Zhu Z., Zhang F., Hu H., Bakshi A., Robinson M.R., Powell J.E., Montgomery G.W., Goddard M.E., Wray N.R., Visscher P.M., Yang J. Integration of summary data from GWAS and eQTL studies predicts complex trait gene targets // Nature Genetics. 2016. V. 48. N 5. P. 481–487. https://doi.org/10.1038/ng.3538
20. Chen T., Guestrin C. XGBoost: A scalable tree boosting system // Proc. of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. P. 785–794. https://doi.org/10.1145/2939672.2939785
21. Warde-Farley D., Donaldson S.L., Comes O., Zuberi K., Badrawi R., Chao P., Franz M., Grouios C., Kazi F., Lopes C.T., Maitland A., Mostafavi S., Montojo J., Shao Q., Wright G., Bader G.D., Morris Q. The GeneMANIA prediction server: biological network integration for gene prioritization and predicting gene function // Nucleic Acids Research. 2010. V. 38. Suppl. 2. P. W214–W220. https://doi.org/10.1093/nar/gkq537
Рецензия
Для цитирования:
Усольцев Д.А., Молотков И.И., Артемов Н.Н., Сергушичев А.А., Шалыто А.А. Применение марковских цепей Монте-Карло и машинного обучения для поиска активного модуля в биологических графах. Научно-технический вестник информационных технологий, механики и оптики. 2024;24(6):962-971. https://doi.org/10.17586/2226-1494-2024-24-6-962-971
For citation:
Usoltsev D.A., Molotkov I.I., Artomov M.N., Sergushichev A.A., Shalyto A.A. Application of Markov chain Monte Carlo and machine learning for identifying active modules in biological graphs. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2024;24(6):962-971. (In Russ.) https://doi.org/10.17586/2226-1494-2024-24-6-962-971