Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Применение марковских цепей Монте-Карло и машинного обучения для поиска активного модуля в биологических графах

https://doi.org/10.17586/2226-1494-2024-24-6-962-971

Аннотация

Введение. В биологии информация о взаимодействии изучаемых белков или генов может быть представлена в виде биологического графа. Связный подграф, вершины которого выполняют общую биологическую функцию, называется активным модулем. Марковская цепь Монте-Карло (MCMC) — эффективный алгоритм для идентификации активного модуля в биологических графах. В контексте белок-белковых взаимодействий точное нахождение активного модуля позволяет определить, какое нарушение белковой функции приводит к возникновению определенных изменений (например, болезни) в биологической системе (клетке/организме). Показано, что применение MCMC совместно с обучением моделей, учитывающих топологию графа, обеспечивает более высокую точность определения активного модуля.

Метод. В работе независимо используется граф белок-белковых взаимодействий (InWebIM) и сеть функциональных ассоциаций между генами GeneMANIA для обучения модели и сравнения с известным методом на основе MCMC. В качестве методов поиска активного модуля использовалась комбинация из MCMC и метода машинного обучения — градиентного бустинга — xgboost.

Основные результаты. Совместное применение метода на основе MCMC и xgboost повышает точность нахождения активного модуля по сравнению с методом на основе MCMC на симулированных данных.

Обсуждение. Повышение точности поиска активного модуля имеет важное значение для исследования биологических механизмов заболеваний и обнаружения отдельных белков, функционально связанных с возникновением заболеваний.

Об авторах

Д. А. Усольцев
Университет ИТМО; Институт геномной медицины
Соединённые Штаты Америки

Усольцев Дмитрий Андреевич - аспирант, Санкт-Петербург, 197101;

старший научный сотрудник, Детская больница Нейшенвайд, Колумбус, 43205



И. И. Молотков
Институт геномной медицины; Медицинский колледж Университета штата Огайо
Соединённые Штаты Америки

Молотков Иван Игоревич - старший научный сотрудник, Детская больница Нейшенвайд, Колумбус, 43205;

аспирант, Колумбус, 43210



Н. Н. Артемов
Институт геномной медицины; Медицинский колледж Университета штата Огайо
Соединённые Штаты Америки

Артемов Никита Николаевич - кандидат химических наук, доцент, главный исследователь, Детская больница Нейшенвайд, Колумбус, 43205;

профессор, Колумбус, 43210



А. А. Сергушичев
Университет Вашингтона в Сент-Луисе
Соединённые Штаты Америки

Сергушичев Алексей Александрович - кандидат технических наук, доцент, 

Сент-Луис, 63110



А. А. Шалыто
Университет ИТМО
Россия

Шалыто Анатолий Абрамович - доктор технических наук, профессор, главный научный сотрудник, профессор,

Санкт-Петербург, 197101



Список литературы

1. Huber W., Carey V.J., Long L., Falcon S., Gentleman R. Graphs in molecular biology // BMC Bioinformatics. 2007. V. 8. Suppl. 6. P. S8. https://doi.org/10.1186/1471-2105-8-S6-S8

2. Szczepanski A.P., Wang L. Emerging multifaceted roles of BAP1 complexes in biological processes // Cell Death Discovery. 2021. V. 7. N 1. P. 20. https://doi.org/10.1038/s41420-021-00406-2

3. Carbone M., Yang H., Pass H.I., Krausz T., Testa J.R., Gaudino G. BAP1 and cancer // Nature Reviews Cancer. 2013. V. 13. N 3. P. 153– 159. https://doi.org/10.1038/nrc3459

4. Lin J.S., Lai E.M. Protein-protein interactions: Co-Immunoprecipitation // Methods in Molecular Biology. 2017. V. 1615. P. 211–219. https://doi.org/10.1007/978-1-4939-7033-9_17

5. Tamara S., den Boer M.A., Heck A.J.R. High-resolution native mass spectrometry // Chemical Reviews. 2022. V. 122. N 8. P. 7269–7326. https://doi.org/10.1021/acs.chemrev.1c00212

6. Okpara M.O., Hermann C., van der Watt P.J., Garnett S., Blackburn J.M., Leaner V.D. A mass spectrometry-based approach for the identification of Kpnβ1 binding partners in cancer cells // Scientific Reports. 2022. V. 12. N 1. P. 20171. https://doi.org/10.1038/s41598-022-24194-6

7. Li T., Wernersson R., Hansen R.B., Horn H., Mercer J., Slodkowicz G., Workman C.T., Rigina O., Rapacki K., Stærfeldt H.H., Brunak S., Jensen T.S., Lage K. A scored human protein-protein interaction network to catalyze genomic interpretation // Nature Methods. 2017. V. 14. N 1. P. 61–64. https://doi.org/10.1038/nmeth.4083

8. Zhu Q.M., Hsu Y.H., Lassen F.H., MacDonald B.T., Stead S., Malolepsza E., Kim A., Li T., Mizoguchi T., Schenone M., Guzman G., Tanenbaum B., Fornelos N., Carr S.A., Gupta R.M., Ellinor P.T., Lage K. Protein interaction networks in the vasculature prioritize genes and pathways underlying coronary artery disease // Communications Biology. 2024. V. 7. N 1. P. 87. https://doi.org/10.1038/s42003-023-05705-1

9. Nehme R., Pietiläinen O., Artomov M., Tegtmeyer M., Valakh V., Lehtonen L., Bell C., Singh T., Trehan A., Sherwood J., Manning D., Peirent E., Malik R., Guss E.J., Hawes D., Beccard A., Bara A.M., Hazelbaker D.Z., Zuccaro E., Genovese G., Loboda A.A., Neumann A., Lilliehook C., Kuismin O., Hamalainen E., Kurki M., Hultman C.M., Kähler A.K., Paulo J.A., Ganna A., Madison J., Cohen B., McPhie D., Adolfsson R., Perlis R., Dolmetsch R., Farhi S., McCarroll S., Hyman S., Neale B., Barrett L.E., Harper W., Palotie A., Daly M., Eggan K. The 22q11.2 region regulates presynaptic geneproducts linked to schizophrenia // Nature Communications. 2022. V. 13. N 1. P. 3690. https://doi.org/10.1038/s41467-022-31436-8

10. Nguyen H., Shrestha S., Tran D., Shafi A., Draghici S., Nguyen T. A Comprehensive survey of tools and software for active subnetwork identification // Frontiers in Genetics. 2019. V. 10. P. 155. https://doi.org/10.3389/fgene.2019.00155

11. Mitra K., Carvunis A.R., Ramesh S.K., Ideker T. Integrative approaches for finding modular structure in biological networks // Nature Reviews Genetics. 2013. V. 14. N 10. P. 719–732. https://doi.org/10.1038/nrg3552

12. Strauss B.S. Biochemical genetics and molecular biology: The contributions of George Beadle and Edward Tatum // Genetics. 2016. V. 203. N 1. P. 13–20. https://doi.org/10.1534/genetics.116.188995

13. Montecino-Rodriguez E., Casero D., Fice M., Le J., Dorshkind K. Differential expression of PU.1 and key T lineage transcription factors distinguishes fetal and adult T cell development // Journal of Immunology. 2018. V. 200. N 6. P. 2046–2056. https://doi.org/10.4049/jimmunol.1701336

14. Suzuki K., Hatzikotoulas K., Southam L., Taylor H.J., Yin X., Lorenz K.M. et al. Genetic drivers of heterogeneity in type 2 diabetes pathophysiology // Nature. 2024. V. 627. P. 347–357. https://doi.org/10.1038/s41586-024-07019-6

15. Kim T.K., Park J.H. More about the basic assumptions of t-test: normality and sample size // Korean Journal of Anesthesiology. 2019. V. 72. N 4. P. 331–335. https://doi.org/10.4097/kja.d.18.00292

16. Barton S.J., Crozier S.R., Lillycrop K.A., Godfrey K.M., Inskip H.M. Correction of unexpected distributions of P values from analysis of whole genome arrays by rectifying violation of statistical assumptions // BMC Genomics. 2013. N 14. P. 161. https://doi.org/10.1186/1471-2164-14-161

17. Alexeev N., Isomurodov J., Sukhov V., Korotkevich G., Sergushichev A. Markov chain Monte Carlo for active module identification problem // BMC Bioinformatics. 2020. V. 21. Suppl. 6. P. 261. https://doi.org/10.1186/s12859-020-03572-9

18. Dittrich M.T., Klau G.W., Rosenwald A., Dandekar T., Müller T. Identifying functional modules in protein-protein interaction networks: an integrated exact approach // Bioinformatics. 2008. V. 24. N 13. P. i223–i231. https://doi.org/10.1093/bioinformatics/btn161

19. Zhu Z., Zhang F., Hu H., Bakshi A., Robinson M.R., Powell J.E., Montgomery G.W., Goddard M.E., Wray N.R., Visscher P.M., Yang J. Integration of summary data from GWAS and eQTL studies predicts complex trait gene targets // Nature Genetics. 2016. V. 48. N 5. P. 481–487. https://doi.org/10.1038/ng.3538

20. Chen T., Guestrin C. XGBoost: A scalable tree boosting system // Proc. of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. P. 785–794. https://doi.org/10.1145/2939672.2939785

21. Warde-Farley D., Donaldson S.L., Comes O., Zuberi K., Badrawi R., Chao P., Franz M., Grouios C., Kazi F., Lopes C.T., Maitland A., Mostafavi S., Montojo J., Shao Q., Wright G., Bader G.D., Morris Q. The GeneMANIA prediction server: biological network integration for gene prioritization and predicting gene function // Nucleic Acids Research. 2010. V. 38. Suppl. 2. P. W214–W220. https://doi.org/10.1093/nar/gkq537


Рецензия

Для цитирования:


Усольцев Д.А., Молотков И.И., Артемов Н.Н., Сергушичев А.А., Шалыто А.А. Применение марковских цепей Монте-Карло и машинного обучения для поиска активного модуля в биологических графах. Научно-технический вестник информационных технологий, механики и оптики. 2024;24(6):962-971. https://doi.org/10.17586/2226-1494-2024-24-6-962-971

For citation:


Usoltsev D.A., Molotkov I.I., Artomov M.N., Sergushichev A.A., Shalyto A.A. Application of Markov chain Monte Carlo and machine learning for identifying active modules in biological graphs. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2024;24(6):962-971. (In Russ.) https://doi.org/10.17586/2226-1494-2024-24-6-962-971

Просмотров: 18


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)