Метод определения активного модуля в биологических графах с многокомпонентными весами вершин
https://doi.org/10.17586/2226-1494-2025-25-3-487-497
Аннотация
Введение. Активный модуль в биологических графах представляет собой связанный подграф, вершины которого объединены общей биологической функцией. Для определения активного модуля необходимо сначала построить взвешенный биологический граф. Вес каждой вершины вычисляется на основе биологических экспериментов, исследующих искомую биологическую функцию. Однако результаты одного эксперимента могут не полностью описывать искомый активный модуль, а лишь его часть, внося, например, неопределенность в веса вершин. В работе показано, что использование метода Фишера для объединения данных нескольких экспериментов, а затем применение метода Монте-Карло по схеме марковских цепей (МКМЦ) и машинного обучения к результатам метода Фишера, позволяет более эффективно выделять активные модули в биологических графах.
Метод. В работе используются граф белок-белковых взаимодействий — InWebIM, граф по реконструкции мозга человека из проекта BigBrain и генный граф для вида живых организмов Caenorhabditis elegans. Для объединения результатов нескольких экспериментов в одном графе в единый результат применяется метод Фишера. После этого поиск активных модулей выполняется с использованием метода МКМЦ и машинного обучения. Для валидации предлагаемого метода на реальных данных применяются результаты полногеномного ассоциативного исследования по шизофрении и курению, а также матрица экспрессии генов пациентов с кожной меланомой из проекта The Cancer Genome Atlas.
Основные результаты. Применение метода Фишера позволяет учитывать результаты нескольких биологических экспериментов одновременно. Последующее использование метода МКМЦ и машинного обучения повышает точность определения активных модулей по сравнению с ранжированием вершин графа только на основе метода Фишера.
Обсуждение. Учет результатов нескольких биологических экспериментов при определении активных модулей играет ключевую роль в повышении точности нахождения вершин активного модуля. Это способствует лучшему пониманию биологических механизмов заболеваний, что может иметь важное значение для разработки новых методов диагностики и терапии.
Об авторах
Д. А. УсольцевСоединённые Штаты Америки
Усольцев Дмитрий Андреевич — старший научный сотрудник
Колумбус, 43205, США;
Аспирант
Санкт-Петербург, 197101
sc 57279360300
И. И. Молотков
Соединённые Штаты Америки
Молотков Иван Игоревич — старший научный сотрудник
Колумбус, 43205, США;
Аспирант
Колумбус, 43210, США
sc 58651494600
Н. Н. Артемов
Соединённые Штаты Америки
Артемов Никита Николаевич — кандидат химических наук, доцент, главный исследователь
Колумбус, 43205, США;
профессор педиатрии
Колумбус, 43210, США
sc 36542095500
А. А. Сергушичев
Соединённые Штаты Америки
Сергушичев Алексей Александрович — кандидат технических наук, доцент
Сент-Луис, 63110, США
sc 55772694000
А. А. Шалыто
Соединённые Штаты Америки
Шалыто Анатолий Абрамович — доктор технических наук, профессор, главный научный сотрудник, профессор
Санкт-Петербург, 197101
sc 56131789500
Список литературы
1. Wang S., Wu R., Lu J., Jiang Y., Huang T., Cai Y.D. Protein-protein interaction networks as miners of biological discovery // Proteomics. 2022. V. 22. N 15-16. P. e2100190. https://doi.org/10.1002/pmic.202100190
2. Rao X., Dixon R.A. Co-expression networks for plant biology: why and how // Acta Biochimica et Biophysica Sinica. 2019. V. 51. N 10. P. 981–988. https://doi.org/10.1093/abbs/gmz080
3. Rawls K., Dougherty B.V., Papin J. Metabolic network reconstructions to predict drug targets and off-target effects // Methods in Molecular Biology. 2020. V. 2088. P. 315–330. https://doi.org/10.1007/978-1-0716-0159-4_14
4. Dittrich M.T., Klau G.W., Rosenwald A., Dandekar T., Mller T. Identifying functional modules in protein-protein interaction networks: an integrated exact approach // Bioinformatics. 2008. V. 24. N 13. P. i223–i231. https://doi.org/10.1093/bioinformatics/btn161
5. Zhu Q.M., Hsu Y.H.H., Lassen F.H., MacDonald B.T., Stead S., Malolepsza E., Kim A., Li T., Mizoguchi T., Schenone M., Guzman G., Tanenbaum B., Fornelos N., Carr S.A., Gupta R.M., Ellinor P.T., Lage K. Protein interaction networks in the vasculature prioritize genes and pathways underlying coronary artery disease // Communications Biology. 2024. V. 7. N 1. P. 87. https://doi.org/10.1038/s42003-023-05705-1
6. Nehme R., Pietiläinen O., Artomov M., Tegtmeyer M., Valakh V., Lehtonen L., Bell C., Singh T., Trehan A., Sherwood J. et. al. The 22q11.2 region regulates presynaptic gene-products linked to schizophrenia // Nature Communications. 2022. V. 13. N 1. P. 3690. https://doi.org/10.1038/s41467-022-31436-8
7. Alexeev N., Isomurodov J., Sukhov V., Korotkevich G., Sergushichev A. Markov chain Monte Carlo for active module identification problem // BMC Bioinformatics. 2020. V. 21. Suppl. 6. P. 261. https://doi.org/10.1186/s12859-020-03572-9
8. Усольцев Д.А., Молотков И.И., Артемов Н.Н., Сергушичев А.А., Шалыто А.А. Применение марковских цепей Монте-Карло и машинного обучения для поиска активного модуля в биологических графах // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24. № 6. C. 962–971. https://doi.org/10.17586/2226-1494-2024-24-6-962-971
9. Kim T.K., Park J.H. More about the basic assumptions of t-test: normality and sample size // Korean Journal of Anesthesiology. 2019. V. 72. N 4. P. 331–335. https://doi.org/10.4097/kja.d.18.00292
10. Pounds S., Morris S.W. Estimating the occurrence of false positives and false negatives in microarray studies by approximating and partitioning the empirical distribution of p-values // Bioinformatics. 2003. V. 19. N 10. P. 1236–1242. https://doi.org/10.1093/bioinformatics/btg148
11. Ham H., Park T. Combining p-values from various statistical methods for microbiome data // Frontiers in Microbiology. 2022. V. 13. P. 990870. https://doi.org/10.3389/fmicb.2022.990870
12. Li T., Wernersson R., Hansen R.B., Horn H., Mercer J., Slodkowicz G., Workman C.T., Rigina O., Rapacki K., Stærfeldt H.H., Brunak S., Jensen T.S., Lage K. A scored human protein-protein interaction network to catalyze genomic interpretation // Nature Methods. 2017. V. 14. N 1. P. 61–64. https://doi.org/10.1038/nmeth.4083
13. Rossi R., Ahmed N. The network data repository with interactive graph analytics and visualization // Proc. of the 29th AAAI Conference on Artificial Intelligence. 2015. V. 29. N 1. https://doi.org/10.1609/aaai.v29i1.9277
14. Amunts K., Lepage C., Borgeat L., Mohlberg H., Dickscheid T., Rousseau M.É., Bludau S., Bazin P.L., Lewis L.B., Oros-Peusquens A.M., Shah N.J., Lippert T., Zilles K., Evans A.C. BigBrain: an ultrahigh-resolution 3D human brain model // Science. 2013. V. 340. N 6139. P. 1472–1475. https://doi.org/10.1126/science.1235381
15. Cho A., Shin J., Hwang S., Kim C., Shim H., Kim H., Kim H., Lee I. WormNet v3: a network-assisted hypothesis-generating server for Caenorhabditis elegans // Nucleic Acids Research. 2014. V. 42. N W1. P. W76–W82. https://doi.org/10.1093/nar/gku367
16. Zhu Z., Zhang F., Hu H., Bakshi A., Robinson M.R., Powell J.E., Montgomery G.W., Goddard M.E., Wray N.R., Visscher P.M., Yang J. Integration of summary data from GWAS and eQTL studies predicts complex trait gene targets // Nature Genetics. 2016. V. 48. N 5. P. 481–487. https://doi.org/10.1038/ng.3538
17. Usoltsev D., Molotkov I., Artomov M. A meta-predictor for causal gene identification in GWAS overcomes limitations of existing computational approaches // American Society of Human Genetics (Complex Traits and Polygenic Disorders Poster Friday Session). 2024.
18. Pardiñas A.F., Holmans P., Pocklington A.J., Escott-Price V., Ripke S., Carrera N., Legge S.E., Bishop S., Cameron D., Hamshere M.L., et al. Common schizophrenia alleles are enriched in mutation-intolerant genes and in regions under strong background selection // Nature Genetics. 2018. V. 50. N 3. P. 381–389. https://doi.org/10.1038/s41588-018-0059-2
19. Barbeira A.N., Dickinson S.P., Bonazzola R., Zheng J., Wheeler H.E., Torres J.M., Torstenson E.S., Shah K.P., Garcia T., Edwards T.L., Stahl E.A., Huckins L.M., Nicolae D.L., Cox N.J., Im H.K. Exploring the phenotypic consequences of tissue specific gene expression variation inferred from GWAS summary statistics // Nature Communications. 2018. V. 9. N 1. P. 1825. https://doi.org/10.1038/s41467-018-03621-1
20. Urbut S.M., Wang G., Carbonetto P., Stephens M. Flexible statistical methods for estimating and testing effects in genomic studies with multiple conditions // Nature Genetics. 2019. V. 51. N 1. P. 187–195. https://doi.org/10.1038/s41588-018-0268-8
21. Kolosov N., Daly M.J., Artomov M. Prioritization of disease genes from GWAS using ensemble-based positive-unlabeled learning // European Journal of Human Genetics. 2021. V. 29. N 10. P. 1527–1535. https://doi.org/10.1038/s41431-021-00930-w
22. Lam M., Chen C-Y., Li Z., Martin A.R., Bryois J., Ma X., Gaspar H., Ikeda M., Benyamin B., Brown B.C. et al. Comparative genetic architectures of schizophrenia in East Asian and European populations // Nature Genetics. 2019. V. 51. N 12. P. 1670–1678. https://doi.org/10.1038/s41588-019-0512-x
23. Singh T., Poterba T., Curtis D., Akil H., Al Eissa M., Barchas J.D., Bass N., Bigdeli T.B., Breen G., Bromet E.J. et al. Rare coding variants in ten genes confer substantial risk for schizophrenia // Nature. 2022. V. 604. N 7906. P. 509–516. https://doi.org/10.1038/s41586-022-04556-w
24. Usoltsev D., Kolosov N., Rotar O., Loboda A., Boyarinova M., Moguchaya E., Kolesova E., Erina A., Tolkunova K., Rezapova V., Molotkov I. et al. Complex trait susceptibilities and population diversity in a sample of 4,145 Russians // Nature Communications. 2024. V. 15. N 1. P. 6212. https://doi.org/10.1038/s41467-024-50304-1
25. Usoltsev D., Njauw C.N., Ji Z., Kumar R., Sergushichev A., Zhang S., Shlyakhto E., Daly M.J., Artomov M., Tsao H. Analysis of variants induced by combined ex vivo irradiation and in vivo tumorigenesis suggests a role for the ZNF831 p.R1393Q variant in cutaneous melanoma development // Journal of Investigative Dermatology. 2024. In Press, Corrected Proof. https://doi.org/10.1016/j.jid.2024.08.042
26. Лобода А.А. Метод графовой кластеризации для совместного анализа данных генотипирования и экспрессии генов: диссертация на соискание ученой степени кандидата технических наук. СПб., 2022, 232 с.
27. Subramanian A., Tamayo P., Mootha V.K., Mukherjee S., Ebert B.L., Gillette M.A., Paulovich A., Pomeroy S.L., Golub T.R., Lander E.S., Mesirov J.P. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles // Proc. of the National Academy of Sciences of the United States of America. 2005. V. 102. N 43. P. 15545–15550. https://doi.org/10.1073/pnas.0506580102
Рецензия
Для цитирования:
Усольцев Д.А., Молотков И.И., Артемов Н.Н., Сергушичев А.А., Шалыто А.А. Метод определения активного модуля в биологических графах с многокомпонентными весами вершин. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(3):487-497. https://doi.org/10.17586/2226-1494-2025-25-3-487-497
For citation:
Usoltsev D.A., Molotkov I.I., Artomov M.N., Sergushichev A.A., Shalyto A.A. Method for identifying the active module in biological graphs with multi-component vertex weights. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(3):487-497. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-3-487-497