Универсальная модель архитектуры краудсорсинговой системы разметки и подготовки медицинских данных
https://doi.org/10.17586/2226-1494-2025-25-5-844-855
Аннотация
конкретной области медицины, а также наличие специализированных инструментов, упрощающих данный процесс и учитывающих специфику обработки медицинских данных. Метод. В работе предложена универсальная архитектурная модель краудсорсинговой системы, специализированной для разметки медицинских данных. Модель поддерживает обработку различных медицинских форматов данных, имеет механизмы анонимизации и многоуровневого контроля качества, позволяет организовать распределенный процесс разметки с привлечением экспертного сообщества. Основные результаты. Приведена классификация актуальных проблем процесса сбора и разметки медицинских данных, сформулированы критерии качества и безопасности для сравнительного анализа систем разметки медицинских данных. Предложена схема обобщенного сценария взаимодействия групп пользователей с краудсорсинговой системой в контексте решения задач искусственного интеллекта в области медицины. Построена универсальная модель архитектуры такой системы. На ее основе реализована специализированная краудсорсинговая система разметки медицинских данных на базе Computer Vision Annotation Tool. Проведено тестирование и апробация реализованной системы кардиохирургами Клиники высоких медицинских технологий им. Н.И. Пирогова Санкт-Петербургского государственного университета. Обсуждение. Предложенная модель архитектуры краудсорсинговой системы может быть использована для повышения эффективности и безопасности организации и построения процесса разметки медицинских данных пациентов при решении различных прикладных задач машинного обучения/искусственного интеллекта, таких как семантическая сегментация внутренних органов и их патологий, детекция и классификация заболеваний по медицинским снимкам (например, компьютерной томографии). Разработанное решение может использоваться врачами различной специализации, исследователями и разработчиками, направленными на развитие и создание методов и технологий искусственного интеллекта в области медицины.
Об авторах
Л. А. КоваленкоРоссия
Коваленко Лев Алексеевич — ведущий программист; ведущий программист
sc 59225183700
Санкт-Петербург, 199034
Санкт-Петербург, 197101
И. С. Блеканов
Россия
Блеканов Иван Станиславович — кандидат технических наук, доцент, заведующий кафедрой
sc 56149559700
Санкт-Петербург, 199034
Ф. В. Ежов
Россия
Ежов Федор Валерьевич — инженер-программист
sc 59224591300
Санкт-Петербург, 199034
Е. С. Ларин
Россия
Ларин Евгений Сергеевич — ведущий аналитик
Санкт-Петербург, 199034
Г. И. Ким
Россия
Ким Глеб Ирламович — кандидат медицинских наук, врач сердечно-сосудистый хирург; доцент
sc 57704764600
Санкт-Петербург, 190020
Санкт-Петербург, 199034
Список литературы
1. Topol E. Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again. Basic Books, 2019. 341 p.
2. Obermeyer Z., Emanuel E.J. Predicting the future — big data, machine learning, and clinical medicine // New England Journal of Medicine. 2016. V. 375. N 13. P. 1216–1219. https://doi.org/10.1056/nejmp1606181
3. Jiang F., Jiang Y., Zhi H., Dong Y., Li H., Ma S., et al. Artificial intelligence in healthcare: past, present and future // Stroke and Vascular Vascular Neurology. 2017. V. 2. N 4. P. 230–243. https://doi.org/10.1136/svn-2017-000101
4. Secinaro S., Calandra D., Secinaro A., Muthurangu V., Biancone P. The role of artificial intelligence in healthcare: a structured literature review // BMC Medical Informatics and Decision Making. 2021. V. 21. N 1. P. 125. https://doi.org/10.1186/s12911-021-01488-9
5. Roh Y., Heo G., Whang S.E. A survey on data collection for machine learning: a big data – Al Integration perspective // IEEE Transactions on Knowledge and Data Engineering. 2021. V. 33. N 4. P. 1328–1347. https://doi.org/10.1109/TKDE.2019.2946162
6. Апанасович К.С., Махныткина О.В., Кабаров В.И., Далевская О.П. RuPersonaChat: корпус диалогов для персонификации разговорных агентов // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24. № 2. С. 214–221. https://doi.org/10.17586/2226-1494-2024-24-2-214-221
7. Shaheen Z., Mouromtsev D.I., Postny I. RuLegalNER: a new dataset for Russian legal named entities recognition. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2023. V. 23. N 4. P. 854–857. https://doi.org/10.17586/2226-1494-2023-23-4-854-857
8. Sayin B., Krivosheev E., Yang J., Passerini A., Casati F. A review and experimental analysis of active learning over crowdsourced data // Artificial Intelligence Review. 2021. V. 54. N 7. P. 5283–5305. https://doi.org/10.1007/s10462-021-10021-3
9. Xintong G., Hongzhi W., Song Y., Hong G. Brief survey of crowdsourcing for data mining // Expert Systems With Application. 2014. V. 41. N 17. P. 7987–7994. https://doi.org/10.1016/j.eswa.2014.06.044
10. Hecht R., Kalla M., Krüger T. Crowd-sourced data collection to support automatic classification of building footprint data // Proc. of the ICA. 2018. V. 1. P. 54. https://doi.org/10.5194/ica-proc-1-54-2018
11. Mnih V., Kavukcuoglu K., Silver D., Rusu A.A., Veness J., Bellemare M.G., et al. Human-level control through deep reinforcement learning // Nature. 2015. V. 518. N 7540. P. 529–533. https://doi.org/10.1038/nature14236
12. Rahmani A.M., Yousefpoor E., Yousefpoor M.S., Mehmood Z., Haider A., Hosseinzadeh M., Naqvi R.A. Machine learning (ML) in medicine: review, applications, and challenges // Mathematics. 2021. V. 9. N 22. P. 2970. https://doi.org/10.3390/math9222970
13. Wang C., Han L., Stein G., Day S., Bien-Gund C, Mathews A., et al. Crowdsourcing in health and medical research: a systematic review // Infectious Diseases of Poverty. 2020. V. 9. N 1. P. 8. https://doi.org/10.1186/s40249-020-0622-9
14. Ellis R.J., Sander R.M., Limon A. Twelve key challenges in medical machine learning and solutions // Intelligence-Based Medicine. 2022. V. 6. P. 100068. https://doi.org/10.1016/j.ibmed.2022.100068
15. Xia H., McKernan B. Privacy in crowdsourcing: a review of the threats and challenges // Computer Supported Cooperative Work (CSCW). 2020. V. 29. N 3. P. 263–301. https://doi.org/10.1007/s10606-020-09374-0
16. Rother A., Niemann U., Hielscher T., Völzke H., Ittermann T., Spiliopoulou M. Assessing the difficulty of annotating medical data in crowdworking with help of experiments // PLOS ONE. 2021. V. 16. N 7. P. e0254764. https://doi.org/10.1371/journal.pone.0254764
17. Ye C., Coco J., Epishova A., Hajaj C., Bogardus H., Novak L., et al. A crowdsourcing framework for medical data sets // AMIA Joint Summits on Translational Science proceedings. 2018. P. 273–280.
18. Kittur A., Nickerson J., Bernstein M., Gerber E., Shaw A., Zimmerman J., et al. The future of crowd work // Proc. of the Conference on Computer Supported Cooperative Work. 2013. P. 1301–1318. https://doi.org/10.1145/2441776.2441923
19. Ørting S.N., Doyle A., van Hilten A., Hirth M., Inel O., Madan C.R., et al. A survey of crowdsourcing in medical image analysis // Human Computation. 2020. V. 7. N 1. P. 1–26. https://doi.org/10.15346/hc.v7i1.1
20. Lu J., Li W., Wang Q., Zhang Y. Research on data quality control of crowdsourcing annotation: a survey // Proc. of the IEEE Intl Conf on Dependable, Autonomic and Secure Computing, Intl Conf on Pervasive Intelligence and Computing, Intl Conf on Cloud and Big Data Computing, Intl Conf on Cyber Science and Technology Congress (DASC/PiCom/CBDCom/CyberSciTech). 2020. P. 201– 208. https://doi.org/10.1109/DASC-PICom-CBDComCyberSciTech49142.2020.00044
21. Lu X., Ratcliffe D., Kao T.-T., Tikhonov A., Litchfield L., Rodger C., Wang K. Rethinking quality assurance for crowdsourced multi-ROI Computation and Crowdsourcing. 2023. V. 11. N 1. P. 103–114. https://doi.org/10.1609/hcomp.v11i1.27552
22. Тесленко Е.В. Искусственный интеллект в медицине. Правовые аспекты // Наука молодых — будущее России: сборник научных статей 8-й Международной научной конференции перспективных разработок молодых ученых. Курск: Университетская книга, 2023. С. 435–438.
23. Hulsen T. Sharing is caring — data sharing initiatives in healthcare // International Journal of Environmental Research and Public Health. 2020. V. 17. N 9. P. 3046. https://doi.org/10.3390/ijerph17093046
24. Sims M.H., Shaw M.H., Gilbertson S., Storch J., Halterman M.W. Legal and ethical issues surrounding the use of crowdsourcing among healthcare providers // Health Informatics Journal. 2019. V. 25. N 4. P. 1618–1630. https://doi.org/10.1177/1460458218796599
25. Mason W., Suri S. Conducting behavioral research on Amazon’s Mechanical Turk // Behavior Research Methods. 2012. V. 44. N 1. P. 1–23. https://doi.org/10.3758/s13428-011-0124-6
26. Buecheler T., Sieg J.H., Füchslin R.M., Pfeifer R. Crowdsourcing, open innovation and collective intelligence in the scientific method: a research agenda and operational framework // Proc. of the 12th International Conference on the Synthesis and Simulation of Living Systems. 2010. P. 679–686.
27. Dortheimer J. Collective intelligence in design crowdsourcing // Mathematics. 2022. V. 10. N 4. P. 539. https://doi.org/10.3390/math10040539
28. Le K.H., Tran T.V., Pham H.H., Nguyen H.T., Le T.T., Nguyen H. Learning from multiple expert annotators for enhancing anomaly detection in medical image analysis // IEEE Access. 2023. V. 11. P. 14105–14114. https://doi.org/10.1109/ACCESS.2023.3243845
29. Petrović N., Moyà-Alcover G., Varona J., Jaume-i-Capó A. Crowdsourcing human-based computation for medical image analysis: a systematic literature review // Health Informatics Journal. 2 0 2 0 . V. 2 6 . N 4 . P. 2 4 4 6 – 2 4 6 9 .https://doi.org/10.1177/1460458220907435
30. Vindas Y., Guépié B.K., Almar M., Roux E., Delachartre P. Semiautomatic data annotation based on feature-space projection and local quality metrics: An application to cerebral emboli characterization // Medical Image Analysis. 2022. V. 79. P. 102437. https://doi.org/10.1016/j.media.2022.102437
31. Philbrick K. A., Weston A.D., Akkus Z., Kline T.L., Korfiatis P., Sakinis T., et al. RIL-Contour: a medical imaging dataset annotation tool for and with deep learning // Journal of Digital Imaging. 2019. V. 32. N 4. P. 571–581. https://doi.org/10.1007/s10278-019-00232-0
32. Li H., Zhang B., Zhang Y., Liu W.W., Mao Y.J., Huang J.C., Wei L.F. A semi-automated annotation algorithm based on weakly supervised learning for medical images // Biocybernetics and Biomedical Engineering. 2020. V. 40. N 2. P. 787–802. https://doi.org/10.1016/j.bbe.2020.03.005
33. Larobina M., Murino L. Medical image file formats // Journal of Digital Imaging. 2014. V. 27. N 2. P. 200–206. https://doi.org/10.1007/s10278-013-9657-9
34. Willemink M.J., Koszek W.A., Hardell C., Wu J., Fleischmann D., Harvey H., et al. Preparing medical imaging data for machine learning // Radiology. 2020. V. 295. N 1. P. 4–15. https://doi.org/10.1148/radiol.2020192224
35. Pfob A., Lu S.-C., Sidey-Gibbons C. Machine learning in medicine: a practical introduction to techniques for data pre-processing, hyperparameter tuning, and model comparison // BMC Medical Research Methodology. 2022. V. 22. N 1. P. 282. https://doi.org/10.1186/s12874-022-01758-8
36. Кондратенко С.С., Коржук В.М. Архитектура системы обработки медицинских данных с учетом требований обеспечения целостности. Сборник тезисов докладов конгресса молодых ученых. 2023. [Электронный ресурс]. URL: https://kmu.itmo.ru/digests/article/11444
37. Васильев Ю.А., Савкина Е.Ф., Владзимирский А.В., Омелянская О.В., Арзамасов К.М. Обзор современных средств разметки цифровых диагностических изображений // Казанский медицинский журнал. 2023. Т. 104. № 5. С. 750–760. https://doi.org/10.17816/KMJ349060
38. Ежов Ф.В., Коваленко Л.А., Разумилов Е.С., Блеканов И.С. Инструменты краудсорсинга для анализа и обработки медицинских изображений в виде снимков КТ // Процессы управления и устойчивость. 2023. Т. 10. № 1. C. 291–297.
39. Saltz J.S., Krasteva I. Current approaches for executing big data science projects — a systematic literature review // PeerJ Computer Science. 2022. V. 8. P. e862. https://doi.org/10.7717/peerj-cs.862
40. Saltz J.S. CRISP-DM for data science: strengths, weaknesses and potential next steps // Proc. of the IEEE International Conference on Big Data. 2021. P. 2337–2344. https://doi.org/10.1109/bigdata52589.2021.9671634
41. Saltz J., Hotz N. Factors that influence the selection of a data science process management methodology: an exploratory study // Proc. of the 54th Hawaii International Conference on System Sciences. 2021. P. 949–958. https://doi.org/10.24251/hicss.2021.116
42. Zhao X., Zhang P., Song F., Fan G.D., Sun Y.Y., Wang Y.J., et al. D2A U-Net: Automatic segmentation of COVID-19 CT slices based on dual attention and hybrid dilated convolution // Computers in Biology and Medicine. 2021. V. 135. P. 104526. https://doi.org/10.1016/j.compbiomed.2021.104526
43. Xie Y., Padgett J., Biancardi A.M., Reeves A.P. Automated aorta segmentation in low-dose chest CT images // International Journal of Computer Assisted Radiology and Surgery. 2014. V. 9. N 2. P. 211–219. https://doi.org/10.1007/s11548-013-0924-5
44. Ким Г.И., Блеканов И.С., Ежов Ф.В., Коваленко Л.А., Ларин Е.С., Разумилов Е.С. [и др.] Методы искусственного интеллекта в сердечно-сосудистой хирургии и диагностика патологии аорты и аортального клапана (обзор литературы) // Сибирский журнал клинической и экспериментальной медицины. 2024. Т. 39. № 2. С. 36–45. https://doi.org/10.29001/2073-8552-2024-39-2-36-45
45. Gao R., Zhao S., Aishanjiang K., Cai H., Wei T., Zhang Y.C., et al. Deep learning for differential diagnosis of malignant hepatic tumors based on multi-phase contrast-enhanced CT and clinical data // Journal of Hematology & Oncology. 2021. V. 14. N 1. P. 154. https://doi.org/10.1186/s13045-021-01167-2
46. Chen P.-T., Wu T.H., Wang P.C., Chang D.W., Liu K.L., Wu M.S., et al. Pancreatic cancer detection on CT scans with deep learning: a nationwide population-based study // Radiology. 2023. V. 306. N 1. P. 172–182. https://doi.org/10.1148/radiol.220152
47. Zhou H., Li L., Liu Z., Zhao K., Chen X., Lu M., et al. Deep learning algorithm to improve hypertrophic cardiomyopathy mutation prediction using cardiac cine images // European Radiology. 2021. V. 31. N 6. P. 3931–3940. https://doi.org/10.1007/s00330-020-07454-9
Рецензия
Для цитирования:
Коваленко Л.А., Блеканов И.С., Ежов Ф.В., Ларин Е.С., Ким Г.И. Универсальная модель архитектуры краудсорсинговой системы разметки и подготовки медицинских данных. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(5):844-855. https://doi.org/10.17586/2226-1494-2025-25-5-844-855
For citation:
Kovalenko L.A., Blekanov I.S., Ezhov F.V., Larin E.S., Kim G.I. A universal architecture model of a crowdsourcing medical data labeling system designed. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(5):844-855. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-5-844-855
 
                    
 
                                                 






























 
             
  Послать статью по эл. почте
            Послать статью по эл. почте