Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Многомодальный подход к определению депрессии с использованием полуавтоматической разметки данных и детерминированных методов машинного обучения

https://doi.org/10.17586/2226-1494-2025-25-6-1107-1116

Аннотация

   Введение. Исследована актуальная задача автоматического определения психоэмоциональных состояний человека. Научный интерес к исследованиям автоматического многомодального определения депрессии объясняется распространением тревожно-депрессивных расстройств и повышенной, в связи с этим, нагрузкой на первичное звено здравоохранения. Специфичность задачи обусловлена ее комплексностью, недостаточным объемом или неточностью исходных данных, дисбалансом классов. Сравнительные исследования показывают, что результаты классификации с полуавтоматической разметкой данных часто выше, чем при ее полной автоматизации.

   Метод. Предложенный многомодальный подход к определению депрессии сочетает полуавтоматическую разметку данных и детерминированные методы машинного обучения с использованием нескольких наборов признаков. Для обучения моделей применен многомодальный корпус Extended Distress Analysis Interview Corpus (E-DAIC), содержащий аудиозаписи, автоматически полученные из этих аудиозаписей тексты и вычисленные из видеозаписей видеопризнаки, а также аннотации с результатами тестов Patient Health Questionnaire-8 для каждой записи. Полуавтоматическая разметка позволяет получать точные временные метки и тексты высказываний для снижения зашумленности данных, используемых при обучении моделей. В предложенном подходе применяется несколько наборов признаков, извлеченных из трех модальностей (акустические экспертные признаки eGeMAPS и нейросетевые акустические признаки DenseNet, визуальные экспертные признаки OpenFace и текстовые признаки Word2Vec). Их комплексная обработка минимизирует влияние дисбаланса классов в данных на результат классификации.

   Основные результаты. Экспериментальные исследования с использованием преимущественно экспертных признаков (DenseNet, OpenFace, Word2Vec) и детерминированных методов классификации (Catboost), обладающих свойством интерпретируемости результатов, на корпусе E-DAIC позволили получить значения показателей, сопоставимые с современными международными исследованиями (68,0 % и 64,3 % по показателям взвешенной средней F1-меры (Weighted F1-measure) и невзвешенной средней полноты (Unweighted Average Recall) соответственно).

   Обсуждение. Применение полуавтоматического подхода к разметке данных и объединение модальностей позволило улучшить качество разметки и распознавание депрессии по сравнению с одномодальными подходами. Достигнуты более сбалансированные результаты классификации. Применение детерминированных методов классификации на основе деревьев решений позволит в дальнейшем провести анализ результатов классификации за счет интерпретируемости их решений. Для этой цели можно также задействовать другие методы интерпретации, например SHapley Additive exPlanations и Local Interpretable Model-agnostic Explanations.

Об авторах

А. Н. Величко
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Алёна Николаевна Величко, кандидат технических наук, старший научный сотрудник

199178; Санкт-Петербург

sc 57203962694



А. А. Карпов
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Алексей Анатольевич Карпов, доктор технических наук, профессор, руководитель лаборатории

199178; Санкт-Петербург

sc 57219469958



Список литературы

1. Ушаков И.Б., Бубеев Ю.А., Сыркин Л.Д., Карпов А.А., Поляков А.В., Иванов А.В., Усов В.М. Дистанционное телеконсультирование в первичном звене здравоохранения для скрининга тревожно-депрессивных расстройств с контуром обратной связи от пациента // Системный анализ и управление в биомедицинских системах. 2023. Т. 22. № 4. С. 140–153. doi: 10.36622/VSTU.2023.22.4.022

2. Depressive disorder WHO (depression). WHO. 2023 [Электронный ресурс]. URL: https://www.who.int/news-room/fact-sheets/detail/depression (дата обращения: 22. 08. 2025)

3. Wu W., Zhang C., Woodland P.C. Confidence estimation for automatic detection of depression and Alzheimer’s disease based on clinical interviews // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2024. P. 3160–3164. doi: 10.21437/Interspeech.2024-546

4. Braun F., Bayerl S.P., Perez-Toro P.A., Hoenig F., Lehfeld H., Hillemacher T., Noeth E., Bocklet T., Riedhammer K. Classifying dementia in the presence of depression: a cross-corpus study // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2023. P. 2308–2312. doi: 10.21437/Interspeech.2023-1997

5. Brueckner R., Kwon N., Subramanian V., Blaylock N., O’Connell H. Anxiety and Depression Detection using Vocal Biomarkers. Canaryspeech report. 2025. [Электронный ресурс]. URL: https://canaryspeech.com/blog/anxiety-and-depression-detection-using-vocal-biomarkers/ (дата обращения: 22. 08. 2025)

6. Ji J., Dong W., Li J., Peng J., Feng C., Liu R., Shi C., Ma Y. Depressive and mania mood state detection through voice as a biomarker using machine learning // Frontiers in Neurology. 2024. V. 15. P. 1394210. doi: 10.3389/fneur.2024.1394210

7. Ringeval F., Schuller B., Valstar M., Cummins N., Cowie R., Tavabi L., et al. AVEC 2019 Workshop and Challenge: state-of-mind, detecting depression with AI, and cross-cultural affect recognition // Proc. of the 9<sup>th</sup> International on Audio/Visual Emotion Challenge and Workshop. 2019. P. 3–12. doi: 10.1145/3347320.3357688

8. Gratch J., Artstein R., Lucas G., Stratou G., Scherer S., Nazarian A., et al. The Distress Analysis Interview Corpus of Human and Computer Interviews // Proc. of the 9<sup>th</sup> International Conference on Language Resources and Evaluation (LREC’14). 2014. P. 3123–3128.

9. Li Y., Shi S., Yang F., Gao J., Li Y., Tao M., et al. Patterns of comorbidity with anxiety disorders in Chinese women with recurrent major depression // Psychological Medicine. 2012. V. 42. N 6. P. 1239–1248. doi: 10.1017/s003329171100273x

10. Zou B., Han J., Wang Y., Liu R., Zhao S., Feng L., Lyu X., Ma H. Semi-structural interview-based Chinese multimodal depression corpus towards automatic preliminary screening of depressive disorders // IEEE Transactions on Affective Computing. 2022. V. 14. N 4. P. 2823–2838. doi: 10.1109/TAFFC.2022.3181210

11. Campbell E.L., Dineley J., Conde P., Matcham F., White K.M., Oetzmann C., et al. The RADAR-CNS Consortium. Classifying depression symptom severity: Assessment of speech representations in personalized and generalized machine learning models // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2023. P. 1738–1742. doi: 10.21437/Interspeech.2023-1721

12. Fara S., Hickey O., Georgescu A., Goria S., Molimpakis E., Cummins N. Bayesian Networks for the robust and unbiased prediction of depression and its symptoms utilizing speech and multimodal data // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2023. P. 1728–1732. doi: 10.21437/Interspeech.2023-1709

13. Tao F., Esposito A., Vinciarelli A. The androids corpus: a new publicly available benchmark for speech based depression detection // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2023. P. 4149–4153. doi: 10.21437/Interspeech.2023-894

14. Phukan O.C., Jain S., Singh S., Singh M., Budaru A.B., Sarma R. ComFeAT: Combination of neural and spectral features for improved depression detection // arXiv. 2024. arXiv:2406.06774. doi: 10.48550/arXiv.2406.06774

15. Burdisso S., Villatoro-Tello E., Madikeri S., Motlicek P. Node-weighted graph convolutional network for depression detection in transcribed clinical interviews // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2023. P. 3617–3621. doi: 10.21437/interspeech.2023-1923

16. Zhang X., Li C., Chen W., Zheng J., Li F. Optimizing depression detection in clinical doctor-patient interviews using a multi-instance learning framework // Scientific Reports. 2025. V. 15. N 1. P. 6637. doi: 10.1038/s41598-025-90117-w

17. Tank C., Pol S., Katoch V., Meht S., Anand A., Shah R.R. Depression detection and analysis using large language models on textual and audio-visual modalities // arXiv. 2024. arXiv:2407.06125. doi: 10.48550/arXiv.2407.06125

18. Zhang W., Mao K., Chen J. A multimodal approach for detection and assessment of depression using text, audio and video // Phenomics. 2024. V. 4. N 3. P. 234–249. doi: 10.1007/s43657-023-00152-8

19. Zhang X., Liu H., Xu K., Zhang Q., Liu D., Ahmed B., Epps J. When LLMs meet acoustic landmarks: an efficient approach to integrate speech into large language models for depression detection // Proc. of the Conference on Empirical Methods in Natural Language Processing. 2024. P. 146–158. doi: 10.18653/v1/2024.emnlp-main.8

20. Dumpala S.H., Dikaios K., Nunes A., Rudzicz F., Uher R., Oore S. Self-supervised embeddings for detecting individual symptoms of depression // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2024. P. 1450–1454. doi: 10.21437/Interspeech.2024-2344

21. Sadeghi M., Richer R., Egger B., Schindler-Gmelch L., Rupp L.H., Rahimi F., Berking M., Eskofier B.M. Harnessing multimodal approaches for depression detection using large language models and facial expressions // npj Mental Health Research. 2024. V. 3. N 1. P. 66. doi: 10.1038/s44184-024-00112-8

22. Wang J., Ravi V., Flint J., Alwan A. Speechformer-CTC: Sequential modeling of depression detection with speech temporal classification // Speech Communication. 2024. V. 163. P. 103106. doi: 10.1016/j.specom.2024.103106

23. Jin N., Ye R., Li P. Diagnosis of depression based on facial multimodal data // Frontiers in Psychiatry. 2025. V. 16. P. 1508772. doi: 10.3389/fpsyt.2025.1508772

24. Zhou L., Liu Z., Shangguan Z., Yuan X., Li Y., Hu B. JAMFN: Joint attention multi-scale fusion network for depression detection // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2023. P. 3417–3421. doi: 10.21437/Interspeech.2023-183

25. Величко А.Н., Карпов А.А. Подход к распознаванию депрессии по речи человека с использованием полуавтоматической разметки данных // Информационно-управляющие системы. 2024. № 4(131). С. 2–11. doi: 10.31799/1684-8853-2024-4-2-11

26. Litvinova T., Ryzhkova E. RusNeuroPsych: open corpus for study relations between author demographic, personality traits, lateral preferences and affect in text // International journal of Open Information Technologies. 2018. V. 6. N 3. P. 32–36.

27. Stankevich M., Ignatiev N., Smirnov I. Predicting depression with social media images // Proc. of the 9<sup>th</sup> International Conference on Pattern Recognition Applications and Methods ICPRAM. 2020. V. 1. P. 235–240. doi: 10.5220/0009168602350240

28. Stankevich M.A., Smirnov I.V., Kuznetsova Y.M., Kiselnikova N.V., Enikolopov S.N. Predicting depression from essays in Russian // Proc. of the International Conference “Dialogue 2019”. 2019. P. 647–657.

29. Stankevich M., Smirnov I., Kiselnikova N., Ushakova A. Depression detection from social media profiles // Communications in Computer and Information Science. 2020. V. 1223. P. 181–194. doi: 10.1007/978-3-030-51913-1_12

30. Stepanov D., Smirnov A., Ivanov E., Smirnov I., Stankevich M., Danina M. Detection of health-preserving behavior Among VK.com users based on the analysis of graphic, text and numerical data // Lecture Notes in Networks and Systems. 2022. V. 296. P. 574–587. doi: 10.1007/978-3-030-82199-9_39

31. Кисельникова Н., Станкевич М., Данина М., Куминская Е., Лаврова Е. Выявление информативных параметров поведения пользователей социальной сети ВКонтакте как признаков депрессии // Психология. Журнал Высшей школы экономики. 2020. Т. 17. № 1. С. 73–88. doi: 10.17323/1813-8918-2020-1-73-88

32. Huang G., Liu Z., Van Der Maaten L., Weinberger K.Q. Densely connected convolutional networks // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 2261–2269. doi: 10.1109/CVPR.2017.243

33. Baltrusaitis T., Zadeh A., Lim Y.C., Morency L.-P. OpenFace 2.0: facial behavior analysis toolkit // Proc. of the 13<sup>th</sup> IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). 2018. P. 59–66. doi: 10.1109/FG.2018.00019

34. Mikolov T., Sutskever I., Chen K., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality // Advances in Neural Information Processing Systems. 2013. V. 26. P. 1–9.

35. Boersma P. Praat, a system for doing phonetics by computer // Glot International. 2001. N 5. P. 341–345.

36. Величко А.Н., Карпов А.А. Методика и программная система интегрального анализа деструктивных паралингвистических явлений в разговорной речи // Информационно-управляющие системы. 2023. № 4 (125). C. 2–11. doi: 10.31799/1684-8853-2023-4-2-11

37. Gimeno-Gómez D., Bucur A.M., Cosma A., Martínez-Hinarejos C.D., Rosso P. Reading between the frames: multi-modal depression detection in videos from non-verbal cues // Lecture Notes in Computer Science, 2024. V. 14608. P. 191–209. doi: 10.1007/978-3-031-56027-9_12

38. Jaegle A., Gimeno F., Brock A., Zisserman A., Vinyals O., Carreira J. Perceiver: General perception with iterative attention // Proc. of the 38<sup>th</sup> International Conference on Machine Learning. 2021. V. 139. P. 4651–4664.

39. Li Y., Yang X., Zhao M., Wang Z., Yao Y., Qian W., Qi Sh. FPT-Former: A flexible parallel transformer of recognizing depression by using audiovisual expert-knowledge-based multimodal measures // International Journal of Intelligent Systems. 2024. V. 1564574. P. 1–13. doi: 10.1155/2024/1564574

40. Рюмина Е.В., Карпов А.А. Сравнительный анализ методов устранения дисбаланса классов эмоций в видеоданных выражений лиц // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 5. С. 683–691. doi: 10.17586/2226-1494-2020-20-5-683-691


Рецензия

Для цитирования:


Величко А.Н., Карпов А.А. Многомодальный подход к определению депрессии с использованием полуавтоматической разметки данных и детерминированных методов машинного обучения. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(6):1107-1116. https://doi.org/10.17586/2226-1494-2025-25-6-1107-1116

For citation:


Velichko A.N., Karpov A.A. A multimodal approach for depression detection using semi-automatic data annotation and deterministic machine learning methods. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(6):1107-1116. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-6-1107-1116

Просмотров: 59


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)