Моделирование многомерных данных с помощью композитных байесовских сетей
https://doi.org/10.17586/2226-1494-2024-24-4-608-614
Аннотация
Введение. Представлен новый подход к моделированию нелинейных зависимостей, названный композитными байесовскими сетями. Основной акцент сделан на интеграции моделей машинного обучения в байесовские сети с сохранением их основополагающих принципов. Новизна предложенного подхода состоит в том, что он позволяет решить проблему несоответствия данных традиционным предположениям о зависимостях. Метод. Представленный подход заключается в подборе разнообразных моделей машинного обучения на этапе обучения композитных байесовских сетей. Это позволяет гибко настраивать характер зависимостей в соответствии с требованиями и продиктованными характеристиками моделируемого объекта. Программная реализация подхода выполнена в виде специализированного фреймворка, описывающего все необходимые функциональные возможности. Основные результаты. Проведена экспериментальная оценка эффективности моделирования зависимостей между признаками. Для экспериментов выбраны для бенчмарков и из репозитория UCI для реальных данных. Эффективность предложенных композитных байесовских сетей подтверждена сравнением значений правдоподобия и показателя F1 с классическими байесовскими сетями, обученными алгоритмом Hill-Climbing. Показана высокая точность представления многомерных распределений. При этом на бенчмарках улучшение оказалось незначительным, поскольку они содержат линейные зависимости, которые хорошо моделируются классическими алгоритмами. На реальных наборах данных UCI получено улучшение правдоподобия в среднем на 30 %. Обсуждение. Полученные результаты могут найти применение в областях, требующих моделирования сложных зависимостей между признаками, например, в машинном обучении, статистике, задачах анализа данных, а также в конкретных предметных областях.
Ключевые слова
Об авторах
И. Ю. ДееваРоссия
Деева Ирина Юрьевна — кандидат физико-математических наук, старший научный сотрудник
Санкт-Петербург, 197101
К. А. Шахкян
Россия
Шахкян Каринэ Артуровна — инженер
Санкт-Петербург, 197101
Ю. К. Каминский
Россия
Каминский Юрий Константинович — инженер
Санкт-Петербург, 197101
Список литературы
1. Handbook of Graphical Models / ed. by M. Maathuis, M. Drton, S. Lauritzen, M. Wainwright. CRC Press, 2018. 554 p. https://doi.org/10.1201/9780429463976
2. Mascaro S., Nicholso A.E., Korb K.B. Anomaly detection in vessel tracks using Bayesian networks // International Journal of Approximate Reasoning. 2014. V. 55. N 1. P. 84–98. https://doi.org/10.1016/j.ijar.2013.03.012
3. McLachlan S., Dube K., Hitman G.A., Fenton N.E., Kyrimi E. Bayesian networks in healthcare: Distribution by medical condition // Artificial Intelligence in Medicine. 2020. V. 107. P. 101912. https://doi.org/10.1016/j.artmed.2020.101912
4. Friedman N., Goldszmidt M. Learning Bayesian networks with local structure // NATO ASI Series. 1998. V. 89. P. 421–459. https://doi.org/10.1007/978-94-011-5014-9_15
5. Grzegorczyk M. An introduction to gaussian bayesian networks // Methods in Molecular Biology. 2010. V. 662. P. 121–147. https://doi.org/10.1007/978-1-60761-800-3_6
6. Lerner U., Segal E., Koller D. Exact inference in networks with discrete children of continuous parents // arXiv. 2013. arXiv:1301.2289. https://doi.org/10.48550/arXiv.1301.2289
7. Pérez A., Larrañaga P., Inza I. Bayesian classifiers based on kernel density estimation: Flexible classifiers // International Journal of Approximate Reasoning. 2009. V. 50. N 2. P. 341–362. https://doi.org/10.1016/j.ijar.2008.08.008
8. Ickstadt K., Bornkamp B., Grzegorczyk M., Wieczorek J., Sheriff M.R., Grecco H.E., Zamir E. Nonparametric Bayesian networks // Bayesian Statistics 9. 2011. P. 283–316. https://doi.org/10.1093/acprof:oso/9780199694587.003.0010
9. Deeva I., Bubnova A., Kalyuzhnaya A.V. Advanced approach for distributions parameters learning in Bayesian networks with gaussian mixture models and discriminative models // Mathematics. 2023. V. 11. N 2. P. 343. https://doi.org/10.3390/math11020343
10. Langseth H., Nielsen T.D., Rumí R., Salmerón A. Mixtures of truncated basis functions // International Journal of Approximate Reasoning. 2012. V. 53. N 2. P. 212–227. https://doi.org/10.1016/j.ijar.2011.10.004
11. Atienza D., Larrañaga P., Bielza C. Hybrid semiparametric Bayesian networks // TEST. 2022. V. 31. N 2. P. 299–327. https://doi.org/10.1007/s11749-022-00812-3
12. Sloman S. Causal Models: How People Think about the World and Its Alternatives. Oxford University Press, 2005. 211 p. https://doi.org/10.1093/acprof:oso/9780195183115.001.0001
13. Larrañaga P., Karshenas H., Bielza C., Santana R. A review on evolutionary algorithms in Bayesian network learning and inference tasks // Information Sciences. 2013. V. 233. P. 109–125. https://doi.org/10.1016/j.ins.2012.12.051
14. Gámez J.A., Mateo J.L., Puerta J.M. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood // Data Mining and Knowledge Discovery. 2011. V. 22. N 1-2. P. 106–148. https://doi.org/10.1007/s10618-010-0178-6
15. Behjati S., Beigy H. Improved K2 algorithm for Bayesian network structure learning // Engineering Applications of Artificial Intelligence. 2020. V. 91. P. 103617. https://doi.org/10.1016/j.engappai.2020.103617
16. Lerner B., Malka R. Investigation of the K2 algorithm in learning Bayesian network classifiers // Applied Artificial Intelligence. 2011. V. 25. N 1. P. 74–96. https://doi.org/10.1080/08839514.2011.529265
Рецензия
Для цитирования:
Деева И.Ю., Шахкян К.А., Каминский Ю.К. Моделирование многомерных данных с помощью композитных байесовских сетей. Научно-технический вестник информационных технологий, механики и оптики. 2024;24(4):608-614. https://doi.org/10.17586/2226-1494-2024-24-4-608-614
For citation:
Deeva I.Yu., Shakhkyan K.A., Kaminsky Yu.K. Flexible and tractable modeling of multivariate data using composite Bayesian networks. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2024;24(4):608-614. (In Russ.) https://doi.org/10.17586/2226-1494-2024-24-4-608-614