Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Граничная оценка надежности кластерных систем на основе декомпозиции марковской модели при ограниченном восстановлении узлов с накоплением отказов

https://doi.org/10.17586/2226-1494-2025-25-3-574-583

Аннотация

Введение. Исследованы возможности граничной оценки надежности кластера, состоящего из множества узлов, каждый из которых может находиться в значительном числе состояний, различающихся производительностью выполнения требуемых функций и средним временем восстановления до исправного состояния узла. Оценка надежности такой кластерной системы на основе марковских процессов затруднена на этапе построения диаграммы состояний и переходов из-за большой ее размерности. Трудность построения модели особенно возрастает при ограниченном восстановлении узлов, приводящем к очереди узлов, требующих восстановления. Преодолеть указанную трудность позволяет предлагаемый подход. Представленный подход предусматривает декомпозицию марковской модели кластера и поэтапное последовательное уточнение верхней и нижней граничных оценок надежности кластера с учетом влияния на замедление восстановления каждого узла кластера других его узлов.
Метод. Особенность предлагаемого подхода заключается в декомпозиции модели с выделением некоторого отдельного узла кластера и построении его марковской модели с введением состояний ожидания начала восстановлений узла из-за обслуживания очереди на восстановление других ранее отказавших узлов кластера. Определив на марковской модели выделенного узла вероятности всех его состояний, учитывая идентичность всех узлов кластера, на основе формулы перебора гипотез определяются средние задержки до восстановления исправного состояния остальных узлов кластера, имеющих ранее возникшие отказы. Вычисленные средние задержки используются на следующем этапе расчета марковской модели узла с уточнением задержки начала восстановления выделенного узла из-за влияния очереди восстановления остальных узлов кластера.
Основные результаты. На основе предлагаемой модели дана оценка коэффициента готовности кластера, комплектуемого из значительного числа структурно сложных узлов, характеризующихся множеством состояний разной производительности и времени восстановления узла до исходного исправного состояния.
Обсуждение. Представленная в результате декомпозиции модель позволяет преодолеть проблему лавинообразного возрастания сложности модели кластера при увеличении числа его узлов и числа их состояний. Выполненные расчеты показали сходимость предлагаемой граничной оценки надежности кластера из структурно сложных узлов. Полученные результаты могут быть использованы при оценке надежности и обосновании выбора структуры кластеров, а также дисциплин их обслуживания и восстановления при накоплении отказов с учетом ограниченных ресурсов восстановления, приводящих к образованию очередей отказавших элементов, подлежащих восстановлению. Предложенная модель может быть применена при анализе влияния накопления отказов в разных узлах кластера на задержки обслуживания поступающего потока запросов.

Об авторах

В. А. Богатырев
Санкт-Петербургский государственный университет аэрокосмического приборостроения; Университет ИТМО
Россия

Богатырев Владимир Анатольевич — доктор технических наук, профессор

Санкт-Петербург, 190000;

Профессор

Санкт-Петербург, 197101

sc 7006571069



C. В. Богатырев
ООО «Центр разработки облачных хранилищ Ядро»; Университет ИТМО
Россия

Богатырев Станислав Владимирович — инженер-консультант

Санкт-Петербург, 195027;

Аспирант

Санкт-Петербург, 197101

sc 57183002200



А. В. Богатырев
ООО «Центр разработки облачных хранилищ Ядро»
Россия

Богатырев Анатолий Владимирович — кандидат технических наук, инженер-консультант

Санкт-Петербург, 195027

sc 56549712700



Список литературы

1. Половко А.М., Гуров С.В. Основы теории надежности // СПб.: БХВ-Петербург, 2006. 702 с.

2. Shubinsky I.B., Rozenberg I.N., Papic L. Adaptive fault tolerance in real-time information systems // Reliability Theory and Applications. 2017. V. 12. N 1. P. 18–25.

3. Черкесов Г.Н. Надежность аппаратно-программных комплексов. СПб.: Питер, 2005. 479 с.

4. Aysan H. Fault-tolerance strategies and probabilistic guarantees for real-time systems. Doctoral dissertation. Mälardalen University. 2012. 109 p.

5. Koren I., Krishna C.M. Fault-Tolerant Systems. Morgan Kaufmann, 2007. 378 p.

6. Krasnobaev V., Kuznetsov A., Kiian A., Kuznetsova K. Fault tolerance computer system structures functioning in residue classes // Proc. of the 11th IEEE International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS). 2021. P. 471–474. https://doi.org/10.1109/idaacs53288.2021.9660919

7. Кучерявый А.Е. Сети связи с ультра малыми задержками // Труды Научно-исследовательского института радио. 2020. № 1. C. 69.

8. Tatarnikova T.M., Sikarev I.A., Bogdanov P.Y., Timochkina T.V. Botnet attack detection approach in IoT networks // Automatic Control and Computer Sciences. 2022. V. 56. N 8. P. 838–846. https://doi.org/10.3103/S0146411622080259

9. Bogatyrev V.A., Bogatyrev A.V., Bogatyrev S.V. The probability of timeliness of a fully connected exchange in a redundant real-time communication system // Proc. of the Wave Electronics and its Application in Information and Telecommunication Systems (WECONF). 2020. P. 9131517. https://doi.org/10.1109/WECONF48837.2020.9131517

10. Burkov A., Rachugin R., Turlikov A. Stabilizing ALOHA using Preamble-based exploration by estimation of the number of active users // Proc. of the 18th International Symposium Problems of Redundancy in Information and Control Systems, (REDUNDANCY). 2023. P. 106–109. https://doi.org/10.1109/redundancy59964.2023.10330186

11. Bogatyrev V.A., Bogatyrev A.V., Bogatyrev S.V. Multipath transmission of heterogeneous traffic in acceptable delays with packet replication and destruction of expired replicas in the nodes that make up the path // Communications in Computer and Information Science. 2023. V. 1748. P. 104–121. https://doi.org/10.1007/978-3-031-30648-8_9

12. Bogatyrev V.A. Protocols for dynamic distribution of requests through a bus with variable logic ring for reception authority transfer // Automatic Control and Computer Sciences. 1999. V. 33. N 1. P. 57–63.

13. Bogatyrev V.A., Bogatyrev S.V., Bogatyrev A.V. Control of multipath transmissions in the nodes of switching segments of reserved paths // Proc. of the International Conference on Information, Control, and Communication Technologies (ICCT). 2022. P. 1–5. https://doi.org/10.1109/icct56057.2022.9976839

14. Tatarnikova T.M., Arkhiptsev E.M. Designing fault-tolerant systems with micro-service architecture // Proc. of 27th International Conference on Soft Computing and Measurements (SCM). 2024. P. 348–351. https://doi.org/10.1109/scm62608.2024.10554143

15. Haider S., Nazir B. Fault tolerance in computational grids: perspectives, challenges, and issues // SpringerPlus. 2016. V. 5. N 1. P. 1991. https://doi.org/10.1186/s40064-016-3669-0

16. Chinnaiah M.R., Niranjan N. Fault tolerant software systems using software configurations for cloud computing // Journal of Cloud Computing. 2018. V. 7. N 1. P. 3. https://doi.org/10.1186/s13677-018-0104-9

17. Markoval E., Moltchanov D., Pirmagomedov R., Ivanova D., Koucheryavy Y., Samouylov K. Priority-based coexistence of eMBB and URLLC traffic in industrial 5G NR deployments // Proc. of the 12th International Congress on Ultra Modern Telecommunications and Control Systems and Workshops (ICUMT). 2020. P. 1–6. https://doi.org/10.1109/ICUMT51630.2020.9222433

18. Ji H., Park S., Yeo J., Kim Y., Lee J., Shim B. Ultra-Reliable and Low-Latency Communications in 5G Downlink: physical layer aspects // IEEE Wireless Communications. 2018. V. 25. N 3. P. 124–130. https://doi.org/10.1109/mwc.2018.1700294

19. Gurjanov A.V., Korobeynikov A.G., Zharinov I.O., Zharinov O.O. Edge, fog and cloud computing in the cyber-physical systems networks // Ceur Workshop Proceedings. 2021. P. 103–108.

20. Srivastava A., Kumar N. Queueing model based dynamic scalability for containerized cloud // International Journal of Advanced Computer Science and Applications. 2023. V. 14. N 1. P. 465–472. https://doi.org/10.14569/IJACSA.2023.0140150

21. Астахова Т.Н., Верзун Н.А., Касаткин В.В., Колбанев М.О., Шамин А.А. Исследование моделей связности сенсорных сетей // Информационно-управляющие системы. 2019. № 5 (102). С. 38–50. https://doi.org/10.31799/1684-8853-2019-5-38-50

22. Gurov S.V., Utkin L.V. Reliability of repairable reserved systems with failure aftereffect // Automation and Remote Control. 2017. V. 78. N 1. P. 113–124. https://doi.org/10.1134/S000511791701009X

23. Bogatyrev V., Vinokurova M. Control and safety of operation of duplicated computer systems // Communications in Computer and Information Science. 2017. V. 700. P. 331–342. https://doi.org/10.1007/978-3-319-66836-9_28

24. Леонтьев А.С., Тимошкин М.С. Математические модели оценки показателей надежности для исследования вероятностно-временных характеристик многомашинных комплексов с учетом отказов // Международный научно-исследовательский журнал. 2023. № 1(127). C. 18. https://doi.org/10.23670/IRJ.2023.127.27

25. Клейнрок Л. Теория массового обслуживания. М.: Машиностроение, 1979. 432 с.

26. Богатырев В.А., Богатырев С.В., Богатырев А.В. Оценка готовности компьютерной системы к своевременному обслуживанию запросов при его совмещении с информационным восстановлением памяти после отказов // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23. № 3. С. 608–617. https://doi.org/10.17586/2226-1494-2023-23-3-608-617

27. Qi Y., Meng H., Hou D., Chen Y. A study on software rejuvenation model of application server cluster in two-dimension state space using Markov process // Information Technology Journal. 2008. V. 7. N 1. P. 98–104. https://doi.org/10.3923/itj.2008.98.104

28. Rahman P.A. Advanced reliability model of the fault-tolerant disk arrays with data striping and single disk redundancy // Proc. of the International Scientific and Practical Conference. 2017. P. 20–25.

29. Uspenskaya N.N. Estimation of availability factor for the data storage systems based on redundant disk arrays with the backup // Proc. of the International Scientific and Practical Conference. 2016. P. 20–23.

30. Рахман П.А., Шарипов М.И. Модель надежности двухузлового кластера приложений высокой готовности в системах управления предприятием // Экономика и менеджмент систем управления. 2015. № 3 (17). С. 85–102.

31. Хомоненко А.Д., Благовещенская Е.А., Проурзин О.В., Андрук А.А. Прогноз надежности кластерной вычислительной системы с помощью полумарковской модели альтернирующих процессов и мониторинга // Наукоемкие технологии в космических исследованиях Земли. 2018. Т. 10. № 4. С. 72–82. https://doi.org/10.24411/2409-5419-2018-10099

32. Terskov V., Sakash I. The reliability evaluation of local computer networks using markov model of multiple heterogeneous groups of switches // E3s Web of Conferences. 2024. V. 592. P. 03036.


Рецензия

Для цитирования:


Богатырев В.А., Богатырев C.В., Богатырев А.В. Граничная оценка надежности кластерных систем на основе декомпозиции марковской модели при ограниченном восстановлении узлов с накоплением отказов. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(3):574-583. https://doi.org/10.17586/2226-1494-2025-25-3-574-583

For citation:


Bogatyrev V.A., Bogatyrev S.V., Bogatyrev A.V. Boundary estimation of the reliability of cluster systems based on the decomposition of the Markov model with limited recovery of nodes with accumulated failures. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(3):574-583. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-3-574-583

Просмотров: 5


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)