Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Метод формирования сегментов информационной последовательности с использованием функционала качества моделей обработки

https://doi.org/10.17586/2226-1494-2024-24-3-474-482

Аннотация

Введение. Постоянно возникающая потребность увеличения эффективности решения задач классификации и предсказания поведения объектов наблюдения вызывает необходимость совершенствования методов обработки данных. В работе предлагается метод повышения показателей качества моделей машинного обучения в задачах регрессии и прогнозирования.

Метод. Предложенная обработка информационных последовательностей предполагает применение сегментации входных данных. В результате разделения данных образуются сегменты с различными свойствами объектов наблюдения. Новизна метода заключается в разделении последовательности на сегменты c использованием функционала качества моделей обработки на подвыборках данных. Это позволяет применять лучшие по качественным показателям модели на разных сегментах данных. Полученные сегменты являются отдельными подвыборками, на которые назначаются лучшие по качественным показателям модели и алгоритмы машинного обучения. Основные результаты. Для оценки качества предлагаемого решения выполнен эксперимент с использованием модельных данных и множественной регрессии. Рассчитанные значения показателя качества Root Mean Squared Error (RMSE) для выбранных алгоритмов на экспериментальной выборке и при различном количестве сегментов продемонстрировали повышение качественных показателей отдельных алгоритмов при увеличении количества сегментов. Предлагаемый метод позволяет повысить показатели RMSE в среднем на 7 % за счет сегментации и назначения моделей, которые имеют наилучшие показатели в отдельных сегментах. Обсуждение. Результаты метода могут применяться дополнительно при разработке моделей и методов обработки данных. Представленное решение направлено на дальнейшее усовершенствование и расширение ансамблевых методов. Формирование многоуровневых модельных структур, осуществляющих обработку, анализ поступающих информационных потоков и назначение наиболее подходящей модели для решения текущей задачи, позволяет уменьшить сложность и ресурсоемкость классических ансамблевых методов. В результате уменьшено влияние проблемы переобучения, снижена зависимость результатов обработки от базовых моделей, повышена оперативность настройки базовых алгоритмов в случае трансформации свойств данных и улучшена интерпретируемость результатов.

Об авторах

Д. Д. Тихонов
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Тихонов Даниил Дмитриевич — аспирант, инженер-программист

Санкт-Петербург, 199178



И. С. Лебедев
Санкт-Петербургский Федеральный исследовательский центр Российской академии наук
Россия

Лебедев Илья Сергеевич — доктор технических наук, профессор, заведующий лабораторией

Санкт-Петербург, 199178



Список литературы

1. Marques H.O., Swersky L., Sander J., Campello R., Zimek A. On the evaluation of outlier detection and one-class classification: a comparative study of algorithms, model selection, and ensembles // Data Mining and Knowledge Discovery. 2023. V. 37. N 4. P. 1473– 1517. https://doi.org/10.1007/s10618-023-00931-x

2. Mishra S., Shaw K., Mishra D., Patil S., Kotecha K., Kumar S., Bajaj S. Improving the accuracy of ensemble machine learning classification models using a novel bit-fusion algorithm for healthcare AI systems // Frontiers in Public Health. 2022. V. 10. P. 1–17. https://doi.org/10.3389/fpubh.2022.858282

3. Ren J., Tapert S., Fan C.C., Thompson W.K. A semi-parametric Bayesian model for semi-continuous longitudinal data // Statistics in Medicine. 2022. V. 41. N 13. P. 2354–2374. https://doi.org/10.1002/sim.9359

4. Zhang Y., Liu J., Shen W. A review of ensemble learning algorithms used in remote sensing applications // Applied Sciences. 2022. V. 12. N 17. P. 8654. https://doi.org/10.3390/app12178654

5. Bellman R. On the approximation of curves by line segments using dynamic programming // Communications of the ACM. 1961. V. 4. N 6. P. 284–301. https://doi.org/10.1145/366573.366611

6. Page E. A test for a change in a parameter occurring at an unknown point // Biometrika. 1955. V. 42. N 3/4. P. 523–527. https://doi.org/10.2307/2333401

7. Fisher W.D. On grouping for maximum homogeneity // Journal of the American Statistical Association. 1958. V. 53. N 284. P. 789–798. https://doi.org/10.1080/01621459.1958.10501479

8. Melnyk I., Banerjee A. A spectral algorithm for inference in hidden semi-Markov models // Journal of Machine Learning Research. 2017. V. 18. N 35. P. 1–39.

9. Bardwell L., Fearnhead P. Bayesian detection of abnormal segments in multiple time series // Bayesian Analysis. 2017. V. 12. N 1. P. 193– 218. https://doi.org/10.1214/16-ba998

10. Chung F.-L., Fu T.-C., Ng V., Luk R.W.P. An evolutionary approach to pattern-based time series segmentation // IEEE Transactions on Evolutionary Computation. 2004. V. 8. N 5. P. 471–489. https://doi.org/10.1109/tevc.2004.832863

11. Levchenko O., Kolev B., Yagoubi D.E., Akbarinia R., Masseglia F., Palpanas T., Shasha D., Valduriez P. BestNeighbor: efficient evaluation of kNN queries on large time series databases // Knowledge and Information Systems. 2020. V. 63. N 2. P. 349–378. https://doi.org/10.1007/s10115-020-01518-4

12. Nikolaou A., Gutiérrez P.A., Durán A., Dicaire I., FernándezNavarro F., Hervás-Martínez C. Detection of early warning signals in paleoclimate data using a genetic time series segmentation algorithm // Climate Dynamics. 2015. V. 44. N 7. P. 1919–1933. https://doi.org/10.1007/s00382-014-2405-0

13. Liu N., Zhao J. Streaming data classification based on hierarchical concept drift and online ensemble // IEEE Access. 2023. V. 11. P. 126040–126051. https://doi.org/10.1109/access.2023.3327637

14. Zhong G., Shu T., Huang G., Yan X. Multi-view spectral clustering by simultaneous consensus graph learning and discretization // Knowledge-Based Systems. 2022. V. 235. P. 107632. https://doi.org/10.1016/j.knosys.2021.107632

15. Liakos P., Papakonstantinopoulou K., Kotidis Y. Chimp: efficient lossless floating point compression for time series databases // Proceedings of the VLDB Endowment. 2022. V. 15. N 11. P. 3058–3070. https://doi.org/10.14778/3551793.3551852

16. Лебедев И.С. Сегментирование множества данных с учетом информации воздействующих факторов // Информационноуправляющие системы. 2021. № 3(112). С. 29–38. https://doi.org/10.31799/1684-8853-2021-3-29-38

17. Мальцев Г.Н., Якимов В.Л. Подход к формированию обобщенных параметров технического состояния сложных технических систем c использованием нейросетевых структур // Научнотехнический вестник информационных технологий, механики и оптики. 2023. Т. 23. № 4. С. 828–835. https://doi.org/10.17586/22261494-2023-23-4-828-835

18. Shili H. Clustering in big data analytics: a systematic review and comparative analysis (review article) // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23. № 5. С. 967–979. https://doi.org/10.17586/2226-1494-202323-5-967-979

19. Lebedev I.S., Sukhoparov M.E. Adaptive Learning and integrated use of information flow forecasting methods // Emerging Science Journal. 2023. V. 7. N 3. P. 704–723. https://doi.org/10.28991/esj-2023-07-0303

20. Tong W., Wang Y., Liu D. An adaptive clustering algorithm based on local-density peaks for imbalanced data without parameters // IEEE Transactions on Knowledge and Data Engineering. 2023. V. 35. N 4. P. 3419–3432. https://doi.org/10.1109/tkde.2021.3138962

21. Silva R.P., Zarpelão B.B., Cano A., Junior S.B. Time series segmentation based on stationarity analysis to improve new samples prediction // Sensors. 2021. V. 21. N 21. P. 7333. https://doi.org/10.3390/s21217333

22. Barzegar V., Laflamme S., Hu C., Dodson J. Multi-time resolution ensemble LSTMs for enhanced feature extraction in high-rate time series // Sensors. 2021. V. 21. N 6. P. 1954. https://doi.org/10.3390/s21061954

23. Huang W., Ding N. Privacy-preserving support vector machines with flexible deployment and error correction // Lecture Notes in Computer Science. 2021. V. 13107. P. 242–262. https://doi.org/10.1007/978-3030-93206-0_15

24. Zhang X., Wang M. Weighted random forest algorithm based on Bayesian algorithm // Journal of Physics: Conference Series. 2021. V. 1924. P. 012006. https://doi.org/10.1088/1742-6596/1924/1/012006

25. Di Franco G., Santurro M. Machine learning, artificial neural networks and social research // Quality & Quantity. 2021. V. 55. N 3. P. 1007–1025. https://doi.org/10.1007/s11135-020-01037-y

26. Si S., Zhao J., Cai Z., Dui H. Recent advances in system reliability optimization driven by importance measures // Frontiers of Engineering Management. 2020. V. 7. N 3. P. 335–358. https://doi.org/10.1007/s42524-020-0112-6

27. Xu S., Song Y., Hao X. A comparative study of shallow machine learning models and deep learning models for landslide susceptibility assessment based on imbalanced data // Forests. 2022. V. 13. N 11. P. 1908. https://doi.org/10.3390/f13111908


Рецензия

Для цитирования:


Тихонов Д.Д., Лебедев И.С. Метод формирования сегментов информационной последовательности с использованием функционала качества моделей обработки. Научно-технический вестник информационных технологий, механики и оптики. 2024;24(3):474-482. https://doi.org/10.17586/2226-1494-2024-24-3-474-482

For citation:


Tikhonov D.D., Lebedev I.S. Method for generating information sequence segments using the quality functional of processing models. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2024;24(3):474-482. (In Russ.) https://doi.org/10.17586/2226-1494-2024-24-3-474-482

Просмотров: 7


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)