Выявление аномалий в условиях ограниченности и неопределенности данных с использованием zero-shot и few-shot подходов
https://doi.org/10.17586/2226-1494-2025-25-4-684-693
Аннотация
Введение. Выявление аномалий в условиях ограниченного объема данных представляет собой актуальную задачу в различных прикладных областях, включая медицинскую диагностику. Методы машинного обучения обычно требуют наличия образцов аномалий для их выявления, что не всегда возможно. Существующие методы выявления аномалий при малом количестве (few-shot) или полном отсутствии (zero-shot) обучающих данных об аномалиях имеют ряд ограничений. Существующее требование нормального распределения данных снижает точность распознавания аномалий.
Метод. В представленной работе задача повышения точности и полноты выявления ранее не встречавшихся на изображениях аномалий решается путем комбинирования моделей Contrastive Language-Image Pretraining (CLIP) и доменно-ориентированного трансформера BERT Pre-Training of Image Transformers (BeiT). Модели CLIP и BeiT позволяют одновременно решать задачи бинарной сегментации и классификации аномалий. Более точное выявление аномалий достигается использованием взвешенных эмбеддингов от каждого модуля. Одновременно автоматизируется генерация текстовых представлений на основе Large Language Model, что существенно улучшает обобщающую способность модели.
Основные результаты. Оценка эффективности разработанных моделей выполнена на тестовой выборке Benchmarks for Medical Anomaly Detection). Для домена кожных новообразований тестовая выборка сформирована из датасетов ISIC-18, ISIC-19, SD-198 и 7-point criteria database. Разработанный метод продемонстрировал в среднем увеличение метрики ROC AUC (при классификации, на уровне image-level) на 10,95 %, а метрики ROC AUC (при сегментации, на уровне pixel-level) — на 0,66 % по сравнению с известными решениями.
Обсуждение. Проведенные эксперименты показали высокую эффективность предложенного подхода на задачах классификации и сегментации аномалий, метод продемонстрировал превосходящие результаты по средним значениям метрик. Анализ инференса показал, что использование вариационного автоэнкодера в составе CLIP+BeiT для генерации центроидов способствует более стабильной работе модели в few-shot подходе.
Практическая значимость предложенного метода заключается в его адаптивности и устойчивости к изменяющимся распределениям данных, что делает его перспективным решением для автоматизированного анализа аномалий в медицинской диагностике, промышленном контроле и других областях, где может наблюдаться высокая неопределенность данных.
Об авторах
С. А. МилантьевРоссия
Сергей Андреевич Милантьев, аспирант
197101; Санкт-Петербург
sc 57225127274
П. Д. Михайлова
Россия
Полина Дмитриевна Михайлова, магистр
197022; Санкт-Петербург
И. А. Бессмертный
Россия
Игорь Александрович Бессмертный, доктор технических наук, профессор, профессор
197101; Санкт-Петербург
sc 36661767800
Список литературы
1. Bao J., Sun H., Deng H., He Y., Zhang Z., Li X. BMAD: Benchmarks for Medical Anomaly Detection // arXiv. 2023. arXiv:2306.11876. doi: 10.48550/arXiv.2306.11876
2. Chen L., You Z., Zhang N., Xi J., Le X. UTRAD: Anomaly detection and localization with U-Transformer // Neural Networks. 2022. V. 147. P. 53–62. doi: 10.1016/j.neunet.2021.12.008
3. Salehi M., Sadjadi N., Baselizadeh S., Rohban M.H., Rabiee H.R. Multiresolution knowledge distillation for anomaly detection // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021. P. 14897–14907. doi: 10.1109/CVPR46437.2021.01466
4. Deng H., Li X. Anomaly detection via reverse distillation from one-class embedding // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 9727–9736. doi: 10.1109/CVPR52688.2022.00951
5. Roth K., Pemula L., Zepeda J., Schölkopf B., Brox T., Gehler P. Towards total recall in industrial anomaly detection // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 14298–14308. doi: 10.1109/CVPR52688.2022.01392
6. Lee S., Lee S., Song B. CFA: coupled-hypersphere-based feature adaptation for target-oriented anomaly localization // IEEE Access. 2022. V. 10. P. 78446–78454. doi: 10.1109/ACCESS.2022.3193699
7. Gudovskiy D., Ishizaka S., Kozuka K. CFLOW-AD: real-time unsupervised anomaly detection with localization via conditional normalizing flows // Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2022. P. 1819–1828. doi: 10.1109/WACV51458.2022.00188
8. Chen X., Han Y., Zhang J. APRIL-GAN: a Zero-/Few-shot anomaly classification and segmentation method // arXiv. 2023. arXiv:2305.17382v3. doi: 10.48550/arXiv.2305.17382
9. Hu J., Chen Y., Yi Z. Automated segmentation of macular edema in OCT using deep neural networks // Medical Image Analysis. 2019. V. 55. P. 216–227. doi: 10.1016/j.media.2019.05.002
10. Wang X., Peng Y., Lu L., Lu Z., Bagheri M., Summers R. ChestX-Ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 3462–3471. doi: 10.1109/CVPR.2017.369
11. Bejnordi B., Veta M., van Diest P.J., van Ginneken B., Karssemeijer N., Litjens G., van der Laak J.A.W.M. Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer // JAMA Journal of the American Medical Association. 2017. V. 318. N 22. P. 2199–2210. doi: 10.1001/jama.2017.14585
12. Tschandl P., Rosendahl C., Kittler H. The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions // Scientific Data. 2018. V. 5. P. 180161. doi: 10.1038/sdata.2018.161
13. Codella N.C.F., Gutman D., Celebi M.E., Helba B., Marchetti M.A., Dusza S.W., Kalloo A., Liopyris K., Mishra N., Kittler H., Halpern A. Skin lesion analysis toward melanoma detection: a challenge at the 2017 International symposium on biomedical imaging (ISBI), hosted by the international skin imaging collaboration (ISIC) // Proc. of the IEEE 15<sup>th</sup> International Symposium on Biomedical Imaging (ISBI 2018). 2018. Р. 168–172. doi: 10.1109/ISBI.2018.8363547
14. Combalia M., Codella N.C.F., Rotemberg V., Helba B., Vilaplana V., Reiter O., Carrera C., Barreiro A., Halpern A.C., Puig S., Malvehy J. BCN20000: Dermoscopic lesions in the wild // arXiv. 2019. arXiv:1908.02288. doi: 10.48550/arXiv.1908.02288
15. Sun X., Yang J., Sun M., Wang K. A benchmark for automatic visual classification of clinical skin disease images // Lecture Notes in Computer Science. 2016. V. 9910. P. 206–222. doi: 10.1007/978-3-319-46466-4_13
16. Kawahara J., Daneshvar S., Argenziano G., Hamarneh G. Seven-point checklist and skin lesion classification using multitask multimodal neural nets // IEEE Journal of Biomedical and Health Informatics. 2019. V. 23. N 2. P.538–546. doi: 10.1109/JBHI.2018.2824327
17. Baid U., Ghodasara S., Mohan S., Bilello M., Calabrese E., Colak E., et al. The RSNA-ASNR-MICCAI BraTS 2021 benchmark on brain tumor segmentation and radiogenomic classification // arXiv. 2021. arXiv:2107.02314. doi: 10.48550/arXiv.2107.02314
18. Bilic P, Christ P., Li H.B., Vorontsov E., Ben-Cohen A., Kaissis G., et al. The Liver Tumor Segmentation benchmark (LiTS) // arXiv. 2019. arXiv:190.04056. doi: 10.48550/arXiv.1901.04056
Рецензия
Для цитирования:
Милантьев С.А., Михайлова П.Д., Бессмертный И.А. Выявление аномалий в условиях ограниченности и неопределенности данных с использованием zero-shot и few-shot подходов. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(4):684-693. https://doi.org/10.17586/2226-1494-2025-25-4-684-693
For citation:
Milantev S.A., Mikhailova P.D., Bessmertny I.A. Anomaly detection under data scarcity and uncertainty using zero-shot and few-shot approaches. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(4):684-693. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-4-684-693