Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Метод увеличения разрешения изображения с использованием референсных изображений на основе диффузионной модели

https://doi.org/10.17586/2226-1494-2025-25-2-321-327

Аннотация

Введение. В настоящий момент активно развиваются различные методы восстановления изображений на основе методов глубокого машинного обучения. С помощью таких методов решаются задачи восстановления утраченных областей, подавления шумов и увеличения разрешения изображений. В задаче увеличения разрешения важную роль играют методы, основанные на применении референсных изображений, позволяющих восстановить недостающую информацию на основном изображении. Такие методы реализуются с использованием сверточных нейронных сетей, широко востребованных в задачах компьютерного зрения. В применяемых в настоящее время методах область изображения, не представленная на референсном изображении, часто отличается худшим качеством по сравнению с остальным изображением, что заметно визуально. Наряду со сверточными нейронными сетями в задачах восстановления изображений активно применяются диффузионные модели, позволяющие генерировать изображения с высоким качеством и четкостью, однако их недостатком часто бывает несоответствие сгенерированных деталей реальным. В работе обсуждается проблема улучшения качества восстановления изображений на основе применения референсных изображений с использованием диффузионной модели.

Метод. Для получения хорошего конечного результата предложена гибридная архитектура нейронной сети диффузионной модели, состоящая из трех основных блоков: базового модуля диффузионной модели, модуля использования референсной информации и модуля слияния. Обучение предложенной гибридной модели, а также сравниваемой с ней сверточной нейронной сети, использующей референсные изображения, и диффузионной моделью выполнено с использованием набора данных Large-Scale Multi-Reference Dataset (LMR).

Основные результаты. По результатам тестирования обученных моделей на тестовой выборке набора данных LMR проведено качественное (визуальное) и количественное сравнение работы трех моделей. Гибридная модель продемонстрировала более высокое качество, четкость и однородность изображения в сравнении со сверточной нейронной сетью с использованием референсных изображений и лучшее восстановление реальных деталей по сравнению с диффузионной моделью. Количественные оценки подтвердили, что гибридная модель также показала более высокие результаты по сравнению с остальными моделями. Обсуждение. Результаты работы могут быть использованы для увеличения разрешения любых изображений с использованием референсной информации.

Об авторах

А. К. Денисов
Университет ИТМО
Россия

Денисов Алексей Константинович — ассистент.

Санкт-Петербург, 197101, sc 57210698353



С. В. Быковский
Университет ИТМО
Россия

Быковский Сергей Вячеславович — кандидат технических наук, доцент.

Санкт-Петербург, 197101, sc 57216469537



П. В. Кустарев
Университет ИТМО
Россия

Кустарев Павел Валерьевич — кандидат технических наук, декан.

Санкт-Петербург, 197101, sc 35317916600



Список литературы

1. Dong C., Loy C.C., He K., Tang X. Image Super-Resolution using deep convolutional networks // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2016. V. 38. N 2. P. 295–307. https://doi.org/10.1109/TPAMI.2015.2439281

2. Kim J., Lee J.K., Lee K.M. Accurate image Super-Resolution using very deep convolutional networks // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 1646– 1654. https://doi.org/10.1109/CVPR.2016.182

3. Lim B., Son S., Kim H., Nah S., Lee K.M. Enhanced deep residual networks for single image Super-Resolution // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition Workshops ( CVPRW). 2017 . P. 1132– 1140 . https://doi.org/10.1109/CVPRW.2017.151

4. Ledig C., Theis L., Huszár F., Caballero J., Cunningham A., Acosta A., Aitken A., Tejani A., Totz J., Wang Z., Shi W. Photo-realistic single image Super-Resolution using a generative adversarial network // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 105–114. https://doi.org/10.1109/10.1109/CVPR.2017.19

5. Wang X., Xie L., Dong C., Shan Y. Real-ESRGAN: training real-world blind Super-Resolution with pure synthetic data // Proc. of the IEEE/ CVF International Conference on Computer Vision Workshops (ICCVW). 2021. P. 1905–1914. https://doi.org/10.1109/ICCVW54120.2021.00217

6. Zhang Z., Wang Z., Lin Z., Qi H. Image Super-Resolution by neural texture transfer // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 7974–7983. https://doi.org/10.1109/CVPR.2019.00817

7. Jiang Y., Chan K.C.K., Wang X., Loy C.C., Liu Z. Robust Referencebased Super-Resolution via C2-Matching // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021. P. 2103–2112. https://doi.org/10.1109/CVPR46437.2021.00214

8. Cao J., Liang J., Zhang K., Li Y., Zhang Y., Wang W., Van Gool L. Reference-based image Super-Resolution with deformable attention transformer // Lecture Notes in Computer Science. 2022. V. 13678. P. 325–342. https://doi.org/10.1007/978-3-031-19797-0_19

9. Zhang L., Li X., He D., Li F., Ding E., Zhang Z. LMR: a large-scale multi-reference dataset for Reference-based Super-Resolution // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 13072–13081. https://doi.org/10.1109/ICCV51070.2023.01206

10. Li G., Xing W., Zhao L., Lan Z., Sun J., Zhang Z., Zhang Q., Lin H., Lin Z. Self-Reference image Super-Resolution via pre-trained diffusion large model and window adjustable transformer // Proc. of the 31st ACM International Conference on Multimedia. 2023. P. 7981–7992. https://doi.org/10.1145/3581783.3611866

11. Ho J., Jain A., Abbeel P. Denoising diffusion probabilistic models // arXiv. 2020. arXiv:2006.11239. https://doi.org/10.48550/arXiv.2006.11239

12. Song J., Meng C., Ermon S. Denoising diffusion implicit models // arXiv. 2020. arXiv:2010.02502. https://doi.org/10.48550/arXiv.2010.02502

13. Rombach R., Blattmann A., Lorenz D., Esser P., Ommer B. HighResolution image synthesis with latent diffusion models // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 10674–10685. https://doi.org/10.1109/CVPR52688.2022.01042

14. Li H., Yang Y., Chang M., Chen S., Feng H., Xu Z., Li Q., Chen Y. SRDiff: Single Image Super-Resolution with diffusion probabilistic models // Neurocomputing. 2022. V. 479. P. 47–59. https://doi.org/10.1016/j.neucom.2022.01.029

15. Yu F., Gu J., Li Z., Liu J., Kong X., Wang X., He J., Qiao Y., Dong C. Scaling Up to Excellence: practicing model scaling for photo-realistic image restoration in the wild // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2024. P. 25669–25680. https://doi.org/10.1109/CVPR52733.2024.02425

16. Zhang R., Isola P., Efros A.A., Shechtman E., Wang O. The unreasonable effectiveness of deep features as a perceptual metric // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2018. P. 586–595. https://doi.org/10.1109/CVPR.2018.00068

17. Wang J., Chan K.C.K., Loy C.C. Exploring CLIP for assessing the look and feel of images // Proc. of the 37th AAAI Conference on Artificial Intelligence. 2023. V. 37. N 2. P. 2555–2563. https://doi.org/10.1609/aaai.v37i2.25353

18. Heusel M., Ramsauer H., Unterthiner T., Nessler B., Hochreiter S. GANs trained by a two time-scale update rule converge to a local nash equilibrium // Proc. of the 31st International Conference on Neural Information Processing Systems (NIPS ‘17). 2017. P. 6629–6640.


Рецензия

Для цитирования:


Денисов А.К., Быковский С.В., Кустарев П.В. Метод увеличения разрешения изображения с использованием референсных изображений на основе диффузионной модели. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(2):321-327. https://doi.org/10.17586/2226-1494-2025-25-2-321-327

For citation:


Denisov A.K., Bykovskii S.V., Kustarev P.V. Reference-based diffusion model for super-resolution. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(2):321-327. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-2-321-327

Просмотров: 32


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)