Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Генерация шрифтов на основе анализа стиля и структуры символов с использованием диффузионных моделей

https://doi.org/10.17586/2226-1494-2025-25-4-676-683

Аннотация

   Введение. Рассмотрена роль генеративных нейросетей в разработке и оптимизации шрифтов, которые играют ключевую роль в создании эстетически привлекательных и функциональных дизайнов. Основное внимание уделено лицензионным ограничениям и недостаточной доступности шрифтов для различных мировых языков, что создает сложности для дизайнеров и типографов в процессе создания текстовых материалов.

   Новизна подхода заключается в применении диффузионной модели в качестве генеративной нейронной сети для автоматического создания шрифтов, включая недостающие глифы для языков, не поддерживаемых стандартными шрифтами.

   Метод. Разработана диффузионная модель, представляющая собой алгоритм генерации шрифтов на основе анализа закономерностей структуры символов и логики их построения. Модель интегрирована в программное решение, которое автоматизирует процесс создания шрифтовых макетов, позволяя пользователям генерировать новые глифы и шрифты с учетом специфических языковых потребностей. Методика включает предварительную подготовку данных, обучение сети и последующую генерацию символов, имитирующих стиль и композицию исходных шрифтов.

   Основные результаты. В ходе экспериментов диффузионная модель продемонстрировала высокую способность к генерации качественных шрифтовых символов, визуально схожих с оригинальными образцами. В качестве исходных данных использовались шрифтовые наборы с ограниченным набором символов, что позволило оценить возможности модели по созданию недостающих глифов для различных языков. Результаты показали, что разработанная модель успешно воспроизводит стилистические особенности оригинального шрифта, что подтверждает ее потенциал для создания универсальных шрифтовых решений, адаптированных к глобальным потребностям.

   Обсуждение. Предложенная методика генерации шрифтов представляет интерес для специалистов в области дизайна, типографики и разработки текстовых материалов, предназначенных для различных языковых аудиторий. Полученные результаты могут быть полезны при создании шрифтов для использования в многоязычных проектах, особенно если возникает потребность в добавлении недостающих символов.

Об авторах

М. И. Маслов
ООО «Нанософт Разработка»; Университет ИТМО
Россия

Максим Игоревич Маслов, программист, студент

108811; Москва; 197101; Санкт-Петербург



А. Е. Авдюшина
Университет ИТМО; АО «Центр исследований и разработок»
Россия

Анна Евгеньевна Авдюшина, аналитик, ассистент

197101; Санкт-Петербург; 101000; Москва

sc 57221719751



М. А. Солодкая
Университет ИТМО
Россия

Мария Александровна Солодкая, ассистент

197101; Санкт-Петербург



А. В. Кугаевских
Университет ИТМО
Россия

Александр Владимирович Кугаевских, кандидат технических наук, доцент, доцент кафедры

197101; Санкт-Петербург

sc 56442745400



Список литературы

1. Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation // Lecture Notes in Computer Science. 2015. V. 9352. P. 234–241. doi: 10.1007/978-3-319-24574-4_28

2. Wang Y., Lian Z. DeepVecFont: synthesizing high-quality vector fonts via dual-modality learning // ACM Transactions on Graphics (TOG). 2021. V. 40. N 6. P. 1–15. doi: 10.1145/3478513.3480488

3. Wang Y., Wang Y., Yu L., Zhu Y., Lian Z. DeepVecFont-v2: Exploiting Transformers to Synthesize Vector Fonts with Higher Quality // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2023. P. 18320–18328. doi: 10.1109/CVPR52729.2023.01757

4. Yang Z., Peng D., Kong Y., Zhang Y., Yao C., Jin L. FontDiffuser: One-shot font generation via denoising diffusion with multi-scale content aggregation and style contrastive learning // Proc. of the AAAI Conference on Artificial Intelligence. 2024. V. 38. N 7. P. 6603–6611. doi: 10.1609/aaai.v38i7.28482

5. Huang Q., Fu B., Zhang A., Qiao Y. GenText: Unsupervised artistic text generation via decoupled font and texture manipulation // arXiv. 2022. arXiv:2207.09649. doi: 10.48550/arXiv.2207.09649

6. Zeng J., Chen Q., Liu Y., Wang M., Yao Y. StrokeGAN: Reducing mode collapse in Chinese font generation via stroke encoding // arXiv. 2020. arXiv:2012.08687. doi: 10.48550/arXiv.2012.08687

7. Park S., Chun S., Cha J., Lee B., Shim H. Few-shot font generation with localized style representations and factorization // Proc. of the AAAI Conference on Artificial Intelligence. 2021. V. 35. N 3. P. 2393–2402. doi: 10.1609/aaai.v35i3.16340

8. Yao M., Zhang Y., Lin X., Li X.; Zuo W. VQ-Font: Few-shot font generation with structure-aware enhancement and quantization // Proc. of the AAAI Conference on Artificial Intelligence. 2024. V. 38. N 15. P. 16407–16415. doi: 10.1609/aaai.v38i15.29577

9. Ding M. An edge-directed diffusion equation-based image restoration approach for font generation // IEEE Access. 2023. V. 11. P. 141435–141444. doi: 10.1109/ACCESS.2023.3342026

10. Jeong J., Shin J. Multi-scale diffusion denoised smoothing // Proc. of the 37<sup>th</sup> International Conference on Neural Information Processing Systems. 2023. P. 67374–67397.

11. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser Ł., Polosukhin I. Attention is all you need // Advances in Neural Information Processing Systems. 2017. V. 30. P. 1–11.

12. Voronov G., Lightheart R., Davison J., Krettler C.A., Healey D., Butler T. Multi-scale sinusoidal embeddings enable learning on high resolution mass spectrometry data // arXiv. 2022. arXiv:2207.02980. doi: 10.48550/arXiv.2207.02980

13. Dhariwal P., Nichol A. Diffusion models beat GANs on image synthesis // Advances in Neural Information Processing Systems. 2021. V. 34. P. 8780–8794.

14. Convolutional Layer – Building Block of CNNs // Towards Data Science. 2024 [Электронный ресурс]. URL: https://towardsdatascience.com/convolutional-layer-building-block-of-cnns-501b5b643e7b (дата обращения: 30. 01. 2024).

15. Xu M., Du X., Wang D. Super-resolution restoration of single vehicle image based on ESPCN-VISR model // IOP Conference Series: Materials Science and Engineering. 2020. V. 790. N 1. P. 012107. doi: 10.1088/1757-899X/790/1/012107

16. Ho J., Jain A., Abbeel P. Denoising diffusion probabilistic models // Proc. of the 34<sup>th</sup> International Conference on Neural Information Processing Systems. 2020. P. 6840-6851.

17. Nichol A.Q., Dhariwal P. Improved denoising diffusion probabilistic models // Proc. of the 38<sup>th</sup> International Conference on Machine Learning. 2021. V. 139. P. 8162–8171.

18. Lin S., Yang X. Diffusion model with perceptual loss // arXiv. 2023. arXiv:2401.00110. doi: 10.48550/arXiv.2401.00110


Рецензия

Для цитирования:


Маслов М.И., Авдюшина А.Е., Солодкая М.А., Кугаевских А.В. Генерация шрифтов на основе анализа стиля и структуры символов с использованием диффузионных моделей. Научно-технический вестник информационных технологий, механики и оптики. 2025;25(4):676-683. https://doi.org/10.17586/2226-1494-2025-25-4-676-683

For citation:


Maslov M.I., Avdyushina A.E., Solodkaya M.A., Kugaevskikh A.V. Font generation based on style and character structure analysis using diffusion models. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2025;25(4):676-683. (In Russ.) https://doi.org/10.17586/2226-1494-2025-25-4-676-683

Просмотров: 132

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)