Preview

Научно-технический вестник информационных технологий, механики и оптики

Расширенный поиск

Программный фреймворк для оптимизации гиперпараметров тематических моделей с аддитивной регуляризацией

https://doi.org/10.17586/2226-1494-2023-23-1-112-120

Аннотация

Предмет исследования. Обработка неструктурированных данных, таких как тексты на естественном языке, является одной из актуальных задач при разработке интеллектуальных продуктов. В свою очередь, тематическое моделирование как метод работы с неразмеченными и частично размеченными текстовыми данными активно используется для анализа корпусов документов и создания векторных представлений. В связи с этим особенно важно обучение качественных тематических моделей за короткое время, что возможно с помощью предложенного фреймворка.
Метод. Разработанный фреймворк реализует эволюционный подход к оптимизации гиперпараметров моделей с аддитивной регуляризацией и высокими результатами по метрикам качества (когерентность, NPMI). Для уменьшения вычислительного времени представлен режим работы с суррогатными моделями, который обеспечивает ускорение вычислений до 1,8 раз без потери качества.
Основные результаты. Эффективность фреймворка продемонстрирована на трех наборах данных с разными статистическими характеристиками. Получены результаты, превосходящие аналогичные решения в среднем на 20 % по когерентности и 5 % по качеству классификации для двух из трех наборов. Создана распределенная версия фреймворка для проведения экспериментальных исследований тематических моделей.
Практическая значимость. Полученный фреймворк может быть использован пользователями без специальных знаний в области тематического моделирования, благодаря выстроенному пайплайну работы с данными. Результаты работы могут применяться исследователями для проведения анализа тематических моделей и расширения функционала.

Об авторах

М. А. Ходорченко
Университет ИТМО
Россия

Ходорченко Мария Андреевна - младший научный сотрудник

Санкт-Петербург, 197101



Н. А. Бутаков
Университет ИТМО
Россия

Бутаков Николай Алексеевич - кандидат технических наук, старший научный сотрудник

Санкт-Петербург, 197101



Д. А. Насонов
Университет ИТМО
Россия

Насонов Денис Александрович - кандидат технических наук, старший научный сотрудник

Санкт-Петербург, 197101



М. Ю. Фирулик
ООО «Оператор Газпром ИД»
Россия

Фирулик Михаил Юрьевич - директор департамента

Санкт-Петербург, 191028



Список литературы

1. Khanthaapha P., Pipanmaekaporn L., Kamonsantiroj S. Topic-based user profile model for POI recommendations // Proc. of the 2nd International Conference on Intelligent Systems, Metaheuristics Swarm Intelligence. 2018. P. 143–147. https://doi.org/10.1145/3206185.3206203

2. Peña F.J., O’Reilly-Morgan D., Tragos E.Z., Hurley N., Duriakova E., Smyth B., Lawlor A. Combining rating and review data by initializing latent factor models with topic models for Top-N recommendation // Proc. of the 14th ACM Conference on Recommender Systems. 2020. P. 438–443. https://doi.org/10.1145/3383313.3412207

3. Sokhin T., Butakov N. Semi-automatic sentiment analysis based on topic modeling // Procedia Computer Science. 2018. V. 136. P. 284–292. https://doi.org/10.1016/j.procs.2018.08.286

4. Nevezhin E., Butakov N., Khodorchenko M., Petrov M., Nasonov D. Topic-driven ensemble for online advertising generation // Proc. of the 28th International Conference on Computational Linguistics. 2020. P. 2273–2283. https://doi.org/10.18653/v1/2020.coling-main.206

5. Zamiralov A., Khodorchenko M., Nasonov D. Detection of housing and utility problems in districts through social media texts // Procedia Computer Science. 2020. V. 178. P. 213–223. https://doi.org/10.1016/j.procs.2020.11.023

6. Shi T., Kang K., Choo J., Reddy C.K. Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations // Proc. of the World Wide Web Conference (WWW 2018). 2018. P. 1105–1114. https://doi.org/10.1145/3178876.3186009

7. Hofmann T. Probabilistic latent semantic indexing // Proc. of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ‘99). 1999. P. 50–57. https://doi.org/10.1145/312624.312649

8. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // Journal of Machine Learning Research. 2003. V. 3. P. 993–1022.

9. Vorontsov K., Potapenko A., Plavin A. Additive regularization of topic models for topic selection and sparse factorization // Lecture Notes in Computer Science. 2015. V. 9047. P. 193–202. https://doi.org/10.1007/978-3-319-17091-6_14

10. Card D., Tan C., Smith N.A. Neural models for documents with metadata // Proc. of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018. P. 2031–2040. https://doi.org/10.18653/v1/p18-1189

11. Cao Z., Li S., Liu Y., Li W., Ji H. A novel neural topic model and its supervised extension // Proceedings of the AAAI Conference on Artificial Intelligence. 2015. V. 29. N 1. P. 2210–2216. https://doi.org/10.1609/aaai.v29i1.9499

12. Bianchi F., Terragni S., Hovy D. Pre-training is a hot topic: Contextualized document embeddings improve topic coherence // Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). 2021. P. 759–766. https://doi.org/10.18653/v1/2021.acl-short.96

13. Ye J., Jing X., Li J. Sentiment Analysis Using Modified LDA // Lecture Notes in Electrical Engineering. 2018. V. 473. P. 205–212. https://doi.org/10.1007/978-981-10-7521-6_25

14. Bodrunova S., Koltsov S., Koltsova O., Nikolenko S., Shimorina A. Interval semi-supervised LDA: Classifying needles in a haystack // Lecture Notes in Computer Science. 2013. V. 8265. P. 265–274. https://doi.org/10.1007/978-3-642-45114-0_21

15. Řehůřek R., Sojka P. Software framework for topic modelling with large corpora // Proc. of the LREC 2010 Workshop on New Challenges for NLP. 2010. P. 45–50.

16. Terragni S., Fersini E., Galuzzi B.G., Tropeano P., Candelieri A. OCTIS: Comparing and optimizing topic models is simple! // Proc. of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations. 2021. P. 263–270. https://doi.org/10.18653/v1/2021.eacl-demos.31

17. Khodorchenko M., Butakov N. Developing an approach for lifestyle identification based on explicit and implicit features from social media // Procedia Computer Science. 2018. V. 136. P. 236–245. https://doi.org/10.1016/j.procs.2018.08.262

18. Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM: Open source library for regularized multimodal topic modeling of large collections // Communications in Computer and Information Science. 2015. V. 542. P. 370–381. https://doi.org/10.1007/978-3-319-26123-2_36

19. Khodorchenko M., Teryoshkin S., Sokhin T., Butakov N. Optimization of learning strategies for ARTM-based topic models // Lecture Notes in Computer Science. 2020. V. 12344. P. 284–296. https://doi.org/10.1007/978-3-030-61705-9_24

20. Khodorchenko M., Butakov N., Sokhin T., Teryoshkin S. Surrogatebased optimization of learning strategies for additively regularized topic models // Logic Journal of the IGPL. 2022. https://doi.org/10.1093/jigpal/jzac019

21. Röder M., Both A., Hinneburg A. Exploring the space of topic coherence measures // Proc. of the Eighth ACM International Conference on Web Search and Data Mining (WSDM’15). 2015. P. 399–408. https://doi.org/10.1145/2684822.2685324

22. Newman D., Noh Y., Talley E., Karimi S., Baldwin T. Evaluating topic models for digital libraries // Proc. of the 10th Annual Joint Conference on Digital Libraries (JCDL’10). 2010. P. 215–224. https:// doi.org/10.1145/1816123.1816156


Рецензия

Для цитирования:


Ходорченко М.А., Бутаков Н.А., Насонов Д.А., Фирулик М.Ю. Программный фреймворк для оптимизации гиперпараметров тематических моделей с аддитивной регуляризацией. Научно-технический вестник информационных технологий, механики и оптики. 2023;23(1):112-120. https://doi.org/10.17586/2226-1494-2023-23-1-112-120

For citation:


Khodorchenko M.A., Butakov N.A., Nasonov D.A., Firulik M.Yu. Software framework for hyperparameters optimization of models with additive regularization. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2023;23(1):112-120. (In Russ.) https://doi.org/10.17586/2226-1494-2023-23-1-112-120

Просмотров: 8


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)