Классификация коротких текстов с использованием волновой модели
https://doi.org/10.17586/2226-1494-2022-22-2-287-293
Аннотация
Предмет исследования. Алгоритмы квантовых вычислений активно развиваются и применяются в области обработки естественного языка. В работе предложен новый квантово-подобный метод классификации коротких текстов. Метод. Основу метода составляет представление текста в виде ансамбля элементарных частиц. В качестве критерия классификации выбрано значение амплитуды вероятности обнаружения данного ансамбля в выбранных точках векторного пространства, описываемого при помощи дистрибутивно-семантической модели языка. Предложен один из возможных способов интерпретации параметров волновой функции описания поведения элементарной частицы, а также алгоритм расчета амплитуды вероятности с учетом этих параметров. Основные результаты. Выполнена экспериментальная проверка описанного метода с применением классификации интернет-сообществ по тематикам. Для расчетов использованы наименования и сведения разделов «информация» по 100 группам социальной сети «ВКонтакте» по пяти различным темам. Предложенная модель показала достаточно высокую точность классификации, которая составила 91 % в целом на наборе данных и от 75 % до 95 % в пределах отдельных классов. Практическая значимость. Представленная модель может быть использована для классификации отзывов пользователей о товарах, услугах и событиях, а также при определении некоторых свойств психологических портретов пользователей интернет-сообществ.
Ключевые слова
Об авторах
А. С. ГруздеваРоссия
Груздева Анастасия Сергеевна — аспирант
Санкт-Петербург, 197101
И. А. Бессмертный
Россия
Бессмертный Игорь Александрович — доктор технических наук, профессор, профессор
Санкт-Петербург, 197101
sc 36661767800
Список литературы
1. Nielsen M.A., Chuang I.L. Quantum Computation and Quantum Information. Cambridge University Press, 2010. 704 р. https://doi.org/10.1017/CBO9780511976667
2. Melucci M. Introduction to Information Retrieval and Quantum Mechanics. Berlin, Heidelberg: Springer-Verlag, 2015. 247 р. https://doi.org/10.1007/978-3-662-48313-8
3. Blacoe W., Kashefi E., Lapata M. A Quantum-theoretic approach to distributional semantics // Proc. of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT). 2013. P. 847–857.
4. Jaiswal A.K., Holdack G., Frommholz I., Liu H. Quantum-like Generalization of complex word embedding: a lightweight approach for textual classification // CEUR Workshop Proceedings. 2018. V. 2191. P. 159–168.
5. Surov I.A., Semenenko E., Platonov A.V., Bessmertny I.A., Galofaro F., Toffano Z., Khrennikov A.Y., Alodjants A.P. Quantum semantics of text perception // Scientific Reports. 2021. V. 11. N 1. P. 4193. https://doi.org/10.1038/s41598-021-83490-9
6. Pang B., Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts // Proc. of the 42nd Annual Meeting Association for Computational Linguistics (ACL). 2004. P. 271–278. https://doi.org/10.3115/1218955.1218990
7. Клековкина М.В., Котельников Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Материалы XIV Всероссийской научной конференции (RCDL-2012). 2012. С. 118–123.
8. Меньшиков И.Л. Анализ тональности текста на русском языке при помощи графовых моделей // Доклады всероссийской научной конференции АИСТʼ2013 «Анализ Изображений, Сетей и Текстов». Екатеринбург, 2013. C. 151–155.
9. Татарникова Т.М., Богданов П.Ю. Построение психологического портрета человека с применением технологий обработки естественного языка // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21. № 1. С. 85–91. https://doi.org/10.17586/2226-1494-2021-21-1-85-91
10. Литвинова Т.А., Загоровская О.В., Середин П.В., Лантюхова Н.Н., Шевченко И.C. Профилирование автора письменного текста: подходы, методы и их оптимизация // Филология, искусствоведение и культурология: актуальные вопросы и тенденции развития: материалы международной. научно-практической конференции (13 мая 2013 г.). Новосибирск: СибАК, 2013. С. 69–79.
11. Френкель Я.И. Волновая механика. Ч. 1. Элементарная теория. Квантовая физика. М.: URSS, 2019. 392 с.
12. Kutuzov A., Kuzmenko E. WebVectors: A toolkit for building web interfaces for vector semantic models // Communications in Computer and Information Science. 2017. V. 661. P. 155–161. https://doi.org/10.1007/978-3-319-52920-2_15
13. Panchenko A., Ustalov D., Arefyev N., Paperno D., Konstantinova N., Loukachevitch N., Biemann C. Human and machine judgements about russian semantic relatedness // Communications in Computer and Information Science. 2017. V. 661. P. 221–235. https://doi.org/10.1007/978-3-319-52920-2_21
14. Kolb P. Experiments on the difference between semantic similarity and relatedness // Proc. of the 17th Nordic Conference of Computational Linguistics (NODALIDA ‘09). 2009. P. 81–88.
15. Kolb P. DISCO: A multilingual database of distributionally similar words // Proc. of the KONVENS-2008. Berlin. 2008. P. 6–12.
Рецензия
Для цитирования:
Груздева А.С., Бессмертный И.А. Классификация коротких текстов с использованием волновой модели. Научно-технический вестник информационных технологий, механики и оптики. 2022;22(2):287-293. https://doi.org/10.17586/2226-1494-2022-22-2-287-293
For citation:
Gruzdeva A.S., Bessmertny I.A. Classification of short texts using a wave model. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2022;22(2):287-293. (In Russ.) https://doi.org/10.17586/2226-1494-2022-22-2-287-293