Исследование способов векторизации неструктурируемых текстовых документов на естественном языке по степени их влияния на качество работы различных классификаторов
https://doi.org/10.17586/2226-1494-2022-22-1-114-119
Аннотация
Предмет исследования. Повсеместное увеличение объемов обрабатываемой информации на объектах критической информационной инфраструктуры, представленной в текстовой форме на естественном языке, создает проблему ее классификации по степени конфиденциальности. Успех решения данной задачи зависит как от самой модели-классификатора, так и от выбранного способа извлечения признаков (векторизации). Требуется максимально полно передать модели-классификатору свойства исходного текста, содержащие всю совокупность демаркационных признаков. В работе представлена эмпирическая оценка эффективности алгоритмов линейной классификации, основанная на выбранном способе векторизации, а также значении количества настраиваемых параметров в случае применения векторизатора хеширования (Hash Vectorizer). Метод. В качестве датасета для обучения и тестирования алгоритмов классификации использованы государственные текстовые документы, условно выступающие в роли конфиденциальных. Выбор подобного текстового массива обусловлен наличием специфической терминологии, повсеместно встречающейся в рассекреченных документах. Терминированность, являясь примитивной демаркационной границей и выступая в роли классификационного признака, облегчает работу алгоритмов классификации, что в свою очередь позволяет сконцентрировать внимание на той доли вклада, которую вносит выбранный способ векторизации. Метрикой оценки качества работы алгоритмов выступает величина ошибки классификации. За величину ошибки принята величина, обратная доле правильных ответов алгоритма (accuracy). Проведена оценка алгоритмов по времени обучения. Основные результаты. Полученные гистограммы отражают величину ошибки алгоритмов и время обучения. Выделены наиболее и наименее эффективные алгоритмы для конкретно заданного способа векторизации. Практическая значимость. Результаты работы позволяют повысить эффективность решения реальных практических классификационных задач текстовых документов небольшого объема со свойственной специфической терминологией.
Об авторах
В. В. ШадскийРоссия
Шадский Виктор Викторович — адъюнкт
Краснодар, 350063
А. Б. Сизоненко
Россия
Сизоненко Александр Борисович — доктор технических наук, доцент, начальник кафедры
Краснодар, 350063
М. А. Чекмарев
Россия
Чекмарев Максим Алексеевич — адъюнкт
Краснодар, 350063
А. В. Шишков
Россия
Шишков Андрей Васильевич — студент
Краснодар, 350063
Д. А. Исакин
Россия
Исакин Даниил Андреевич — студент
Новосибирск, 630087
Список литературы
1. Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. № 1. С. 85–99. https://doi.org/10.15827/0236-235X.030.1.085-099
2. Бортников В.И., Михайлова Ю.Н. Документная лингвистика: учебно-методическое пособие / Министерство образования и науки Российской Федерации, Уральский государственный юридический университет. Екатеринбург: Изд-во Уральского университета, 2017. 132 с.
3. Роготнева Е.Н. Документная лингвистика: сборник учебно-методических материалов. Томск: Изд-во Томского политехнического университета, 2011. 784 с.
4. Орлов А.И. Математические методы теории классификации // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 95. С. 23–45.
5. Косова М.В., Шарипова Р.Р. Терминированность как основа классификации документных текстов // Вестник Волгоградского государственного университета. Серия 2: Языкознание. 2016. Т. 15. № 4. С. 245–252. https://doi.org/10.15688/jvolsu2.2016.4.26
6. Терских Н.В. Термин как единица специального знания // Система ценностей современного общества. 2008. № 3. С. 97–104.
7. Розенталь Д.Э., Голуб И.Б., Теленкова М.А. Современный русский язык. 13-е изд. М.: АЙРИС-пресс, 2014. 448 с.
8. Крашенинников А.М., Гданский Н.И., Рысин М.Л. Линейная классификация объектов с использованием нормальных гиперплоскостей // Инженерный вестник Дона. 2012. № 4-1 (22). С. 94–99.
9. Dan Nelson. Overview of Classification Methods in Python with Scikit-Learn // Stack Abuse [Электронный ресурс]. URL: https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/ (дата обращения: 20.12.2021).
10. Woods W. Important issues in knowledge representation // Proceedings of the IEEE. 1986. V. 74. N 10. P. 1322–1334. https://doi.org/10.1109/PROC.1986.13634
11. Рашка С., Мирджалили В. Python и машинное обучение: машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow 2 / пер. с англ. – 3-е изд. СПб.: ООО «Диалектика», 2020. 848 с.
12. Qaiser S., Ali R. Text mining: Use of TF-IDF to examine the relevance of words to documents // International Journal of Computer Applications. 2018. V. 181. N 1. P. 25–29. https://doi.org/10.5120/ijca2018917395
13. Kavita Ganesan. HashingVectorizer vs. CountVectorizer [Электронный ресурс]. URL: https://kavita-ganesan.com/hashingvectorizer-vs-countvectorizer/#.YcGOyavP2Ul (дата обращения: 20.12.2021).
14. Jason Brownlee. How to Encode Text Data for Machine Learning with scikit-learn // Machine learning mastery [Электронный ресурс]. URL: https://machinelearningmastery.com/prepare-text-data-machine-learning-scikit-learn/ (дата обращения: 20.12.2021).
15. Max Pagels. Introducing One of the Best Hacks in Machine Learning: the Hashing Trick // Medium [Электронный ресурс]. URL: https://medium.com/value-stream-design/introducing-one-of-the-best-hacks-in-machine-learning-the-hashing-trick-bf6a9c8af18f (дата обращения: 20.12.2021).
Рецензия
Для цитирования:
Шадский В.В., Сизоненко А.Б., Чекмарев М.А., Шишков А.В., Исакин Д.А. Исследование способов векторизации неструктурируемых текстовых документов на естественном языке по степени их влияния на качество работы различных классификаторов. Научно-технический вестник информационных технологий, механики и оптики. 2022;22(1):114-119. https://doi.org/10.17586/2226-1494-2022-22-1-114-119
For citation:
Shadsky V.V., Sizonenko A.B., Chekmarev M.A., Shishkov A.V., Isakin D.A. A study of vectorization methods for unstructured text documents in natural language according to their influence on the quality of work of various classifiers. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2022;22(1):114-119. (In Russ.) https://doi.org/10.17586/2226-1494-2022-22-1-114-119