Обнаружение вредоносного домена на основе естественного языка с использованием машинного обучения и глубокого обучения

Раджа Салим; Г. Прадипа; С. Махалакшми; М. Джаякумар

doi:10.17586/2226-1494-2023-23-2-304-312

Обнаружение вредоносного домена на основе естественного языка с использованием машинного обучения и глубокого обучения

Раджа Салим, Г. Прадипа, С. Махалакшми, М. Джаякумар

https://doi.org/10.17586/2226-1494-2023-23-2-304-312

Полный текст:

PDF (Eng)

сгенерировать QR код

Аннотация

В настоящие время количество кибератак постоянно увеличивается, и борьба с ними остается сложной задачей. Киберпреступники используют различные стратегии для манипулирования и использования уязвимостей своих целей. Вредоносные URL-адреса — одна из таких стратегий, которая ориентирована на большие группы пользователей, находящихся в социальных сетях. В Интернете для привлечения пользователей преступники маскируют URL-адреса под безопасные. Преднамеренное или непреднамеренное использование таких URL-адресов подвергает опасности пользователя или организацию в киберпространстве и открывает путь для дальнейших атак. Системы, которые используют алгоритмы на основе правил или машинного обучения для поиска вредоносных URL-адресов, обычно полагаются на применение специальных функционалов. Это требует знания предметной области и опыта. Вместе с тем даже при извлечении опасных признаков из набора данных их потенциал может быть применен не полностью. В работе предложено использовать обработку естественного языка (Natural Language Processing, NLP) для векторизации слов в URL-адресах, а также моделей машинного и глубокого обучения для их классификации. Техника векторизации при обработке естественного языка позволяет снизить усилия по разработке признаков и максимально использует набор данных. Для эксперимента применены два набора данных, а для векторизации текста URL — три метода. Результаты эксперимента показали, что модели дерева решений (Decision Tree, DT) и метода случайного леса (Random Forest, RF) достигли точностей 99,4 % и 99,3 % с использованием машинного обучения с векторизаторами Count и Hash. Модели DT и метода опорных векторов (Support Vector Machine, SVM) обеспечили высокую точность 99,5 % с использованием меры Term Frequency-Inverse Document Frequency (TF-IDF). В модели глубокого обучения нейронной сети (Artificial Neural Network, ANN) получена точность 99,2 %, что выше в сравнении с использованием сверточной нейронной сети (Convolutional Neural Network, CNN).

Ключевые слова

вредоносный домен, фишинговый URL, NLP, машинное обучение, глубокое обучение

Об авторах

Раджа Салим

Университет технологий и прикладных наук
Оман

Салим Раджа Абдул Самад — PhD, преподаватель

Шинас, 324

sc 56862209800

Г. Прадипа

Университет технологий и прикладных наук
Оман

Прадипа Ганесан — преподаватель

Шинас, 324

sc 57673491800

С. Махалакшми

Колледж искусств и наук Вивекананды для женщин
Индия

Махалакшми Сомасундарам — доцент

Тирученгоде, 637211

М. Джаякумар

Университет технологий и прикладных наук
Оман

Джаякумар Маникам Сам — преподаватель

Шинас, 324

Список литературы

1. Da H., Xu K., Pei J. Malicious URL detection by dynamically mining patterns without pre-defined elements // World Wide Web. 2014. V. 17. N 6. P. 1375–1394. https://doi.org/10.1007/s11280-013-0250-4

2. Saleem Raja A., Pradeepa G., Arulkumar N. Mudhr. Malicious URL detection using heuristic rules based approach // AIP Conference Proceedings. 2022. V. 2393. N 1. P. 020176. https://doi.org/10.1063/5.0074077

3. Sahoo D., Liu C., Hoi S.C.H. Malicious URL detection using machine learning: A survey // ArXiv. 2017. arXiv:1701.07179. https://doi.org/10.48550/arXiv.1701.07179

4. Brownlee J. Deep Learning with Python: Develop Deep Learning Models on Theano and TensorFlow Using Keras. Machine Learning Mastery, 2016. 256 p.

5. Pradeepa G., Devi R. Lightweight approach for malicious domain detection using machine learning // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22. № 2. С. 262–268. https://doi.org/10.17586/2226-1494-2022-22-2-262-268

6. Saleem R.A., Vinodini R., Kavitha A. Lexical features based malicious URL detection using machine learning techniques // Materials Today: Proceedings. 2021. V. 47. Part 1. P. 163–166. https://doi.org/10.1016/j.matpr.2021.04.041

7. Bengfort B., Bilbro R., Ojeda T. Applied Text Analysis with Python Enabling Language-Aware Data Products with Machine Learning. O’Reilly Media, 2018. 332 p.

8. Vishva E.S., Aju D. Phisher fighter: Website phishing detection system based on URL and term frequency-inverse document frequency values // Journal of Cyber Security and Mobility. 2022. V. 11. N 1. P. 83–104. https://doi.org/10.13052/jcsm2245-1439.1114

9. Li S., Gong B. Word embedding and text classification based on deep learning methods // MATEC Web Conference. 2021. V. 336. P. 06022. https://doi.org/10.1051/matecconf/202133606022

10. Géron A. Hands-On Machine Learning with Scikit-Learn and TensorFlow. O’Reilly Media, 2017. 574 p.

11. Zhang M. Applications of deep learning in news text classification // Scientific Programming for Smart Internet of Things. 2021. V. 2021. P. 6095354. https://doi.org/10.1155/2021/6095354

12. Lakshmanarao A., Raja Babu M., Bala Krishna M.M. Malicious URL detection using NLP, machine learning and FLASK // Proc. of the International Conference on Innovative Computing, Intelligent Communication and Smart Electrical Systems (ICSES). 2021. P. 1–4. https://doi.org/10.1109/ICSES52305.2021.9633889

13. Liu B., Zeng X., Dong P. Malicious URL detection system based on LSTM and attention mechanism // Journal of Physics: Conference Series. 2021. V. 2037. N 1. P. 012016. https://doi.org/10.1088/1742-6596/2037/1/012016

14. Routhu S.R., Amey U., Alwyn R.P. Application of word embedding and machine learning in detecting phishing websites // Telecommunication Systems. 2022. V. 79. N 1. P. 33–45. https://doi.org/10.1007/s11235-021-00850-6

15. Zhang X., Zeng Y., Jin X.-B., Yan Z.-W., Geng G.-G. Boosting the phishing detection performance by semantic analysis // Proc. of the International Conference on Big Data. 2017. P. 1063–1070. https://doi.org/10.1109/BigData.2017.8258030

16. Malak A., Samitha M. Phishing attacks detection using machine learning and deep learning models // Proc. of the 7 th International Conference on Data Science and Machine Learning Applications ( C D M A ) . 2 0 2 2 . P. 1 7 5 – 1 8 0 . https://doi.org/10.1109/CDMA54072.2022.00034

17. Aung E.S., Yamana H. Phishing URL detection using information-rich domain and path features // Proc. of the DEIM. 2021.

18. Gopinath P., Sangeetha S., Balaji R., Sanjay, Shubham G., Bindhumadhava B.S. Malicious domain detection using machine learning on domain name features, host-based features and web-based features // Procedia Computer Science. 2020. V. 171. P. 654–661. https://doi.org/10.1016/j.procs.2020.04.071

Рецензия

Для цитирования:

Салим Р., Прадипа Г., Махалакшми С., Джаякумар М. Обнаружение вредоносного домена на основе естественного языка с использованием машинного обучения и глубокого обучения. Научно-технический вестник информационных технологий, механики и оптики. 2023;23(2):304-312. https://doi.org/10.17586/2226-1494-2023-23-2-304-312

For citation:

Saleem R., Pradeepa G., Mahalakshmi S., Jayakumar M. Natural language based malicious domain detection using machine learning and deep learning. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2023;23(2):304-312. https://doi.org/10.17586/2226-1494-2023-23-2-304-312

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2226-1494 (Print)
ISSN 2500-0373 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Научно-технический вестник информационных технологий, механики и оптики

Обнаружение вредоносного домена на основе естественного языка с использованием машинного обучения и глубокого обучения

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов