Создание корпуса иракского арабского диалекта в Твиттере для анализа настроений
https://doi.org/10.17586/2226-1494-2022-22-2-308-316
Аннотация
За последние годы количество пользователей Twitter в Ираке значительно увеличилось. Крупные события и политическая обстановка в стране оказывают значительное влияние на информацию в Twitter и затрагивают сообщения иракских пользователей. Создание корпуса иракских арабских диалектов Corpus of Iraqi Arabic Dialect (CIAD) имеет решающее значение для анализа настроений и изучения такой информации. Представлено исследование CIAD, который был разработан и описан другими исследователями. Корпус проверен с использованием восьми различных комбинаций четырех подходов к выбору признаков и двух версий алгоритма метода опорных векторов. Рассчитаны различные показатели эффективности. Полученная точность составила 78 %, что указывает на многообещающее потенциальное применение.
Об авторах
М. М. Хассун Аль-ДжавадИрак
Хассун Аль-Джавад Мохаммед М. — PhD, научный работник, преподаватель
Кербела, 56001
sc 57216978290
Х. Альхарби
Ирак
Альхарби Хасанейн — научный сотрудник, преподаватель
Вавилон, 51002
А. Ф. Альмухтар
Ирак
Альмухтар Ахмед Ф. — PhD, научный работник, преподаватель
Кербела, 56001
А. А. Алнавас
Ирак
Алнавас Анвар Аднан — PhD, начальник департамента
Насири
sc 57205432645
Список литературы
1. Stone M.L. et al. BIg data for Media // Reuters Institute for the Study of Journalism. 2014. November.
2. Badaro G., Baly R., Hajj H., El-Hajj W., Shaban K.B., Habash N., Al-Sallab A., Hamdi A. A survey of opinion mining in Arabic: A comprehensive system perspective covering challenges and advances in tools, resources, models, applications, and visualizations // ACM Transactions on Asian and Low-Resource Language Information Processing. 2019. V. 18. N 3. P. 27. https://doi.org/10.1145/3295662
3. Zaidan O.F., Callison-Burch C. Arabic dialect identification // Computational Linguistics. 2014. V. 40. N 1. P. 171–202. https://doi.org/10.1162/COLI_a_00169
4. Habash N.Y. Introduction to Arabic natural language processing // Synthesis Lectures on Human Language Technologies. 2010. V. 3. N 1. https://doi.org/10.2200/S00277ED1V01Y201008HLT010
5. Alnawas A., Arici N. The corpus based approach to sentiment analysis in modern standard Arabic and Arabic dialects: A literature review // Journal of Polytechnic-Politeknik Dergisi. 2018. V. 21. N 2. P. 461– 470. https://doi.org/10.2339/politeknik.403975
6. Alshutayri A., Atwell E. Classifying Arabic dialect text in the Social Media Arabic Dialect Corpus (SMADC) // Proc. of the 3rd Workshop on Arabic Corpus Linguistics. 2019. P. 51–59.
7. Abo M.E.M., Raj R.G., Qazi A. A review on Arabic sentiment analysis: State-of-The-Art, taxonomy and open research challenges // IEEE Access. 2019. V. 7. P. 162008–162024. https://doi.org/10.1109/ACCESS.2019.2951530
8. Kumar A., Jaiswal A. Systematic literature review of sentiment analysis on Twitter using soft computing techniques // Concurrency and Computation: Practice and Experience. 2020. V. 32. N 1. P. e5107. https://doi.org/10.1002/cpe.5107
9. Cieliebak M., Deriu J., Egger D., Uzdilli F. A Twitter corpus and benchmark resources for German sentiment analysis // Proc. of the 5th International Workshop on Natural Language Processing for Social Media (SocialNLP). 2017. P. 45–51. https://doi.org/10.18653/v1/ W17-1106
10. Nabil M., Aly M., Atiya A.F. ASTD: Arabic sentiment tweets dataset // Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2015. P. 2515–2519. https://doi.org/10.18653/v1/D15-1299
11. Alahmary R.M., Al-Dossari H.Z., Emam A.Z. Sentiment analysis of Saudi dialect using deep learning techniques // Proc. of the 18th International Conference on Electronics, Information, and Communication (ICEIC). 2019. P. 8706408. https://doi.org/10.23919/ ELINFOCOM.2019.8706408
12. Alnawas A., Arici N. Sentiment analysis of Iraqi Arabic dialect on Facebook based on distributed representations of documents // ACM Transactions on Asian and Low-Resource Language Information Processing. 2019. V. 18. N 3. P. a20. https://doi.org/10.1145/3278605
13. Kwaik K.A., Saad M., Chatzikyriakidis S., Dobnik S. Shami: A corpus of levantine Arabic dialects // Proc. of the 11th International Conference on Language Resources and Evaluation. (LREC-2018). 2019. P. 3645–3652.
14. Oussous A., Lahcen A.A., Belfkih S. Impact of text pre-processing and ensemble learning on Arabic sentiment analysis // ACM International Conference Proceeding Series. 2019. V. Part F148154. P. 65. https://doi.org/10.1145/3320326.3320399
15. El Abdouli A., Hassouni L., Anoun H. Sentiment analysis of moroccan tweets using naive bayes algorithm // International Journal of Computer Science and Information Security. 2017. V. 15. N 12. P. 191–200.
16. Bouazizi M., Ohtsuki T. Sentiment analysis: From binary to multiclass classification: A pattern-based approach for multi-class sentiment analysis in Twitter // Proc. of the IEEE International Conference on Communications (ICC). 2016. P. 7511392. https://doi.org/10.1109/ICC.2016.7511392
17. Altamimi M., Alruwaili O., Teahan W.J. BTAC: A twitter corpus for Arabic dialect identification // Proc. of the 6th Conference on Computer-Mediated Communication (CMC) and Social Media Corpora (CMC-corpora 2018). 2018. P. 5.
18. Al-Yasiri E.K., Al-Azawei A. Improving Arabic sentiment analysis on social media: A comparative study on applying different preprocessing techniques // Compusoft. 2019. V. 8. N 6. P. 3150–3157.
19. Platt J.C. Sequential Minimal Optimization: A fast algorithm for training support vector machines // CiteSeerX. 1998. V. 10. N 1.43. P. 4376.
Рецензия
Для цитирования:
Хассун Аль-Джавад М., Альхарби Х., Альмухтар А., Алнавас А. Создание корпуса иракского арабского диалекта в Твиттере для анализа настроений. Научно-технический вестник информационных технологий, механики и оптики. 2022;22(2):308-316. https://doi.org/10.17586/2226-1494-2022-22-2-308-316
For citation:
Hassoun Al-Jawad M., Alharbi H., Almukhtar A., Alnawas A. Constructing twitter corpus of Iraqi Arabic Dialect (CIAD) for sentiment analysis. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2022;22(2):308-316. https://doi.org/10.17586/2226-1494-2022-22-2-308-316