Võ Huỳnh Quang Hiếu * Đỗ Phúc

* Tác giả liên hệ (hieuvhq.15@grad.uit.edu.vn)

Abstract

In Vietnam, the beauty care industry is one of the highly competitive business fields. Knowing which products are popularly searched for on Google and understanding future search prediction data on Google helps investors and those in charge of sales and marketing departments with informed information. Researching and developing business marketing strategies to compete with competitors or for investors to consider when making investment decisions is helpful. This article implements methods for collecting, preprocessing data, analyzing, and extracting content information from websites popular on Google. Finally, predict future search figures on Google using machine learning algorithms. Experimental results have shown outstanding products and proposed suitable models to predict future search data on Google.

Keywords: Google search, model regression, natural languague processing, text classification

Tóm tắt

Tại Việt Nam, có thể nói ngành chăm sóc sắc đẹp là một trong những lĩnh vực kinh doanh có mức độ cạnh tranh cao. Việc tìm hiểu những sản phẩm nào đang được quan tâm tìm kiếm phổ biến trên Google và nắm được số liệu dự đoán tìm kiếm tương lai trên Google giúp cho các nhà đầu tư, những người phụ trách phòng kinh doanh, tiếp thị những thông tin hữu ích để có thể nghiên cứu đưa ra các chiến lược tiếp thị kinh doanh cạnh tranh với đối thủ hoặc các nhà đầu tư cân nhắc đưa ra quyết định đầu tư của mình. Bài báo này thực hiện các phương pháp thu thập, tiền xử lý dữ liệu, phân tích và trích xuất thông tin nội dung của các trang web được phổ biến trên Google. Cuối cùng là dự đoán số liệu tìm kiếm trong tương lai trên Google bằng các thuật toán học máy. Kết quả thực nghiệm đã cho biết các sản phẩm nổi bật và đề xuất mô hình phù hợp dự đoán số liệu tìm kiếm tương lai trên Google.

Từ khóa: Google tìm kiếm, mô hình hồi quy, phân loại văn bản, xử lý ngôn ngữ tự nhiên

Article Details

Tài liệu tham khảo

Sonit Singh. Natural Language Processing for Information Extraction. 2018; arXiv:1807.02383v1 [cs.CL];Available from: https://doi.org/10.48550/arXiv.1807.02383.

Chunmei Zheng, Guomei Hel, Zuojie. A Study of Web Information Extraction Technology Based on Beautiful Soup. 2015;10(6):381-387;Available from: https://doi.org/10.17706/jcp.10.6.381-387.

Kiran Adnan, Rehan Akbar, Khor Siak Wang. Information Extraction from Multifaceted Unstructured Big Data. IJRTE ISSN:2277-3878; 2019;Available from: https://doi.org/10.35940/ijrte.B1074.0882S819.

Haidara Saleh, Jamil Antone Layous. Machine Learning – Regression. January 2022;Available from: https://doi.org/10.13140/RG.2.2.35768.67842.

Parisa Naderi Golshan, HosseinAli Rahmani Dashti, Shahrzad Azizi, Leila Safari. A Study of Recent Contribution on Information Extraction. 2018;arXiv: 1803.05667;Available from: https://doi.org/10.48550/arXiv.1803.05667.

Hung Bui. Vietnamese Diacritics Restoration Using Deep Learning Approach. Conference: 2018 10th International Conference on Knowledge and Systems Engineering (KSE);Available from: https://doi.org/10.1109/KSE.2018.8573427.

Davide Chicco, Matthijs J. Warrens and Giuseppe Jurman. The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation. PeerJ Comput, Sci,7:e623. 2021;Available from: https://doi.org/10.7717/peerj-cs.623.

Adele Cutler, D. Richard Cutler and John R. Stevens. Random Forests, In book: Ensemble Machine Learning: Methods and Applications. 2012;(pp.157-176);Available from: http://dx.doi.org/10.1007/978-1-4419-9326-7_5.

Breiman, L. Random Forests, Machine Learning. 2001.45 (1) pp. 5–32  (2001).Available from: https://doi.org/10.1023/a:1010933404324.

Dogru, A. Subasi. Traffic accident detection using random forest classifier, in: 2018 15th Learning and Technology Conference (L&T). 2018;pp. 40–45;Available from: https://doi.org/10.1109/LT.2018.8368509.

Antonie Gatera,  Martin Kuradusenge, Gaurav Bajpai, Chomora Mikeka, Sarika Shrivastava. Comparision of random forest and support vector machine refression models for forecasting road accidents. Scientific African Vol.21, Septemper 2023, e01739. 2023;Available from: https://doi.org/10.1016/j.sciaf.2023.e01739.

Mike Sishi, Arnesh Telukdarie. The Application of Decision Tree Regression to Optimize Business Processes, Proceedings of the International Conference on Industrial Engineering and Operations Management Sao Paulo, Brazil, April 5-8; 2021; Available from: http://www.ieomsociety.org/brazil2020/papers/31.pdf.

Nguyễn Chí Hiếu. Khảo Sát Các Mô Hình Phân Loại Văn Bản Tiếng Việt. Tạp Chí Khoa Học và Công Nghệ, số 57; 2022;Available from: https://doi.org/10.46242/jstiuh.v57i03.4395.

Khang Phuoc Quy Nguyen, Kiet Van Nguyen. Exploiting Vietnamese Social Media Characteristics for Textual Emotion Recognition in Vietnamese, arXiv:2009.11005v3 [cs.CL]. 27 Oct 2020;Available from: https://arxiv.org/pdf/2009.11005.pdf

Hao Tuan Huynh, Nghia Duong Trung, Dinh Quoc Truong, Hiep Xuan Huynh. Vietnamese Text Classification with TextRank and Jaccard Similarity Coefficient. Advances in Science, Techonology and Engineering Systems Journal Vol. 5, No. 6. 2020;p.363-369;Available from: https://dx.doi.org/10.25046/aj050644

Thanh Huu Duong, Anh Tram Thi Nguyen. A review: preprocessing techniques and data augmentation for sentiment analysis. Computational Social Networks; 2021; Available: https://doi.org/10.1186/s40649-020-00080-x.

Duyet Le Van (2017). Vietnamese stopwords. https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamese-stopwords.txt.

Deepa Yogish, T. N. Manjunath, Ravindra S. Hegadi. Review on Natural Language Processing Trends and Techniques Using NLTK. RTIP2R: Recent Trends in Image Processing and Pattern Recognition. 2019;p.589-606;Available from: https://link.springer.com/chapter/10.1007/978-981-13-9187-3_53.

Bisong, E. Matplotlib and Seaborn. In: Building Machine Learning and Deep Learning Models on Google Cloud Platform. Apress, Berkeley, CA. 2019;p.151-165; Available from: https://doi.org/10.1007/978-1-4842-4470-8_12