Nguyễn Đức Thiện , Lư Tất Thắng , Nguyễn Văn Thặng Trương Quốc Bảo *

* Tác giả liên hệ (tqbao@ctu.edu.vn)

Abstract

This study is aimed to detect and to check compliance with regulations on wearing face masks and keeping social distance in crowded places. Deep learning in object detection through image input was used. The YOLO model, which is state-of-the-art algorithm is used to build a model to detect the correct or incorrect wearing of masks. In addition, using this approach can detect people, check keeping social distance by using the Euclidean algorithm to calculate distance between bounding box around persons who were detected in the image, combined with the Bird's-eye view transformation algorithm. The test uses a dataset consisting of 40 images, with two people classified by actual standing distance from each other: greater than or equal to 2 m and less than 2 m. At the same time, each person in the image with a different mask-wearing state is actually classified into three classes: wearing correct or in correct mask and without wearing mask. The testing results reached 90% for the group with the standing distance less or greater than 2 m. The mask-wearing identification test had the following results: 86.67% for the object is wearing correct mask, 76.67% for without wearing mask and 65% for wearing wrong mask.

Keywords: Bird eye view transformation, computer vision, distance estmation, deep learning, face mask detection, YOLOv5

Tóm tắt

Bài báo này được thực hiện nhằm nghiên cứu phát hiện và kiểm tra việc tuân thủ các quy định về đeo khẩu trang, giữ khoảng cách xã hội ở các địa điểm đông đúc. Mô hình YOLO được sử dụng để xây dựng thuật toán phát hiện đeo khẩu trang đúng hay không đúng quy định, đồng thời kiểm tra việc giữ khoảng cách xã hội bằng việc sử dụng thuật toán tính khoảng cách Euclid giữa các khung bao quanh người được phát hiện trong hình ảnh, kết hợp thuật toán chuyển đổi Bird’s-eye view. Tập dữ liệu được sử dụng bao gồm 40 hình ảnh với hai đối tượng người được phân loại thực tế theo khoảng cách đứng với nhau: lớn hơn hoặc bằng 2 m và nhỏ hơn 2 m. Đồng thời, mỗi đối tượng người trong hình ảnh được phân loại thành ba lớp: đeo khẩu trang đúng hay không đúng và không đeo khẩu trang. Kết quả thử nghiệm khoảng cách đối tượng đạt 90% và nhận diện đối tượng đeo khẩu trang có kết quả như sau: 86,67% đeo khẩu trang đúng, 76,67%  không đeo khẩu trang và 65% đeo khẩu trang...

Từ khóa: Chuyển đổi Bird’s-eye view , học sâu, phát hiện đeo khẩu trang, thị giác máy tính, ước lượng khoảng cách, YOLOv5

Article Details

Tài liệu tham khảo

Bisong, E. (2019). Google Colaboratory. In E. Bisong (Ed.), Building Machine Learning and Deep Learning Models on Google Cloud Platform (pp. 59–64). Apress. https://doi.org/10.1007/978-1-4842-4470-8_7

Ding, Y., Li, Z., & Yastremsky, D. (2021). Real-time Face Mask Detection in Video Data. arXiv:2105.01816 [cs.CV] 5 May 2021. http://arxiv.org/abs/2105.01816

Jocher, G. (2020). YOLOv5. https://doi.org/10.5281/zenodo.5563715

Kumar, G., & Shetty, S. (2021). Application Development for Mask Detection and Social Distancing Violation Detection using Convolutional Neural Networks. Proceedings of the 23rd International Conference on Enterprise Information Systems, 760–767. https://doi.org/10.5220/0010483107600767

Larxel. (2020). Face Mask Detection | Kaggle. In Www.Kaggle.Com. https://www.kaggle.com/andrewmvd/face-mask-detection

Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick, C. L. (2014). Microsoft COCO: Common Objects in Context. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics): Vol. 8693 LNCS (Issue PART 5, pp. 740–755). https://doi.org/10.1007/978-3-319-10602-1_48

Liu, S., Qi, L., Qin, H., Shi, J., & Jia, J. (2018). Path Aggregation Network for Instance Segmentation. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 8759–8768. https://doi.org/10.1109/CVPR.2018.00913

Luo, L. B., Koh, I. S., Min, K. Y., Wang, J., & Chong, J. W. (2010). Low-cost implementation of bird’s-eye view system for camera-on-vehicle. 2010 Digest of Technical Papers International Conference on Consumer Electronics (ICCE), 311–312. https://doi.org/10.1109/ICCE.2010.5418845

Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 779–788. https://doi.org/10.1109/CVPR.2016.91

Shukla, R., Mahapatra, A. K., & Selvin Peter, P. J. (2021). Social distancing tracker using YOLOv5. Turkish Journal of Physiotherapy and Rehabilitation, 32(2), 1785-1793.

Wang, C. Y., Mark Liao, H. Y., Wu, Y. H., Chen, P. Y., Hsieh, J. W., & Yeh, I. H. (2020). CSPNet: A New Backbone that can Enhance Learning Capability of CNN. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 1571–1580. https://doi.org/10.1109/CVPRW50498.2020.00