Nguyễn Thanh Thanh Trúc , Trần Thị Mỹ Quyên * , Bùi Cao Doanh , Võ Duy Nguyễn Nguyễn Tấn Trần Minh Khang

* Người chịu trách nhiệm về bài viết: Trần Thị Mỹ Quyên (email: 20520731@gm.uit.edu.vn)

Abstract

Vehicle detection in aerial images problem poses multiple challenges and has been of great interest to many in the research community. Objects in aerial images are a lot smaller in size compared to those in images taken from the ground, which is one of the biggest challenges in this problem. With small objects, the differences between regional proposals gravely affect the detection result. In this research, the Double-Head method is evaluated on the AERIAU dataset, an aerial image dataset that utilizes data augmentation techniques. The Double-Head achieved an mAP score of 37.09% on the AERIAU dataset. Compared with the previous method that achieved the highest result on the AERIAU dataset, which wasYOLOv3, Double-Head was surpassed by 2.01%. The Double-Head model achieved remarkably high results in the ‘car’, ‘bus’, and ‘truck’ vehicle classes, from which proposals are made to detect smaller vehicles. This is a premise of future research and a basis for developing smart traffic surveillance systems.

Keywords: Vehicle Detection, Deep learning, Smart city, Unmaned Aerial Vehicle (UAVs)

Tóm tắt

Phát hiện phương tiện giao thông từ không ảnh đặt ra nhiều thách thức và nhận được sự quan tâm từ cộng đồng nghiên cứu. Đối tượng trong không ảnh nhỏ hơn rất nhiều so với ảnh chụp từ camera mặt đất, đây là thách thức rất lớn. Với các đối tượng nhỏ, sự sai khác của các vùng đề xuất sẽ làm ảnh hưởng lớn đến kết quả phát hiện đối tượng. Trong nghiên cứu này, phương pháp Double-Head được đánh giá dựa trên bộ dữ liệu AERIAU – một bộ dữ liệu không ảnh có áp dụng các kỹ thuật tăng cường dữ liệu. Double-Head đạt kết quả 37,09% mAP trên bộ dữ liệu AERIAU. So sánh với mô hình đạt kết quả cao nhất được công bố trước đó trên bộ dữ liệu AERIAU là YOLOv3, Double-Head cao hơn 2,01%. Double-Head đạt kết quả cao trên lớp đối tượng xe ô tô, xe buýt, xe tải, từ đó đưa ra đề xuất phát hiện xe loại nhỏ. Đây là tiền đề cho các nghiên cứu tiếp theo, cơ sở để phát triển các hệ thống giám sát giao thông thông minh.

Từ khóa: Phát hiện phương tiện giao thông, Học sâu, Thành phố thông minh, Máy bay không người lái

Article Details

Tài liệu tham khảo

Bae, W., Noh, J., & Kim, G. (2020). Rethinking class activation mapping for weakly supervised object localization. In European Conference on Computer Vision (pp. 618-634). Springer, Cham. https://doi.org/10.1007/978-3-030-58555-6_37

Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., Sun, X., Feng, W., Liu, Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C., Cheng, T., Zhao, O., Li, B., Lu, X., Zhu, R., Wu, Y., Dai, D., Wang, J., Shi, J., Ouyang, W., Loy, C. C., & Lin, D. (2019). MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155.

Chung, Q. M., Le, T. D., Dang, T. V., Vo, N. D., Nguyen, T. V., & Nguyen, K. (2020). Data augmentation analysis in vehicle detection from aerial videos. In 2020 RIVF International Conference on Computing and Communication Technologies (RIVF) (pp. 1-3). IEEE. https://doi.org/10.1007/978-3-030-58555-6_37

Dai, J., Li, Y., He, K., & Sun, J. (2016). R-fcn: Object detection via region-based fully convolutional networks. Advances in neural information processing systems, 29.

Dertat, A. (2018). Applied deep learning-part 1: Artificial neural networks, 2017. URl: https://towardsdatascience.com/applied-deep-learningpart-1-artificial-neural-networks-d7834f67a4f6.

Tổng cục Đường bộ Việt Nam. (2021). Ô nhiễm môi trường giao thông tại VN: Thực trạng và giải pháp. https://drvn.gov.vn/tin-tuc/tin-tuc-su-kien/o-nhiem-moi-truong-giao-thong-tai-vn-thuc-trang-va-giai-phap2.html?site=20830

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778). https://doi.org/10.1109/CVPR.2016.90

He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017). Mask r-cnn. In Proceedings of the IEEE international conference on computer vision (pp. 2961-2969). https://doi.org/10.1109/ICCV.2017.322

Ho, N., Pham, M., Vo, N. D., & Nguyen, K. (2020). Vehicle detection at night time. In 2020 7th NAFOSTED Conference on Information and Computer Science (NICS) (pp. 250-255). IEEE. https://doi.org/10.1109/NICS51282.2020.9335870

Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham. https://doi.org/10.1007/978-3-319-10602-1_48

Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988). https://doi.org/10.1109/ICCV.2017.324

Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham. https://doi.org/10.1007/978-3-319-46448-0_2

Liu, Z., Zhang, W., Gao, X., Meng, H., Tan, X., Zhu, X., Xue, Z., Ye, X., Zhang, H., Wen, S., & Ding, E. (2020). Robust movement-specific vehicle counting at crowded intersections. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (pp. 614-615). https://doi.org/10.1109/CVPRW50498.2020.00315

Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). https://doi.org/10.1109/CVPR.2016.91

Redmon, J., & Farhadi, A. (2017). YOLO9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7263-7271). https://doi.org/10.1109/CVPR.2017.690

Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.

Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28.

Rossi, L., Karimi, A., & Prati, A. (2021). A novel region of interest extraction layer for instance segmentation. In 2020 25th International Conference on Pattern Recognition (ICPR) (pp. 2203-2209). https://doi.org/10.1109/ICPR48806.2021.9412258

Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., & Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1-9). https://doi.org/10.1109/CVPR.2015.7298594

Weisbrich, W. I. (2012). Kit-ipf-forschung – downloads. http://www.ipf.kit.edu/downloads.php

Zhu, P., Wen, L., Bian, X., Ling, H., & Hu, Q. (2018). Vision meets drones: A challenge. arXiv preprint arXiv:1804.07437.