Thực nghiệm đánh giá Double-Head cho bài toán phát hiện phương tiện giao thông từ không ảnh
Abstract
Vehicle detection in aerial images problem poses multiple challenges and has been of great interest to many in the research community. Objects in aerial images are a lot smaller in size compared to those in images taken from the ground, which is one of the biggest challenges in this problem. With small objects, the differences between regional proposals gravely affect the detection result. In this research, the Double-Head method is evaluated on the AERIAU dataset, an aerial image dataset that utilizes data augmentation techniques. The Double-Head achieved an mAP score of 37.09% on the AERIAU dataset. Compared with the previous method that achieved the highest result on the AERIAU dataset, which wasYOLOv3, Double-Head was surpassed by 2.01%. The Double-Head model achieved remarkably high results in the ‘car’, ‘bus’, and ‘truck’ vehicle classes, from which proposals are made to detect smaller vehicles. This is a premise of future research and a basis for developing smart traffic surveillance systems.
Tóm tắt
Phát hiện phương tiện giao thông từ không ảnh đặt ra nhiều thách thức và nhận được sự quan tâm từ cộng đồng nghiên cứu. Đối tượng trong không ảnh nhỏ hơn rất nhiều so với ảnh chụp từ camera mặt đất, đây là thách thức rất lớn. Với các đối tượng nhỏ, sự sai khác của các vùng đề xuất sẽ làm ảnh hưởng lớn đến kết quả phát hiện đối tượng. Trong nghiên cứu này, phương pháp Double-Head được đánh giá dựa trên bộ dữ liệu AERIAU – một bộ dữ liệu không ảnh có áp dụng các kỹ thuật tăng cường dữ liệu. Double-Head đạt kết quả 37,09% mAP trên bộ dữ liệu AERIAU. So sánh với mô hình đạt kết quả cao nhất được công bố trước đó trên bộ dữ liệu AERIAU là YOLOv3, Double-Head cao hơn 2,01%. Double-Head đạt kết quả cao trên lớp đối tượng xe ô tô, xe buýt, xe tải, từ đó đưa ra đề xuất phát hiện xe loại nhỏ. Đây là tiền đề cho các nghiên cứu tiếp theo, cơ sở để phát triển các hệ thống giám sát giao thông thông minh.
Article Details
Tài liệu tham khảo
Bae, W., Noh, J., & Kim, G. (2020). Rethinking class activation mapping for weakly supervised object localization. In European Conference on Computer Vision (pp. 618-634). Springer, Cham. https://doi.org/10.1007/978-3-030-58555-6_37
Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., Sun, X., Feng, W., Liu, Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C., Cheng, T., Zhao, O., Li, B., Lu, X., Zhu, R., Wu, Y., Dai, D., Wang, J., Shi, J., Ouyang, W., Loy, C. C., & Lin, D. (2019). MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155.
Chung, Q. M., Le, T. D., Dang, T. V., Vo, N. D., Nguyen, T. V., & Nguyen, K. (2020). Data augmentation analysis in vehicle detection from aerial videos. In 2020 RIVF International Conference on Computing and Communication Technologies (RIVF) (pp. 1-3). IEEE. https://doi.org/10.1007/978-3-030-58555-6_37
Dai, J., Li, Y., He, K., & Sun, J. (2016). R-fcn: Object detection via region-based fully convolutional networks. Advances in neural information processing systems, 29.
Dertat, A. (2018). Applied deep learning-part 1: Artificial neural networks, 2017. URl: https://towardsdatascience.com/applied-deep-learningpart-1-artificial-neural-networks-d7834f67a4f6.
Tổng cục Đường bộ Việt Nam. (2021). Ô nhiễm môi trường giao thông tại VN: Thực trạng và giải pháp. https://drvn.gov.vn/tin-tuc/tin-tuc-su-kien/o-nhiem-moi-truong-giao-thong-tai-vn-thuc-trang-va-giai-phap2.html?site=20830
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778). https://doi.org/10.1109/CVPR.2016.90
He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017). Mask r-cnn. In Proceedings of the IEEE international conference on computer vision (pp. 2961-2969). https://doi.org/10.1109/ICCV.2017.322
Ho, N., Pham, M., Vo, N. D., & Nguyen, K. (2020). Vehicle detection at night time. In 2020 7th NAFOSTED Conference on Information and Computer Science (NICS) (pp. 250-255). IEEE. https://doi.org/10.1109/NICS51282.2020.9335870
Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham. https://doi.org/10.1007/978-3-319-10602-1_48
Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988). https://doi.org/10.1109/ICCV.2017.324
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham. https://doi.org/10.1007/978-3-319-46448-0_2
Liu, Z., Zhang, W., Gao, X., Meng, H., Tan, X., Zhu, X., Xue, Z., Ye, X., Zhang, H., Wen, S., & Ding, E. (2020). Robust movement-specific vehicle counting at crowded intersections. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (pp. 614-615). https://doi.org/10.1109/CVPRW50498.2020.00315
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). https://doi.org/10.1109/CVPR.2016.91
Redmon, J., & Farhadi, A. (2017). YOLO9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7263-7271). https://doi.org/10.1109/CVPR.2017.690
Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28.
Rossi, L., Karimi, A., & Prati, A. (2021). A novel region of interest extraction layer for instance segmentation. In 2020 25th International Conference on Pattern Recognition (ICPR) (pp. 2203-2209). https://doi.org/10.1109/ICPR48806.2021.9412258
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., & Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1-9). https://doi.org/10.1109/CVPR.2015.7298594
Weisbrich, W. I. (2012). Kit-ipf-forschung – downloads. http://www.ipf.kit.edu/downloads.php
Zhu, P., Wen, L., Bian, X., Ling, H., & Hu, Q. (2018). Vision meets drones: A challenge. arXiv preprint arXiv:1804.07437.