Vũ Lê Quỳnh Phương * , Trần Nguyễn Minh Thư Phạm Nguyên Khang

* Tác giả liên hệ (vlqphuong@cdspkg.edu.vn)

Abstract

Object detection models based on convolutional neural networks are continuously evolving and widely applied in various domains, especially in intelligent transportation systems. In this study, the authors applied deep learning techniques, particularly real-time vehicle detection models: based on anchor-box (for example, You Only Look Once - YOLO), based on keypoint (for example CenterNet), and based on Transformers (for example, Detection Transformers - DETR) for detection vehicles. These models were fine-tuned and trained using transfer learning techniques to enhance vehicle detection capabilities. The results of the experiments indicated that the YOLO model achieved the highest accuracy (98.3%) with 11.7 ms time of detection. Meanwhile, the DETR model had the fastest execution time (2.3 ms) but the lowest accuracy (62.4%). The CenterNet model proved to be the best choice (94.11% - 8 ms) as it struck a balance between accuracy and execution time, making it suitable for real-time applications.

Keywords: Deep learning, object detection, transformer, vehicle detection

Tóm tắt

Các mô hình phát hiện đối tượng dựa trên mạng nơ-ron tích chập đang phát triển liên tục và được áp dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong hệ thống giao thông thông minh. Trong nghiên cứu này, các kỹ thuật học sâu đã được áp dụng, đặc biệt là các mô hình phát hiện phương tiện giao thông trong thời gian thực: dựa trên “anchor” (điển hình như mô hình You Only Look Once - YOLO), dựa trên “keypoint”(điển hình như mô hình CenterNet), và dựa trên “transformer”(điển hình như mô hình Detection Transformers - DETR). Các mô hình đã được tinh chỉnh và huấn luyện thông qua kỹ thuật học chuyển tiếp để cải thiện khả năng phát hiện phương tiện giao thông. Kết quả của các thử nghiệm đã chỉ ra rằng mô hình YOLO đạt được độ chính xác cao nhất (98,3%) với thời gian thực thi là 11,7 ms. Trong khi đó, mô hình DETR thực hiện thời gian thực thi nhanh nhất (2,3 ms), nhưng độ chính xác thấp nhất (62,4%). Mô hình CenterNet là lựa chọn tốt nhất (94,11% - 8 ms) vì cân đối được giữa độ chính xác và thời gian thực thi, có thể được sử dụng trong các ứng dụng thời gian thực.

Từ khóa: Học sâu, phát hiện đối tượng, phát hiện phương tiện giao thông, “transformer”

Article Details

Tài liệu tham khảo

Bautista, C. M., Dy, C. A., Mañalac, M. I., Orbe, R. A., & Cordel, M. (2016). Convolutional neural network for vehicle detection in low resolution traffic videos. In 2016 IEEE Region 10 Symposium (TENSYMP) ( pp. 277-281). IEEE.

Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-end object detection with transformers. In European conference on computer vision (pp. 213-229). Cham: Springer International Publishing.

C-K. Huynh, T. -S. Le and K. Hamamoto (2016). Convolutional neural network for motorbike detection in dense traffic, 2016 IEEE Sixth International Conference on Communications and Electronics (ICCE)(pp. 369-37). IEEE.

Hsu, S. C., Huang, C. L., & Chuang, C. H. (2018). Vehicle detection using simplified fast R-CNN. In 2018 International Workshop on Advanced Image Technology (IWAIT) (pp. 1-3). IEEE.

Law, H., & Deng, J. (2018). Cornernet: Detecting objects as paired keypoints. In Proceedings of the European conference on computer vision (ECCV) (pp. 734-750).

Li, D., & Zhai, J. (2022, September). A real-time vehicle window positioning system based on nanodet. In Chinese Intelligent Systems Conference, (pp. 697-705). Singapore: Springer Nature Singapore.

Liu, Z., Zheng, T., Xu, G., Yang, Z., Liu, H., & Cai, D. (2020, April). Training-time-friendly network for real-time object detection. In proceedings of the AAAI conference on artificial intelligence. 34(7) (pp. 11685-11692).

Loce, R. P., Bernal, E. A., Wu, W., & Bala, R. (2013). Computer vision in roadway transportation systems: a survey. Journal of Electronic Imaging, 22(4), (pp. 041121-041121).

Nguyen, H. (2019). Improving faster R-CNN framework for fast vehicle detection. Mathematical Problems in Engineering 2019 (pp. 1-11).

Phuong, V. L. Q., Dong, N. V., Thu, T. N. M., & Khang, P. N. (2022, November). Combine Clasification Algorithm and Centernet Model to Predict Trafic Density. In International Conference on Future Data and Security Engineering ( pp. 588-600). Singapore: Springer Nature Singapore.

Phuong, V. L. Q., Tai, B. N., Huy, N. K., Thu, T. N. M., & Khang, P. N. (2021). Estimating the traffic density from traffic cameras. In Future Data and Security Engineering. Big Data, Security and Privacy, Smart City and Industry 4.0 Applications: 8th International Conference, FDSE 2021, Virtual Event, November 24–26, 2021, Proceedings 8 (pp. 248-263). Springer Singapore.

Redmon, J., & Farhadi, A. (2017). YOLO9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7263-7271). IEEE

Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint:  arXiv:1804.02767. https://doi.org/10.48550/arXiv.1804.02767

Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).

Rocchio Jr, J. J. (1971). Relevance feedback in information retrieval. The SMART retrieval system: experiments in automatic document processing.

Ren, K. He, R. Girshick and J. Sun. (2017). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6), (pp. 1137-1149). IEEE.

Tian, Z., Shen, C., Chen, H., & He, T. (2019). Fcos: Fully convolutional one-stage object detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9627-9636)

Wang, C. Y., Bochkovskiy, A., & Liao, H. Y. M. (2023). YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7464-7475).

Zhou, Xingyi & Wang, Dequan & Krähenbühl, Philipp. (2019). Objects as Points. arXiv preprint: arXiv:1904.07850. https://doi.org/10.48550/arXiv.1904.07850