Thực nghiệm đánh giá YOLOX cho bài toán phát hiện đối tượng tài liệu
Abstract
In the few recent decades, the rapidly increasing digitalization of image documents, accurate information extraction has been an important research area of the document analysis community. Many research works have been conducted on element-based approach for document classification. In this paper, the objective addresses the POD (Page Object Detection) problem – detecting objects that appear in document pages, by evaluating 2 datasets: IIIT-AR-13K and UIT-DODV as the benchmark for the YOLOX method. YOLOX achieved 69,0% mAP on the UIT-DODV dataset and 66,9% mAP on the IIIT-AR-13K dataset. Compared to the highest result of the previous state-of-the-art of one-stage detector - YOLOv4x-mish, on the UIT-DODV dataset, YOLOX surpassed by 2,90% mAP. YOLOX is significantly lower in IIIT-AR-13K than in previously announced two-stage approaches. Furthermore, this research provided an analysis on the effectiveness of the state-of-the-art method YOLOX on the POD problem, which will become a premise for future researches.
Tóm tắt
Trong vài thập kỷ qua, với sự gia tăng nhanh chóng trong việc số hóa các hình ảnh tài liệu, việc trích xuất thông tin chính xác là một trong những hướng nghiên cứu quan trọng. Với sự phát triển của phát hiện đối tượng, nhiều nghiên cứu ra đời hướng đến việc phân loại tài liệu dựa trên nhiều thành phần của trang tài liệu đó. Mục tiêu của nghiên cứu này là đề cập đến bài toán POD (Page Object Detection) – phát hiện đối tượng xuất hiện trong trang tài liệu thông qua đánh giá 2 bộ dữ liệu IIIT-AR-13K và UIT-DODV dựa theo phương pháp YOLOX. YOLOX đạt kết quả 69,0% mAP, tốt hơn 2,90% so với kết quả mô hình one-stage cao nhất – YOLOv4-mish được công bố trên bộ dữ liệu UIT-DODV. Trong khi ở IIIT-AR-13K, YOLOX đạt được 66,9% mAP và thấp hơn nhiều so với các phương pháp two-stage đã công bố trước đó. Bên cạnh, những phân tích về độ hiệu quả của phương pháp state-of-the-art YOLOX cho bài toán POD cũng được cung cấp, là tiền đề cho những nghiên cứu tiếp theo trong tương lai.
Article Details
Tài liệu tham khảo
Bhatt, J., Hashmi, K. A., Afzal, M. Z., & Stricker, D. (2021). A Survey of Graphical Page Object Detection with Deep Neural Networks. Applied Sciences, 11(12), 5344. https://doi.org/10.3390/app11125344
Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934.
Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., ... & Lin, D. (2019). MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155.
Chen, Q., Wang, Y., Yang, T., Zhang, X., Cheng, J., & Sun, J. (2021). You only look one-level feature. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13039-13048).
Dieu, L. T., Nguyen, T. T., Vo, N. D., Nguyen, T. V., & Nguyen, K. (2021, September). Parsing Digitized Vietnamese Paper Documents. In International Conference on Computer Analysis of Images and Patterns (pp. 382-392). Springer, Cham. https://www.doi.org/10.1007/978-3-030-89128-2_37
Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q., & Tian, Q. (2019). Centernet: Keypoint triplets for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 6569-6578). https://doi.org/10.1109/ICCV.2019.00667
Gao, L., Yi, X., Jiang, Z., Hao, L., & Tang, Z. (2017, November). ICDAR2017 competition on page object detection. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) (Vol. 1, pp. 1417-1422). IEEE. https://www.doi.org/10.1109/ICDAR.2017.231
Ge, Z., Liu, S., Wang, F., Li, Z., & Sun, J. (2021). Yolox: Exceeding yolo series in 2021. arXiv preprint arXiv:2107.08430.
Le, H., Nguyen, T., Le, V., Nguyen, T. T., Vo, N. D., & Nguyen, K. (2021, December). Guided Anchoring Cascade R-CNN: An intensive improvement of R-CNN in Vietnamese Document Detection (2021). In Proceedings of NAFOSTED Conference on Information and Computer Science (NICS) (pp. 205-210). https://doi.org/10.1109/NICS54270.2021.9701510
Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988). https://doi.org/10.1109/ICCV.2017.324Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., ... & Zitnick, C. L. (2014, September). Microsoft coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham. https://doi.org/10.1007/978-3-319-10602-1_48
Long, D. P., Hiếu, N. T., Vi, N. T. T., Nguyên, V. D., & Khang, N. T. T. M. (2020). Phát hiện bảng trong tài liệu dạng ảnh sử dụng phương pháp định vị góc CornerNet. In Proceedings of Fundamental and Applied Information Technology Research (FAIR).
Marinai, S. (2008). Introduction to document analysis and recognition. In Machine learning in document analysis and recognition (pp. 1-20). Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-76280-5_1
Mondal, A., Lipps, P., & Jawahar, C. V. (2020, July). IIIT-AR-13K: a new dataset for graphical object detection in documents. In International Workshop on Document Analysis Systems (pp. 216-230). Springer, Cham. https://doi.org/10.1007/978-3-030-57058-3_16
Nguyen, T. T., Nguyen, T. Q., Duong, L., Vo, N. D., & Nguyen, K. (2022). CDeRSNet: Towards High Performance Object Detection in Vietnamese Documents Images. In International Conference on Multimedia Modelling (MMM). https://doi.org/10.1007/978-3-030-98355-0_36
Nguyen, P., Ngo, L., Truong, T., Nguyen, T. T., Vo, N. D., & Nguyen, K. (2021, December). Page Object Detection with YOLOF. In Proceedings of NAFOSTED Conference on Information and Computer Science (NICS) (pp. 205-210). https://doi.org/10.1109/NICS54270.2021.9701449
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).
Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.
Tan, M., Pang, R., & Le, Q. V. (2020). Efficientdet: Scalable and efficient object detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10781-10790).
Tian, Z., Shen, C., Chen, H., & He, T. (2019). Fcos: Fully convolutional one-stage object detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9627-9636).
Nguyen, D., Vo, Khanh-Duy Nguyen, Tam, V., Nguyen., & Nguyen, K. (2018, January). Ensemble of deep object detectors for page object detection. In Proceedings of the 12th International Conference on Ubiquitous Information Management and Communication (pp. 1-6). https://doi.org/10.1145/3164541.3164644