Huỳnh Viết Tuấn Kiệt * , Nguyễn Văn Toàn , Nguyễn Trọng Thuận , Võ Duy Nguyên Nguyễn Tấn Trần Minh Khang

* Người chịu trách nhiệm về bài viết: Huỳnh Viết Tuấn Kiệt (email: 20521494@gm.uit.edu.vn)

Abstract

In the few recent decades, the rapidly increasing digitalization of image documents, accurate information extraction has been an important research area of the document analysis community. Many research works have been conducted on element-based approach for document classification. In this paper, the objective addresses the POD (Page Object Detection) problem – detecting objects that appear in document pages, by evaluating 2 datasets: IIIT-AR-13K and UIT-DODV as the benchmark for the YOLOX method. YOLOX achieved 69,0% mAP on the UIT-DODV dataset and 66,9% mAP on the IIIT-AR-13K dataset. Compared to the highest result of the previous state-of-the-art of one-stage detector - YOLOv4x-mish, on the UIT-DODV dataset, YOLOX surpassed by 2,90% mAP. YOLOX is significantly lower in IIIT-AR-13K than in previously announced two-stage approaches. Furthermore, this research provided an analysis on the effectiveness of the state-of-the-art method YOLOX on the POD problem, which will become a premise for future researches.

Keywords: Document Object Detection, Page Object Detection, Vietnamese Document Detection, Anchor free

Tóm tắt

Trong vài thập kỷ qua, với sự gia tăng nhanh chóng trong việc số hóa các hình ảnh tài liệu, việc trích xuất thông tin chính xác là một trong những hướng nghiên cứu quan trọng. Với sự phát triển của phát hiện đối tượng, nhiều nghiên cứu ra đời hướng đến việc phân loại tài liệu dựa trên nhiều thành phần của trang tài liệu đó. Mục tiêu của nghiên cứu này là đề cập đến bài toán POD (Page Object Detection) – phát hiện đối tượng xuất hiện trong trang tài liệu thông qua đánh giá 2 bộ dữ liệu IIIT-AR-13K và UIT-DODV dựa theo phương pháp YOLOX. YOLOX đạt kết quả 69,0% mAP, tốt hơn 2,90% so với kết quả mô hình one-stage cao nhất – YOLOv4-mish được công bố trên bộ dữ liệu UIT-DODV. Trong khi ở IIIT-AR-13K, YOLOX đạt được 66,9% mAP và thấp hơn nhiều so với các phương pháp two-stage đã công bố trước đó. Bên cạnh, những phân tích về độ hiệu quả của phương pháp state-of-the-art YOLOX cho bài toán POD cũng được cung cấp, là tiền đề cho những nghiên cứu tiếp theo trong tương lai.

Từ khóa: Phát hiện đối tượng tài liệu, Phát hiện đối tượng trang, Phát hiện tài liệu tiếng Việt, Không sử dụng Anchor

Article Details

Tài liệu tham khảo

Bhatt, J., Hashmi, K. A., Afzal, M. Z., & Stricker, D. (2021). A Survey of Graphical Page Object Detection with Deep Neural Networks. Applied Sciences, 11(12), 5344. https://doi.org/10.3390/app11125344

Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934.

Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., ... & Lin, D. (2019). MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155.

Chen, Q., Wang, Y., Yang, T., Zhang, X., Cheng, J., & Sun, J. (2021). You only look one-level feature. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13039-13048).

Dieu, L. T., Nguyen, T. T., Vo, N. D., Nguyen, T. V., & Nguyen, K. (2021, September). Parsing Digitized Vietnamese Paper Documents. In International Conference on Computer Analysis of Images and Patterns (pp. 382-392). Springer, Cham. https://www.doi.org/10.1007/978-3-030-89128-2_37

Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q., & Tian, Q. (2019). Centernet: Keypoint triplets for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 6569-6578). https://doi.org/10.1109/ICCV.2019.00667

Gao, L., Yi, X., Jiang, Z., Hao, L., & Tang, Z. (2017, November). ICDAR2017 competition on page object detection. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) (Vol. 1, pp. 1417-1422). IEEE. https://www.doi.org/10.1109/ICDAR.2017.231

Ge, Z., Liu, S., Wang, F., Li, Z., & Sun, J. (2021). Yolox: Exceeding yolo series in 2021. arXiv preprint arXiv:2107.08430.

Le, H., Nguyen, T., Le, V., Nguyen, T. T., Vo, N. D., & Nguyen, K. (2021, December). Guided Anchoring Cascade R-CNN: An intensive improvement of R-CNN in Vietnamese Document Detection (2021). In Proceedings of NAFOSTED Conference on Information and Computer Science (NICS) (pp. 205-210). https://doi.org/10.1109/NICS54270.2021.9701510

Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp. 2980-2988). https://doi.org/10.1109/ICCV.2017.324Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., ... & Zitnick, C. L. (2014, September). Microsoft coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham. https://doi.org/10.1007/978-3-319-10602-1_48

Long, D. P., Hiếu, N. T., Vi, N. T. T., Nguyên, V. D., & Khang, N. T. T. M. (2020). Phát hiện bảng trong tài liệu dạng ảnh sử dụng phương pháp định vị góc CornerNet. In Proceedings of Fundamental and Applied Information Technology Research (FAIR).

Marinai, S. (2008). Introduction to document analysis and recognition. In Machine learning in document analysis and recognition (pp. 1-20). Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-76280-5_1

Mondal, A., Lipps, P., & Jawahar, C. V. (2020, July). IIIT-AR-13K: a new dataset for graphical object detection in documents. In International Workshop on Document Analysis Systems (pp. 216-230). Springer, Cham. https://doi.org/10.1007/978-3-030-57058-3_16

Nguyen, T. T., Nguyen, T. Q., Duong, L., Vo, N. D., & Nguyen, K. (2022). CDeRSNet: Towards High Performance Object Detection in Vietnamese Documents Images. In International Conference on Multimedia Modelling (MMM). https://doi.org/10.1007/978-3-030-98355-0_36

Nguyen, P., Ngo, L., Truong, T., Nguyen, T. T., Vo, N. D., & Nguyen, K. (2021, December). Page Object Detection with YOLOF. In Proceedings of NAFOSTED Conference on Information and Computer Science (NICS) (pp. 205-210). https://doi.org/10.1109/NICS54270.2021.9701449

Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).

Redmon, J., & Farhadi, A. (2018). Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767.

Tan, M., Pang, R., & Le, Q. V. (2020). Efficientdet: Scalable and efficient object detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10781-10790).

Tian, Z., Shen, C., Chen, H., & He, T. (2019). Fcos: Fully convolutional one-stage object detection. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9627-9636).

Nguyen, D., Vo, Khanh-Duy Nguyen, Tam, V., Nguyen., & Nguyen, K. (2018, January). Ensemble of deep object detectors for page object detection. In Proceedings of the 12th International Conference on Ubiquitous Information Management and Communication (pp. 1-6). https://doi.org/10.1145/3164541.3164644