Trần Thanh Điện * , Trần Thị Trúc Linh , Lê Duy Anh , Nguyễn Thị Kim Quyên , Nguyễn Bạch Đan , Nguyễn Thanh Hải Nguyễn Thái Nghe

* Tác giả liên hệ (thanhdien@ctu.edu.vn)

Abstract

This study proposes a deep learning-based model using ResNet50 for image classification in scientific articles to detect similarity and improve image similarity search. The model employs a pre-trained ResNet50 combined with a dataset of 12,049 images categorized into 11 classes extracted from the Can Tho University Journal of Science using PyMuPDF. The Activation Map Visualization method highlights training data regions through the first six channels of each different layer in the deep learning model. The results indicate that the proposed approach achieves exceeding 90% reliability in detecting image similarity and can identify the original article’s author and publication year. ResNet50 is also compared with AlexNet and VGG16, demonstrating superior generalization capability for complex image recognition tasks. The result establishes a foundation for developing an image similarity detection system for scientific publications.

Keywords: Deep learning, feature extraction, image similarity, ResNet50, scientific paper

Tóm tắt

Nghiên cứu này đề xuất mô hình học sâu ResNet50 để phân loại hình ảnh trong bài báo khoa học, nhằm phát hiện tương đồng và cải thiện tìm kiếm hình ảnh. Mô hình sử dụng ResNet50 đã được huấn luyện trước, kết hợp với tập dữ liệu gồm 12.049 ảnh thuộc 11 lớp, trích xuất từ Tạp chí Khoa học Đại học Cần Thơ bằng PyMuPDF. Phương pháp Activation Map Visualization giúp làm nổi bật vùng dữ liệu huấn luyện thông qua sáu kênh đầu tiên của từng lớp khác nhau trên mô hình học sâu. Kết quả cho thấy phương pháp đề xuất đạt độ tin cậy trên 90% trong phát hiện tương đồng hình ảnh, đồng thời xác định được tác giả và năm xuất bản bài báo gốc. Mô hình ResNet50 cũng được so sánh với AlexNet và VGG16, cho thấy khả năng tổng quát hóa vượt trội trong bài toán nhận diện ảnh phức tạp. Nghiên cứu này đặt nền móng cho giải pháp phát hiện tương đồng hình ảnh các ấn phẩm khoa học.

Từ khóa: Bài báo khoa học, học sâu, ResNet50, trích xuất đặc trưng, tương đồng hình ảnh

Article Details

Tài liệu tham khảo

Chechik, G., Sharma, V., Shalit, U., & Bengio, S. (2010). Large scale online learning of image similarity through ranking. Journal of Machine Learning Research, 11, 1109–1135. https://doi.org/10.1007/978-3-642-02172-5_2

Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. International Conference on Machine Learning.

Guyon, I., & Elisseeff, A. (2006). An introduction to feature extraction. In Feature Extraction: Foundations and Applications (pp. 1–25). Springer.

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 770–778). https://doi.org/10.1109/CVPR.2016.90

Hirematch, P. S., & Puijari, J. (2007). Content-based image retrieval based on color, texture, and shape feature using image and its complement. International Journal of Computer Science and Security, 1(4), 25–35.

Khan, A. S., & Shafique, M. (2018). Content-based image retrieval using histogram of oriented gradients and SIFT features. International Journal of Computer Applications, 179(26), 1–8. https://doi.org/10.5120/ijca2018917508

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems (pp. 1097–1105).

Li, X., & Qian, Y. (2019). A novel image similarity measurement method based on deep learning. Sensors, 19(14), 3060. https://doi.org/10.3390/s19143060

Lu, J., Ma, C. X., Zhou, Y. R., Luo, M. X., & Zhang, K. B.. (2019). Multi-feature fusion for enhancing image similarity learning. IEEE Access, 7, 167547–167556. https://doi.org/10.1109/ACCESS.2019.2953078

Luu, T. H., Phuc, P. N. K., Yu, Z., Pham, D. D., & Cao, H. T. (2022). Face Mask Recognition for Covid-19 Prevention. Computers, Materials & Continua, 73(2). https://doi.org/10.32604/cmc.2022.029663

Luu, T., Ky Phuc, P., Lam, T., Yu, Z., & Lam, V. (2023). Ensembling techniques in solar panel quality classification. International Journal of Electrical and Computer Engineering (IJECE), 13(5), 5674-5680. doi:http://doi.org/10.11591/ijece.v13i5.pp5674-5680

McCorduck, P. (2004). Machines who think (2nd ed.). AK Peters. https://doi.org/10.1201/9780429258985

Russakoff, D. B., Tomasi, C., Rohlfing, T., & Maurer, C. R. (2004). Image similarity using mutual information of regions. In European Conference on Computer Vision (pp. 596–607). Springer.

Russell, S. J., & Norvig, P. (2021). Artificial intelligence: A modern approach (4th ed.). Pearson.
https://doi.org/10.1007/978-3-540-24672-5_47

Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D.,& Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1-9). https://doi.org/10.1109/CVPR.2015.7298594

Tan, M., & Le, Q. (2019). EfficientNet: Rethinking model scaling for convolutional neural networks. In International Conference on Machine Learning (pp. 6105-6114).

Zagoruyko, S. (2016). Wide residual networks. arXiv preprint arXiv:1605.07146.

Zhai, X., Chu, X., Chai, C. S., Jong, M. S. Y., Istenic, A., Spector, M., Liu, J. B., Yuan, J., & Yan, L. Li. (2021). A review of artificial intelligence (AI) in education from 2010 to 2020. Complexity, 2021(1), 8812542.