Nhan Minh Phuc * and Nguyen Hoang Duy Thien

* Corresponding author (nmphuc@nomail.com)

Abstract

This paper proposes a detection scheme of duplicate bug reports in open-source projects based on the class information associated with centroid to enhance the detection performance. This method is extended from the previous one which used only centroid method without considering the effects of both inner and inter class. Besides, this method also improved the use of normalized cosine previously for identifying the similarity between two bug reports by denormalized cosine. The effectiveness of this method is verified in an empirical study with three open-source projects, SVN, Argo UML, and Apache. The experimental results show that this method outperforms other detection schemes by about 10% in all cases.
Keywords: Bug reports, class centroid information, duplication detection, feature weighting

Tóm tắt

Bài báo này giới thiệu một phương pháp dò tìm những báo cáo lỗi trùng nhau trong những kho phần mềm mã nguồn mở, dựa vào thông tin lớp kết hợp với centroid để tăng cường việc thực thi dò tìm. Phương pháp này được mở rộng từ một phương pháp trước đây do họ chỉ sử dụng centroid mà không quan tâm đến sự ảnh hưởng của các nhân tố inner và inter bên trong lớp. Ngoài ra phương pháp này cũng cải tiến việc sử dụng normalized cosine trước đây cho việc đánh giá sự giống nhau giữa hai báo cáo lỗi bằng việc sử dụng denormalize cosine. Hiệu quả của phương pháp này được chứng minh thông qua việc thực nghiệm với ba dự án mã nguồn mở: SVN, Argo UML, và Apache. Kết quả thực nghiệm cho thấy phương pháp này tốt hơn các phương pháp trước đây khoảng 10% trong tất cả ba dự án.
Từ khóa: Báo cáo lỗi, dò tìm trùng lắp, đặc điểm trọng lượng, thông tin centroid lớp

Article Details

References

Akihiro Tsuruda, Yuki Manabe, Masayoshi Aritsugi, 2015,"Can We Detect Bug Report Duplication with Unfinished Bug Reports?" Software Engineering Conference (APSEC) 2015 Asia-Pacific, pp. 151-158, ISSN 1530-1362.

Chao-Yuan Lee, Dan-Dan Hu, Zhong-Yi Feng, Cheng-Zen Yang, 2015, "Mining Temporal Information to Improve Duplication Detection on Bug Reports", Advanced Applied Informatics (IIAI-AAI) 2015 IIAI 4th International Congress on, pp. 551-555.

Chengnian Sun, David Lo, Xiaoyin Wang, Jing Jiang, and Siau-Cheng Khoo, 2010, “Discriminative model approach towards accurate duplicate bug report retrieval”. In ICSE 2010: Proceedings of the 32nd international conference on Software Engineering, Cape Town, South Africa, IEEE Computer Society.

Eui-Hong Han and George Karypis, 2000, “Centroid-Based Document Classification: Analysis and Experimental Results,” in Proceedings of the Fourth European Conference on Principles of Data Mining and Knowledge Discovery (PKDD’00), pp.424–431.

Hu Guan, Jing yu Zhou, and Min yi Guo, 2009, “A Class-Feature-Centroid Classifier for Text Categorization” in Proceedings of the18th International Conference on World Wide Web (WWW2009), pp.201–210.

Hung-Hsueh Du, Nov.2011, “Astudy of Duplication Detection Methods for Bug Reports based on BM25 Feature Weighting,” Master Thesis, Yuan Ze University, Taiwan.

Lyndon Hiew, 2006, “Assisted Detection of Duplicate Bug Reports,” Master Thesis, The

University of British Columbia.

Vincent Boisselle, Ram Adams Mcis, Polytechnique Montreal, Québec, 2015, “The Impact of Cross-Distribution Bug Duplicates, Empirical Study on Debian and Ubuntu”, IEEE 15th International Working Conference on Source Code Analysis and Manipulation (Scam), Page 131-140.

Xiaoyan Zhang, Ting Wang, Xiaobo Liang, Feng Ao, and YanLi, 2012, “A Class-based Feature Weighting Method for Text Classification,” Journal of Computational Information System, vol.3, pp.965–972.

Xiaoyin Wang, Lu Zhang, Tao Xie, John Anvik, and Jiasu Sun, 2008, “An Approach to Detecting Duplicate Bug Reports using Natural Language and Execution Information,” in Proceedings of the 30th International Conference on Software Engineering (ICSE ’08), pp. 461–470.

Zhi-Hao Chen, 2011, “Duplicate Detection on Bug Reports using N-Gram Features and Cluster Shrinkage”, Master Thesis, YuanZe University, Taiwan.