Bùi Minh Quân * , Huỳnh Xuân Hiệp Phạm Xuân Hiền

* Tác giả liên hệ (bmquan@ctu.edu.vn)


A dataset is called imbalance if it has some classes containing more instances than others. In this case, accurately classifying samples in small classes is very difficult. The higher the imbalanced ratio, the more difficult getting a good solution. Cost-sensitive learning is an effective solution for the imbalanced problem. In this paper, we present a decision system with misclassification cost. The system improves the degree of precision in the minor classes which are interested in imbalanced dataset.The system is based on the study of methods of classifying on the imbalanced dataset by cost-sensitive. This system is applied in medical diagnostic. The experimental results show that the accuracy of the diagnostic system is improved.

Keywords: Cost-sensitive learning, multi-class, imbalanced data

Tóm tắt

Vấn đề mất cân bằng dữ liệu xảy ra khi trong tập dữ liệu có lớp chứa số mẫu nhiều hơn các lớp khác. Phân loại chính xác cho mẫu thuộc lớp nhỏ trong tập mất cân bằng là khó khăn. Khi tỷ lệ mất cân bằng của tập dữ liệu càng cao thì việc phát hiện được mẫu của lớp nhỏ càng khó. Học với chi phí nhạy cảm là giải pháp hiệu quả để giải quyết vấn đề mất cân bằng. Trong bài báo này, chúng tôi trình bày một hệ thống gọi là hệ thống quyết định với chi phí, hệ thống giúp cải thiện khả năng phân loại chính xác của lớp nhỏ trong tập dữ liệu mất cân bằng, lớp dữ liệu rất được quan tâm. Hệ thống được xây dựng dựa vào kết quả nghiên cứu giải pháp phân loại trên dữ liệu mất cân bằng tiếp cận với chi phí nhạy cảm. Hệ thống được áp dụng vào lĩnh vực chẩn đoán y học, kết quả thực nghiệm cho thấy khả năng phát hiện chính xác bệnh nhân của hệ thống chẩn đoán được
cải thiện.
Từ khóa: Học với chi phí nhạy cảm, tập đa lớp, dữ liệu mất cân bằng

