Truong Minh Nhat Quang *

* Corresponding author (


To protect a computer system from threat infections, an anti-virus system needs to scan for malicious codes which may appear in target systems. In this paper, we present a technique to recognize malicious codes quickly by using hash indexing mechanism in categorical space. First, in training phase, the dataset of malicious codes will be separated into clusters which have the same characteristics. After that, we build a special rule set in a hash indexing format of ordered cluster-buckets. Next, in recognition phase, we extract object?s characteristics and code them into a checksum value by using some popular hash algorithms. Then this value is used as a key to search for the same rule in indexed rule space. Finally, the system returns the scanning process results. We have built this technique for D2 Anti-virus* 2013 running on Windows XP SP3 in a computer with Intel Core 2 Duo E7200 ? 2.53 GHz. Using a dataset of 615,880 malicious signatures, D2 needs only 05 seconds to examine 105,330 MB of 8,696 executable files. Its average scanning speed is about 21,651MBps. The experimental results denote that this is an effective technique to improve the scanning speed of anti-virus systems nowadays.
Keywords: Malicious code, recognize malicious code, hash indexing, categorical data space

Tóm tắt

Để bảo vệ máy tính khỏi các đe dọa lây nhiễm, hệ phòng chống virus máy tính cần quét kiểm tra mã độc trong hệ thống đích. Trong bài viết này, chúng tôi trình bày kỹ thuật nhận dạng nhanh mã độc sử dụng cơ chế băm theo chỉ mục trên không gian phân hoạch. Đầu tiên, trong giai đoạn luyện, tập mẫu chữ ký mã độc được phân thành các cụm có cùng đặc điểm. Sau đó, chúng tôi xây dựng một tập luật đặc biệt dưới dạng bảng băm các bucket luật được sắp xếp thứ tự theo cụm. Tiếp theo, ở giai đoạn nhận dạng, chúng tôi tiến hành trích chọn đặc trưng và biến đổi thành một giá trị tổng kiểm đại diện cho đối tượng bằng các thuật giải băm phổ biến. Giá trị này sau đó được dùng làm khóa tìm kiếm luật nhận dạng của đối tượng trong không gian luật đã được sắp xếp. Cuối cùng, hệ trả về kết quả quá trình duyệt quét. Chúng tôi đã cài đặt kỹ thuật này cho hệ D2 Anti-virus* 2013 chạy hệ điều hành Windows XP SP3 trên máy tính Intel Core 2 Duo E7200 ? 2.53 GHz. Sử dụng tập 615,880 mẫu mã độc, D2 chỉ tốn 5 giây để kiểm tra 105,330 MB dữ liệu của 8,696 tập tin thực thi. Tốc độ quét trung bình của D2 đạt 21,651 MB/giây. Kết quả thực nghiệm chứng tỏ đây là kỹ thuật hiệu quả nhằm tăng tốc duyệt quét cho các hệ phòng chống virus máy tính ngày nay.
Từ khóa: Mã độc, nhận dạng mã độc, băm theo chỉ mục, không gian dữ liệu phân hoạch

