Truong Minh Nhat Quang *

* Corresponding author (tmnquang@nomail.com)

Abstract

To protect a computer system from threat infections, an anti-virus system needs to scan for malicious codes which may appear in target systems. In this paper, we present a technique to recognize malicious codes quickly by using hash indexing mechanism in categorical space. First, in training phase, the dataset of malicious codes will be separated into clusters which have the same characteristics. After that, we build a special rule set in a hash indexing format of ordered cluster-buckets. Next, in recognition phase, we extract object?s characteristics and code them into a checksum value by using some popular hash algorithms. Then this value is used as a key to search for the same rule in indexed rule space. Finally, the system returns the scanning process results. We have built this technique for D2 Anti-virus* 2013 running on Windows XP SP3 in a computer with Intel Core 2 Duo E7200 ? 2.53 GHz. Using a dataset of 615,880 malicious signatures, D2 needs only 05 seconds to examine 105,330 MB of 8,696 executable files. Its average scanning speed is about 21,651MBps. The experimental results denote that this is an effective technique to improve the scanning speed of anti-virus systems nowadays.
Keywords: Malicious code, recognize malicious code, hash indexing, categorical data space

Tóm tắt

Để bảo vệ máy tính khỏi các đe dọa lây nhiễm, hệ phòng chống virus máy tính cần quét kiểm tra mã độc trong hệ thống đích. Trong bài viết này, chúng tôi trình bày kỹ thuật nhận dạng nhanh mã độc sử dụng cơ chế băm theo chỉ mục trên không gian phân hoạch. Đầu tiên, trong giai đoạn luyện, tập mẫu chữ ký mã độc được phân thành các cụm có cùng đặc điểm. Sau đó, chúng tôi xây dựng một tập luật đặc biệt dưới dạng bảng băm các bucket luật được sắp xếp thứ tự theo cụm. Tiếp theo, ở giai đoạn nhận dạng, chúng tôi tiến hành trích chọn đặc trưng và biến đổi thành một giá trị tổng kiểm đại diện cho đối tượng bằng các thuật giải băm phổ biến. Giá trị này sau đó được dùng làm khóa tìm kiếm luật nhận dạng của đối tượng trong không gian luật đã được sắp xếp. Cuối cùng, hệ trả về kết quả quá trình duyệt quét. Chúng tôi đã cài đặt kỹ thuật này cho hệ D2 Anti-virus* 2013 chạy hệ điều hành Windows XP SP3 trên máy tính Intel Core 2 Duo E7200 ? 2.53 GHz. Sử dụng tập 615,880 mẫu mã độc, D2 chỉ tốn 5 giây để kiểm tra 105,330 MB dữ liệu của 8,696 tập tin thực thi. Tốc độ quét trung bình của D2 đạt 21,651 MB/giây. Kết quả thực nghiệm chứng tỏ đây là kỹ thuật hiệu quả nhằm tăng tốc duyệt quét cho các hệ phòng chống virus máy tính ngày nay.
Từ khóa: Mã độc, nhận dạng mã độc, băm theo chỉ mục, không gian dữ liệu phân hoạch

Article Details

References

Dantong Yu, Aidong Zhang, 2003. ClusterTree: Integration of Cluster Representation and Nearest – Neighbor Search for Large Data Sets with High Dimension. IEEE Transaction on Knowledge and Data Engineering. Vol. 15, No. 3. 1-23.

Hoàng Kiếm, Trương Minh Nhật Quang, 2008. Cơ chế máy học chẩn đoán virus máy tính. Tạp chí Tin học và Điều khiển học. Số 1 (2008), Tập 24, Việt Nam. 32-41.

Jelena Mirkovic, Peter Reiher, 2004. A taxonomy of DDoS attack and DDoS defense mechanisms. ACM SIGCOMM Computer Communication. Vol. 32 Issue 2. 39-53.

Joseph Rabaiotti, 2007. Counter Intrusion Software. PhD. Thesis, Computer Science, Cardiff University. 38-43.

Konstantin Rozinov, 2005. An Abstract Efficient Static Analysis of Executables for Detecting Malicious Behaviors. Master of Science Thesis. Brooklyn Polytechnic University. USA.

Maurício R. Mediano, Marco A. Casanova, Marcelo Dreux , 1994. V-Trees, A Storage Method for Long Vector Data. Proceedings of the 20th VLDB Conferenc. Santiago - Chile.

Ozgun Erdogan, Pei Cao, 2007. Hash-AV: Fast Virus Signature Scanning by Cache-Resident Filters. International Journal of Security and Networks. Volume 2 Issue 1/2. 50-59

Peter Szor, 2005. The Art of Computer Virus Research and Defense. Addison Wesley Professional Press (ISBN 0-321-30454-3)

Po-Ching Lin, Ying-Dar Lin, Yuan-Cheng Lai, 2011. Hybrid Algorithm of Backward Hashing And Automaton Tracking. IEEE Transactions On Computers. Vol. 60. No. 4. 594-601.

Truong Minh Nhat Quang, Hoang Trong Nghia, 2008. A Multi-agent Mechanism in Machine Learning Approach to Anti-virus System. The Proceedings of the 2nd Symposium on Agents and Multi-Agent Systems, KES-AMSTA, Korea. SpringerLecture Notes in Artificial Intelligence, Vol. 4953, 743-752.

Trương Minh Nhật Quang, Hoàng Kiếm, Nguyễn Thanh Thủy, 2008. Ứng dụng Máy học và Hệ chuyên gia trong phân loại và nhận dạng virus máy tính. Tạp chí Công nghệ Thông tin và Truyền thông (ISSN 0866-7039). Số 19,2-2008, Việt Nam. 93-101.

US Patent 6763466, July 2004. Fast virus scanning. Inventor – Glover. Assignee Networks Associates Technology.

US Patent 6898712, May 2005. Test driver ordering. Inventor - Vignoles et al. Assignee Networks Associates Technology.

US Patent 6928555, Aug 2005. Method and apparatus for minimizing file scanning by anti-virus programs. Inventor - Drew. Assignee Networks Associates Technology.

US Patent 6952776, Oct 2005. Method and apparatus for increasing virus detection speed using a database. Inventor – Chess. Assignee International Business Machines Corporation.

US Patent 7036147, April 2006. System, method and computer program product for eliminating disk read time during virus scanning. Inventor – Hursey. Assignee McAfee.

US Patent 7043634, May 2006. Detecting malicious alteration of stored computer files. Inventor - Wolff et al. Assignee McAfee.