Phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị số dựa trên khoảng cách mờ sử dụng thuật toán heuristic
Tóm tắt
Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn một tập con của thuộc tính điều kiện mà bảo toàn được thông tin phân lớp của bảng quyết định. Rút gọn thuộc tính của bảng quyết định miền giá trị số theo tiếp cận tập thô mờ thu hút được nhiều nhà nghiên cứu quan tâm trong giai đoạn hiện nay. Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ là sự kế thừa của tập thô truyền thống với quan hệ tương đương mờ thay thế cho quan hệ tương đương. Độ tương đương mờ của hai đối tượng là một giá trị nằm trong đoạn [0,1] cho thấy tính gần nhau, hay khả năng phân biệt giữa hai đối tượng. Quan hệ tương đương mờ giúp xử lý trực tiếp trên miền dữ liệu giá trị số mà không cần thông qua bước rời rạc hóa dữ liệu. Xuất phát từ phương pháp sử dụng miền dương mờ, nhiều phương pháp mới ra đời nhằm cải thiện chất lượng phân lớp dữ liệu và giảm thời gian thực hiện thuật toán. Bài báo này đề xuất một độ đo khoảng cách mờ và xây dựng phương pháp heuristic rút gọn thuộc tính của bảng quyết định miền giá trị số theo tiếp cận tập thô mờ bảo toàn được độ đo thông tin của tập thuộc tính điều kiện. Thực nghiệm trên một số bộ dữ liệu từ kho dữ liệu UCI cho thấy, phương pháp đề xuất hiệu quả hơn phương pháp sử dụng entropy mờ và phương pháp sử dụng miền dương mờ theo tiêu chí chất lượng phân lớp dữ liệu và thời gian thực hiện thuật toán.