KHAI THÁC CÁC MẪU PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TRỌNG SỐ ĐỘNG

  • Ngô Việt Anh
  • Nguyễn Duy Hàm
Từ khóa: CSDL trọng số động; mẫu phổ biến; cấu trúc WNlist; CSDL trọng số

Tóm tắt

Khai thác các mẫu là một trong những bài toán cơ bản của khai thác dữ liệu hiện đại. Trong đó khai thác mẫu trên các loại cơ sở dữ liệu có định lượng (Frequent weighted patterns -PWPs) là một bài toán quan trọng của khai thác mẫu, đây là bài toán nhằm tìm ra các mẫu phổ biến trên cơ sở dữ liệu (CSDL) định lượng. Tuy nhiên các nghiên cứu hiện tại chưa quan tâm đến các CSDL định lượng có sự thay đổi trọng số của các mục (dynamic weighted Database - dWDB). Trong thực tế, nhiều CSDL mà trọng số của các mục có thể thay đổi theo thời gian, khi trọng số của các mục đại diện cho mức độ quan trọng như lợi nhuận của các mặt hàng hay mức độ quan trọng của các mặt hàng trong từng thời điểm nhất định (Ví dụ máy lạnh sẽ được bán nhiều vào mùa hè, khẩu trang y tế sẽ có vai trò quan trọng trong các đợt dịch thông qua đường hô hấp...). Trong bài báo này, trước hết chúng tôi giới thiệu một bài toán mới về khai thác PWPs với các mục có trọng số động từ cơ sở dữ liệu định lượng - CSDL định lượng động. Tiếp theo, một thuật toán gọi là dFWNL được phát triển sử dụng cấu trúc dữ liệu mới là dWNList để khai thác PWPs từ dWDB. Cuối cùng, chúng tôi thực hiện thực nghiệm trên nhiều dWDB khác nhau để chứng minh hiệu quả của các thuật toán đề xuất.

điểm /   đánh giá
Phát hành ngày
2025-11-01