SpStinet - vwpChiTiet

 

Thuật toán hiệu quả khai phá tập mục lợi ích cao trên cấu trúc dữ liệu cây

Đề tài do tác giả Vũ Đức Thi (Viện CNTT, Viện KH&CN Việt Nam), Nguyễn Huy Đức (Khoa Thông tin – Máy tính, Trường CĐ Sư phạm TW) thực hiện.

Theo đó, khai phá tập mục lợi ích cao từ cơ sở dữ liệu giao tác là tìm các tập mục có lợi ích lớn hơn ngưỡng lợi ích cho trước. Khai phá tập mục lợi ích cao gặp nhiều khó khăn vì tính chất phản đơn điệu (anti-monotone) của tập mục thường xuyên không áp dụng được. Đề tài này đề xuất một thuật toán mới khai phá hiệu quả tập mục lợi ích cao bằng việc từ dưới lên của cây nén các giao tác cơ sở dữ liệu. Từ các kết quả thử nghiệm và phân tích thuật toán cho thấy thuật toán COUI-Mine có những ưu điểm sau: chỉ cần duyệt cơ sở dữ liệu hai lần để xây dựng cây UP-tree; khai phá cây UP-tree nhờ cấu trúc cây COUI-tree theo phương pháp không đệ quy, do đó tiết kiệm bộ nhớ và giảm thời gian tính toán; các cây COUI-tree thực chất là kết quả chiếu của cây UP-tree cho từng mục dữ liệu. Cây COUI-tree cho mỗi mục dữ liệu biểu diễn các mục dữ liệu cùng xuất hiện với mục dữ liệu đó trong các giao tác của cơ sở dữ liệu. Cách làm này đã chia bài toán thành nhiều bài toán nhỏ đơn giản hơn. Thuật toán tránh được khối lượng tính toán lớn vì không sinh các tập mục ứng viên cách tiếp cận sinh ứng viên rồi kiểm tra ràng buộc như một số thuật toán khác thực hiện. Thuật toán đã sử dụng khái niệm lợi ích TWU một cách hiệu quả, nhờ đó giảm đáng kể việc sinh ra các tập mục ứng viên dư thừa. Với những ưu điểm trên đây và kết quả thử nghiệm cho thấy, thuật toán COUI-Mine là thuật toán hiệu quả để khai phá tập mục lợi ích cao.

LV (nguồn: TC Tin học và điều khiển học, số 3/2008)

Các tin khác:

  • 10 mẫu tin
  • 50 mẫu tin
  • 100 mẫu tin
  • Tất cả