MỘT THUẬT TOÁN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU

Authors

  • Nguyễn Phúc Xuân Quỳnh Trường Đại học Sư Phạm, Đại học Huế

Abstract

Khai phá tập mục lợi ích cao (high-utility itemset) là một mở rộng của bài toán khai phá tập mục phổ biến, đã được nhiều tác giả quan tâm với mục đích đánh giá ý nghĩa của các tập mục trong khai phá luật kết hợp. Thuật toán hai pha (Two-Phase) là một trong các thuật toán khai phá tập mục lợi ích cao. Bài báo này đề xuất một cải tiến của thuật toán Two-Phase. Việc cải tiến được thực hiện thông qua chiến lược tỉa hiệu quả hơn các tập mục ứng cử, cải tiến bước sinh tập ứng viên, nhờ đó giảm bớt được thời gian thực hiện thuật toán khai phá.

References

Vũ Đức Thi, Nguyễn Huy Đức, Khai phá hiệu quả tập mục lợi ích cao trong cơ sở dữ liệu lớn,

Tạp chí tin học và điều khiển học, 2008.

Nguyễn Thanh Tùng, Khám phá tập mục lợi ích cao trong cơ sở dữ liệu, Hội thảo Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Đại Lải, tr. 181-197, 2007.

FIMI, Frequent ItemSet Mining Implementations Repository, 2003. http://fimi.cs.helsinki.fi/data

IBM Almaden Research Center Intelligent Information Systems, Quest software, 2004.

http://www.almaden.ibm.com/software/quest/Resources/index.shtml

Ying Liu, Wei-keng Liao, Alok Choudhary, A Fast High Utility Itemsets Mining Algorithm, Proceedings of the 1st international workshop on Utility-based data mining, Chicago, Illinois, pp. 90-99, 2005.

Hong Yao, Howard J, Hamilton, Liqiang Geng, A Unified Framework for Utility Based Measures for Mining Itemsets, Second International Workshop on Utility-Based Data Mining, Philadelphia, PA, pp. 28-37, 2006.

Hong Yao, Howard J, Hamilton, Cory J, Butz, A Foundational Approach to Mining Itemset Utilities from Databases, Proceedings of the Fourth SIAM International Conference on Data Mining, Orlando, Florida, USA, pp. 482-486, 2004.

Published

2013-10-11