數(shù)據(jù)挖掘是在大型數(shù)據(jù)庫中自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還可以預(yù)測未來的觀測結(jié)果,比如顧客在網(wǎng)上或?qū)嶓w店的消費(fèi)金額。
并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如查詢?nèi)蝿?wù):在數(shù)據(jù)庫中查找個別記錄,或查找含特定關(guān)鍵字的網(wǎng)頁。這是因?yàn)檫@些任務(wù)可以通過與數(shù)據(jù)庫管理系統(tǒng)或信息檢索系統(tǒng)的簡單交互來完成。而這些系統(tǒng)主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù),包括先進(jìn)高效的索引結(jié)構(gòu)和查詢處理算法,有效地組織和檢索大型數(shù)據(jù)存儲庫的信息。
盡管如此,數(shù)據(jù)挖掘技術(shù)可以基于搜索結(jié)果與輸入查詢的相關(guān)性來提高搜索結(jié)果的質(zhì)量,因此被用于提高這些系統(tǒng)的性能。
數(shù)據(jù)庫中的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程,如圖1所示。該過程包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。