大數(shù)據(jù)的爆炸式增長在大容量、多樣性和高增速方面,全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力;同時(shí),也為企業(yè)帶來了獲取更豐富、更深入和更準(zhǔn)確地洞察市場行為的大量機(jī)會(huì)。對企業(yè)而言,能夠從大數(shù)據(jù)中獲得全新價(jià)值的消息是令人振奮的。然而,如何從大數(shù)據(jù)中發(fā)掘出“真金白銀”則是一個(gè)現(xiàn)實(shí)的挑戰(zhàn)。這就要求采用一套全新的、對企業(yè)決策具有深遠(yuǎn)影響的解決方案。
SAS企業(yè)挖掘系統(tǒng)(SAS/Enterprise Miner)廣泛應(yīng)用于解決欺詐偵測、雇員流動(dòng)、客戶獲取與維持、網(wǎng)絡(luò)銷售、市場細(xì)分、風(fēng)險(xiǎn)分析、親和性分析、客戶滿意度、破產(chǎn)預(yù)測和投資組合分析等多樣化問題。根據(jù)大數(shù)據(jù)時(shí)代的企業(yè)挖掘的特征,SAS INSTITUTE提出了數(shù)據(jù)挖掘的SEMMA方法論——在SAS/EM環(huán)境中,數(shù)據(jù)挖掘過程被劃分為Sample、Explore、Modify、Model、Assess這五個(gè)階段,簡記為SEMMA:
1.Sample 抽取一些代表性的樣本數(shù)據(jù)集(通常為訓(xùn)練集、驗(yàn)證集和測試集)。樣本容量的選擇標(biāo)準(zhǔn)為:包含足夠的重要信息,同時(shí)也要便于分析操作。該步驟涉及的處理工具為:數(shù)據(jù)導(dǎo)入、合并、粘貼、過濾以及統(tǒng)計(jì)抽樣方法。
2.Explore 通過考察關(guān)聯(lián)性、趨勢性以及異常值的方式來探索數(shù)據(jù),增進(jìn)對于數(shù)據(jù)的認(rèn)識(shí)。該步驟涉及的工具為:統(tǒng)計(jì)報(bào)告、視圖探索、變量選擇以及變量聚類等方法。
3.Modify 以模型選擇為目標(biāo),通過創(chuàng)建、選擇以及轉(zhuǎn)換變量的方式來修改數(shù)據(jù)集。該步驟涉及工具為:變量轉(zhuǎn)換、缺失處理、重新編碼以及數(shù)據(jù)分箱等。
4.Model 為了獲得可靠的預(yù)測結(jié)果,我們需要借助于分析工具來訓(xùn)練統(tǒng)計(jì)模型或者機(jī)器學(xué)習(xí)模型。該步驟涉及技術(shù)為:線性及邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、偏最小二乘法、LARS及LASSO、K近鄰法以及其他用戶(包括非SAS用戶)的模型算法。
5.Assess 評估數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。涉及技術(shù)為:比較模型及計(jì)算新的擬合統(tǒng)計(jì)量、臨界分析、決策支持、報(bào)告生成、評分代碼管理等。數(shù)據(jù)挖掘者可能不會(huì)使用全部SEMMA分析步驟。然而,在獲得滿意結(jié)果之前,可能需要多次重復(fù)其中部分或者全部步驟。
在完成SEMMA步驟后,可將從優(yōu)選模型中獲取的評分公式應(yīng)用于(可能不含目標(biāo)變量的)新數(shù)據(jù)。將優(yōu)選公式應(yīng)用于新數(shù)據(jù),這是大多數(shù)數(shù)據(jù)挖掘問題的目標(biāo)。此外,先進(jìn)的可視化工具使得用戶能在多維直方圖中快速、輕松地查閱大量數(shù)據(jù)并以圖形化方式比較模擬結(jié)果。SAS/EM包括了一些非同尋常的工具,比如:能用來產(chǎn)生數(shù)據(jù)挖掘流程圖的完整評分代碼(SAS、C以及Java代碼)的工具,以及交換式進(jìn)行新數(shù)據(jù)評分計(jì)算和考察執(zhí)行結(jié)果的工具。
如果您將優(yōu)選模型注冊進(jìn)入SAS元數(shù)據(jù)服務(wù)器,便可以讓SAS/EG和SAS/DI Studio的用戶分享您的模型,從而將優(yōu)選模型的評分代碼整合進(jìn)入工作報(bào)告和生產(chǎn)流程之中。SAS模型管理系統(tǒng),通過提供了開發(fā)、測試和生產(chǎn)系列環(huán)境的項(xiàng)目管理結(jié)構(gòu),進(jìn)一步補(bǔ)充了數(shù)據(jù)挖掘過程,實(shí)現(xiàn)了與SAS/EM的無縫聯(lián)接。
在SAS/EM環(huán)境中,您可以從SEMMA工具欄上拖放節(jié)點(diǎn)進(jìn)入工作區(qū)的工藝流程圖中,這種流程圖驅(qū)動(dòng)著整個(gè)數(shù)據(jù)挖掘過程。SAS/EM的圖形用戶界面(GUI)是按照這樣的思路來設(shè)計(jì)的:一方面,掌握少量統(tǒng)計(jì)知識(shí)的商務(wù)分析者可以瀏覽數(shù)據(jù)挖掘過程的技術(shù)方法;另一方面,具備數(shù)量分析技術(shù)的專家可以微調(diào)方式深入探索每一個(gè)分析節(jié)點(diǎn)。
SAS/EM使得評分過程實(shí)現(xiàn)了自動(dòng)化,并提供模型開發(fā)所有階段的完整代碼(SAS、C、Java和PMML)。評分代碼可以部署在在SAS系統(tǒng)、互聯(lián)網(wǎng)或者關(guān)系數(shù)據(jù)庫等實(shí)時(shí)或批處理環(huán)境中。
SAS/EM視頻鏈接: http://www.tudou.com/programs/view/NHisFCskxAE/
http://v.youku.com/v_show/id_XNDg2MTA1Mjg4.html
大數(shù)據(jù)時(shí)代的企業(yè)需要基于海量數(shù)據(jù)進(jìn)行探索和分析,以發(fā)現(xiàn)有意義的商務(wù)行為模式和規(guī)則。在商務(wù)智能領(lǐng)域,SAS Institute的產(chǎn)品憑籍其卓越性能足以傲視群雄,企業(yè)挖掘系統(tǒng)則如同具有精靈魔力的王者之劍,令尊貴的企業(yè)用戶愛不釋手。SAS/EM具備了一系列適于大數(shù)據(jù)挖掘的顯著特征:(1)內(nèi)涵豐富的SEMMA工具箱、(2)基于元數(shù)據(jù)理念的精確建模技術(shù)、(3)友好的、流程圖式的數(shù)據(jù)挖掘模式、(4)獨(dú)具特色的數(shù)據(jù)處理、存儲(chǔ)、分析、呈現(xiàn)及共享方式。這些特征均使得商務(wù)挖掘過程能夠以簡練、流暢而高效的方式順利進(jìn)行。