數(shù)據(jù)挖掘中我最常用的幾個(gè)R語(yǔ)言的包
數(shù)據(jù)挖掘的理論基礎(chǔ)和R也沒(méi)什么太大關(guān)系。如果明白方法了,用什么語(yǔ)言其實(shí)無(wú)所謂。不過(guò)R有幾個(gè)包,可以提升效率和彌補(bǔ)R自身的不足,做大數(shù)據(jù)很有用。我就說(shuō)說(shuō)我每天要用的吧。
bigmemory:R的內(nèi)存管理太爛了,因?yàn)楹苌俳o程序員管理的權(quán)限,這樣一來(lái)操作系統(tǒng)懶加上R也懶導(dǎo)致常常讀入大數(shù)據(jù)時(shí)內(nèi)存瞬間用完,導(dǎo)致這個(gè)R session被強(qiáng)制退出。解決辦法就是把常用的大數(shù)據(jù)提前放在共享內(nèi)存里。
Rmpi,snow,multicore: 平行運(yùn)算/多運(yùn)程運(yùn)算。 Rmpi最好多看看,是mpi在R里面的實(shí)現(xiàn)。這是平行運(yùn)算的黃金標(biāo)準(zhǔn)。如果你要做大數(shù)據(jù)的模型,高能運(yùn)算是必須的。
Rcpp:R與C++的接口。自帶的.C和.F也很有用。畢竟R是高等語(yǔ)言,太慢了,基本的方程還是要用低等語(yǔ)言寫(xiě)。如果做統(tǒng)計(jì)模型,會(huì)有很多inference,這時(shí)必須要用低等語(yǔ)言寫(xiě)Log likelihood的方程。
DEoptim,quadqrog,linprog等等線性非線性優(yōu)化:優(yōu)化是統(tǒng)計(jì)少不了的技術(shù)。R里面好的優(yōu)化包不是太慢就是太爛,你可以用GNU scientific library自己寫(xiě)優(yōu)化器,或者買一個(gè)第三方的比如說(shuō)IBM。不過(guò)很貴哦,
ggplot:不多說(shuō)了,就是美麗的圖片。。。
不是R的:hadoop。近幾年,這都是處理大數(shù)據(jù)的必需品了。
有了以上工具我相信任何數(shù)據(jù)和統(tǒng)計(jì)問(wèn)題都能解決了,不會(huì)被R自身的缺陷而陷入技術(shù)瓶頸。