【在Python中利用Pandas庫處理大數(shù)據(jù)的簡單介紹】只有在超過5TB數(shù)據(jù)量的規(guī)模下,Hadoop才是一個合理的技術(shù)選擇。這次拿到近億條日志數(shù)據(jù),千萬級數(shù)據(jù)已經(jīng)是關(guān)系型數(shù)據(jù)庫的查詢分析瓶頸,之前使用過Hadoop對大量文本進(jìn)行分類,這次決定采用Python來處理數(shù)據(jù)。
這篇文章簡單介紹了在Python中利用Pandas處理大數(shù)據(jù)的過程,Pandas庫的使用能夠很好地展現(xiàn)數(shù)據(jù)結(jié)構(gòu),是近來Python項目中經(jīng)常被使用使用的熱門技術(shù),需要的朋友可以參考下
在數(shù)據(jù)分析領(lǐng)域,最熱門的莫過于Python和R語言,此前有一篇文章《別老扯什么Hadoop了,你的數(shù)據(jù)根本不夠大》指出:只有在超過5TB數(shù)據(jù)量的規(guī)模下,Hadoop才是一個合理的技術(shù)選擇。這次拿到近億條日志數(shù)據(jù),千萬級數(shù)據(jù)已經(jīng)是關(guān)系型數(shù)據(jù)庫的查詢分析瓶頸,之前使用過Hadoop對大量文本進(jìn)行分類,這次決定采用Python來處理數(shù)據(jù):
硬件環(huán)境
CPU:3.5 GHz Intel Core i7
內(nèi)存:32 GB HDDR 3 1600 MHz
硬盤:3 TB Fusion Drive
數(shù)據(jù)分析工具
Python:2.7.6
Pandas:0.15.0
IPython notebook:2.0.0
本帖隱藏的內(nèi)容
信息來源:腳本之家