一、Hadoop是什么?
答:是google的核心算法MapReduce的一個開源實(shí)現(xiàn)。用于海量數(shù)據(jù)的并行處理。
HDFS是分布式文件系統(tǒng),用于分布式存儲海量數(shù)據(jù)。
MapReduce是分布式數(shù)據(jù)處理模型,本質(zhì)是并行處理。
hadoop中核心主要包含:HDFS和MapReduce 。
二、多少數(shù)據(jù)算海量數(shù)據(jù)?
答:個人認(rèn)為,TB(1024GB)級別往上就可以算海量數(shù)據(jù)。
三、誰在使用hadoop?
在國內(nèi),包括中國移動、百度、網(wǎng)易、淘寶、騰訊、金山和華為等眾多公司都在研究和使用它 ,使用空間比較大,更多資料可以學(xué)習(xí)
http://xalimeijing.com
四、用它來做什么?
1、最簡單的,做個數(shù)據(jù)備份/文件歸檔的地方,這利用了hadoop海量數(shù)據(jù)的存儲能力
2、數(shù)據(jù)倉庫/數(shù)據(jù)挖掘:分析web日志,分析用戶的行為(如:用戶使用搜索時,在搜索結(jié)果中點(diǎn)擊第2頁的概率有多大)
3、搜索引擎:設(shè)計(jì)hadoop的初衷,就是為了快速建立索引。
4、云計(jì)算:據(jù)說,中國移動的大云,就是基于hadoop的
5、研究:hadoop的本質(zhì)就是分布式計(jì)算,又是開源的。有很多思想值得借鑒。
你可以把hadoop看成是:分布式計(jì)算框架(或系統(tǒng)、或平臺),可以說是用來做云計(jì)算的,(云計(jì)算的本質(zhì)就是:海量數(shù)據(jù)存儲/并行處理,即hadoop中的HDFS和MapReduc。