Hadoop的偉大之處在于,它一旦開始運(yùn)行,就會(huì)飛速地分析你的數(shù)據(jù)。盡管如此,在每次分析數(shù)據(jù)之前,即添加、更改或刪除數(shù)據(jù)之后,我們都必須將整個(gè)數(shù)據(jù)集進(jìn)行流式處理。這意味著,隨著數(shù)據(jù)集的膨脹,分析時(shí)間也會(huì)隨之增加,且不可預(yù)期。hadoop輝煌還能延續(xù)多久呢?
Hadoop已經(jīng)成為大數(shù)據(jù)的代名詞。短短幾年間,Hadoop從一種邊緣技術(shù)成為事實(shí)上的標(biāo)準(zhǔn)。而另一方面,MapReduce在谷歌已不再顯赫。當(dāng)企業(yè)矚目MapReduce的時(shí)候,谷歌好像早已進(jìn)入到了下一個(gè)時(shí)代。
Hadoop技術(shù)已經(jīng)無處不在。不管是好是壞,Hadoop已經(jīng)成為大數(shù)據(jù)的代名詞。短短幾年間,Hadoop從一種邊緣技術(shù)成為事實(shí)上的標(biāo)準(zhǔn)?磥,不僅現(xiàn)在Hadoop是企業(yè)大數(shù)據(jù)的標(biāo)準(zhǔn),而且在未來,它的地位似乎一時(shí)難以動(dòng)搖。
Hadoop是否可以趕超谷歌?
一個(gè)有趣的現(xiàn)象是,MapReduce在谷歌已不再顯赫。當(dāng)企業(yè)矚目MapReduce的時(shí)候,谷歌好像早已進(jìn)入到了下一個(gè)時(shí)代。事實(shí)上,我們談?wù)摰倪@些技術(shù)早就不是新技術(shù)了,MapReduce也不例外。
我希望在后Hadoop時(shí)代下面這些技術(shù)能夠更具競爭性。盡管許多Apache社區(qū)的項(xiàng)目和商業(yè)化Hadoop項(xiàng)目都非;钴S,并以來自HBase、Hive和下一代MapReduce(YARN)的技術(shù)不斷完善著Hadoop體系,我依然認(rèn)為,Hadoop核心(HDFS和Zookeeper)需要脫離MapReduce并以全新的架構(gòu)增強(qiáng)自己的競爭力,真正與谷歌技術(shù)一較高下。
過濾不斷增長的索引,分析不斷變化的數(shù)據(jù)集。Hadoop的偉大之處在于,它一旦開始運(yùn)行,就會(huì)飛速地分析你的數(shù)據(jù)。盡管如此,在每次分析數(shù)據(jù)之前,即添加、更改或刪除數(shù)據(jù)之后,我們都必須將整個(gè)數(shù)據(jù)集進(jìn)行流式處理。這意味著,隨著數(shù)據(jù)集的膨脹,分析時(shí)間也會(huì)隨之增加,且不可預(yù)期。
那么,谷歌又是怎么做到搜索結(jié)果越來越實(shí)時(shí)呈現(xiàn)呢?一個(gè)名為Percolator的增量處理引擎取代了谷歌MapReduce(GMR)。通過對新建、更改和已刪除文檔的處理,并使用二級(jí)索引進(jìn)行高效的分類、查詢,谷歌能夠顯著地降低實(shí)現(xiàn)其目標(biāo)的時(shí)間。
Percolator的作者寫道:“將索引系統(tǒng)轉(zhuǎn)化為一個(gè)增量系統(tǒng)……文檔平均處理延遲的因子降低到了現(xiàn)在的100!边@句話的意思是,索引Web上新內(nèi)容的速度比之前MapReduce系統(tǒng)快了100倍。
谷歌Dremel即時(shí)數(shù)據(jù)分析解決方案
谷歌和Hadoop社區(qū)曾致力于構(gòu)建基于MapReduce的易用性即時(shí)數(shù)據(jù)分析工具,如谷歌的并行處理語言Sawzall,Apache Pig和Hive。但對熟知SQL的人們而言,他們忽略了一個(gè)基本事實(shí)-構(gòu)建MapReduce的目標(biāo)就在于管理數(shù)據(jù)處理工作。它的核心能力在于工作流管理,而不是即時(shí)數(shù)據(jù)分析。
與之形成鮮明對比的是,很多BI或數(shù)據(jù)分析查詢基本上都要求即時(shí)、交互和低延遲。這意味著,使用Hadoop不僅需要規(guī)劃流程圖,而且需要為許多查詢分析裁減不必要的工作流。即便如此,我們也要花費(fèi)數(shù)分鐘等待工作開始,然后花費(fèi)數(shù)小時(shí)等待工作流完成,并且這個(gè)過程也非常不利于交互式體驗(yàn)。因此,谷歌研發(fā)了Dremel予以應(yīng)對。Dremel是Google 的“交互式”數(shù)據(jù)分析系統(tǒng),可以在幾秒鐘內(nèi)處理PB級(jí)別的數(shù)據(jù),并能輕松應(yīng)對即時(shí)查詢。