五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

  • <center id="8gusu"></center><rt id="8gusu"></rt>
    <menu id="8gusu"><small id="8gusu"></small></menu>
  • <dd id="8gusu"><s id="8gusu"></s></dd>
    樓主: 時光永痕
    792 0

    [數(shù)據(jù)挖掘新聞] 什么是Map Reduce編程及其運作方式 [推廣有獎]

    • 0關注
    • 14粉絲

    svip3

    學術權威

    12%

    (VIP/貴賓)六級

    76%

    威望
    0
    論壇幣
    26 個
    通用積分
    57.2238
    學術水平
    4 點
    熱心指數(shù)
    4 點
    信用等級
    4 點
    經(jīng)驗
    34180 點
    帖子
    2732
    精華
    0
    在線時間
    321 小時
    注冊時間
    2020-7-21
    最后登錄
    2024-8-1

    樓主
    時光永痕 學生認證  發(fā)表于 2020-9-3 16:47:18 |只看作者 |壇友微信交流群|倒序 |AI寫論文

    +2 論壇幣
    k人 參與回答

    經(jīng)管之家送您一份

    應屆畢業(yè)生專屬福利!

    求職就業(yè)群
    趙安豆老師微信:zhaoandou666

    經(jīng)管之家聯(lián)合CDA

    送您一個全額獎學金名額~ !

    感謝您參與論壇問題回答

    經(jīng)管之家送您兩個論壇幣!

    +2 論壇幣
    什么是Map Reduce編程及其運作方式
    數(shù)據(jù)科學是一項研究,它使用各種工具和技術從數(shù)據(jù)中提取有意義的見解,以促進業(yè)務增長。盡管它是在計算機出現(xiàn)時誕生的,但最近的炒作是由于生成了大量的非結構化數(shù)據(jù)以及現(xiàn)代計算機具有空前的計算能力的結果。
    但是,在大眾中對該領域的真正含義存在很多誤解,許多人認為這是根據(jù)數(shù)據(jù)預測未來結果。盡管預測分析是數(shù)據(jù)科學的一部分,但它肯定不是數(shù)據(jù)科學所代表的全部。在分析項目中,首要任務是建立管道并獲取相關數(shù)據(jù),以便以后執(zhí)行預測性分析。負責構建此類ETL管道并創(chuàng)建完美數(shù)據(jù)流系統(tǒng)的專業(yè)人員是數(shù)據(jù)工程師,該領域稱為數(shù)據(jù)工程。
    多年來,數(shù)據(jù)工程師的角色已經(jīng)發(fā)生了很大的變化。以前,它是關于使用結構化查詢語言構建關系數(shù)據(jù)庫管理系統(tǒng)或運行ETL作業(yè)。如今,來自多種來源的大量非結構化數(shù)據(jù)導致大數(shù)據(jù)的出現(xiàn)。它只是大量不同形式的大量數(shù)據(jù),如果正確挖掘,它們會攜帶大量信息。
    現(xiàn)在,專業(yè)人員面臨的最大挑戰(zhàn)是分析傳統(tǒng)文件存儲系統(tǒng)無法處理的這些巨大的數(shù)據(jù)。Hadoop解決了這個問題,Hadoop是一個開放源代碼Apache框架,旨在處理集群形式的大數(shù)據(jù)。Hadoop具有用于處理數(shù)據(jù)的多個組件,其中一個組件稱為Map Reduce。
    什么是Hadoop?
    Hadoop由Doug Cutting和Mike Cafarella于2006年創(chuàng)建,Hadoop促進了以并行集群的形式對大型數(shù)據(jù)集進行分布式存儲和處理。HDFS或Hadoop分布式文件系統(tǒng)是Hadoop的存儲組件,可以使用Map Reduce編程來存儲不同的文件格式以進行處理,我們將在本文稍后介紹。
    HDFS在大型群集上運行,并遵循主/從體系結構。文件的元數(shù)據(jù),即有關文件在節(jié)點中相對位置的信息,由作為主節(jié)點的NameNode管理,可以保存幾個DataNode來存儲數(shù)據(jù)。Hadoop的其他一些組件是–
    紗線–它管理資源并執(zhí)行作業(yè)調度。
    Hive –它允許用戶編寫類似SQL的查詢來分析數(shù)據(jù)。
    Sqoop –用于Hadoop分布式文件系統(tǒng)和關系數(shù)據(jù)庫管理系統(tǒng)之間的結構化數(shù)據(jù)傳輸。
    Flume –與Sqoop相似,但它有助于在HDFS和源之間傳輸非結構化和半結構化數(shù)據(jù)。
    Kafka – Hadoop的消息傳遞平臺。
    Mahout –用于在大數(shù)據(jù)上創(chuàng)建機器學習操作。
    Hadoop是一個廣闊的概念,每個組件的詳細說明都超出了本博客的范圍。但是,我們將深入探討其組成部分之一-Map Reduce,并了解其工作原理。
    什么是Map Reduce編程
    Map Reduce是一種編程范例,可在Hadoop集群中的數(shù)百或數(shù)千個服務器之間實現(xiàn)大規(guī)模擴展,即假設您有一個要運行的作業(yè),并且您使用MapReduce框架編寫了Job,然后如果有一千臺計算機可用,作業(yè)可能在那幾千臺機器中運行。
    大數(shù)據(jù)傳統(tǒng)上不會存儲在HDFS中。數(shù)據(jù)被分成幾小塊數(shù)據(jù)塊,分別存儲在各個數(shù)據(jù)節(jié)點中。在一個集中的位置沒有完整的數(shù)據(jù),因此本機客戶端應用程序無法立即處理信息。因此,需要一個特定的框架,該框架具有處理作為數(shù)據(jù)塊保留在相應數(shù)據(jù)節(jié)點中的數(shù)據(jù)的能力,并且處理可以去那里處理該數(shù)據(jù)并返回結果。簡而言之,并行處理數(shù)據(jù)可以加快處理速度。
    為了提高性能并提高效率,開發(fā)了并行化的思想。該過程是自動化的并同時執(zhí)行。分散的指令也可以在單臺計算機或不同的CPU上運行。為了獲得直接的磁盤訪問權限,多臺計算機使用SAN或存儲區(qū)域網(wǎng)絡,這是群集文件系統(tǒng)的一種常見類型,而分布式文件系統(tǒng)則使用網(wǎng)絡來發(fā)送數(shù)據(jù)。
    在這種主要/從屬數(shù)據(jù)處理體系結構中,一個常見的術語是負載平衡,其中在處理器之間分配任務以避免任何DataNode上的過載。與靜態(tài)平衡器不同,動態(tài)平衡器提供了更大的靈活性。
    Map-Reduce算法可在三個階段運行-Mapper階段,Sort和Shuffle階段以及Reducer階段。為了執(zhí)行基本計算,它為Google工程師提供了抽象,同時隱藏了容錯,并行化和負載平衡的細節(jié)。
    映射階段–在此階段,將輸入數(shù)據(jù)映射到分配給該數(shù)據(jù)的所有映射器上的中間鍵/值對。
    隨機播放和排序階段–此階段充當Map和Reduce階段之間的橋梁,以減少計算時間。在此,根據(jù)鍵同時對數(shù)據(jù)進行混洗和排序,即,將來自映射器階段的所有中間值相對于鍵分組在一起并傳遞給約簡函數(shù)。
    還原階段–排序后的數(shù)據(jù)是還原器的輸入,該數(shù)據(jù)匯總與每個鍵對應的值并產(chǎn)生所需的輸出。
    Map Reduce如何工作
    在多臺計算機上,將分布Map調用,并且將輸入數(shù)據(jù)自動劃分為M件,每件M大小為16至64兆字節(jié)。然后,在計算機集群上啟動該程序的許多副本。
    在這些副本中,一個是主副本,其余的是從屬副本。主機將M映射和R精簡任務分配給從屬。主機將為任何空閑的工作人員分配任務。
    地圖任務工作者將讀取輸入的內容,并將鍵值對傳遞給用戶定義的Map函數(shù)。在內存緩沖區(qū)中,將生成中間鍵值對。
    緩沖對以周期性的方式寫入本地磁盤。然后,分區(qū)功能將它們劃分為R個區(qū)域。主機將緩沖鍵值對的位置轉發(fā)給reduce worker。
    從主服務器獲取位置后,reduce worker讀取緩沖的數(shù)據(jù)。讀取數(shù)據(jù)后,將根據(jù)將相似事件組合在一起的中間鍵對數(shù)據(jù)進行排序。
    Reduce函數(shù)定義了用戶接收到一組與其對應的唯一中間鍵相對應的中間值的集合。最終的輸出文件將包含Reduce函數(shù)的附加輸出。
    一旦完成所有“貼圖”和“縮小”任務,主程序將喚醒用戶程序。在R輸出文件中,可以找到成功的MapReduce執(zhí)行輸出。
    執(zhí)行后,主機會通過發(fā)送定期的ping來檢查每個工人的存活率。如果任何工作人員不響應ping,則如果重置時間及其以前的工作,則在一定時間點后將其標記為失敗。
    如果發(fā)生故障,將重新執(zhí)行已完成的映射任務,因為它們的輸出在本地磁盤中不可訪問。存儲在全局文件系統(tǒng)中的輸出不需要重新執(zhí)行。
    Map Reduce編程的一些示例是–
    Map Reduce編程可以計算URL訪問的頻率。網(wǎng)頁的日志將由map函數(shù)處理,并存儲為輸出<URL,1>,然后由Reduce函數(shù)通過添加所有相同的URL并輸出其計數(shù)來處理。
    Map Reduce編程還可用于解析文檔并計算與每個文檔相對應的單詞數(shù)。
    對于給定的URL,可以在Map Reduce的幫助下獲得所有相關源URL的列表。
    為了計算每個主機項向量,可以使用map reduce編程。主機名和術語向量對將通過Map函數(shù)為每個文檔創(chuàng)建,該函數(shù)將由reduce函數(shù)處理,而reduce函數(shù)將刪除頻率較低的術語并給出最終的主機名,術語向量。
    結論
    數(shù)據(jù)工程是任何數(shù)據(jù)科學項目中的關鍵步驟,而Map Reduce無疑是其中的重要部分。在本文中,我們對大數(shù)據(jù)有一個簡短的直覺,并概述了Hadoop。然后,我們解釋了Map Reduce編程及其工作流程,并很少提供Map Reduce編程的實際應用。

    關注 CDA人工智能學院 ,回復“錄播”獲取更多人工智能精選直播視頻!


    二維碼

    掃碼加我 拉你入群

    請注明:姓名-公司-職位

    以便審核進群資格,未注明則拒絕

    關鍵詞:reduce Map edu red Map-Reduce

    您需要登錄后才可以回帖 登錄 | 我要注冊

    本版微信群
    加好友,備注cda
    拉您進交流群

    京ICP備16021002-2號 京B2-20170662號 京公網(wǎng)安備 11010802022788號 論壇法律顧問:王進律師 知識產(chǎn)權保護聲明   免責及隱私聲明

    GMT+8, 2024-12-22 22:34