AI四巨頭Google、DeepMind、Microsoft、Uber深度學(xué)習(xí)框架大比拼3
DeepMind的TF-Replicator專注于TensorFlow程序如何利用Tensor處理單元(TPU)有關(guān)的可伸縮性的另一個(gè)方面。TPU被認(rèn)為是最先進(jìn)的人工智能芯片之一,它為機(jī)器學(xué)習(xí)工作負(fù)載提供了本機(jī)可擴(kuò)展性。然而,在TensorFlow程序中使用TPU需要專門(mén)的API,這會(huì)給不熟悉底層硬件模型的數(shù)據(jù)科學(xué)家們帶來(lái)可移植性問(wèn)題和采用障礙。DeepMind的TF Replicator通過(guò)提供一個(gè)更簡(jiǎn)單、對(duì)開(kāi)發(fā)人員更友好的編程模型來(lái)利用TensorFlow程序中的TPU,從而解決了這一難題。
TF-Replicator的魔力依賴于一種“圖內(nèi)復(fù)制(in-graph replication)”模型,其中每個(gè)設(shè)備的計(jì)算被復(fù)制到同一張TensorFlow圖中。設(shè)備之間的通信是通過(guò)連接設(shè)備對(duì)應(yīng)子圖中的節(jié)點(diǎn)來(lái)實(shí)現(xiàn)的。為了達(dá)到這種級(jí)別的并行化,TF-Replicator利用TensorFlow的圖重寫(xiě)模型在圖中的設(shè)備之間插入本機(jī)通信。當(dāng)呈現(xiàn)一個(gè)TensorFlow圖時(shí),TF Replicator首先獨(dú)立地為每個(gè)設(shè)備構(gòu)建計(jì)算,并在用戶指定跨設(shè)備計(jì)算的地方留下占位符。一旦構(gòu)建了所有設(shè)備的子圖,TF Replicator就會(huì)用實(shí)際的跨設(shè)備計(jì)算替換占位符來(lái)連接它們。