[TechWeb]萊斯大學(xué)的研究人員展示了設(shè)計(jì)創(chuàng)新的以數(shù)據(jù)為中心的計(jì)算硬件的方法,以及將硬件與機(jī)器學(xué)習(xí)算法共同設(shè)計(jì)的方法,這兩種算法可以將能源效率提高兩個(gè)數(shù)量級(jí)。
成都創(chuàng)新互聯(lián)堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的隆化網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!機(jī)器學(xué)習(xí)是自動(dòng)駕駛汽車和許多其他高科技應(yīng)用背后的人工智能形式,它的進(jìn)步開(kāi)創(chuàng)了一個(gè)新的計(jì)算時(shí)代——以數(shù)據(jù)為中心的時(shí)代,并迫使工程師們重新思考75年來(lái)幾乎沒(méi)有受到挑戰(zhàn)的計(jì)算體系結(jié)構(gòu)的各個(gè)方面。
電氣與計(jì)算機(jī)工程助理教授林英彥(音)說(shuō):“問(wèn)題是,對(duì)于目前機(jī)器學(xué)習(xí)最先進(jìn)的大規(guī)模深層神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),整個(gè)系統(tǒng)運(yùn)行所需的90%以上的電力消耗在存儲(chǔ)器和處理器之間的數(shù)據(jù)移動(dòng)上。”。
Lin和合作者提出了兩種互補(bǔ)的方法來(lái)優(yōu)化以數(shù)據(jù)為中心的處理,這兩種方法都在6月3日的國(guó)際計(jì)算機(jī)體系結(jié)構(gòu)研討會(huì)(ISCA)上進(jìn)行了介紹,這是有關(guān)計(jì)算機(jī)體系結(jié)構(gòu)新思想和研究的主要會(huì)議之一。
數(shù)據(jù)中心架構(gòu)的驅(qū)動(dòng)力與一個(gè)稱為馮·諾依曼瓶頸(von Neumann瓶頸)的問(wèn)題有關(guān),這是一個(gè)效率低下的問(wèn)題,源于計(jì)算架構(gòu)中的內(nèi)存和處理分離,自1945年數(shù)學(xué)家約翰·馮·諾依曼發(fā)明數(shù)據(jù)中心架構(gòu)以來(lái),這一問(wèn)題一直占據(jù)著至高無(wú)上的地位。通過(guò)將內(nèi)存與程序和數(shù)據(jù)分離,von Neumann架構(gòu)允許一臺(tái)計(jì)算機(jī)具有難以置信的多功能性;根據(jù)從內(nèi)存中加載的存儲(chǔ)程序,計(jì)算機(jī)可以用來(lái)進(jìn)行視頻通話、準(zhǔn)備電子表格或模擬火星上的天氣。
但是將內(nèi)存與處理分開(kāi)也意味著即使簡(jiǎn)單的操作(如加2加2)也需要計(jì)算機(jī)處理器多次訪問(wèn)內(nèi)存。深度神經(jīng)網(wǎng)絡(luò)中的大量操作使這種記憶瓶頸變得更糟,深度神經(jīng)網(wǎng)絡(luò)是通過(guò)“研究”大量先前示例來(lái)學(xué)習(xí)做出人性化決策的系統(tǒng)。網(wǎng)絡(luò)越大,它可以完成的任務(wù)就越困難,并且顯示的網(wǎng)絡(luò)示例越多,它的執(zhí)行效果就越好。深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練可能需要專門的處理器庫(kù),這些處理器需要全天候運(yùn)行一周以上?;谥悄芫W(wǎng)絡(luò)在智能手機(jī)上執(zhí)行任務(wù)可以在不到一個(gè)小時(shí)的時(shí)間內(nèi)耗盡電池電量。
賴斯高效智能計(jì)算(EIC)實(shí)驗(yàn)室主任林說(shuō):“人們普遍認(rèn)為,對(duì)于機(jī)器學(xué)習(xí)時(shí)代的以數(shù)據(jù)為中心的算法,我們需要?jiǎng)?chuàng)新的以數(shù)據(jù)為中心的硬件架構(gòu),但機(jī)器學(xué)習(xí)的硬件架構(gòu)是什么?“
她說(shuō):“沒(méi)有一個(gè)答案是萬(wàn)能的,因?yàn)椴煌膽?yīng)用程序需要的機(jī)器學(xué)習(xí)算法在算法結(jié)構(gòu)和復(fù)雜度方面可能有很大的不同,同時(shí)具有不同的任務(wù)精度和資源消耗,如能源成本、延遲和吞吐量折衷要求。許多研究人員正在進(jìn)行這方面的研究,英特爾、IBM和谷歌等大公司都有自己的設(shè)計(jì)。”
在ISCA 2020上,Lin的小組做了一個(gè)報(bào)告,提供了及時(shí)的結(jié)果,這是她和她的學(xué)生為“內(nèi)存處理”(PIM)開(kāi)發(fā)的一個(gè)創(chuàng)新架構(gòu),是一種將處理引入內(nèi)存陣列的非von Neumann方法。一個(gè)有前途的PIM平臺(tái)是“電阻隨機(jī)存取存儲(chǔ)器”(ReRAM),一種類似flash的非易失性存儲(chǔ)器。盡管已經(jīng)提出了其他的ReRAM-PIM加速器架構(gòu),但林說(shuō),在10多個(gè)深度神經(jīng)網(wǎng)絡(luò)模型上運(yùn)行的實(shí)驗(yàn)發(fā)現(xiàn),適時(shí)的ReRAM-PIM加速器的能效提高了18倍,其計(jì)算密度是最具競(jìng)爭(zhēng)力的最先進(jìn)ReRAM-PIM加速器的30倍以上。
TIMELY是“時(shí)域、內(nèi)存執(zhí)行、局部性”的縮寫(xiě),它通過(guò)消除頻繁訪問(wèn)主內(nèi)存以處理中間輸入和輸出以及本地內(nèi)存和主內(nèi)存之間的接口而導(dǎo)致效率低下的主要因素來(lái)實(shí)現(xiàn)其性能。
在主存儲(chǔ)器中,數(shù)據(jù)以數(shù)字方式存儲(chǔ),但是當(dāng)將其帶入本地存儲(chǔ)器以進(jìn)行內(nèi)存中處理時(shí),必須將其轉(zhuǎn)換為模擬量。在以前的ReRAM PIM加速器中,結(jié)果值從模擬轉(zhuǎn)換為數(shù)字,然后發(fā)送回主存儲(chǔ)器。如果將它們從主存儲(chǔ)器調(diào)用到本地ReRAM以進(jìn)行后續(xù)操作,則它們將再次轉(zhuǎn)換為模擬信號(hào),依此類推。
通過(guò)使用本地存儲(chǔ)器中的模擬格式緩沖區(qū),及時(shí)避免了不必要的訪問(wèn)主存儲(chǔ)器和接口數(shù)據(jù)轉(zhuǎn)換的開(kāi)銷。這樣,TIMELY幾乎可以將所需的數(shù)據(jù)保留在本地存儲(chǔ)陣列中,從而大大提高了效率。
該小組在ISCA 2020上提出的第二個(gè)建議是SmartExchange,該設(shè)計(jì)結(jié)合了算法和加速器硬件創(chuàng)新以節(jié)省能源。
“訪問(wèn)主存儲(chǔ)器(DRAM)的能量要比執(zhí)行計(jì)算多花費(fèi)200倍,因此SmartExchange的關(guān)鍵思想是強(qiáng)制執(zhí)行算法中的結(jié)構(gòu),使我們可以將成本較高的內(nèi)存換成成本更低的內(nèi)存,成本計(jì)算。”
她舉例說(shuō):“例如,我們的算法有1000個(gè)參數(shù)。在傳統(tǒng)方法中,我們將所有1,000個(gè)存儲(chǔ)在DRAM中,并根據(jù)計(jì)算需要進(jìn)行訪問(wèn)。使用SmartExchange,我們搜索以找到這1,000個(gè)中的某些結(jié)構(gòu)。然后,我們只需要存儲(chǔ)10個(gè),因?yàn)槿绻覀冎浪鼈冎g的關(guān)系, 10和其余的990,我們可以計(jì)算990中的任何一個(gè),而不必從DRAM調(diào)用它們“。
她說(shuō):“我們將這10個(gè)稱為‘基礎(chǔ)’子集,其想法是將它們存儲(chǔ)在靠近處理器的本地位置,以避免或大幅度減少為訪問(wèn)DRAM而支付的費(fèi)用”。
研究人員使用SmartExchange算法及其自定義的硬件加速器對(duì)七個(gè)基準(zhǔn)深度神經(jīng)網(wǎng)絡(luò)模型和三個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。他們發(fā)現(xiàn),與最先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)加速器相比,該組合將等待時(shí)間減少了多達(dá)19倍。