應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

專訪阿里云專家:異構(gòu)計算GPU、FPGA、ASIC芯片將三分天下

2017-09-13 09:29 云棲社區(qū)
關(guān)鍵詞:阿里云GPUFPGAASIC芯片

導(dǎo)讀:異構(gòu)計算是指不同類型的指令集和體系架構(gòu)的計算單元組成的系統(tǒng)的計算方式,目前 “CPU+GPU”以及“CPU+FPGA” 都是最受業(yè)界關(guān)注的異構(gòu)計算平臺。

  在IT界,異構(gòu)計算并不是一個新興的詞。

  近十年來,計算行業(yè)經(jīng)歷了從32bit、“x86-64”、多核心、通用GPGPU以及2010年“CPU—GPU”異構(gòu)計算的變遷。而最近幾年,隨著人工智能、高性能數(shù)據(jù)分析和金融分析等計算密集型領(lǐng)域的興起,異構(gòu)計算才突然火了起來。

  因?yàn)閭鹘y(tǒng)通用計算的方式已經(jīng)無法滿足我們對計算能力的需求,異構(gòu)計算被認(rèn)為是現(xiàn)階段挑起計算大梁的關(guān)鍵技術(shù),阿里云異構(gòu)計算產(chǎn)品解決方案就在這樣的大環(huán)境下誕生了,這支團(tuán)隊(duì)的掌舵人正是張獻(xiàn)濤。

  張獻(xiàn)濤,花名旭卿,武漢大學(xué)信息安全博士,加入阿里巴巴前,他就職于英特爾亞太研發(fā)中心,是Xen、KVM等多個開源虛擬化項(xiàng)目的主要貢獻(xiàn)者,曾擔(dān)任Xen/IOMMU以及KVM/IA64項(xiàng)目的Maintainer;同時,他也是Intel HAXM加速器的主要作者和貢獻(xiàn)者,并因此獲得英特爾最高成就獎。

  2014年,張獻(xiàn)濤正式加入阿里巴巴任資深專家,目前在阿里主要負(fù)責(zé)虛擬化技術(shù)、高性能計算產(chǎn)品、異構(gòu)計算產(chǎn)品、以及一些創(chuàng)新類型產(chǎn)品的技術(shù)和研發(fā)的團(tuán)隊(duì)。

  在這次訪談中,張獻(xiàn)濤分享了目前企業(yè)使用異構(gòu)計算方案的痛點(diǎn),他還深入介紹了阿里云在均衡異構(gòu)計算資源所做的工作。

  異構(gòu)計算的機(jī)遇與挑戰(zhàn)

  異構(gòu)計算是指不同類型的指令集和體系架構(gòu)的計算單元組成的系統(tǒng)的計算方式,目前 “CPU+GPU”以及“CPU+FPGA” 都是最受業(yè)界關(guān)注的異構(gòu)計算平臺。它最大的優(yōu)點(diǎn)是具有比傳統(tǒng)CPU并行計算更高效率和低延遲的計算性能,尤其是業(yè)界對計算性能需求水漲船高的情況下,異構(gòu)計算變得愈發(fā)重要。整個計算行業(yè)生態(tài)無一不在此發(fā)力,芯片企業(yè)投入了大量的資金,異構(gòu)編程的開發(fā)標(biāo)準(zhǔn)也在逐漸成熟,而主流的云服務(wù)商更是在積極布局,一時間,異構(gòu)計算大有取代傳統(tǒng)同構(gòu)計算之勢。

  張獻(xiàn)濤也表示,異構(gòu)計算能夠很好的滿足人工智能、高性能數(shù)據(jù)分析、金融分析等計算密集型領(lǐng)域的計算需求,而這一技術(shù)會逐漸取代原來通用計算不擅長的部分。

  但是在光鮮亮麗的外殼之下,對于一般用戶來說,異構(gòu)計算的采購、部署以及使用門檻對絕大多數(shù)企業(yè)來說都很高。對此,張獻(xiàn)濤主要談到以下幾個痛點(diǎn):

  1.采購成本高:用戶小量采購基本上沒有議價能力,特別是購買FPGA板卡,量少的話采購價格特別高。

  2.交付周期長:通常用戶從開始需要采購,到機(jī)型選擇、硬件架構(gòu)設(shè)計、供應(yīng)商選擇、機(jī)房選擇、財務(wù)審批等流程通常需要幾個月的時間。

  3.沒有彈性:采購?fù)炅薌PU/FPGA的數(shù)量就固定了,任務(wù)少的話多買的GPU/FPGA就浪費(fèi)了,任務(wù)多的話GPU/FPGA數(shù)量又不夠用。

  4.沒有硬件紅利:采購?fù)炅诵吞柧凸潭耍绻行碌腉PU/FPGA架構(gòu)上線只能追加預(yù)算購買,老的GPU/FPGA性能跟不上應(yīng)用了。

  5.數(shù)據(jù)孤島:線下的GPU/FPGA和線上的服務(wù)無法打通。

  另外,他還補(bǔ)充道,做FPGA產(chǎn)品的最大挑戰(zhàn)是整個FPGA的生態(tài)環(huán)境很差,具備FPGA開發(fā)能力特別是開發(fā)FPGA做計算加速的客戶非常少。為此,我們會在云上建立IP開發(fā)市場并且引入一系列的FPGA IP合作伙伴,并推動建立云上FPGA的開發(fā)標(biāo)準(zhǔn),豐富整個FPGA的開發(fā)生態(tài)環(huán)境,吸引更多的IP開發(fā)廠商和合作伙伴把他們的IP放在IP開發(fā)市場上,去服務(wù)他們的最終用戶,從而進(jìn)一步豐富整個FPGA的生態(tài)環(huán)境。”

  阿里云在短時間里先后推出彈性GPU和FPGA異構(gòu)計算的解決方案,目的就是降低異構(gòu)計算資源使用的門檻,對高性能計算有需求的企業(yè)可以隨買隨用。

  云棲社區(qū)了解到,阿里云彈性GPU產(chǎn)品主要面向人工智能、數(shù)據(jù)分析、科學(xué)計算、電影渲染、視頻圖像處理、視頻轉(zhuǎn)碼等場景,目前的應(yīng)用案例包括行為數(shù)據(jù)分析、千人千面、人臉識別、視頻識別、圖像識別、對象分類等;阿里云彈性FPGA產(chǎn)品主要面向人工智能、半導(dǎo)體設(shè)計、基因計算、視頻圖像處理、數(shù)據(jù)分析決策等場景,目前的應(yīng)用案例包括深度學(xué)習(xí)推理、深度學(xué)習(xí)模型裁剪、非規(guī)整數(shù)據(jù)計算、視頻圖像處理、硬件半導(dǎo)體設(shè)計等。

  阿里云在異構(gòu)計算領(lǐng)域的探索

  眾所周知,相比CPU,GPU和FPGA擁有太多的優(yōu)勢,GPU有更高的并行度、更高的單機(jī)計算峰值、更高的計算效率;而FPGA的優(yōu)勢則主要體現(xiàn)在它擁有更高的每瓦性能、非規(guī)整數(shù)據(jù)計算更高的性能、更高的硬件加速性能、更低的設(shè)備互聯(lián)延遲。

  但在云端的解決方案上,便意味著優(yōu)勢的進(jìn)一步放大,張獻(xiàn)濤介紹,阿里云GPU和FPGA異構(gòu)計算解決方案主要有以下特點(diǎn):

  1.GPU/FPGA資源即買即用,彈性伸縮。

  2.超大規(guī)模資源池,滿足業(yè)務(wù)峰值的GPU/FPGA數(shù)量的需求。

  3.享受異構(gòu)計算超摩爾定律的硬件紅利,以相同的價格使用性能更強(qiáng)的GPU/FPGA實(shí)例。

  4.最全面的異構(gòu)產(chǎn)品線,滿足人工智能訓(xùn)練、推理,圖像視頻處理等各種不同的需求。

  5.產(chǎn)品整合:和整個阿里云產(chǎn)品體系深度整合,數(shù)據(jù)打通。

  這些特性完美的解決了用戶使用異構(gòu)計算方案的痛點(diǎn)。張獻(xiàn)濤還透露,現(xiàn)在大部分客戶都在單機(jī)上訓(xùn)練模型,通常需要幾周到一個月的時間,因此阿里云正在計劃推出一款超高性能異構(gòu)集群的產(chǎn)品。

  “該產(chǎn)品的GPU/FPGA之間可以通過25/100Gb ROCE走RDMA協(xié)議直連,可以多機(jī)多卡,用非常多的GPU/FPGA設(shè)備集群來共同訓(xùn)練一個模型,大大減少用戶訓(xùn)練的時間,從幾周到一個月縮短到一天或者幾個小時的級別。”

  值得一提的是,阿里云異構(gòu)計算解決方案也針對開發(fā)者做出了更友好的體驗(yàn):

  在GPU編程方面,阿里云會推出分布式多機(jī)多卡訓(xùn)練框架和其他GPU上的性能優(yōu)化服務(wù),能夠大大降低客戶使用多機(jī)多卡的門檻,從而減少客戶在云上做深度學(xué)習(xí)訓(xùn)練的時間。

  FPGA方面,阿里云會建立IP開發(fā)市場并且引入一系列的FPGA IP合作伙伴,并且會推出自研的IP系列,通過IP市場的繁榮讓更多的最終用戶能夠享受到FPGA的性能加速。

  另外,阿里云還推出了IaaS+的服務(wù),包括發(fā)布E-HPC產(chǎn)品做異構(gòu)集群的資源調(diào)度、賬號管理和彈性伸縮,通過容器服務(wù)來做一鍵部署、分布式訓(xùn)練和彈性伸縮,通過XDL來做行為數(shù)據(jù)分析,利用阿里云自研的GPU匯編器來優(yōu)化提升應(yīng)用的性能,提高異構(gòu)計算設(shè)備的利用率,減少資源的采購成本。

  未來:GPU、FPGA、ASIC三分天下

  人工智能以及其它新興應(yīng)用領(lǐng)域?qū)τ谟嬎懔康男枨蟪^了通用CPU的摩爾定律的發(fā)展速度,而異構(gòu)計算的性能增長速度能夠滿足這些新興的方向和趨勢,可以預(yù)見的是,異構(gòu)計算會在今后的數(shù)據(jù)中心中占據(jù)越來越多的份額。

  宏觀來看,異構(gòu)計算的發(fā)展也得益于國家戰(zhàn)略的推動。例如,最近國家下發(fā)了人工智能的發(fā)展規(guī)劃,人工智能已經(jīng)成為國家戰(zhàn)略,這勢必會刺激異構(gòu)計算的需求。當(dāng)然,張獻(xiàn)濤也坦言,雖然異構(gòu)計算的應(yīng)用需求越來越多,但通用計算的需求也會一直存在,二者將會長期共存。

  毫無疑問,目前異構(gòu)計算領(lǐng)域GPU處理器已經(jīng)占據(jù)了主流地位,但對未來的趨勢,張獻(xiàn)濤則表示,“隨著FPGA的生態(tài)環(huán)境的建立和完善、ASIC芯片的逐漸成熟,未來異構(gòu)計算領(lǐng)域會呈現(xiàn)GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都會有自己獨(dú)特的特長和應(yīng)用領(lǐng)域,有自己獨(dú)特的客戶群體。”

  這也是張獻(xiàn)濤團(tuán)隊(duì)專注的方向,接下來團(tuán)隊(duì)會發(fā)布包括8卡/16卡GPU產(chǎn)品、下一代的Volta架構(gòu)的GPU產(chǎn)品、新一代的FGPA的產(chǎn)品,而ASIC芯片的產(chǎn)品上云也正在研發(fā)當(dāng)中。

  目前他所帶領(lǐng)的團(tuán)隊(duì)主要有兩個目標(biāo):一方面致力于讓異構(gòu)計算變成用戶即買即用的計算資源,提供最為全面的異構(gòu)計算產(chǎn)品方案;另一方面致力于讓用戶能夠用好異構(gòu)資源,充分發(fā)揮異構(gòu)資源的處理能力,讓用戶的服務(wù)更具備競爭力。也就是推動異構(gòu)計算變成一種普適的計算能力。

  云棲大會亮點(diǎn)揭秘

  本次杭州云棲大會將設(shè)立異構(gòu)計算/高性能計算專場、虛擬化技術(shù)專場,屆時張獻(xiàn)濤都將發(fā)表主題演講,在大會正式開幕之前,他也向云棲社區(qū)透露了一個重磅消息——阿里云將發(fā)布幾款重量級的異構(gòu)計算家族產(chǎn)品,涉及到異構(gòu)計算、通用計算、高性能計算等多個領(lǐng)域。他表示,這些產(chǎn)品都是為了解決用戶在使用阿里云的過程中遇到的痛點(diǎn),包括集群的管理和調(diào)度問題、云上彈性使用付費(fèi)軟件的License問題、實(shí)例需要即擁有虛擬機(jī)的彈性又要擁有物理機(jī)的性能、多機(jī)多卡分布式訓(xùn)練降低訓(xùn)練時間等問題。

  以下是本次訪談實(shí)錄:

  問:異構(gòu)計算能提供比傳統(tǒng)CPU并行計算更高效率和低延遲的計算性能,這是否意味這后者將會被取代?您如何看待二者的發(fā)展趨勢?

  張獻(xiàn)濤:通用計算和異構(gòu)計算的需求都會一直存在,通用計算不會完全被取代。但是隨著人工智能、高性能數(shù)據(jù)分析、金融分析等計算密集型領(lǐng)域的日益興起,異構(gòu)計算能夠更好的滿足這部分的計算需求,異構(gòu)計算會越來越多的取代原來通用計算不擅長的部分。阿里云順應(yīng)這個趨勢推出彈性GPU和FPGA異構(gòu)計算的解決方案,就是為了更好的滿足日漸增長的人工智能、數(shù)據(jù)分析、商業(yè)智能對于異構(gòu)計算的需求,能夠讓他們隨買隨用,讓異構(gòu)計算不再是一種高高在上的昂貴的資源,而變成一種普適性的基礎(chǔ)計算資源,推動人工智能等產(chǎn)業(yè)的發(fā)展。

  問:今年1月,阿里云推出了彈性GPU和FPGA異構(gòu)計算解決方案,這一方案主要面向哪些應(yīng)用場景推出的?目前有哪些應(yīng)用案例?

  張獻(xiàn)濤:首先,GPU的的優(yōu)勢包括比CPU更高的并行度、更高的單機(jī)計算峰值、更高的計算效率,阿里云彈性GPU產(chǎn)品主要面向人工智能、數(shù)據(jù)分析、科學(xué)計算、電影渲染、視頻圖像處理、視頻轉(zhuǎn)碼等場景,目前的應(yīng)用案例包括行為數(shù)據(jù)分析、千人千面、人臉識別、視頻識別、圖像識別、對象分類等。

  其次,F(xiàn)PGA的優(yōu)勢包括更高的每瓦性能、非規(guī)整數(shù)據(jù)計算更高的性能、更高的硬件加速性能、更低的設(shè)備互聯(lián)延遲,阿里云彈性FPGA產(chǎn)品主要面向人工智能、半導(dǎo)體設(shè)計、基因計算、視頻圖像處理、數(shù)據(jù)分析決策等場景,目前的應(yīng)用案例包括深度學(xué)習(xí)推理、深度學(xué)習(xí)模型裁剪、非規(guī)整數(shù)據(jù)計算、視頻圖像處理、硬件半導(dǎo)體設(shè)計等。

  除此之外,因?yàn)楝F(xiàn)在大部分客戶都在單機(jī)上訓(xùn)練模型,通常需要幾周到一個月的時間,我們計劃推出一款超高性能異構(gòu)集群的產(chǎn)品,該產(chǎn)品的GPU/FPGA之間可以通過25/100Gb ROCE走RDMA協(xié)議直連,可以多機(jī)多卡,用非常多的GPU/FPGA設(shè)備集群來共同訓(xùn)練一個模型,大大減少用戶訓(xùn)練的時間,從幾周到一個月縮短到一天或者幾個小時的級別。

  問:異構(gòu)計算方案的優(yōu)勢很明,但仍然處于發(fā)展初期,目前異構(gòu)計算模式面臨的最大挑戰(zhàn)是什么?

  張獻(xiàn)濤:目前用戶自己采購異構(gòu)計算的話遇到最大的痛點(diǎn)包括:

  (1)采購成本高:用戶小量采購基本上沒有議價能力,特別是購買FPGA板卡,量少的話采購價格特別高。

  (2)交付周期長:通常用戶從開始需要采購,到機(jī)型選擇、硬件架構(gòu)設(shè)計、供應(yīng)商選擇、機(jī)房選擇、財務(wù)審批等流程通常需要幾個月的時間。

  (3)沒有彈性:采購?fù)炅薌PU/FPGA的數(shù)量就固定了,任務(wù)少的話多買的GPU/FPGA就浪費(fèi)了,任務(wù)多的話GPU/FPGA數(shù)量又不夠用。

  (4)沒有硬件紅利:采購?fù)炅诵吞柧凸潭?,如果有新的GPU/FPGA架構(gòu)上線只能追加預(yù)算購買,老的GPU/FPGA性能跟不上應(yīng)用了。

  (5)數(shù)據(jù)孤島:線下的GPU/FPGA和線上的服務(wù)無法打通。

  所以阿里云推出了彈性的異構(gòu)計算解決方案,能夠很好的解決用戶的這些痛點(diǎn):(1)GPU/FPGA資源即買即用,彈性伸縮。(2)超大規(guī)模資源池,滿足業(yè)務(wù)峰值的GPU/FPGA數(shù)量的需求。(3)享受異構(gòu)計算超摩爾定律的硬件紅利,以相同的價格使用性能更強(qiáng)的GPU/FPGA實(shí)例。(4)最全面的異構(gòu)產(chǎn)品線,滿足人工智能訓(xùn)練、推理,圖像視頻處理等各種不同的需求。(5)產(chǎn)品整合:和整個阿里云產(chǎn)品體系深度整合,數(shù)據(jù)打通。

  另外彈性FPGA產(chǎn)品的最大挑戰(zhàn)是整個FPGA的生態(tài)環(huán)境很差,具備FPGA開發(fā)能力特別是開發(fā)FPGA做計算加速的客戶非常少,我們會建立IP開發(fā)市場并且引入一系列的FPGA IP合作伙伴,并推動建立云上FPGA的開發(fā)標(biāo)準(zhǔn),豐富整個FPGA的開發(fā)生態(tài)環(huán)境,吸引更多的IP開發(fā)廠商和合作伙伴把他們的IP放在IP開發(fā)市場上,去服務(wù)他們的最終用戶,從而進(jìn)一步豐富整個FPGA的生態(tài)環(huán)境。

  問:對開發(fā)者而言,異構(gòu)計算的編程難度和開發(fā)成本更高,對此阿里云作了哪些工作?

  張獻(xiàn)濤:GPU編程方面阿里云會推出分布式多機(jī)多卡訓(xùn)練框架和其他GPU上的性能優(yōu)化服務(wù),能夠大大降低客戶使用多機(jī)多卡的門檻,大大降低客戶在云上做深度學(xué)習(xí)訓(xùn)練的時間。FPGA方面,阿里云會建立IP開發(fā)市場并且引入一系列的FPGA IP合作伙伴,并且會推出自研的IP系列,通過IP市場的繁榮讓更多的最終用戶能夠享受到FPGA的性能加速。另外阿里云還推出了IaaS+的服務(wù),包括發(fā)布E-HPC產(chǎn)品做異構(gòu)集群的資源調(diào)度、賬號管理和彈性伸縮,通過容器服務(wù)來做一鍵部署、分布式訓(xùn)練和彈性伸縮,通過XDL來做行為數(shù)據(jù)分析,利用阿里云自研的GPU匯編器來優(yōu)化提升應(yīng)用的性能,提高異構(gòu)計算設(shè)備的利用率,減少資源的采購成本。

  問:能否談?wù)剬Ξ悩?gòu)計算的理解?以及分享你在工作中獲得的一些寶貴經(jīng)驗(yàn)?

  張獻(xiàn)濤:隨著人工智能的興起,一些新興應(yīng)用領(lǐng)域?qū)τ谟嬎懔康男枨笠约俺^了通用CPU的摩爾定律的發(fā)展速度,而異構(gòu)計算的性能增長速度能夠滿足這些新興的方向和趨勢,異構(gòu)計算會在今后的數(shù)據(jù)中心中占據(jù)越來越多的份額。最近國家也下發(fā)了人工智能的發(fā)展規(guī)劃,人工智能已經(jīng)成為國家戰(zhàn)略,未來會推動國家產(chǎn)業(yè)升級、社會進(jìn)步的方方面面,而人工智能離不開異構(gòu)計算。我們的工作一方面致力于讓異構(gòu)計算變成用戶即買即用的計算資源,提供最為全面的異構(gòu)計算產(chǎn)品方案,另一方面致力于讓用戶能夠用好異構(gòu)資源,充分發(fā)揮異構(gòu)資源的處理能力,讓用戶的服務(wù)更具備競爭力。我們希望推動異構(gòu)計算變成一種普適的計算能力,從而推動人工智能的發(fā)展,進(jìn)而推動產(chǎn)業(yè)升級和社會進(jìn)步,改變?nèi)藗兊纳a(chǎn)、生活方式。

  問:您認(rèn)為異構(gòu)計算領(lǐng)域未來會有什么樣的新變化?

  張獻(xiàn)濤:目前異構(gòu)計算領(lǐng)域是GPU處理器占據(jù)主流地位,未來隨著FPGA的生態(tài)環(huán)境的建立和完善,隨著ASIC芯片的逐漸成熟,未來異構(gòu)計算領(lǐng)域會呈現(xiàn)GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都會有自己獨(dú)特的特長和應(yīng)用領(lǐng)域,有自己獨(dú)特的客戶群體。阿里云后面會推出更加全面的異構(gòu)計算產(chǎn)品族,包括8卡/16卡GPU產(chǎn)品、包括下一代的Volta架構(gòu)的產(chǎn)品、包括新一代的FGPA的產(chǎn)品,另外,ASIC芯片的產(chǎn)品上云也在研發(fā)中。

  問:在本次云棲大會上,您想分享什么話題?能否提前透露一些亮點(diǎn),以及分享這個話題的初衷?

  張獻(xiàn)濤:本次云棲大會我們會發(fā)布幾款重量級產(chǎn)品,涉及到異構(gòu)計算,通用計算,高性能計算等多個領(lǐng)域。這些產(chǎn)品都是為用戶提供更好的體驗(yàn),解決包括集群的管理和調(diào)度問題、云上彈性使用付費(fèi)軟件的License問題、實(shí)例需要即擁有虛擬機(jī)的彈性又要擁有物理機(jī)的性能、多機(jī)多卡分布式訓(xùn)練降低訓(xùn)練時間等問題,敬請期待,關(guān)注云棲大會的異構(gòu)計算專場,虛擬化技術(shù)專場以及彈性計算的專場。