如火如荼的國內大模型創業潮中,高端芯片的短缺引發的算力壓力一直是行業擔憂的關鍵點。4月14日,騰訊宣布兩大事宜——首發英偉達H800,以及發布高性能計算集群,緩解大模型趨勢下的算力壓力。
所謂“高性能計算集群”,主要采用騰訊云星星海自研服務器,搭載英偉達最新代次H800 GPU,服務器之間采用3.2T超高互聯帶寬,為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延遲的集群算力。
大模型帶動算力需求激增
(資料圖片)
算力問題之所以成為行業頭疼的難題,是因為當前大模型進入萬億參數時代,單體服務器算力有限,需要將大量服務器通過高性能網絡相連,打造大規模算力集群。
此前接受采訪時,騰訊云異構計算產品總監宋丹丹對第一財經記者表示,大模型是目前需求比較旺盛的業務,行業對算力的要求分為訓練和推理兩個階段。訓練需要短時間內并行算力非常全,算力非常大,且要在短時間內能夠做到交付,所以對于算力的量級、穩定性、性能,以及彈性擴縮容的能力有比較高的要求。進入推理階段,大模型對于單位算力的性價比、成本以及算力所處的位置與端應用的服務是否能夠快速連接的要求較高。
目前來看,宋丹丹認為大模型所處的階段還處于訓練需求的爆發期,行業需要的還是一個海量的可擴縮容的高性能算力,并且這些算力能夠穩定交付、穩定計算。因為中間打斷一下,整個訓練過程就會暫停,所以對于算力的穩定性要求很高。
對于目前行業對算力需求的變化,宋丹丹表示,一些新入場的業務確實有了新的增量,如之前的異構計算面向的領域主要是三大方向:一個是科學計算,如天氣、地理測繪、醫藥研發;其次是渲染視覺類的,比如XR、VR的視覺服務、渲染,包括影視渲染、動畫渲染、二維3D渲染等;第三類就是AI的SaaS和PaaS的應用服務。
現在的算力增量在騰訊云看來,可以籠統地可以劃歸到之前的AI傳統服務里,只不過它的需求從原來的推理向和渲染更多地走向了訓練向,更多的客戶開始自己訓練AI模型,這是目前市場的變化。
先進芯片不完全等于先進算力
算力需求暴增的當下,行業普遍將芯片,尤其高端芯片的短缺視為重要限制,但在騰訊云看來,當前大熱的人工智能大模型需要海量數據和強大的算力來支撐訓練和推理過程,其中數據主要由服務器和光模塊存儲、運輸,算力支撐則依賴各類芯片。
但用上了先進芯片并不代表就擁有了先進算力,原因在于高性能計算存在“木桶效應”,一旦計算、存儲、網絡任一環節出現瓶頸,就會導致運算速度嚴重下降。
比如目前GPU并行是大模型訓練的必備技術,不同于傳統并行以加快計算速度為目的,大模型的并行計算往往還要考慮怎樣將龐大的參數有機地分布到多張GPU卡中,并保持不同GPU卡之間有效的通信,整體配合完成大模型的訓練部署。
即使是目前業界已有的GPU分布式訓練方案,也嚴重依賴于服務器之間的通信、拓撲、模型并行、流水并行等底層問題的解決情況。如果只有分布式訓練框架,甚至都無法正常啟動訓練過程。這也是為什么當時 GPT-3 已經發布一年,卻只有少數企業可以復現 GPT-3。
因此,先進算力的背后是先進芯片、先進網絡、先進存儲等一系列的支撐,缺一不可。此次騰訊自研的星脈網絡,為新一代集群帶來3.2T的超高通信帶寬。騰訊方面的實測結果顯示,搭載同樣的GPU卡,3.2T星脈網絡相較前代網絡,能讓集群整體算力提升20%,使得超大算力集群仍然能保持優質的通信開銷比和吞吐性能。并提供單集群高達十萬卡級別的組網規模,支持更大規模的大模型訓練及推理。
另外,騰訊云自研的文件存儲、對象存儲架構,具備TB級吞吐能力和千萬級IOPS,充分滿足大模型訓練的大數據量存儲要求。
芯片方面,此前,騰訊多款自研芯片已經量產。其中,用于AI推理的紫霄芯片、用于視頻轉碼的滄海芯片已在騰訊內部交付使用。至于此次首發的英偉達H800芯片儲備數量問題,截至發稿,騰訊方面暫未回應。
關于我們| 聯系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 www.fyuntv.cn 版權所有,未經書面授權禁止使用
Copyright©2008-2020 By All Rights Reserved 皖ICP備2022009963號-10
聯系我們: 39 60 29 14 2@qq.com