|
北郵教授顧仁濤:光+計算深度融合,大規模連接或成關鍵挑戰發表時間:2024-07-22 08:09 7月18日消息,今天下午,由CIOE中國光博會和C114通信網聯合舉辦的“2024中國光通信高質量發展論壇”最后一場線上活動“智能光網絡:應對算力新挑戰”順利召開。 北京郵電大學教授、未來學院常務副院長顧仁濤發表題為《智算光網絡:面向“光+計算”探索與展望》的主題演講。他表示,隨著數字經濟的迅猛發展,計算和網絡技術的深度融合變得愈發重要。在這個背景下,將智能算力與超大容量光網絡相結合,正在引領著未來網絡的發展方向。 “光+計算”將成為未來發展趨勢 顧仁濤表示,當前,大模型市場的蓬勃發展與算力的快速增長密不可分。算力不僅是支撐大模型發展的基礎,更是驅動數字經濟前進的重要引擎。智算中心作為發展最快的一種算力供給形式,已經成為全球人工智能算力的主要增量。同時,算力的發展也對運力提出了巨大挑戰,預計骨干網帶寬將增加1000T以上,對樞紐間的帶寬運力帶來了巨大壓力。 光網絡作為連接算力的重要基礎設施,其超高速率、超大容量和超長距離傳輸的特性使其成為當前通信網絡的核心組成部分。隨著智算算力的快速發展,光網絡必須不斷提升其帶寬和傳輸效率,以滿足日益增長的算力需求,確保數據的快速、可靠傳輸。 “光網絡將成為支撐算力業務的重要底座,是承載智算中心算內和算間業務的基礎設施,‘光+計算’將成為未來的發展趨勢?!鳖櫲蕽f道。 他指出,面向智算中心業務,光網絡在大規模提升算力、高吞吐提高容量、低時延保障效率、高可靠保障訓練和超遠距離互聯五個方面提出了新的要求。 具體而言,面對大規模算力要求,光網絡高帶寬特性支持大規模數據傳輸,以支撐大規模GPU集群的需求;通過多波段擴展、頻分復用、空分復用等技術,光網絡可以提供大規模數據傳輸,提升網絡容量;在光模塊方面,LPO/LRO等新型封裝技術的出現可以提升光電轉換的處理速度,同時改善算力集群的功耗;光纖和光交換機作為傳輸設備和交換設備,因其低損耗的特性可以為智算網絡提供無損傳輸介質;此外,包括OTN在內的傳送網絡因其大帶寬、低時延的特點、強保護的特點,是算力拉遠場景下的基礎支撐。 分智算中心內部和智算中心之間兩個場景來看。就算內而言,光電混合的智算中心會是未來的主要趨勢。電層負責突發性小顆粒傳輸,適用于需要快速響應和局部連接任務;光層則處理周期性的大顆粒傳輸,較長距離的數據傳送需求。通過構建光電混合智算中心,架構實現了兩者的優勢互補。 從算間來看,IP和光的協同會變得更為關鍵。為了實現計算資源和網絡資源的高效協同,將IP層的傳輸靈活性與光層的高速傳輸特性結合,形成了多鏈路IP+光的靈活可編程并行傳送網絡。 智算光網絡關鍵技術 接下來,顧仁濤從算內、算間、算間算內一體化三方面介紹了智算光網絡的關鍵技術。 算內方面,在器件上,當前光模塊在算智中心的大數據量傳輸中可能會面臨帶寬瓶頸,同時對穩定性和成本都有更高需求。光模塊的更新可以提高光電轉換的效率,從而滿足智算大帶寬低功耗的需求。例如LPO技術具備易插拔、易維護的優點,降低功耗和延時的同時,還可節省50%的光學能耗和25%的交換機能耗。 在交換技術上,光交換機的提升方向主要集中在透明傳輸特質的利用以及成本和性能的優化上。與傳統的InfiniBand交換機方案相比,OCS方案具有更低的成本和功耗,另外3D-MEMS技術的光交換機憑借低成本以及優秀的性能未來將更適用于智算中心。同時,在智算中心內部流量具有流數少、單流帶寬大的特征,長短流場景下存在資源利用率低的問題,需要一種能夠靈活應對多粒度流量的技術。光電混合架構不僅能處理單一流量,還能應對多種流量類型,實現資源的高效利用。 “超大規模的訓練過程中,一個計算中心可能在功耗、空間等等方面確實也不能滿足需求,所以算間互聯就成為一個必然的選擇?!彼f道。 隨著算力業務的增加,算力部署也變得更加多樣化。分布式智算中心因其盈利能力、抗風險能力和算力設施的彈性,預計將成為未來的重要候選方案。在這種部署中,OTN等高速傳輸技術將扮演關鍵角色,提供了高帶寬、低延遲、靈活性和高可靠性的解決方案。 在傳輸上,新型光纖在智算網絡中心間互聯意義重大,其高速率低損耗特征,滿足大帶寬、低時延傳輸需求;可編程拉曼放大器作為長距傳輸再生器,支持超寬譜增益的精準調優,滿足波段擴展帶來的新挑戰。 在組網上,算網協同管控是關鍵技術之一,網絡資源池化,滿足多維異構網絡和算力資源的統一管控需求;支持“隱私保護”的多主體協作式資源分配,支持跨域任務需求;拓撲結構重構也非常重要,找到最佳的IP+光網絡拓撲,實現根本性資源重構,保證網絡的靈活性和適應性;采用基于感知的重構式故障恢復方法,保障智算組網高可靠需求。 此外,端到端一體化的光網絡技術旨在構建算內和算間的一體化連接,滿足任務的定制化需求。端網協同的算內算間一體化銜接可以實現端到端的全生命周期管控。通過多波段光網絡支持的虛擬網絡嵌入方法,實現業務的定制化需求。 發言最后,顧仁濤表示,面向未來,數字孿生技術將成為智算光網絡發展的重要使能技術,為面向“光+計算”的融合網絡提供數據基礎、模型基礎。另外,智算和自智之間會逐漸融合。自智的智算光網絡將通過“感知-決策-執行-保障”閉環,實現AI賦能的光+計算系統。 但與此同時,智算光網絡還面臨很多挑戰。在算內,如何實現高效、低成本和多粒度的交換模式還是一個問題。在算間方面,如何在超長距離下解決擁塞控制和沖突、通過優化TCP/UDP來保障吞吐量等都是亟待解決或者明確的問題。面對大規模的邏輯上“All-to-all”連接,如何利用算力和網絡之間的耦合關系降低網絡部署成本,也是一個值得深入挖掘的領域。
|