宏安集團有限公司
Hongan   Group  Co . ,  L t d
客戶服務熱線
0631-8353129
歡迎您訪問宏安集團有限公司網站

阿里云專家:開放解耦是實現網絡智能化的基石

發表時間:2024-09-18 08:39

9月11日,第25屆中國國際光電博覽會在深圳開幕,在同期舉辦的“智算中心光技術創新發展論壇”上,杭州阿里云飛天信息技術有限公司光網絡架構師翟芷群應邀作了題為《智能運維在網絡中的應用及挑戰》的主題演講,分享了阿里云網絡全生命周期的智能化管理方案。

翟芷群表示,隨著AI的迅速發展,大規模的數據中心、網絡、計算,使網絡的規模越來越大。如此巨大并且復雜的網絡,倘若純使用人工方案,會耗費巨大的人力,尤其是現階段AI系統開始在業界使用起來。由于SRC的影響,這些配置會變得更加復雜,這時使用人工來調試,會耗費巨大精力。

開放解耦是實現網絡智能化的基石

翟芷群介紹到,對于OTN網絡,整個生命周期可以分為五個部分,從最開始接收到業務方的需求;然后進行設計與規劃,包括確定架構和規劃拓撲;在規劃結束后,進入建設交付階段。在建設交付階段主要進行配置調測以及網絡驗收;當網絡驗收結束后,就標志著業務正式上線;此時項目進入運營維護階段。

運營維護階段的工作主要包括:網絡監控、風險評估以及故障維修、替換、升級等。最后當整個網絡生命周期結束后,設備將進入下線退役階段。

在整個網絡生命周期中,設計與規劃、建設交付和運營維護三個階段,都可以通過智能化手段來提升效率。但如果想進行全生命周期的智能化管理,翟芷群認為,首先需要獲取大量信息,包括:資源信息、拓撲信息、光纜信息,以及當下的網絡狀態,包括設備狀態、光纜狀態。其次,要有風險感知能力,例如設備告警、網絡告警等。最后,也是最重要的部分,需要設備配置能力,這樣才可實現全生命周期的智能化管理。

翟芷群介紹到,傳統OTN網絡的弊端在于其是“黑盒”,一張傳輸網絡的所有設備必須由一家廠商提供,設備無開放接口,網絡管控只能在廠商網管上進行。如此,對于使用方而言,沒有很多空間做智能化管控。為此,近些年阿里云一直在做開放解耦的OTN網絡,DCI OTN是白盒網絡,傳輸組網支持跨廠商異構,設備支持YANG模型和NETCONF接口,阿里云的自研網管可以管控所有廠商設備。

OTN網絡全生命周期智能化管理

翟芷群表示,從整個OTN網絡生命周期的管理看,全生命周期均可進行網絡智能化管理。

在設計與規劃階段,主要包括架構定義以及拓撲規劃,而有效的設計和規劃工具非常重要。其中,架構定義最重要的是網絡余量的設計,網絡余量可能隨時間的變化等因素的影響,很難確定光纜劣化的預留余量指標。傳統方案對所有OCH給與相同的余量,通常是通過假設鏈路中只有一個光纜發生波動,且是第一個光纜,從而得到一個余量值。但這對于不同的OCH而言顯然不合理。因此阿里云研發了新的余量設計方案。

新余量設計方案首先通過規劃工具生成最優配置,假設光纜的抖動對每個光纖是獨立分布的,把光纜的抖動獨立地放在每個光纜上,得到GOSNR的分布,再根據SLA要求,得到require margin,然后確認規劃拓撲是否滿足需求,滿足需求則進入建設階段;若不滿足需求重新規劃拓撲。

在建設交付階段,主要包括配置自動化下發和自動化驗收兩步。翟芷群表示,我們的線網是Mesh網絡,調整的變量可能有上百個,且不同的變量調整無法精確同時進行。此外,Mesh網絡不同的調整變量之間有耦合,很復雜,需要配置自動化下發工具,通過鏈路仿真計算輸出所有變量的優化目標,然后自動調節光網絡管控平臺,調整算法進行調節。同時,用光網絡的數據平臺進行秒級的性能實時監控。

在建設交付的自動化驗收階段,主要包括五個步驟:設備驗收、OTS驗收、OMS驗收、OCH驗收、業務驗收。阿里云系統可以對各個層級設計驗收項,展示各個層級的驗收結果。

最后進入運營維護階段。翟芷群介紹到,如果想要實現智能化運維,最重要是對網絡狀態進行監控。網絡狀態監控有兩種方法:第一種,通過設備的告警。每個設備有一個SNMP,通過SNMP agent上報告警到網管系統。

第二種,通過巡檢的任務調度。包括配置的檢查、網絡余量的檢查以及光纖狀態的檢查。其中,配置檢查,要檢查增益的配置、WSS配置,通過規劃的工具得到最優配置和目前的配置做比較,偏差太多會上報告警。網絡余量包含兩部分,一是工作路徑的余量,二是備路的余量。光纖狀態檢查包括檢查銅路狀態等。

翟芷群表示,在實際使用中,通過設備告警和巡檢任務調度上報的告警量非常大。這時則需要根因定位,把各種告警信息整合起來,生成告警文本,對文本處理后找到根因。定位到根因后,自動生成維修方案,進行自動化調節的配置。但并不是所有故障都能自動化。此外,翟芷群強調,運營維護階段最重要的是穩定性,在調節的過程中,從起點到終點gosnr不能低于設定的門限,保證業務不受影響。

演講最后,翟芷群總結到,開放解耦是實現網絡智能化的基石,對于網絡的智能化管理,規劃工具以及自動化調節工具至關重要,不同階段自動化手段以及側重點也均不相同。


分享到:




地址 : 山東省威海市文登區龍威路1號                 銷售熱線:0631-8353129