|
面對AI集群光互連需求,會有客戶準備部署LRO或LPO嗎?發表時間:2024-08-16 09:02 北京時間8月14日消息,國際光電委員會(IPEC)致力于促進關于人工智能集群新一代光互連的行業討論。最近一次的網絡研討會的主題是“AI集群中光器件的特殊要求”。光通信市場研究機構LightCounting對這一次研討會的亮點內容進行了提煉。 Arista聯合創始人Andy Bechtolsheim對GPU性能進行了預測。如下圖所示,利用CMOS、基板/封裝方法、芯片架構和更好的冷卻技術的進步,從2022年到2028年,GPU性能預計將提高100倍。 Andy Bechtolsheim的時間線一如既往的非常激進,所有這些新技術的量產可能需要十年時間。最近有關英偉達/臺積電用于封裝Blackwell GPU的新CoWoS技術問題的傳言說明了將新技術轉化為大規模生產是多么具有挑戰性。 管理這些超大型芯片組件的散熱是眾多問題中的一個。人工智能集群中使用的所有技術都必須制定提高能效的路線圖。CMOS確實有一個在5年內從5nm發展到3nm和2nm的路線圖,但光互連仍在尋找提高能效的途徑。 Andy Bechtolsheim介紹了當前重定時、LRO和LPO 1.6T (8x200G)光模塊的功耗估算,如下圖所示。重新定時(DSP)模塊的功耗為30W,是800G模塊的2倍多。LPO和/或LRO確實提供了提高能效的途徑,但目前還不清楚它們是否能在每通道200G的情況下工作。Andy 評論說,只要有干凈的電氣通道,224G LPO就能工作,但它還需要高性能銅纜、高性能TIA和線性驅動器。 Andy Bechtolsheim還提到,112G LPO MSA已接近完成,應該會在9月份的ECOC之前發布,互操作將于8月舉行。到2025年,一些供應商將準備好批量交付LPO。 問題是:是否有客戶準備部署LRO或LPO? 目前來看,字節跳動是認真考慮8x100G LPO的潛在客戶之一。根據LightCounting的估計,字節跳動將在2024年成為中國云計算公司中第二大光模塊消費者,并有可能在2025年成為第一大光模塊消費者。 字節跳動的Yinxing Zhang展示了大量LPO測試結果,證明了1E-6規范的Pre-FEC BER測試有助于保證整個溫度范圍內的鏈路性能。FEC將為通過Pre-FEC BER測試的光模塊性能增加余量。 他還表示,需要對VCSEL和光模塊/AOC設計進行優化,以提高Pre-FEC BER測試的良率,但他對2025年-2026年部署 8x100G LPO持樂觀態度。此外,字節跳動并不急于轉向每通道200G,至少現在還沒有。 LightCounting預計,英偉達將在今年晚些時候測試每通道200G的LRO和LPO,并可能在 2025年進行少量部署。如果這些技術都不成功,CPO將是英偉達依賴的另一種選擇。英偉達還將放棄基于VCSEL的SR8光模塊,但字節跳動和許多其他客戶將在未來多年部署這些光模塊。 博通公司的Manish Mehta討論了CPO的進展,并介紹了與云暉科技(Cloud Light)合作開發的SR8 LRO光模塊的最新測試數據,如下圖所示。他還討論了面向人工智能應用的SMF雙向光模塊的設計,這項技術已在FTTx光模塊中使用了20多年。Manish還回顧了博通公司(Avago/Agilent)30年的光模塊制造歷史,其中包括10萬億可靠性記錄<1FIT的現網設備小時數。 Meta公司的Drew Alduino介紹了有關硬件故障如何影響人工智能集群運行的數據。單個 GPU或網絡鏈接故障可使整個集群的效率降低40%,緩解故障(通過軟件)可能需要10分鐘,這種故障平均每30-45分鐘發生一次。對于基于更復雜GPU和光器件的大型集群來說,問題會變得更加嚴重。 他還分享了200G FR4和400G FR4模塊的故障分析數據,如下所示。直接調制激光器性能下降是200G模塊出現故障的主要原因。與一般制造問題(PCBA和引線鍵合)相比,400G光模塊中使用的EML性能退化問題較小。他建議,使用更簡單、更集成的設計將有助于減少這些故障。從這個角度看,LPO和CPO都是業界探索的正確方向,這不僅能降低功耗,還能提高可靠性。 華為的Eric Bernier還討論了提高可靠性的方法。除了優化整個光模塊或集成芯片的光電設計和提高光源效率外,基于激光陣列的更高功率光源也會有所幫助。如果一個激光器出現故障,陣列中的其他激光器可以產生更大的功率,彌補故障激光器的不足。 其他發言人包括Quintessent公司的Cris Cole,他介紹了有關硅基量子點激光器可靠性提高100倍的更多數據。英特爾公司的Christian Urricariet分享了有關異質集成激光器極高可靠性(<0.1FIT)的數據。Ranovus公司的Jeff Hutchins認為,只有高度集成的CPO 解決方案才能滿足人工智能集群的可靠性要求。 |