
以d模型系列和GPT大语言的发展为例,从2019年到2025年,模型参数将增加约3000倍,GPU数量将增加5000倍,AI的“智能”将不断增强。 GPT-5 拥有数万亿个参数,需要 50,000 到 100,000 个 GPU 进行训练,典型的大型数据中心最多可容纳 100,000 个卡。这些功能依赖于大量的冷却、电力和土地空间。散热、功耗和空间正在成为全球AI数据中心的三大障碍。
冯晓云指出,AI数据中心的电力需求消耗10吉瓦电力,远远超出传统理解。考虑到深圳大亚湾核电站及核电站目前的装机容量为数吉瓦,即使是数据中心也很难完全支持这种类型的人工智能。供电能力要求至少相当于5个大亚湾核电站或1.66个大亚湾核基地。这意味着未来的数据中心位置将类似于大型动物的移动。动物需要寻找水和食物的来源,即电费低、密度低、能源丰富的地区。
面对庞大的AI集群的挑战,思科提出了“驯服AI DC这头大动物”的四大技术构建模块以及全新的DC扩展架构Scale Across,以摆脱传统的扩展以及扩展与DCI瓶颈相结合,实现DC的自由迁移和优化分布。
首先,它是一个超大型的路由交换平台。
思科多年来一直深入参与高性能网络领域。 Nexus 9300系列采用大规模扩展架构,为AI集群提供超高带宽和低延迟的网络基础。这是开发万卡级算力的关键部件。
二是Cisco Silicon One统一芯片架构。
该架构涵盖了所有交换机和路由器场景。 G系列主打大规模横向部署。 P2系列es旨在优化AI训练和数据中心互连(DCI)。高度集成的模块化设计降低了实施难度,缩短了创新周期,使其成为业界最具扩展性的网络芯片平台之一。
三是光模块和硅光子技术。
思科针对人工智能基础设施推出高可靠、低功耗、高密度的双向双向光模块400G硅光模块和800G硅光模块,保护客户现有光纤投资。 Acacia面向数据中心远距离互联的800G ZR/ZR+部署在国内领先的人工智能平台上,覆盖400G/800G/1.6T全速率,可与各厂家网络设备互通。基于此,思科将液冷技术直接集成到交换机中。冷板液冷(冷板嵌入交换机核心部件中,用于精准散热)和浸入式液冷(整机直接浸入液体中),有效降低高密度网络设备的散热压力,进一步提升能效。
第四是自动化和网络弹性。 Cisco + Splunk 创建了“可观察的 AI 网络大脑”。
AI训练面临着前所未有的高并发、低延迟、网络稳定性的要求。思科将网络自动化和状态感知能力与Splunk相结合,为AI数据中心提供“实时态势感知+自动化处理”能力。全栈可观察性:Splunk 持续收集全球网络、GPU 集群、存储和应用程序遥测数据,在单个界面上显示端到端运行状况,并主动检测长尾延迟、拥塞或异常流量。它还通过自动编排和自我修复来实现内置的安全性和弹性。
冯小云党特别强调的是,业界首批200台基于思科最近推出的P200系列路由器的路由器是实现三个领域可扩展性的重要中心。思科最新的 P200 路由器正在改变人工智能数据中心的网络架构范式。传统方法通常需要大型模块化路由器和数千个端口来实现 12.8 Mbps 域间互连,导致架构复杂且成本高昂。 Cisco P200 ASIC 通过其 Silicon One+ 深度缓冲功能使网络能够从横向扩展变为横向扩展。
吸收训练流量增加时的突发,避免因丢包而重新运行训练。
采用固定槽位机箱组合替代超大型路由组,大幅降低实施成本和难度。
多个AI DC园区、多个计算域之间的跨域协作“互联算力”,使企业构建真正的跨区域、可编程、可扩展的人工智能基础设施。
P200架构使AI数据中心不仅能够“成长”,还能跨域“连接”和协作,为下一代AI超级集群奠定网络基础。
冯小云表示,虽然AI数据中心此前依赖三种扩展方式,但思科正在通过“四大关键技术构建模块”以及创新的跨领域和规模扩展架构,为更加节能、可扩展和可观察的下一代AI基础设施提供新路径。 “我希望人们通过生活在非洲草原的大型动物的类比来看到人工智能数据中心的未来发展。还有其他的思考方式,”他总结道。
新浪财经公众号
我们每天24小时传输最新的金融新闻和视频。更多粉丝福利,请扫描二维码关注我们(新浪财经)