首页 > 创新亦庄 > 科技成果转化承载区 > 科技信息

升级版运管平台助推智算网络运维提质增效

  本报讯(融媒体中心 李玉凤)随着知识问答、文生图、多模态等AI模型的加速发展,智算中心需要满足AI大模型的大规模并行计算、高吞吐量数据传输及低延迟响应等更高要求,由此带来网络管理运营复杂、精细化监控及高可靠性要求等全新挑战。针对AIGC(生成式人工智能)时代下的智算中心网络运维管理难题,落地在北京经开区国家信创园的企业浪潮信息近日全面升级其智能运管平台ICE。

  “通过端到端统一管理、高精度实时监控及智能故障分析预警,将智算中心的网络部署周期从周缩短至天,AI训推场景下网络核心关键数据的监控时间降低至微秒级,整体运维效率提升超过50%,大幅提升AI网络的通信效率、可靠性和灵活性,加速AI业务的创新落地。”浪潮信息有关负责人介绍道。

  依托领先的技术架构和全新的智能技术,全面升级后的ICE能够实现网络基础设施的端到端统一管理、高精度实时监控及智能故障分析预警,为智算中心打造“全面、精细、智能”的新一代网络智能运管平台。

  超大规模网络部署周期从周缩短至天。智能运管平台ICE具备智能网络配置能力,能够实现网络的自动化管理,大幅减少了对人工干预的依赖,有效降低运营成本。其统一纳管平台结合自动化运维功能,显著简化了复杂网络环境的管理流程,提升超大规模网络配置优化速度,部署周期从周缩短至天,运维效率提升超过50%。

  精细化掌控网络状态,大幅提升智算中心网络性能。ICE为智算中心提供网络拓扑可视化、实时流量监控和负载智能调度功能,助力企业精准掌握网络状态、风险快速识别和故障问题定位,及时解决网络性能瓶颈;针对大模型节点间大象流的同步突发特征,还能改善网络流量的负载均衡问题,全面优化流量的路径分布,降低传输延迟,提升AI业务创新与应用的效率和计算资源利用率。

  智能检测预警,保障AI业务连续性。在AI大模型训练任务周期中,维持网络的稳定高效是极其重要的目标,ICE内置网络故障分析AI大模型,具备智能故障检测和自动修复能力,通过多路径冗余、自愈网络等技术手段,确保网络在故障发生时能够迅速恢复,显著提升了网络的可靠性和容错能力,减少业务中断时间。

  在AIGC时代,网络管控已不再是传统的设备配置与监控,而是面向未来的智能化、自动化以及可视化的平台。浪潮信息ICE平台正是这一趋势下的先行者,通过简化智算中心的网络管控,提升管理效率与故障响应速度,大幅提升智算中心网络性能和稳定性,为AIGC时代的网络基础设施带来全新的变革与升级,显著加速AI模型的迭代和业务创新进程。

相关新闻