新质生产力—人工智能智算中心建设方案

新质生产力

人工智能智算中心建设方案

专业运维

提供高性能服务器供应及智算集群专业运维，面向新基建、新算力提供高性能GPU服务器与高速网络交换机与通信组件

端网融合

支持大模型智算平台和端网一体运维监控平台，能够实现端网融合、异构融合、软硬融合、城域融合，为客户提供智能算力规划、选型、建设、管控、调度、运维一站式服务。

智算集群

目前已落地十余个千卡以上的智算集群，在集群落地过程中通过网络自动化、网内计算和分布式计算通信等核心技术，实现超异构、超互联、高稳定、高均载、高扩展

超异构、超互联、高稳定、高均载、高扩展

提供计算、存储、网络的配置、监控、巡检、告警等能力，同时提供大模型调优服务

我们的优势

可实现不同GPU算力的互联互通，支持单一大模型训练任务在异构GPU资源池上的联合计算，做到了规模突破，支持超大型GPU集群训练，全栈且深度融合带来端到端优化，助力超算互联工程。平衡算力需求与供给，实现高精度到底精度全覆盖、多种计算类型全覆盖，以及AI训练+推理全覆盖。

端网融合

异构融合

软硬融合

城域融合

新质生产力—人工智能智算中心建设

实现不同GPU算力的互联互通，支持单一大模型训练任务在异构GPU资源池上的联合计算，做到了规模突破，支持超大型GPU集群训练，全栈且深度融合带来端到端优化，助力超算互联工程。平衡算力需求与供给，实现高精度到底精度全覆盖、多种计算类型全覆盖，以及AI训练+推理全覆盖。同时团队在异构服务器集群的搭建上取得了一定进展：异构服务器，具备多个集群异构组网经验，如CPU异构：不同GPU服务器CPU异构（AMD与Intel异构）其大规模组网会出现网络不通等问题，通过替换底层通信库解决此问题；GPU异构，解决800系列与100系列的异构问题，使得A800与A100，H800与H100可以实现混跑组网，其同样通过替换底层通信库来实现；服务器异构，不同品牌的服务器的内在拓扑逻辑存在着不通，这使得多品牌服务器可能无法混跑，或者性能受损失。通过改变底层通信库建链逻辑，团队组建集群可实现多品牌服务器共同混跑，且性能无损失。

管控运维

集群总体设计

提供计算、存储、网络的配置、监控、巡检、告警等能力，同时提供大模型调优服务，从集合通信库、训练框架、并行策略等多方面协助客户进行调优。