< 返回上层

智算如何满足大模型不同阶段差异化需求?

2024-04-08 14:05:41 3次

数字经济时代,大模型快速发展,对智算提出了更高、更迫切的需求,这为行业发展提供了巨大的产业机遇,同时也意味着一系列的优化变革。目前,相关技术与产品、解决方案正不断迭代,多家代表性企业通过创新来加快智算建设,释放新质生产力。

以宁畅为例,其3月29日发布了品牌战略“全局智算”,并基于战略推出“AI算力栈”解决方案,从底层硬件到顶层管理平台,覆盖算-存-网-建-管-用-液全局AI算力需求,为行业级/企业级智算中心的构建提供了强有力支持。当天,宁畅还推出国内首个AI算力栈——宁畅NEX AI Lab(Nettrix AI Open Lab)并开放预约试用,通过免费提供软、硬件服务,带来大模型、数据科学、推荐系统等解决方案工作流的先进体验。

宁畅发布“全局智算”战略

图:宁畅发布“全局智算”战略

大模型需要怎样的智算?

大模型可分为训练、垂直场景适配、应用部署运行三个阶段,不同时期的需求均有所差异。宁畅总裁秦晓宁表示,大模型的阶段不同,所“涌现”的问题复杂性和关键难点也不尽相同,因此对AI支撑能力体系的要求各具侧重。

宁畅总裁秦晓宁

图:宁畅总裁秦晓宁

就智算而言,不同阶段,数据存储量、计算量,实时交互支撑能力需求等同样存在差异。想要满足高效的算力供给,便需要更为庞大的信息计算力、数据存储力、网络运载力,芯片需要升级且在大模型推理与应用阶段方向应有不同的偏重;存储要推动全闪存等先进存储发展以应对越发庞大的数据存储量;网络带宽逐步向400G、800G乃至1.6T发展且要增强算网融合以实现更好的协同能力。

此外,巨大的能耗不容忽视。据测算,预计到2025年,我国数据中心能耗总量将突破4000亿千瓦时。想要降低能耗,应从多个层面优化,如提高分布式光伏的部署,推动储能发展等,其中最引人瞩目的是如何改进散热效率。作为数据中心里仅次于IT设备的第二大能耗源,散热效率的提升一直是数据中心降低PUE,节能减碳的重点。目前来看,液冷被公认是智算中心的散热标配,其带走的热量是同体积空气的近3000倍,技术也已经成熟,能够满足智算中心高密度需求,实现降本增效与绿色化发展。

算力使用效率的同样重要,以达到资源的高效利用、供需合理平衡,这就对软件能力及服务能力等提出了更高的要求。作为推动产业发展的关键引擎,智算已经不再局限于算力性能这一单一竞争要素。算法协同优化、数据处理能力、模型可解释性以及与特定行业应用的融合度,都成为智算能否成功推动技术创新和实际落地的核心因素,这就需要在优化硬件配置的基础上,创新适配性强、能够提升算效、优化模型适配的软件,将大模型的算力需求与智算的供给进一步契合,以推动大模型的训练、推理。同时,大模型的三个阶段对智算有着差异化要求,想要提升算效,需要智能计算相关企业具备高品质的服务能力,能够满足咨询、设计、建设、硬件供给等多项需求。

基于此来看,大模型时代所需要的智算,应具备计算力海量泛在、灵活供给,存储高效易拓展,网络高速互联互通,设施绿色低碳,资源高效调度,服务智能随需等特征,能够应像水电一样便捷,以有效降低企业使用成本,促进大模型的训练、垂直场景适配与应用部署。

“全局智算”给出发展优化新思路

当前,我国大模型正快速发展,据统计,10亿参数规模以上的大模型数量已超过100个,面对越发庞大且要求更为复杂的算力需求,智算建设的量与质必须加速优化,向普惠易用、绿色安全的方向发展。此次宁畅“全局智算”的提出,便是对加快智算市场需要的快速响应,通过全栈智能计算能力,以及涵盖硬件、软件、算法、液冷和服务质量等多个维度的系统性AI计算方案,为更多行业发展带来坚实的支持和动力。

秦晓宁指出:“宁畅的‘全局智算’具备六大‘全’特性,涵盖软硬件全体系及全液冷产品,提供从咨询到运维的全流程服务,满足全行业用户大模型开发、适配、部署的全场景需求,并按用户发展阶段,定制专业且性价比高的AI计算方案。”

“全局智算”战略下,“AI算力栈”则是宁畅AI全栈能力的集中体现。宁畅CTO赵雷表示,“AI算力栈”集成了宁畅在AI计算领域的软硬件能力,以底层硬件到顶层应用平台的系统化方案,满足大模型落地所需的计算、存储、网络、建设、管理、应用及液冷等全方位需求,以其全面、灵活、深度的支撑能力,为行业级/企业级智算中心的构建提供了强有力的支持。

具体来看,“AI算力栈”具体包括厚“基”薄发的“硬实力”、至“简”智丰的“软动力”及多“态”百应的“服助力”。

宁畅CTO赵雷

图:宁畅CTO赵雷

其中,“硬实力”主要是指灵活的算力服务器、高效存储、高速网络及全栈液冷。宁畅拥有企业级、行业级智算中心建设的能力,在第四代/第五代英特尔® 至强® 可扩展处理器基础上,能够提供包括通用服务器、人工智能服务器、高密度服务器、整机柜液冷服务器、浸没液冷服务器等在内的多类型服务器,其中,宁畅B8000液冷整机柜服务器作为AI算力栈最具亮点的交付形态,采用电、液、网三路全盲插设计,部署周期相较传统方式提升30倍。网络方面根据智算需求优化传输方式,存储上NexData并行文件系统支持全闪、混闪等,有效提升了数据存储力与网络运载力。基于此,宁畅有效提高了智算供给,实现节能减碳。

“软动力”主要是指高效的大规模集群设计、调试、交付能力;优秀的软硬件AI业务调优支持。宁畅基于系统工程及算法模型,以AI算子全栈优化能力,为AI业务提供并行加速、性能分析、模型开发优化等服务支持,所支撑的AI中台NVAIE AI平台还简化了开发流程,加速了从模型训练到部署的全过程,使得AI创新更加迅速与便捷。目前,宁畅已构建出从算力资源定制,到模型适配优化,再到高效部署落地的大模型算力服务闭环,帮助企业极速推进AI应用开发及管理,降低了企业使用成本,实现了算力的高效利用。

“服助力”主要是指AI场景服务,以满足重点行业全阶段AI创新。据赵雷介绍,宁畅能够支持互联网、金融、科研、自动驾驶等重要行业高“智”发展。在“AI算力栈”能力支撑下,宁畅×吉利星睿智算中心已经建成,推动了大模型的研发应用。此次在桐乡市落地的NEX AI Lab(Nettrix AI Open Lab),免费提供软、硬件服务也是宁畅提供全方面AI场景服务的体现。据介绍,NEX AI Lab集成加速计算节点、全闪存存储节点,可为GPT、LLaMA、Stable Diffusion等AI模型,提供多元场景应用优化支持。

宁畅正式开放首个AI算力栈“NEX AI Lab”

图:国内首个AI算力栈落地桐乡市

综合来看,伴随大模型快速发展,智算需求爆发,今年政府工作报告首提“全国一体化算力体系”,算力网络建设和发展进入关键时期。这一阶段,宁畅确定“全局智算”战略,推出“AI算力栈”,能够适用于智算中心发展,推动智算的高效供给,将为整个算力网的构建打下基础,也在智算行业可谓拔得头筹。而凭借先进的战略理念和领先的能力底蕴,宁畅可满足不同领域、不同开发阶段的企业需求,这将推动算力有效供给与绿色发展,加速大模型的训练、应用,促进智能化、数字化发展。

非常抱歉未能帮助到您。为了给您提供更好的服务,我们很需要您进一步的反馈信息:

在文档使用中是否遇到以下问题: