3月12日,云天励飞中标湛江市AI基础设施建设项目,中标金额4.2亿元。项目将基于公司自主研发的国产AI推理加速卡,建设面向推理场景的国产AI千卡集群,并适配DeepSeek等国产大模型,为政务、产业及多场景应用提供高效、低成本的AI能力支撑,探索构建“国模国芯”协同发展的产业生态样板。
推理算力成下一阶段重点
湛江率先布局国产推理集群
随着AI技术从模型训练走向规模化应用,推理算力正逐步成为产业落地的重要支撑。Gartner预测,到2026年,约55%的AI专用云基础设施支出将用于推理工作负载。
与当前普遍采用的“训推一体”智算中心不同,湛江项目定位为专注推理任务的AI推理集群,面向实际应用场景提供算力支持,推动传统产业的AI化转型。
值得一提的是,湛江也是DeepSeek创始人梁文峰的家乡。2025年初,DeepSeek-R1发布后,湛江即在政务云完成基于国产技术栈的本地部署,实现大模型在政务场景的落地,并持续融入地方知识与方言特征,形成具备区域特色的“湛江智慧”。此次推理集群的建设,将进一步推动国产模型与国产芯片的深度适配与协同发展。
面向推理场景优化架构
提升长上下文处理效率
为应对大模型推理场景中对高并发、高吞吐和低延迟的综合要求,湛江集群采用业界领先的Prefill-Decode分离架构。其中,Prefill阶段侧重长上下文的计算与理解,Decode阶段则强调低延迟生成。两者资源需求差异显著,如何实现合理配置成为推理系统设计的关键。
此外,随着上下文长度持续增长,KV Cache的存储与访问效率正成为新的性能瓶颈。为此,湛江集群在芯片设计、网络互联和存储协同等方面进行了系统级优化。
该集群采用云天励飞自研AI推理芯片,围绕“优先优化Prefill、兼顾Decode”的技术路线,在芯片层面实现计算与存储带宽的针对性配置,提升长上下文场景下的吞吐效率。网络方面,系统通过400G光网络构建统一高速互联架构,减少协议转换开销,简化部署。同时,通过计算与存储网络的联合调度,显著提升KV Cache读取效率,确保长上下文推理的稳定性。
在扩展能力上,该架构支持从单节点数十卡到千卡级集群的平滑扩展,满足不同规模AI应用的部署需求。
自研芯片持续迭代
推动推理成本向“百亿Token一分钱”迈进
湛江项目将分三期建设,全部采用云天励飞自研AI推理加速卡。其中,一期部署X6000推理卡,二、三期将率先搭载公司最新一代芯片产品。
根据规划,云天励飞未来三年将推出三代AI推理芯片:首款面向Prefill场景优化的芯片DeepVerse100预计年内流片,将在湛江率先部署;后续将推出专注Decode低延迟优化的芯片,并最终通过系统级协同实现毫秒级推理时延目标。
在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为目标,持续降低大模型推理成本。随着AI产业关注点从“算力峰值”转向“单位成本效率”,推理算力的经济性正成为竞争的关键。
湛江千卡推理集群的建设,不仅为当地产业数字化转型提供算力底座,也为国产芯片与国产大模型的协同演进提供了重要的实践平台。通过实际规模系统的运行验证,积累卡间互联、负载调度等关键技术经验,为未来更大规模AI算力系统建设奠定基础。
在“国模”与“国芯”的深度协同下,AI基础设施正加速从技术探索走向规模化应用,推动人工智能产业迈入更高效率、更低成本的新阶段。
>>>查看更多:股市要闻