DeepSeek API极速版刷新国产推理速度上限
本报讯(融媒体中心 李玉凤)在AI大模型加速落地的关键阶段,国产推理性能迎来重大突破。近日,北京经开区(北京亦庄)企业算能推出的SophNet|云算力平台(网址:sophnet.com)全新发布DeepSeek-V3 API(应用程序接口)极速版,其推理速度较市场平均水平直接翻5倍,成功刷新国产推理速度上限。
SophNet此次发布的DeepSeek-V3 API 极速版,基于DeepSeek V3 0324版本构建,采用非量化671B参数模型,全面强化代码处理与数学运算能力,实现“毫秒级响应”。实测数据显示,其推理速度飙升至100+Tokens/s,较市场平均水平直接翻5倍。
“这不仅是数字上的飞跃,更是技术层面的重大突破,真正实现‘即时响应’,完美契合低延迟、高速度的商业需求。”算能有关负责人表示,“区别于依赖进口GPU的传统方案,SophNet凭借全链条自主可控的国产TPU(张量处理单元)架构,实现更高速度、更低成本。”
SophNet此次实现速度飞跃的核心,得益于算能自研智算卡SC11 FP300的强力支持。该智算卡单卡集成256GB LPDDR5X高带宽内存,内置原生FP8算力单元,结合Per-Group Quantization和无缝格式转换技术,充分释放FP8低精度计算的高效潜力,有效应对大模型参数存储与计算需求。
凭借SC11 FP300的硬核技术,DeepSeek-V3 API极速版火力全开,为各领域注入强劲动能。如在医疗领域,支持AI问诊秒级响应,大幅提升患者就诊体验;在金融领域,支持极速解读市场行情,实时输出投顾策略;在直播领域,支持智能伴聊实时互动,同步完成多语言翻译;在对话系统,支持告别卡顿延迟,客服沟通流畅无阻。
作为国产云算力平台, SophNet依托算能自研TPU处理器的强劲算力,致力于打造更快、更稳、更省的一站式模型服务平台,目前已接入DeepSeek R1满血版、DeepSeek V3 0324、Qwen3 等主流开源大模型,并支持私有模型托管。
“未来,SophNet将持续以稳定高速的推理服务为使命,不断优化云算力服务体验,助力企业和开发者轻松接入全球顶尖AI模型,加速实现AI计算普惠人类。”该负责人表示。