4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配。针对DeepSeek-V4,华为云首发适配模型分层注意力压缩机制,实现V4注意力机制下KVCache的高效分配管理,提供TopK、SWA、CFA等10+昇腾高性能融合算子,搭配框架异步调度、MTP多步投机等框架优化,支持原生1M长上下文的高性能推理。当前,华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。
2026-04-24 3 0
4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配。针对DeepSeek-V4,华为云首发适配模型分层注意力压缩机制,实现V4注意力机制下KVCache的高效分配管理,提供TopK、SWA、CFA等10+昇腾高性能融合算子,搭配框架异步调度、MTP多步投机等框架优化,支持原生1M长上下文的高性能推理。当前,华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。