2026 年过半,国产大模型格局已经发生了根本性变化。DeepSeek、Qwen、Kimi、GLM 四大阵营全面升级,在多个维度上已经追平甚至超越了海外竞品。

参评模型

模型开发方参数量上下文多模态
DeepSeek V4深度求索671B MoE128K
Qwen 3.5阿里云110B / 32B256K
Kimi 加强版月之暗面未公开 (MoE)200K
GLM-5智谱 AI130B128K

编程能力

DeepSeek V4 综合编程能力最强。MoE 架构推理速度极快,成本只有 GPT-5.4 的 1/5。Qwen 3.5 在 Agent 工具调用方面最佳。Kimi 在长上下文代码分析中表现优异。GLM-5 在中文代码注释生成方面出色。

排名:DeepSeek V4 > Qwen 3.5 > Kimi > GLM-5

数学推理

DeepSeek V4 在 AIME 竞赛题上准确率达 78%,持平 GPT-5.4。Qwen 3.5 在 GSM8K 上接近满分。GLM-5 在证明题的形式化推理上有独特优势。

中文写作

Kimi 加强版 中文写作能力最强,长文结构清晰。Qwen 3.5 在正式文档和技术写作方面最佳。GLM-5 学术风格写作有独特优势。

最终推荐