2026 年过半,国产大模型格局已经发生了根本性变化。DeepSeek、Qwen、Kimi、GLM 四大阵营全面升级,在多个维度上已经追平甚至超越了海外竞品。
参评模型
| 模型 | 开发方 | 参数量 | 上下文 | 多模态 |
|---|---|---|---|---|
| DeepSeek V4 | 深度求索 | 671B MoE | 128K | ✅ |
| Qwen 3.5 | 阿里云 | 110B / 32B | 256K | ✅ |
| Kimi 加强版 | 月之暗面 | 未公开 (MoE) | 200K | ✅ |
| GLM-5 | 智谱 AI | 130B | 128K | ✅ |
编程能力
DeepSeek V4 综合编程能力最强。MoE 架构推理速度极快,成本只有 GPT-5.4 的 1/5。Qwen 3.5 在 Agent 工具调用方面最佳。Kimi 在长上下文代码分析中表现优异。GLM-5 在中文代码注释生成方面出色。
排名:DeepSeek V4 > Qwen 3.5 > Kimi > GLM-5
数学推理
DeepSeek V4 在 AIME 竞赛题上准确率达 78%,持平 GPT-5.4。Qwen 3.5 在 GSM8K 上接近满分。GLM-5 在证明题的形式化推理上有独特优势。
中文写作
Kimi 加强版 中文写作能力最强,长文结构清晰。Qwen 3.5 在正式文档和技术写作方面最佳。GLM-5 学术风格写作有独特优势。
最终推荐
- 程序员/开发者 → DeepSeek V4:编程强、成本低、开源
- 内容创作者 → Kimi:中文写作一流
- 企业应用 → Qwen 3.5:工具调用稳定,阿里云生态完善
- 学术研究 → GLM-5:学术风格严谨