![]()
智谱迄今最智能的旗舰模型、也是目前全球最强的开源模型来了。
4月8日,“全球大模型第一股”智谱发布并开源了迄今最智能的模型——GLM-5.1。这不仅是在核心工程能力上全面对齐Claude Opus 4.6的中国模型,更以单次任务持续工作8小时、自主交付工程级成果的能力,将AI从“回答问题”推向“完成项目”的新阶段。
与过去一年行业主旋律“降价”截然相反,智谱GLM-5.1再度提价10%,编码场景定价首次追平海外头部厂商Anthropic。国产大模型从价格战、低价换量转向性能溢价,定价权悄然易主。
开源模型首次追平海外顶级模型 长期以来,全球大模型赛道始终存在一条难以逾越的鸿沟:开源模型与顶尖闭源模型之间存在肉眼可见的能力代差,而中国开源模型更是长期被贴上追赶者的标签,在国际公认的通用能力榜单上,始终与Claude、GPT系列的顶级闭源产品有明显差距。
GLM-5.1的发布打破了这一行业共识。在最贴近真实软件开发场景的SWE-bench Pro基准测试中,GLM-5.1刷新全球成绩,实现了国产模型对Claude Opus 4.6的首次超越。
SWE-bench Pro测试完全基于真实GitHub仓库的工业级软件开发任务,长期以来其头部位置始终被GPT、Claude系列顶级闭源模型牢牢垄断。
对此,一位国内AI行业资深分析师认为,GLM-5.1此次刷新全球成绩,不仅是国产模型首次登顶,更是开源模型首次在该基准上击败全球最强编程模型,用实打实的测试成绩证明,开源模型完全可以在核心通用能力上比肩甚至超越全球顶级闭源旗舰。
代码能力是模型智能水平进阶的核心标尺,GLM-5.1在此实现了升级。业内最具代表性的SWE-Bench Pro、Terminal-Bench 2.0、NL2Repo三项代码评测基准综合平均分显示,GLM-5.1拿下全球模型第三、国产模型第一、开源模型第一的成绩。
更值得关注的是其在长程任务上的突破。GLM-5.1是少数达到8小时级持续工作的开源模型,也是全球范围内除Claude Opus 4.6外少数具备这一长程能力的模型。
智谱方面介绍,从3分钟的Vibe Coding到30分钟的Agentic Engineering,再到本次8小时长程任务模型的落地,GLM-5.1完成了代码与工程能力步入交付级别的根本性突破。
国产模型价格首次对齐海外 性能提升的同时,智谱在价格层面也与海外厂商看齐。模型聚合平台OpenRouter显示,智谱GLM再度提价10%。调价后,GLM-5.1在Coding场景的缓存命中Token价格已接近Anthropic旗下Claude Sonnet 4.6。
一年前,行业还深陷“价格战”,普遍降价九成以上争夺份额。智谱为何敢于反向操作?
业内认为,结合智谱此次提价10%并与Anthropic价格对齐的动作来看,意味着其可以向企业和个人用户交付与Claude相当的工程价值。
智谱CEO张鹏此前在
中关村论坛上回应称,长期依赖低价竞争不利于行业发展,调价旨在将价格拉回正常的商业价值区间。“完成一个长程任务所需要的Token量可能是回答一个简单问题时的十倍甚至百倍,价格调整本质上是价值变化的自然结果。”
上述AI行业资深分析师认为,智谱的目标不是靠低价换取市场份额,而是国产大模型不断提升智能水平,再以性能锚定国际基准。当模型能独立完成8小时的工程级任务,其产出的商业价值已远非单次对话可比。
模型独自"上班"8小时 与当前以分钟级交互为主的模型不同,GLM-5.1专为长程任务设计,能够在一次任务中独立、持续地工作长达8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。
2025年3月,AI安全研究机构METR提出了一个改变行业认知的指标:任务完成时间线(Task-Completion Time Horizon)——不再衡量模型"多聪明",而是衡量它能独立完成多长时间的人类任务。研究显示,前沿模型的时间线每7个月翻一倍。这条指数曲线被MIT Technology Review称为"AI领域最重要的一张图",Sequoia Capital据此在2026年初宣告"这就是AGI"。
智谱团队在训练方法上做了关键调整,包括扩展任务过程的训练窗口、特别优化模型的tool use能力。迭代后的GLM-5.1能够形成"实验→分析→优化"的完整闭环,像真正的工程师一样工作:碰壁时主动切换策略,出错后自行修复,最终交付完整的工程级成果。
以"8小时从零构建Linux桌面"任务为例,用户白天画好架构草图,睡前交给GLM-5.1,早上醒来已产出完整系统。历时8小时整,执行1700多步,GLM-5.1在20分钟时产生第一个有意义的成果,最终交付了一套功能完善的Linux桌面系统,包括完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库等4.8MB的配套文件。
这相当于一个4人团队一周的开发工作量,且全程没有人参与测试兜底、代码审查。值得一提的是,GLM-5.1甚至给自己的代码写了一些回归测试——并且自己通过了测试。
智谱表示,其终极目标是全自治智能体(Autonomous Agent),模型7×24小时不间断地感知任务、分解目标、执行交付、自我评价与纠正、自我进化,从此无需人类介入。
(文章来源:财联社)