V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Zhipuai
V2EX  ›  程序员

GLM-5 开源:从代码到工程, Agentic Engineering 时代最好的开源模型

  •  
  •   Zhipuai ·
    PRO
    · 3 小时 4 分钟前 · 1056 次点击

    今天,我们上线并开源 GLM-5 。

    学界与业界正逐渐形成一种共识,大模型从写代码、写前端,进化到写工程、完成大任务,即从“Vibe Coding”变革为“Agentic Engineering”。

    GLM-5 正是这一变革的产物:在 Coding 与 Agent 能力上,取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5 ,擅长复杂系统工程与长程 Agent 任务。

    在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一。

    更大基座,更强智能

    GLM-5 全新基座为从“写代码”到“写工程”的能力演进提供了坚实基础:

    • 参数规模扩展:从 355B (激活 32B )扩展至 744B (激活 40B ),预训练数据从 23T 提升至 28.5T ,更大规模的预训练算力显著提升了模型的通用智能水平。
    • 异步强化学习:构建全新的“Slime”框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。
    • 稀疏注意力机制:首次集成 DeepSeek Sparse Attention ,在维持长文本效果无损的同时,大幅降低模型部署成本,提升 Token Efficiency 。

    Coding 能力:对齐 Claude Opus 4.5

    GLM-5 在编程能力上实现了对 Claude Opus 4.5 的对齐,在业内公认的主流基准测试中取得开源模型 SOTA 分数。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.856.2 的开源模型 SOTA 分数,性能超过 Gemini 3 Pro 。

    2026 年,大模型需要从“会写”走到“会完成”,尤其是端到端完成大型任务。GLM-5 是一个“系统架构师”,它不仅为开发精美的 Demo 而生,更为稳定交付生产结果而生。

    在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越 GLM-4.7 (平均增幅超过 20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近 Opus 4.5 。

    Agent 能力:SOTA 级长程任务执行

    GLM-5 在 Agent 能力上实现开源 SOTA ,在多个评测基准中取得开源第一:在 BrowseComp (联网检索与信息理解)、MCP-Atlas (工具调用和多步骤任务执行)和 τ²-Bench (复杂多工具场景下的规划和执行)均取得最佳表现。

    在衡量模型经营能力的 Vending Bench 2 中,GLM-5 获得开源模型第一的表现。Vending Bench 2 要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5 ,展现了出色的长期规划和资源管理能力。

    这些能力是 Agentic Engineering 的核心:模型不仅要能写代码、完成工程,还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系,成为真正的 Agentic Ready 基座模型。

    国产芯片支持线上推理集群

    GLM 系列模型受到全球开发者喜爱,在 GLM Coding Plan 全球爆量后,我们不得不启动限售活动。本次 GLM-5 的上线依托众多国产芯片有力保障了线上服务的稳定和高效。

    目前,GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。

    Agentic Engineering 典型场景

    点击或在浏览器输入:showcase.z.ai,即可查看所有案例。

    开源与使用方式

    即日起,GLM-5 在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License 。

    GLM-5 已经纳入 Max 用户套餐,Pro 将尽快在 5 天内支持,接下来我们将逐步扩大范围,尽力让更多用户体验并使用 GLM-5 。GLM Coding Plan 支持 Claude Code 、OpenCode 等主流开发工具。

    GLM Coding Plan 同步升级 Agentic Engineering 体验:

    • 官方适配 OpenClaw:仅需简单几步即可完成配置,快速开启 Agent 工作流;
    • Pro / Max 用户限量赠送 AutoGLM-OpenClaw:支持将云端个人 AI 助手接入飞书,实现办公场景的长任务执行;
    • 新增 GLM in Excel 权益:原生适配 Excel 环境的 AI 插件,支持在侧边栏以自然语言交互,深度赋能数据处理与表格工作流( Beta 期仅 Max 用户可享套餐抵扣)。

    1. 官方 API 接入

    2. 在线体验

    3. 开源链接

    4. Agent

    5. Blog

    18 条回复    2026-02-12 18:13:28 +08:00
    shakaraka
        1
    shakaraka  
    PRO
       3 小时 2 分钟前
    试用套餐有不
    shakaraka
        2
    shakaraka  
    PRO
       3 小时 1 分钟前
    code plan 的试用 GLM-5 的
    Tink
        3
    Tink  
    PRO
       2 小时 48 分钟前 via Android
    lite 和 pro 都不支持
    donggua997
        4
    donggua997  
       2 小时 44 分钟前   ❤️ 6
    比参数没输过,实际体验没赢过。
    enano
        5
    enano  
       2 小时 42 分钟前
    开了 lite 像路边一条
    whbbxw
        6
    whbbxw  
       2 小时 40 分钟前
    你们自己用自己的模型吗? 4.6 和 5.3 也参与一下测试吧。
    donggua997
        7
    donggua997  
       2 小时 37 分钟前
    你真的确定配与 gpt 、gemini 、claude 放一起比吗 ???
    mashimaroinfo1
        8
    mashimaroinfo1  
       2 小时 36 分钟前
    篇幅好长, 能力几何?
    opeth
        9
    opeth  
       2 小时 30 分钟前
    先看看隔壁帖子对你们 coding plan 的背刺的吐槽吧
    hugodotlau
        10
    hugodotlau  
       2 小时 29 分钟前
    来吹半天都没点福利抽奖么?这广告真白看了
    zhuangpipi
        11
    zhuangpipi  
       2 小时 3 分钟前
    不涨价还想购入,涨价确实性价比比较低了
    qaq13037
        12
    qaq13037  
       1 小时 44 分钟前
    跑分嘎嘎猛,实际用起来差很多
    iorilu
        13
    iorilu  
       1 小时 33 分钟前
    我一直奇怪, 100 多可以上车正规的 google one 会员, 用 antigravity 不比这个强, 更别说谷歌还有很多其他 ai 服务?
    flowerwow0316
        14
    flowerwow0316  
       1 小时 32 分钟前 via Android
    你说是就是了
    Muninn
        15
    Muninn  
       1 小时 26 分钟前
    现在这个价格完全没有竞争力了。更何况口碑已经完全坏了,超卖,水军营销,限速,降智,随意修改订阅协议,毫无诚信,吃相难看。
    ProphetN
        16
    ProphetN  
       1 小时 10 分钟前
    吃相太难看了,国产模型商永久拉黑这家吧。
    iden
        17
    iden  
       1 小时 6 分钟前
    ...评论哪儿来的那么大偏见。刷分不都是闭源模型常见的操作吗?
    众所周知开源模型刷分风险更低,也能被吐槽高分低能?
    tlerbao
        18
    tlerbao  
       1 小时 1 分钟前
    吹你家死牛逼
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2426 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:14 · PVG 19:14 · LAX 03:14 · JFK 06:14
    ♥ Do have faith in what you're doing.