GoForum › 🌐 V2EX

本地部署 GLM-5.2 的门槛太高了，根本玩不起！

beginor · 2026-06-28 17:53 · 0 次点赞 · 0 条回复

智谱最近发布的 GLM-5.2 口碑很好，于是想在算力服务器上试一下，结果发现，门槛太高了，根本玩不起！

前后尝试了两个版本，分别是：

先说一下 UD-Q4_K_XL 量化版本，下载下来的 gguf 文件共 436G ，4 张 H20 （共 560G 显存），编译最新的 llama.cpp 来运行，结果发现只有 20 ～ 30tokens/秒，更别说并发访问了，基本没法用；

然后是 FP8 量化版本，权重文件共 704G ，8 张 H20 （共 1.1T 显存），下载最新的 vllm 来运行，结果如下：

从 vllm 的启动日志看，glm-5.2 的缓存架构还是基于 deepseek 3.2 的，显存利用效率比 deepseek4 甚至 qwen3.⁵⁄₃.6 差很多！

以上只是对本地部署测试 glm-5.2 的初步印象，劝大家如果没有 h200/b300 级别的装备的话，还是算了吧！😂

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: beginor

发布: 2026-06-28

点赞: 0

回复: 0