GoForum › 🌐 V2EX
本地部署 GLM-5.2 的门槛太高了,根本玩不起!
beginor ·
2026-06-28 17:53 ·
0 次点赞 · 0 条回复
智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!
前后尝试了两个版本,分别是:
- unsloth 的UD-Q4_K_XL 量化版本 https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL
- 智谱官方的FP8 量化版本 https://huggingface.co/zai-org/GLM-5.2-FP8
先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;
然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行,结果如下:
- 在上下文类型也是 fp8 的情况下,8 张 H20 ,1.1TB 显存,居然无法开启 1m 上下文;
- 将上下文长度设置为 384k 之后,vllm 启动提示 1.3 个并发,将上下文长度设置为 256k ,vllm 启动提示 2.5 个并发;
- 输出大概有 50tokens/秒,吐字速度算还可以;
- 3 个 claude code 同时连接使用,就能感觉到明显卡顿;
从 vllm 的启动日志看,glm-5.2 的缓存架构还是基于 deepseek 3.2 的,显存利用效率比 deepseek4 甚至 qwen3.5⁄3.6 差很多!
以上只是对本地部署测试 glm-5.2 的初步印象,劝大家如果没有 h200/b300 级别的装备的话,还是算了吧!😂
0 条回复
添加回复
你还需要 登录
后发表回复