GoForum › 🌐 V2EX
[求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适?
diudiuu ·
2026-03-03 10:37 ·
0 次点赞 · 0 条回复
现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:
- ✅ OpenClaw 已部署并正常运行
- ✅ Ollama 已部署,加载了本地 70B 模型
问题描述
推理速度极慢,具体表现如下:
- 发送 “Hello” 这类简单问候,响应时间长达 30 秒以上
- 尝试换用 8B 小模型,速度几乎没有改善,与 70B 差异微乎其微
排查结论
查阅官方论坛及社区资料后发现:
Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。
或者上面的我说的不对,我有看专门设置,但是实际就是很烂
求助
有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:
- 具体部署步骤 或踩坑经验分享
- 相比 Ollama ,推理速度提升是否明显?
- 是否有其他更适合 DGX Spark 的推理框架推荐?(如 vLLM 、MLX 等)
希望有经验的老哥帮我指点一二!🙏
0 条回复
添加回复
你还需要 登录
后发表回复