GoForum🌐 V2EX

[求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适?

diudiuu · 2026-03-03 10:37 · 0 次点赞 · 0 条回复

现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:

  • OpenClaw 已部署并正常运行
  • Ollama 已部署,加载了本地 70B 模型

问题描述

推理速度极慢,具体表现如下:

  • 发送 “Hello” 这类简单问候,响应时间长达 30 秒以上
  • 尝试换用 8B 小模型,速度几乎没有改善,与 70B 差异微乎其微

排查结论

查阅官方论坛及社区资料后发现:

Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。

或者上面的我说的不对,我有看专门设置,但是实际就是很烂


求助

有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:

  1. 具体部署步骤 或踩坑经验分享
  2. 相比 Ollama ,推理速度提升是否明显
  3. 是否有其他更适合 DGX Spark 的推理框架推荐?(如 vLLM 、MLX 等)

希望有经验的老哥帮我指点一二!🙏

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: diudiuu
发布: 2026-03-03
点赞: 0
回复: 0