GoForum › 🌐 V2EX

闲置 16GB M1 Pro MBP 跑大模型

ahdw · 2026-04-08 00:35 · 0 次点赞 · 6 条回复

Gemma4 E4B IT 4bit MLX 能跑出几十 tokens/s ，但是有什么用呢？试着在同一局域网里面的 Mac Mini ，把 OpenCode 的 Quick 类指定成它，但是 12K 上下文都能报错，tensors cannot be broadcast 。这玩意儿到底有什么用？

也试了一下 Jackrong 的 Qwopus 3.5 9B 6bit MLX ，还是只能当单次聊天回复机器人用，接入 OpenCode 就报错。

实在是想不出来本地 LLM 有什么用。

加钱换 64G 的新机器？那钱买 Coding Plan 都够用多长时间了，不比本地模型强多了。

6 条回复

sddyzm · 2026-04-08 00:40

本地模型很弱智，不建议将这点加入到任何和现实生活相关的考量中，当它不存在

yougo · 2026-04-08 01:30

之前看到说 50 张 H200 也无法支撑起一个 GPT 5.2 Pro 的稳定的算力需求所以即便那些遥遥领先的闭源模型哪天开源了也跟大多数人没有关系光是电费就远超当前订阅的费用所以以后只要需求持续存在模型就会持续涨价直到和个人部署成本达成平衡

nc · 2026-04-08 01:35

64G 统一内存都不够用。不如用买机器的钱去买 token ，本地模型智商还是低，上下文也有限。

aklllw · 2026-04-08 02:30

想起一个冷笑话： “我的 xx 设备能够连续跑一天的任务花费超多 token 不用一分钱” “有没有可能是因为智力太低了所以才需要跑一整天”

wsbqdyhm · 2026-04-08 08:15

单卡 4090 跑过 qwen3.5:35b 、gemma4:27b ，没什么实际意义。

unusualcat · 2026-04-08 08:35

没有。唯一的用处就是即时翻译……

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: ahdw

发布: 2026-04-08

点赞: 0

回复: 0