GoForum › 🌐 V2EX
claude code 降智被实锤了
yarkyaonj ·
2026-04-13 08:55 ·
0 次点赞 · 6 条回复
上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。
今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。
可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。
6 条回复
https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
添加回复
你还需要 登录
后发表回复
我也很明显感受到了它现在经常颠三倒四