GoForum🌐 V2EX

claude code 降智被实锤了

yarkyaonj · 2026-04-13 08:55 · 0 次点赞 · 6 条回复

上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。

今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。

可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。

图片

https://imgur.com/a/u7Np8Wk

6 条回复
gpt5 · 2026-04-13 08:55
#1

我也很明显感受到了它现在经常颠三倒四

yougo · 2026-04-13 09:10
#2

https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅

hitrip · 2026-04-13 09:20
#3

不一定是永久降智,有时候是环境 bug 引起的

yarkyaonj · 2026-04-13 09:20
#4

@hitrip 全球用户都反映有降智现象,现在又有数据实锤

nc · 2026-04-13 09:25
#5

A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。

FqwKVgsv · 2026-04-13 09:30
#6

非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: yarkyaonj
发布: 2026-04-13
点赞: 0
回复: 0