GoForum🌐 V2EX

把 5.5 和 5.4 的 xhigh 做糖果测试对比, 5.5 完败

hanbaoji · 2026-07-05 11:13 · 0 次点赞 · 0 条回复

做糖果測試,5.5 对比 5.4 完败,感觉是不是有必要切回 5.4 继续用了。。。。

❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5

Graded 55 correct=4 accuracy=80.0%

❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5

Graded 55 correct=1 accuracy=20.0%

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: hanbaoji
发布: 2026-07-05
点赞: 0
回复: 0