GoForum › 🌐 V2EX
把 5.5 和 5.4 的 xhigh 做糖果测试对比, 5.5 完败
hanbaoji ·
2026-07-05 11:13 ·
0 次点赞 · 0 条回复
做糖果測試,5.5 对比 5.4 完败,感觉是不是有必要切回 5.4 继续用了。。。。
❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5
Graded 5⁄5 correct=4 accuracy=80.0%
❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5
Graded 5⁄5 correct=1 accuracy=20.0%
0 条回复
添加回复
你还需要 登录
后发表回复