首页注册登录

GoForum › 🌐 V2EX

这个推理速度也太快了吧！ chatjimmy.ai 比查 db 都快啊！

rmrf · 2026-02-21 10:52 · 0 次点赞 · 12 条回复

chatjimmy.ai 可以体验 “Taalas 推出首款产品 HC1 ，搭载 Llama 3.1 8B 模型，性能达每用户 17,000 tokens/秒，较现有技术快近 10 倍，制造成本降低 20 倍，功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式，存在轻微精度损失，但第二代产品将采用标准 4-bit 浮点格式，进一步优化性能。”

12 条回复

renfei · 2026-02-21 11:07

#1

试了下，快是快，智商不太够，很多逻辑题答案给出的错误的

rmrf · 2026-02-21 11:17

#2

@renfei 是的，精度不行，但这推理速度，让很多事情很有想象力了。尝试了一下大段翻译，超级快，而且基本正确。

cyp0633 · 2026-02-21 11:32

#3

试了一下翻译任务，很难说是精度问题还是模型本身能力不行，只能说都不可用

wew3 · 2026-02-21 11:37

#4

让我想起了岳云鹏的相声

maolon · 2026-02-21 11:37

#5

我觉得之前的 openai 的 5.3 codex spark 已经很有想象力了，没想到这个更夸张

Leeeeex · 2026-02-21 11:52

#6

「别管对不对，就说快不快吧」？

catazshadow · 2026-02-21 11:57

#7

大暴死的节奏，AI 的死穴是正确性，不是傻快

rmrf · 2026-02-21 12:02

#8

@catazshadow 这才开始，后面慢慢优化起来，很有想象力啊。

duty · 2026-02-21 12:07

#9

正确性是靠模型的，这个只是证明了一个方案的可行性，就是把模型直接写入到芯片中，忽略了内存和带宽的限制

coderluan · 2026-02-21 12:52

#10

确实快的有点夸张，有些场合确实有用，感谢楼主，新年祝大家也都这么快🐶

catazshadow · 2026-02-21 13:52

#11

@rmrf 这条路的尽头是 cerebras 那样的晶圆级芯片

https://www.cerebras.ai/blog/openai-codexspark

这么大的东西能跑每秒 1000token ，比这个小的要么比它傻要么比它慢

CodFrm · 2026-02-21 13:52

#12

「别管对不对，就说快不快吧」

https://i.imgur.com/KCpx14q.png

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: rmrf

发布: 2026-02-21

点赞: 0

回复: 0