GoForum🌐 V2EX

llm 训练最 dirty work 的就是数据处理!

jununhsu · 2026-03-05 16:37 · 0 次点赞 · 5 条回复

大堆的文件解析、无用数据的过滤等等。。。。。。。。 还有更繁琐的吗,说出来让我平衡平衡

5 条回复
jifengg · 2026-03-05 16:42
#1

ai help ai

让 ai 帮你干活

LifeDesigner · 2026-03-05 16:47
#2

有多少人工,就有多智能 https://i.imgur.com/NIvxivj.png

woctordho · 2026-03-05 16:57
#3

别急,等你处理完数据开始训练就要对付梯度爆炸了

freevioce · 2026-03-05 17:02
#4

大模型微调吗 我现在找不到场景(微调>> RAG+提示词)

  1. 在模型底座不强的时候 微调>> RAG+提示词 如果模型底座比较强,这个差距就不明显,因为微调的场景就是模型+提示词+RAG+MCP 不好用,现在大模型这么强,微调的投入回报率不高了
  2. 微调除了私有化+特定场景拔高(速度、省 token )还有其他场景吗 你们是什么场景需要微调
paopjian · 2026-03-05 17:17
#5

这就是为啥数据标注公司都能拿到好几亿融资, 都有人直接去 meta 当领导了, 数据比架构还重要了

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: jununhsu
发布: 2026-03-05
点赞: 0
回复: 0