GoForum🌐 V2EX

尝试梳理了从预训练到 RAG 的数据工程架构,希望大家指点技术栈是否有坑

xuxin123122 · 2026-03-04 02:47 · 0 次点赞 · 1 条回复

大家好。

最近一段时间,发现一个痛点:网上的资料大都是教怎么微调、怎么写 Prompt ,但真到了一线,面对几十 TB 的预训练数据怎么清洗?多模态怎么对齐?怎么搭一个高可用的 RAG 数据流水线?网上的系统性实战资料极其匮乏,大家基本都在摸着石头过河。

为了打破这种“信息碎片化”,我和几个伙伴尝试把我们踩过的坑、摸索出的主流方案整理成了一本开源的《大模型数据工程》指南。

但毕竟我们的视野和应用场景有限,很多架构设计可能还不够成熟。所以特别发出来,希望能得到各位行业前辈和一线大佬的点评。

GitHub 地址: https://github.com/datascale-ai/data_engineering_book/

我们在项目中做了以下尝试,:

  • 技术栈选型: 我们选择了 Ray Data 、Spark 和 WebDataset 做分布式处理和存储。想请教下真正处理 PB 级数据的大佬,这套组合在当前的一线业务中还有哪些深坑?有更推荐的现代替代方案吗?
  • 场景覆盖是否有遗漏: 目前我们的内容梳理了四大块:文本预训练数据清洗、多模态处理(图文/音视频)、对齐与合成数据( SFT )、以及应用级 RAG 。这套流水线在大家的实际业务中,还缺失了哪块关键拼图?

项目采用 MIT 协议,支持中英双语。

现阶段我们最渴望的是真实的反馈——无论是架构上的探讨、技术选型的建议,还是直接提 Issue 吐槽,对我们来说都非常宝贵。如果大家觉得这个方向是有价值的,顺手点个 Star ⭐️ 也是对我们极大的鼓励!感谢大家!

1 条回复
lusi1990 · 2026-03-04 08:17
#1

感谢分享

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: xuxin123122
发布: 2026-03-04
点赞: 0
回复: 0