返回搜索GitHub

RAG / 知识库

data-juicer

面向大模型的数据处理与清洗框架。

质量分84
6,451 Stars
2026-05-27T08:04:10Z
unknown
hard

中文速读

Data-Juicer 用于基础模型训练和应用前的数据处理、过滤、分析与合成,适合构建 LLM 数据管线的团队。项目文档、主页和社区信号较强。

适合

  • 做 LLM/RAG 数据治理的团队
  • 需要可复用数据处理流水线的人

不适合

  • 只想部署现成聊天应用的人
  • 没有数据工程需求的个人用户

选型答案

data-juicer 适合什么场景?做 LLM/RAG 数据治理的团队;需要可复用数据处理流水线的人
data-juicer 的试用和部署门槛如何?已发现 6 个试用、文档或演示入口,可从页面的“快速试用”区域打开。 当前难度标记为“需要经验”,许可证记录为“unknown”。
选择 data-juicer 时要注意什么?只想部署现成聊天应用的人;没有数据工程需求的个人用户
数据来源和更新时间GitHub 仓库 datajuicer/data-juicer,最近记录的推送时间为 2026-05-27T08:04:10Z

标签

llmdata-processingdata-cleaningfoundation-models