返回搜索GitHub

RAG / 知识库 / AI 编程 / MCP / 开发者工具

docpull

把静态文档站点抓取并转换为适合 RAG/LLM 使用的 Markdown。

质量分78
21 Stars
2026-05-22T11:59:26Z
unknown
easy

中文速读

把静态文档站点抓取并转换为适合 RAG/LLM 使用的 Markdown。适合构建知识库前需要清洗网页文档的开发者;不适合需要浏览器自动化或动态站点完整抓取的人。从 README/元数据看,项目核心是异步 Python CLI、缓存和 crawl profile。

适合

  • 构建知识库前需要清洗网页文档的开发者

不适合

  • 需要浏览器自动化或动态站点完整抓取的人

选型答案

docpull 适合什么场景?构建知识库前需要清洗网页文档的开发者
docpull 的试用和部署门槛如何?已发现 6 个试用、文档或演示入口,可从页面的“快速试用”区域打开。 当前难度标记为“上手简单”,许可证记录为“unknown”。
选择 docpull 时要注意什么?需要浏览器自动化或动态站点完整抓取的人
数据来源和更新时间GitHub 仓库 raintree-technology/docpull,最近记录的推送时间为 2026-05-22T11:59:26Z

标签

ai-training-dataclicrawlerdeveloper-toolsdocumentationllmmarkdownmcpPython