返回搜索GitHub

RAG / 知识库 / 开发者工具 / Local AI

LMCache

面向 LLM 推理服务的 KV Cache 加速层,重点降低长上下文和 RAG 场景的首 token 延迟。

质量分82
8,630 Stars
unknown
hard

中文速读

LMCache 是一个可接入 vLLM、SGLang 等推理栈的 KV Cache 层,把可复用文本的缓存放到 GPU、CPU、磁盘甚至对象存储中复用,用来减少重复预填充成本并提升吞吐。它更适合已经在自建或调优 LLM Serving 的团队,而不是只想找一个开箱即用聊天应用的用户。项目有在线文档、Quickstart、pip 安装方式和示例,但实际落地依赖 Linux + NVIDIA GPU、推理引擎版本和缓存后端配置,部署难度偏高。

适合

  • 正在优化 vLLM/SGLang 推理成本和延迟的工程团队
  • 有长上下文、多轮问答或 RAG 高重复内容场景的 AI 基础设施团队
  • 需要评估企业级 LLM Serving 缓存方案的开发者

不适合

  • 只需要本地运行一个模型或聊天 UI 的个人用户
  • 没有 GPU 推理服务运维经验的初学者
  • 希望通过 Docker 一键部署完整 AI 应用的人

选型答案

LMCache 适合什么场景?正在优化 vLLM/SGLang 推理成本和延迟的工程团队;有长上下文、多轮问答或 RAG 高重复内容场景的 AI 基础设施团队;需要评估企业级 LLM Serving 缓存方案的开发者
LMCache 的试用和部署门槛如何?已发现 6 个试用、文档或演示入口,可从页面的“快速试用”区域打开。 当前难度标记为“需要经验”,许可证记录为“unknown”。
选择 LMCache 时要注意什么?只需要本地运行一个模型或聊天 UI 的个人用户;没有 GPU 推理服务运维经验的初学者;希望通过 Docker 一键部署完整 AI 应用的人
数据来源和更新时间GitHub 仓库 LMCache/LMCache,最近记录的推送时间为

标签

LLM 推理KV CachevLLMSGLangRAG 加速GPU 优化GitHub Trending