Local AI

LLaVA

开源视觉语言模型，具备 GPT-4 级别的多模态理解

质量分78

24,780 Stars

2024-08-12T09:52:38Z

unknown

hard

中文速读

LLaVA 是大型语言与视觉助手，通过视觉指令微调实现图像理解和对话能力。提供 HuggingFace 模型、在线 Demo 和 Colab 示例。学术项目性质，适合多模态 AI 研究和二次开发。

快速试用

在线体验official_demo 文档docs 文档docs 链接colab Hugging Face Spacehuggingface_space Hugging Face Spacehuggingface_space

适合

做多模态 AI 研究的人员
需要视觉理解能力的开发者

不适合

只需要纯文本 LLM 的用户
需要生产级多模态服务的团队

选型答案

LLaVA 适合什么场景？做多模态 AI 研究的人员；需要视觉理解能力的开发者

LLaVA 的试用和部署门槛如何？已发现 6 个试用、文档或演示入口，可从页面的“快速试用”区域打开。当前难度标记为“需要经验”，许可证记录为“unknown”。

选择 LLaVA 时要注意什么？只需要纯文本 LLM 的用户；需要生产级多模态服务的团队

数据来源和更新时间GitHub 仓库 haotian-liu/LLaVA，最近记录的推送时间为 2024-08-12T09:52:38Z。

标签

多模态视觉语言LLM学术研究