livekit/agents
agents
构建实时音视频 AI 代理的 Python 框架
Category
字幕、语音、视频处理和多媒体 AI 工具。
先看质量分和最近维护,再看是否有稳定的文档、Demo、部署入口或视频说明。 如果你正在做中文技术选型,优先打开前几名项目详情页,比较“适合 / 不适合” 与快速试用入口,再回到 GitHub 查看 README 和 issues。
当前类目优先关注 agents、ten-framework、valuecell 等项目。
livekit/agents
构建实时音视频 AI 代理的 Python 框架
TEN-framework/ten-framework
构建低延迟实时多模态 AI 应用的开源框架
ValueCell-ai/valuecell
面向投资分析的 AI Agent 平台,支持多 Agent 协作研究
nadermx/backgroundremover
命令行 AI 背景移除工具,支持图片和视频
RVC-Project/Retrieval-based-Voice-Conversion-WebUI
35k+ Stars 的开源变声工具,AI 翻唱领域最流行的方案
ykdojo/claude-code-tips
从基础到高级的 Claude Code 使用技巧合集
alexta69/metube
Web 界面的 YouTube 视频下载工具,支持队列和格式选择
C4illin/ConvertX
16k+ Stars 的自托管文件转换器,支持 100+ 格式
advplyr/audiobookshelf
全功能自托管有声书和播客管理平台
JeffreyCA/spleeter-web
自托管音频分离 Web 应用,可分离人声、伴奏、贝斯和鼓轨。
yt-dlp/yt-dlp
一个工作流自动化相关项目,README/简介显示它主要用于:A feature rich command line audio/video downloader
krillinai/KrillinAI
一键实现视频翻译配音,支持 100+ 语言,适配抖音、B站、YouTube 等平台
llm-ring/lmring
Lmring 是一个自托管应用,主要用于搭建客服、聊天机器人或客户沟通系统。
OpenMOSS/MOSS-TTS-Nano
仅 0.1B 参数的多语言 TTS 模型,支持 CPU 实时推理
LuqP2/Image-MetaHub
本地 AI 图片管理桌面应用,面向 Stable Diffusion/ComfyUI 图片的元数据搜索和整理。
svc-develop-team/so-vits-svc
基于 VITS 的简单易用歌声和语音转换框架
Artrajz/vits-simple-api
对 VITS / GPT-SoVITS 等模型提供 HTTP TTS API
Aivis-Project/AivisSpeech
AI 语音模仿与文本转语音桌面软件
foldergram/foldergram
按文件夹组织的自托管照片和视频画廊
frederikemmer/MediaLyze
本地媒体文件分析工具,偏视频/音频元数据检查。
vivekuppal/transcribe
实时转写、对话和语言学习平台
herimor/voxtream
低延迟全流式零样本 TTS 模型
jina-ai/jina-grep-cli
基于 Jina Embeddings v5 的语义 grep CLI,Apple Silicon 上可用 MLX 本地推理。
withceleste/celeste-python
面向 celeste-python 的音视频/语音处理或自动化场景,适合做内容处理、字幕、转写或总结工作流。
DevEmperor/Dictate
基于 Whisper 的 Android 语音输入键盘
gustavostz/whisper-clip
录音后自动转写并复制到剪贴板的小工具
yohasebe/whisper-stream
用 Whisper API 连续转写音频的 Bash 脚本
AshBuk/dabri
Linux 上离线优先的原生语音转文字工具
dataease/dataease
开源数据可视化与 BI 分析平台,Tableau 的开源替代方案
docling-project/docling-java
docling java 为 Java 项目提供 Docling 文档解析能力,适合把文档处理接入知识库流水线。
QuantiusBenignus/blurt
GNOME Shell 离线语音转文字扩展
comfyanonymous/ComfyUI
节点式 AI 图像生成引擎,Stable Diffusion 工作流编排
yeahhe365/Qwen3-ASR-Studio
Qwen3 ASR Studio 是一个视频 / 音频 AI 工具,主要用于接入语音识别、转写或音频 AI 能力。
binary-husky/gpt_academic
面向中文学术写作的 GPT 工具,支持论文润色、翻译和图表
gradio-app/gradio
用 Python 几行代码构建机器学习演示应用
can1357/oh-my-pi
Oh My Pi 是带 LSP、调试、浏览器和多工具链的终端 AI 编程 Agent。
ferranpons/Llamatik
Llamatik 为 Kotlin 多平台应用提供端侧 LLM、语音转文字和图像生成能力。
Comfy-Org/ComfyUI-Manager
ComfyUI 的节点管理和扩展市场工具。
debpalash/OmniVoice-Studio
本地运行的开源语音工作室,覆盖语音克隆、实时听写和视频配音。
supertone-inc/supertonic
基于 ONNX 的端侧多语言语音合成,快速、准确、离线可用
mcmonkeyprojects/SwarmUI
前身为 StableSwarmUI,模块化 Stable Diffusion Web 界面,强调易用性和可扩展性
fishaudio/fish-speech
高质量文本转语音,支持少样本克隆和多语言
HumanSignal/label-studio
多功能数据标注平台,支持文本、图像、音频和视频标注
openai/whisper
OpenAI 开源语音识别模型,支持多语言转录
jellyfin/jellyfin
自由软件媒体服务器,自托管的 Plex 替代方案
rany2/edge-tts
无需微软账号即可使用 Edge 在线语音合成服务
NeptuneHub/AudioMuse-AI
基于音频分析的自托管智能播放列表生成,支持 Jellyfin/Navidrome 等
huggingface/diffusers
HuggingFace 官方扩散模型库
steipete/summarize
可总结 URL、文件、YouTube、播客的 CLI 和浏览器扩展。
neo4j-labs/llm-graph-builder
把文档、网页和视频内容转成 Neo4j 知识图谱。
echogarden-project/echogarden
跨平台语音识别、合成、翻译和对齐工具集。
yeahhe365/ASR-Studio
面向 Qwen、豆包、Gemini 等 ASR/多模态语音模型的网页操作界面。
smgdkngt/dobase
可自托管的团队工作区应用。
netease-youdao/EmotiVoice
网易有道出品:多声音、多情感控制的 TTS 引擎
Westlake-AGI-Lab/Auto-Slides
Auto Slides 是面向语音、音频或视频处理的 AI 项目。
myshell-ai/MeloTTS
MyShell.ai 出品的高质量多语言 TTS 库
Comfy-Org/ComfyUI
最强大且模块化的 AI 内容创作 GUI 和后端
immich-app/immich
高性能自托管照片和视频管理解决方案,支持 AI 人脸识别和智能搜索
ruvnet/RuView
RuView 是面向语音、音频或视频处理的 AI 项目。
roboflow/supervision
可复用的计算机视觉工具库
OpenBMB/VoxCPM
VoxCPM 是面向语音、音频或视频处理的 AI 项目。
systran/faster-whisper
比 OpenAI Whisper 快 4 倍的语音识别实现
10xChengTu/input0
macOS 本地语音输入工具,按住热键录音并自动转写粘贴。
apache/texera
用可视化工作流做人机协同数据科学的平台。
portel-dev/photon
把一个 TypeScript intent 文件生成 CLI、MCP Server 和 Web UI 的工具。
snakers4/silero-models
开箱即用的预训练文本转语音和语音识别模型
remotion-dev/remotion
使用 React、CSS 和 SVG 等 Web 技术以代码方式创建视频
blakeblackshear/frigate
本地 NVR 监控系统,集成 AI 物体检测,适合 Home Assistant
OpenRLHF/OpenRLHF
基于 Ray + vLLM 分布式架构的高性能 RLHF 框架,支持 PPO/GRPO/REINFORCE++ 等算法
ffmpegwasm/ffmpeg.wasm
WebAssembly 版本的 FFmpeg,在浏览器中处理音视频
agents-io/PokeClaw
首个在手机本地运行 AI 并控制 Android 的开源 App,基于 Gemma 4
devnen/Chatterbox-TTS-Server
自托管 Chatterbox TTS 模型,提供 OpenAI 兼容 API 和 Web UI
mudler/LocalAI
在任意硬件上运行任何模型——LLM、视觉、语音、图像、视频,无需 GPU
Fannovel16/comfyui_controlnet_aux
ComfyUI 的 ControlNet 预处理器节点包。
kizuna-ai-lab/sokuji
sokuji 支持本地与云模型的实时语音翻译。
Aratako/T5Gemma-TTS
基于 T5Gemma 的多语种 TTS 与声音克隆模型。
zusam/zusam
面向亲友小圈子的私密分享自托管应用。
LDJ-creat/video-helper
自动为 B 站、YouTube、抖音和本地视频生成总结、笔记和思维导图。
fikrikarim/volocal
仅需 5 秒音频样本即可克隆声音的开源语音克隆工具。
Kosinkadink/ComfyUI-AnimateDiff-Evolved
ComfyUI 的 AnimateDiff 视频生成增强节点。
xataio/agent
面向 PostgreSQL 的 AI 数据库助手。
dtsola/xiaoyaosearch
用文本、语音和图片语义搜索本地文件的跨平台桌面应用。
AlphaAvatar/AlphaAvatar
基于 LiveKit 的实时交互式全模态 Avatar 框架。
wildminder/ComfyUI-VoxCPM
给 ComfyUI 增加 VoxCPM 语音合成和克隆节点。
cyberofficial/Synthalingua
实时语音翻译工具。
mozi1924/Qwen3-TTS-EasyFinetuning
Qwen3-TTS 微调和声音克隆项目。
78/xiaozhi-esp32
基于 ESP32 的开源 AI 语音聊天机器人,接入大模型
k2-fsa/sherpa-onnx
支持 STT、TTS、说话人识别的跨平台语音处理工具
OpenBMB/MiniCPM-o
手机可运行的轻量级多模态模型,支持图像和视频理解
Anjok07/ultimatevocalremovergui
基于 AI 的音频人声分离 GUI 工具,支持多种模型
microsoft/VibeVoice
微软开源的高质量语音合成模型
DIYgod/DPlayer
可爱的 HTML5 弹幕视频播放器
cursorless-dev/cursorless
语音驱动的编辑器命令系统
theopenconversationkit/tock
开源对话 AI 平台,支持聊天机器人和语音助手开发
speechbrain/speechbrain
基于 PyTorch 的端到端语音处理工具包,支持 ASR、说话人识别等
FunAudioLLM/SenseVoice
阿里通义实验室的语音基础模型,支持 ASR、语种识别、情感识别和音频事件检测
KolosalAI/Kolosal
离线运行 LLM 的轻量桌面/本地 AI 应用。
inception-project/inception
提供智能辅助的语义标注和知识管理平台
QuentinFuxa/WhisperLiveKit
OpenAI Whisper 的实时流式语音转文字工具包
modelscope/FunClip
基于 AI 的视频自动精彩片段提取和剪辑工具
averygan/reclip
自托管的视频/音频下载 Web UI。
YILS-LIN/short-video-factory
用于批量生成产品营销和泛内容短视频的桌面工具。
city96/ComfyUI-GGUF
让 ComfyUI 加载 GGUF 量化模型的节点。
pndurette/gTTS
Python 库和 CLI 工具,调用 Google 翻译的 TTS API 生成语音
apache/burr
用于构建、持久化和观测决策型 AI 应用的 Python 框架。
NVlabs/LongLive
NVIDIA 面向长视频生成的并行推理/训练基础设施。
livekit-examples/agent-starter-react
LiveKit Agents 的 React 语音 AI 前端模板。
flyhunterl/flymd
带 AI 笔记、TODO、PDF 解析和语音转文本能力的 Markdown 知识库工具。
Listenarrs/Listenarr
面向有声书的 Sonarr/Radarr 式自动化管理工具。
Shanyin-ai/shanyin-screenwriting-master
中文影视编剧 agent skill,覆盖短片、长片和剧集的剧本流程。
Shaarav4795/ClippedAI
开源 YouTube Shorts 自动生成工具。
shinpr/mcp-image
用于 AI 图像生成与编辑的 MCP server。
invoke-ai/InvokeAI
行业领先的 Stable Diffusion WebUI 和创意引擎
yl4579/StyleTTS2
通过风格扩散和对抗训练实现人类级别 TTS
Blaizzy/mlx-audio
基于 Apple MLX 的 TTS、STT 和语音转换库
OpenCut-app/OpenCut
免费开源的跨平台视频编辑器,CapCut 的开源替代方案
collabora/WhisperLive
基于 OpenAI Whisper 的实时语音识别,支持流式转录
modelscope/FunASR
阿里达摩院开源的工业级语音识别工具包,支持 ASR/VAD/标点恢复/说话人分离
vndee/local-talking-llm
本地运行的语音对话 LLM 方案
humanlayer/12-factor-agents
构建可靠 LLM 应用的 12 要素原则
istupakov/onnx-asr
基于 ONNX 模型的轻量 Python 语音识别包。
itsjwill/vanta
基于 Remotion 的开源 AI 视频引擎,整合语音克隆、字幕、头像和视频生成管线。
Lightricks/LTX-Video
高质量开源视频生成模型,支持文本到视频和图像到视频
Uberi/speech_recognition
封装多个 STT 引擎的统一 Python 语音识别接口
mukel/llama3.java
单文件 Java 实现的 Llama 3 推理。
Picovoice/leopard
Picovoice 的本地离线语音转文字引擎 SDK。
altunenes/parakeet-rs
基于 NVIDIA Parakeet/ONNX 的 Rust 高速语音转写和说话人分离库。
Frikallo/parakeet.cpp
Parakeet 语音模型的本地 C++ 推理实现。
deepgram-devs/nextjs-live-transcription
Deepgram 实时转写的 Next.js 示例应用。
MacWarrior/clipbucket-v5
开源视频托管与分享应用。
Aseiel/VideoHighlighter
VideoHighlighter 是基于本地 Ollama 的视频分析工具,可做画面检索、自动高光和字幕生成。
leke-adewa/short-video-maker
用 AI 自动生成 TikTok、YouTube Shorts 和 Reels 竖屏短视频的流水线。
google-ai-edge/mediapipe
Google 跨平台 ML 媒体处理框架,支持手势/人脸/姿态检测
abus-aikorea/voice-pro
面向创作者的 AI 语音处理 Gradio WebUI,支持 TTS、翻译和视频处理
SimonSchubert/Kai
开源 Android 平台 AI 助手,可在手机上运行本地 AI 对话。
divamgupta/diffusionbee-stable-diffusion-ui
Diffusion Bee is the easiest way to run Stable Diffusion locally on your M1 Mac. Comes with a one-click installer. No de
pnkvalavala/repochat
用 RAG 与 GitHub 仓库对话的聊天助手。
Picovoice/web-voice-processor
浏览器实时语音处理的 TypeScript 库。
AUTOMATIC1111/stable-diffusion-webui
经典的 SD Web 界面
WyattBlue/auto-editor
基于 AI 分析的自动视频编辑工具,消除无声片段
open-mmlab/Amphion
开源的音频、音乐和语音生成工具包
moonshine-ai/moonshine
超低延迟的语音转文本、意图识别和文本转语音
argmaxinc/argmax-oss-swift
Apple Silicon 设备上的端侧语音 AI 框架
GuanYixuan/pyJianYingDraft
用 Python 自动生成剪映草稿,实现视频剪辑自动化。
unslothai/unsloth
在本地运行和训练文本、音频、嵌入、视觉模型的开源工具
FireRedTeam/FireRed-OpenStoryline
开源故事线/剧本生成工具,支持 AI 驱动的内容创作。
TensorSpeech/TensorFlowTTS
基于 TensorFlow 的实时语音合成(TTS)工具包,包含多种预训练模型。
fluxions-ai/vui
开源语音 UI 框架,支持构建语音驱动的 AI 应用。
THUDM/cogvideo
清华 THUDM 开源的视频生成模型系列
thinhlpg/vixtts-demo
越南语语音克隆 TTS 模型
SCUTlihaoyu/open-chat-video-editor
开源短视频 AI 生成和编辑工具
OpenTalker/video-retalking
通过 AI 技术为视频自动匹配唇形,支持语音到唇形的自动生成。
SaynaAI/sayna
开源语音 AI 平台,支持语音识别、语音合成和语音克隆。
AIGC-Audio/AudioGPT
AI 音频理解与生成平台
leejet/stable-diffusion.cpp
纯 C/C++ 实现的扩散模型推理引擎,支持 SD、Flux、Wan 等模型
canopyai/Orpheus-TTS
追求类人语音效果的开源 TTS 模型
THUDM/CogVideo
清华智谱开源的文本到视频生成模型
Wan-Video/Wan2.1
阿里巴巴开源的大规模文本到视频生成模型
modelscope/DiffSynth-Studio
阿里巴巴开源的图像和视频生成扩散模型框架