Category

视频 / 音频 AI

字幕、语音、视频处理和多媒体 AI 工具。

视频 / 音频 AI 怎么选？

先看质量分和最近维护，再看是否有稳定的文档、Demo、部署入口或视频说明。如果你正在做中文技术选型，优先打开前几名项目详情页，比较“适合 / 不适合” 与快速试用入口，再回到 GitHub 查看 README 和 issues。

当前类目优先关注 agents、ten-framework、valuecell 等项目。

159 个项目

按质量分排序

livekit/agents

agents

构建实时音视频 AI 代理的 Python 框架

100 质量分0

TEN-framework/ten-framework

ten-framework

构建低延迟实时多模态 AI 应用的开源框架

100 质量分0

ValueCell-ai/valuecell

valuecell

面向投资分析的 AI Agent 平台，支持多 Agent 协作研究

100 质量分0

nadermx/backgroundremover

backgroundremover

命令行 AI 背景移除工具，支持图片和视频

100 质量分0

RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Retrieval-based-Voice-Conversion-WebUI

35k+ Stars 的开源变声工具，AI 翻唱领域最流行的方案

100 质量分0

ykdojo/claude-code-tips

claude-code-tips

从基础到高级的 Claude Code 使用技巧合集

100 质量分0

alexta69/metube

metube

Web 界面的 YouTube 视频下载工具，支持队列和格式选择

100 质量分0

C4illin/ConvertX

ConvertX

16k+ Stars 的自托管文件转换器，支持 100+ 格式

100 质量分0

advplyr/audiobookshelf

audiobookshelf

全功能自托管有声书和播客管理平台

100 质量分0

JeffreyCA/spleeter-web

spleeter-web

自托管音频分离 Web 应用，可分离人声、伴奏、贝斯和鼓轨。

98 质量分546可试用

yt-dlp/yt-dlp

yt-dlp

一个工作流自动化相关项目，README/简介显示它主要用于：A feature rich command line audio/video downloader

96 质量分162,413可试用

krillinai/KrillinAI

KrillinAI

一键实现视频翻译配音，支持 100+ 语言，适配抖音、B站、YouTube 等平台

94 质量分10,092可试用

llm-ring/lmring

lmring

Lmring 是一个自托管应用，主要用于搭建客服、聊天机器人或客户沟通系统。

94 质量分108可试用

OpenMOSS/MOSS-TTS-Nano

MOSS-TTS-Nano

仅 0.1B 参数的多语言 TTS 模型，支持 CPU 实时推理

93 质量分2,929可试用

LuqP2/Image-MetaHub

Image-MetaHub

本地 AI 图片管理桌面应用，面向 Stable Diffusion/ComfyUI 图片的元数据搜索和整理。

93 质量分287可试用

svc-develop-team/so-vits-svc

so-vits-svc

基于 VITS 的简单易用歌声和语音转换框架

93 质量分0

Artrajz/vits-simple-api

vits-simple-api

对 VITS / GPT-SoVITS 等模型提供 HTTP TTS API

92 质量分1,049可试用

Aivis-Project/AivisSpeech

AivisSpeech

AI 语音模仿与文本转语音桌面软件

92 质量分441可试用

foldergram/foldergram

foldergram

按文件夹组织的自托管照片和视频画廊

92 质量分424可试用

frederikemmer/MediaLyze

MediaLyze

本地媒体文件分析工具，偏视频/音频元数据检查。

92 质量分387可试用

vivekuppal/transcribe

transcribe

实时转写、对话和语言学习平台

92 质量分260可试用

herimor/voxtream

voxtream

低延迟全流式零样本 TTS 模型

92 质量分230可试用

jina-ai/jina-grep-cli

jina-grep-cli

基于 Jina Embeddings v5 的语义 grep CLI，Apple Silicon 上可用 MLX 本地推理。

92 质量分229可试用

withceleste/celeste-python

celeste-python

面向 celeste-python 的音视频/语音处理或自动化场景，适合做内容处理、字幕、转写或总结工作流。

92 质量分218可试用

DevEmperor/Dictate

Dictate

基于 Whisper 的 Android 语音输入键盘

92 质量分206可试用

gustavostz/whisper-clip

whisper-clip

录音后自动转写并复制到剪贴板的小工具

92 质量分137可试用

yohasebe/whisper-stream

whisper-stream

用 Whisper API 连续转写音频的 Bash 脚本

92 质量分119可试用

AshBuk/dabri

dabri

Linux 上离线优先的原生语音转文字工具

92 质量分102可试用

dataease/dataease

dataease

开源数据可视化与 BI 分析平台，Tableau 的开源替代方案

92 质量分0

docling-project/docling-java

docling-java

docling java 为 Java 项目提供 Docling 文档解析能力，适合把文档处理接入知识库流水线。

91 质量分115可试用

QuantiusBenignus/blurt

blurt

GNOME Shell 离线语音转文字扩展

91 质量分107可试用

comfyanonymous/ComfyUI

ComfyUI

节点式 AI 图像生成引擎，Stable Diffusion 工作流编排

90 质量分60,000可试用

yeahhe365/Qwen3-ASR-Studio

Qwen3-ASR-Studio

Qwen3 ASR Studio 是一个视频 / 音频 AI 工具，主要用于接入语音识别、转写或音频 AI 能力。

89 质量分263可试用

binary-husky/gpt_academic

gpt_academic

面向中文学术写作的 GPT 工具，支持论文润色、翻译和图表

88 质量分70,621可试用

gradio-app/gradio

gradio

用 Python 几行代码构建机器学习演示应用

88 质量分0可试用

can1357/oh-my-pi

oh-my-pi

Oh My Pi 是带 LSP、调试、浏览器和多工具链的终端 AI 编程 Agent。

87 质量分9,520可试用

ferranpons/Llamatik

Llamatik

Llamatik 为 Kotlin 多平台应用提供端侧 LLM、语音转文字和图像生成能力。

87 质量分132可试用

Comfy-Org/ComfyUI-Manager

ComfyUI-Manager

ComfyUI 的节点管理和扩展市场工具。

86 质量分14,705可试用

debpalash/OmniVoice-Studio

OmniVoice-Studio

本地运行的开源语音工作室，覆盖语音克隆、实时听写和视频配音。

86 质量分5,398可试用

supertone-inc/supertonic

supertonic

基于 ONNX 的端侧多语言语音合成，快速、准确、离线可用

86 质量分4,188可试用

mcmonkeyprojects/SwarmUI

SwarmUI

前身为 StableSwarmUI，模块化 Stable Diffusion Web 界面，强调易用性和可扩展性

86 质量分4,075可试用

fishaudio/fish-speech

fish-speech

高质量文本转语音，支持少样本克隆和多语言

86 质量分0

HumanSignal/label-studio

label-studio

多功能数据标注平台，支持文本、图像、音频和视频标注

86 质量分0

openai/whisper

whisper

OpenAI 开源语音识别模型，支持多语言转录

85 质量分65,000可试用

jellyfin/jellyfin

jellyfin

自由软件媒体服务器，自托管的 Plex 替代方案

85 质量分35,000可试用

rany2/edge-tts

edge-tts

无需微软账号即可使用 Edge 在线语音合成服务

85 质量分0

NeptuneHub/AudioMuse-AI

AudioMuse-AI

基于音频分析的自托管智能播放列表生成，支持 Jellyfin/Navidrome 等

85 质量分0可试用

huggingface/diffusers

diffusers

HuggingFace 官方扩散模型库

84 质量分33,564可试用

steipete/summarize

summarize

可总结 URL、文件、YouTube、播客的 CLI 和浏览器扩展。

84 质量分6,012可试用

neo4j-labs/llm-graph-builder

llm-graph-builder

把文档、网页和视频内容转成 Neo4j 知识图谱。

84 质量分4,689可试用

echogarden-project/echogarden

echogarden

跨平台语音识别、合成、翻译和对齐工具集。

84 质量分444可试用

yeahhe365/ASR-Studio

ASR-Studio

面向 Qwen、豆包、Gemini 等 ASR/多模态语音模型的网页操作界面。

84 质量分262可试用

smgdkngt/dobase

dobase

可自托管的团队工作区应用。

84 质量分168可试用

netease-youdao/EmotiVoice

EmotiVoice

网易有道出品：多声音、多情感控制的 TTS 引擎

84 质量分0

Westlake-AGI-Lab/Auto-Slides

Auto-Slides

Auto Slides 是面向语音、音频或视频处理的 AI 项目。

83 质量分500可试用

myshell-ai/MeloTTS

MeloTTS

MyShell.ai 出品的高质量多语言 TTS 库

83 质量分0

Comfy-Org/ComfyUI

ComfyUI

最强大且模块化的 AI 内容创作 GUI 和后端

82 质量分112,775可试用

immich-app/immich

immich

高性能自托管照片和视频管理解决方案，支持 AI 人脸识别和智能搜索

82 质量分100,472可试用

ruvnet/RuView

RuView

RuView 是面向语音、音频或视频处理的 AI 项目。

82 质量分68,989可试用

roboflow/supervision

supervision

可复用的计算机视觉工具库

82 质量分38,349可试用

OpenBMB/VoxCPM

VoxCPM

VoxCPM 是面向语音、音频或视频处理的 AI 项目。

82 质量分22,846可试用

systran/faster-whisper

faster-whisper

比 OpenAI Whisper 快 4 倍的语音识别实现

82 质量分15,000可试用

10xChengTu/input0

input0

macOS 本地语音输入工具，按住热键录音并自动转写粘贴。

82 质量分253可试用

apache/texera

texera

用可视化工作流做人机协同数据科学的平台。

82 质量分237可试用

portel-dev/photon

photon

把一个 TypeScript intent 文件生成 CLI、MCP Server 和 Web UI 的工具。

82 质量分96可试用

snakers4/silero-models

silero-models

开箱即用的预训练文本转语音和语音识别模型

82 质量分0

remotion-dev/remotion

remotion

使用 React、CSS 和 SVG 等 Web 技术以代码方式创建视频

82 质量分0

blakeblackshear/frigate

frigate

本地 NVR 监控系统，集成 AI 物体检测，适合 Home Assistant

82 质量分0可试用

OpenRLHF/OpenRLHF

OpenRLHF

基于 Ray + vLLM 分布式架构的高性能 RLHF 框架，支持 PPO/GRPO/REINFORCE++ 等算法

82 质量分0

ffmpegwasm/ffmpeg.wasm

ffmpeg.wasm

WebAssembly 版本的 FFmpeg，在浏览器中处理音视频

82 质量分0

agents-io/PokeClaw

PokeClaw

首个在手机本地运行 AI 并控制 Android 的开源 App，基于 Gemma 4

82 质量分0可试用

devnen/Chatterbox-TTS-Server

Chatterbox-TTS-Server

自托管 Chatterbox TTS 模型，提供 OpenAI 兼容 API 和 Web UI

82 质量分0可试用

mudler/LocalAI

LocalAI

在任意硬件上运行任何模型——LLM、视觉、语音、图像、视频，无需 GPU

81 质量分46,588可试用

Fannovel16/comfyui_controlnet_aux

comfyui_controlnet_aux

ComfyUI 的 ControlNet 预处理器节点包。

81 质量分4,000可试用

kizuna-ai-lab/sokuji

sokuji

sokuji 支持本地与云模型的实时语音翻译。

81 质量分876可试用

Aratako/T5Gemma-TTS

T5Gemma-TTS

基于 T5Gemma 的多语种 TTS 与声音克隆模型。

81 质量分311可试用

zusam/zusam

zusam

面向亲友小圈子的私密分享自托管应用。

81 质量分221可试用

LDJ-creat/video-helper

video-helper

自动为 B 站、YouTube、抖音和本地视频生成总结、笔记和思维导图。

81 质量分32可试用

fikrikarim/volocal

volocal

仅需 5 秒音频样本即可克隆声音的开源语音克隆工具。

81 质量分0

Kosinkadink/ComfyUI-AnimateDiff-Evolved

ComfyUI-AnimateDiff-Evolved

ComfyUI 的 AnimateDiff 视频生成增强节点。

80 质量分3,458可试用

xataio/agent

agent

面向 PostgreSQL 的 AI 数据库助手。

80 质量分1,071可试用

dtsola/xiaoyaosearch

xiaoyaosearch

用文本、语音和图片语义搜索本地文件的跨平台桌面应用。

80 质量分1,025可试用

AlphaAvatar/AlphaAvatar

AlphaAvatar

基于 LiveKit 的实时交互式全模态 Avatar 框架。

80 质量分709可试用

wildminder/ComfyUI-VoxCPM

ComfyUI-VoxCPM

给 ComfyUI 增加 VoxCPM 语音合成和克隆节点。

80 质量分461可试用

cyberofficial/Synthalingua

Synthalingua

实时语音翻译工具。

80 质量分394可试用

mozi1924/Qwen3-TTS-EasyFinetuning

Qwen3-TTS-EasyFinetuning

Qwen3-TTS 微调和声音克隆项目。

80 质量分87可试用

78/xiaozhi-esp32

xiaozhi-esp32

基于 ESP32 的开源 AI 语音聊天机器人，接入大模型

80 质量分0

k2-fsa/sherpa-onnx

sherpa-onnx

支持 STT、TTS、说话人识别的跨平台语音处理工具

80 质量分0

OpenBMB/MiniCPM-o

MiniCPM-o

手机可运行的轻量级多模态模型，支持图像和视频理解

80 质量分0

Anjok07/ultimatevocalremovergui

ultimatevocalremovergui

基于 AI 的音频人声分离 GUI 工具，支持多种模型

80 质量分0

microsoft/VibeVoice

VibeVoice

微软开源的高质量语音合成模型

80 质量分0

DIYgod/DPlayer

DPlayer

可爱的 HTML5 弹幕视频播放器

80 质量分0

cursorless-dev/cursorless

cursorless

语音驱动的编辑器命令系统

80 质量分0

theopenconversationkit/tock

tock

开源对话 AI 平台，支持聊天机器人和语音助手开发

80 质量分0

speechbrain/speechbrain

speechbrain

基于 PyTorch 的端到端语音处理工具包，支持 ASR、说话人识别等

79 质量分11,528可试用

FunAudioLLM/SenseVoice

SenseVoice

阿里通义实验室的语音基础模型，支持 ASR、语种识别、情感识别和音频事件检测

79 质量分8,125可试用

KolosalAI/Kolosal

Kolosal

离线运行 LLM 的轻量桌面/本地 AI 应用。

79 质量分453可试用

inception-project/inception

inception

提供智能辅助的语义标注和知识管理平台

79 质量分0

QuentinFuxa/WhisperLiveKit

WhisperLiveKit

OpenAI Whisper 的实时流式语音转文字工具包

78 质量分10,269可试用

modelscope/FunClip

FunClip

基于 AI 的视频自动精彩片段提取和剪辑工具

78 质量分5,587可试用

averygan/reclip

reclip

自托管的视频/音频下载 Web UI。

78 质量分5,302可试用

YILS-LIN/short-video-factory

short-video-factory

用于批量生成产品营销和泛内容短视频的桌面工具。

78 质量分3,971可试用

city96/ComfyUI-GGUF

ComfyUI-GGUF

让 ComfyUI 加载 GGUF 量化模型的节点。

78 质量分3,637可试用

pndurette/gTTS

gTTS

Python 库和 CLI 工具，调用 Google 翻译的 TTS API 生成语音

78 质量分2,608可试用

apache/burr

burr

用于构建、持久化和观测决策型 AI 应用的 Python 框架。

78 质量分2,011可试用

NVlabs/LongLive

LongLive

NVIDIA 面向长视频生成的并行推理/训练基础设施。

78 质量分1,903可试用

livekit-examples/agent-starter-react

agent-starter-react

LiveKit Agents 的 React 语音 AI 前端模板。

78 质量分870可试用

flyhunterl/flymd

flymd

带 AI 笔记、TODO、PDF 解析和语音转文本能力的 Markdown 知识库工具。

78 质量分813可试用

Listenarrs/Listenarr

Listenarr

面向有声书的 Sonarr/Radarr 式自动化管理工具。

78 质量分741可试用

Shanyin-ai/shanyin-screenwriting-master

shanyin-screenwriting-master

中文影视编剧 agent skill，覆盖短片、长片和剧集的剧本流程。

78 质量分365

Shaarav4795/ClippedAI

ClippedAI

开源 YouTube Shorts 自动生成工具。

78 质量分153可试用

shinpr/mcp-image

mcp-image

用于 AI 图像生成与编辑的 MCP server。

78 质量分112

invoke-ai/InvokeAI

InvokeAI

行业领先的 Stable Diffusion WebUI 和创意引擎

78 质量分0

yl4579/StyleTTS2

StyleTTS2

通过风格扩散和对抗训练实现人类级别 TTS

78 质量分0

Blaizzy/mlx-audio

mlx-audio

基于 Apple MLX 的 TTS、STT 和语音转换库

78 质量分0

OpenCut-app/OpenCut

OpenCut

免费开源的跨平台视频编辑器，CapCut 的开源替代方案

78 质量分0

collabora/WhisperLive

WhisperLive

基于 OpenAI Whisper 的实时语音识别，支持流式转录

78 质量分0

modelscope/FunASR

FunASR

阿里达摩院开源的工业级语音识别工具包，支持 ASR/VAD/标点恢复/说话人分离

78 质量分0可试用

vndee/local-talking-llm

local-talking-llm

本地运行的语音对话 LLM 方案

78 质量分0

humanlayer/12-factor-agents

12-factor-agents

构建可靠 LLM 应用的 12 要素原则

77 质量分19,669可试用

istupakov/onnx-asr

onnx-asr

基于 ONNX 模型的轻量 Python 语音识别包。

77 质量分319可试用

itsjwill/vanta

vanta

基于 Remotion 的开源 AI 视频引擎，整合语音克隆、字幕、头像和视频生成管线。

77 质量分37可试用

Lightricks/LTX-Video

LTX-Video

高质量开源视频生成模型，支持文本到视频和图像到视频

76 质量分10,222可试用

Uberi/speech_recognition

speech_recognition

封装多个 STT 引擎的统一 Python 语音识别接口

76 质量分8,963可试用

mukel/llama3.java

llama3.java

单文件 Java 实现的 Llama 3 推理。

76 质量分810可试用

Picovoice/leopard

leopard

Picovoice 的本地离线语音转文字引擎 SDK。

76 质量分479可试用

altunenes/parakeet-rs

parakeet-rs

基于 NVIDIA Parakeet/ONNX 的 Rust 高速语音转写和说话人分离库。

76 质量分288可试用

Frikallo/parakeet.cpp

parakeet.cpp

Parakeet 语音模型的本地 C++ 推理实现。

76 质量分274

deepgram-devs/nextjs-live-transcription

nextjs-live-transcription

Deepgram 实时转写的 Next.js 示例应用。

76 质量分270可试用

MacWarrior/clipbucket-v5

clipbucket-v5

开源视频托管与分享应用。

76 质量分164可试用

Aseiel/VideoHighlighter

VideoHighlighter

VideoHighlighter 是基于本地 Ollama 的视频分析工具，可做画面检索、自动高光和字幕生成。

76 质量分31

leke-adewa/short-video-maker

short-video-maker

用 AI 自动生成 TikTok、YouTube Shorts 和 Reels 竖屏短视频的流水线。

76 质量分27

google-ai-edge/mediapipe

mediapipe

Google 跨平台 ML 媒体处理框架，支持手势/人脸/姿态检测

76 质量分0

abus-aikorea/voice-pro

voice-pro

面向创作者的 AI 语音处理 Gradio WebUI，支持 TTS、翻译和视频处理

76 质量分0

SimonSchubert/Kai

Kai

开源 Android 平台 AI 助手，可在手机上运行本地 AI 对话。

76 质量分0

divamgupta/diffusionbee-stable-diffusion-ui

diffusionbee-stable-diffusion-ui

Diffusion Bee is the easiest way to run Stable Diffusion locally on your M1 Mac. Comes with a one-click installer. No de

75 质量分13,557可试用

pnkvalavala/repochat

repochat

用 RAG 与 GitHub 仓库对话的聊天助手。

75 质量分316可试用

Picovoice/web-voice-processor

web-voice-processor

浏览器实时语音处理的 TypeScript 库。

75 质量分244可试用

AUTOMATIC1111/stable-diffusion-webui

stable-diffusion-webui

经典的 SD Web 界面

75 质量分0

WyattBlue/auto-editor

auto-editor

基于 AI 分析的自动视频编辑工具，消除无声片段

75 质量分0

open-mmlab/Amphion

Amphion

开源的音频、音乐和语音生成工具包

75 质量分0

moonshine-ai/moonshine

moonshine

超低延迟的语音转文本、意图识别和文本转语音

75 质量分0

argmaxinc/argmax-oss-swift

argmax-oss-swift

Apple Silicon 设备上的端侧语音 AI 框架

75 质量分0

GuanYixuan/pyJianYingDraft

pyJianYingDraft

用 Python 自动生成剪映草稿，实现视频剪辑自动化。

75 质量分0

unslothai/unsloth

unsloth

在本地运行和训练文本、音频、嵌入、视觉模型的开源工具

74 质量分0

FireRedTeam/FireRed-OpenStoryline

FireRed-OpenStoryline

开源故事线/剧本生成工具，支持 AI 驱动的内容创作。

74 质量分0

TensorSpeech/TensorFlowTTS

TensorFlowTTS

基于 TensorFlow 的实时语音合成（TTS）工具包，包含多种预训练模型。

74 质量分0

fluxions-ai/vui

vui

开源语音 UI 框架，支持构建语音驱动的 AI 应用。

73 质量分0

THUDM/cogvideo

cogvideo

清华 THUDM 开源的视频生成模型系列

72 质量分0

thinhlpg/vixtts-demo

vixtts-demo

越南语语音克隆 TTS 模型

72 质量分0

SCUTlihaoyu/open-chat-video-editor

open-chat-video-editor

开源短视频 AI 生成和编辑工具

72 质量分0

OpenTalker/video-retalking

video-retalking

通过 AI 技术为视频自动匹配唇形，支持语音到唇形的自动生成。

71 质量分0

SaynaAI/sayna

sayna

开源语音 AI 平台，支持语音识别、语音合成和语音克隆。

71 质量分0

AIGC-Audio/AudioGPT

AudioGPT

AI 音频理解与生成平台

70 质量分0

leejet/stable-diffusion.cpp

stable-diffusion.cpp

纯 C/C++ 实现的扩散模型推理引擎，支持 SD、Flux、Wan 等模型

45 质量分5,997可试用

canopyai/Orpheus-TTS

Orpheus-TTS

追求类人语音效果的开源 TTS 模型

30 质量分6,137可试用

THUDM/CogVideo

CogVideo

清华智谱开源的文本到视频生成模型

30 质量分0可试用

Wan-Video/Wan2.1

Wan2.1

阿里巴巴开源的大规模文本到视频生成模型

30 质量分0可试用

modelscope/DiffSynth-Studio

DiffSynth-Studio

阿里巴巴开源的图像和视频生成扩散模型框架

25 质量分0可试用