Pixelle-Video的厉害之处,在于把复杂的视频制作拆解成“全自动流水线”,每一步都不用你操心
发布时间:2026-01-20 点击数:2
Pixelle-Video的厉害之处,在于把复杂的视频制作拆解成“全自动流水线”,每一步都不用你操心
Pixelle-Video 项目深度理解
项目概述
Pixelle-Video 是一个AI驱动的全自动短视频生成引擎,只需输入一个主题,就能自动生成完整的视频内容,包括文案撰写、AI配图、语音解说、背景音乐和视频合成。
核心架构
1. 整体架构
项目采用分层架构设计:
- Web层:Streamlit Web界面
- 服务层:核心业务逻辑
- ComfyUI层:图像和TTS生成
- API层:FastAPI REST API
2. 核心组件
PixelleVideoCore (核心服务类)
这是整个系统的核心协调者,统一访问所有功能:
- 统一管理配置
- 协调LLM、TTS、媒体生成等服务
- 管理视频生成管道
- 提供ComfyKit实例管理(懒加载和配置热重载)
服务层组件
- LLM服务:使用OpenAI SDK,支持各种兼容OpenAI的模型(GPT、通义千问、DeepSeek、Ollama等)
- TTS服务:支持本地Edge TTS和ComfyUI工作流
- 媒体服务:基于ComfyUI的工作流,支持图像和视频生成
- 视频服务:基于FFmpeg的视频处理,包括拼接、合并、BGM添加等
- 帧处理器:处理单帧的完整流程(TTS→图像生成→帧合成→视频片段)
3. 视频生成管道
标准管道 (StandardPipeline)
实现完整的视频生成流程:
- 标题生成或确定
- 文案生成(从主题或固定脚本)
- 图像提示词生成
- 逐帧处理:
- 语音合成(TTS)
- 图像/视频生成
- 帧合成(添加字幕)
- 视频片段创建
- 视频拼接
- 添加背景音乐(可选)
其他管道
- 自定义管道:为用户自定义逻辑提供模板
- 基于素材的管道:支持用户上传自己的照片和视频
4. 技术特性
AI模型支持
- 支持各种OpenAI兼容的LLM(GPT、通义千问、DeepSeek、Ollama等)
- 支持多种TTS方案(Edge-TTS、Index-TTS等)
- 支持本地ComfyUI和云端RunningHub
模板系统
- 支持多种HTML视频模板(静态、图像、视频类型)
- 不同尺寸支持(竖屏、横屏、方形)
- 模板参数自定义
并发处理
- 对于RunningHub工作流,支持并发处理
- 配置中可设置并发限制
配置管理
- 统一的配置管理系统
- 支持热重载配置变更
5. Web界面
- Streamlit构建的现代化Web界面
- 三栏布局:内容输入、语音/视觉设置、视频生成
- 支持系统配置、内容输入、语音设置、视觉设置等功能
6. API接口
- 提供Python SDK和HTTP REST API
- 支持同步和异步视频生成
- 任务管理和进度跟踪
7. 工作流系统
- 基于ComfyUI的工作流系统
- 支持图像生成、视频生成、TTS等工作流
- 本地部署和云端(RunningHub)双重支持
8. 数据持久化
- 生成的视频保存在output/文件夹
- 任务元数据和故事板持久化存储
- 历史记录管理
项目特色
- 全流程自动化:从文本输入到视频输出全程自动化
- 灵活性强:支持多种AI模型、模板和工作流
- 成本控制:支持本地部署(完全免费)和云端方案
- 易用性高:提供Web界面,无需专业视频编辑技能
- 扩展性强:模块化设计,易于添加新功能和管道
- 并发处理:支持RunningHub并发处理,提高生成效率
这个项目是一个功能完备的AI视频生成解决方案,通过模块化设计实现了从文案生成到最终视频输出的完整流程。