大模型清单 影视梦工厂 v3.0

系统使用的大模型清单 · 本地/云端 · 模型/用途/备注 · 全四中心共享同一 LLM 池
5
LLM
3
图像模型
2
视频模型
2
音频模型
2
口型模型
2
工具/编码器

LLM 本地 · Ollama · 剧本/审核/知识

Qwen3:14B
LLM
最新主力模型。剧本生成、导演分镜、角色塑造、知识增强、Prompt 优化。平衡性能与质量的最佳选择。
Ollama
DeepSeek-R1:14B
LLM
推理模型。连续性检查、逻辑验证、科学知识推理、复杂约束求解。用于需要深度推理的任务。
Ollama
Qwen3.5:9B
LLM
备用轻量模型。快速任务、简单生成、批量处理。当主力模型负载高时自动降级。
Ollama

图像模型 本地 · ComfyUI · 资产/场景/道具

FLUX.1-dev
图像
主力文生图模型。角色设定图、场景关键帧、道具设计。支持 fp8 量化高效推理。
ComfyUI
SDXL
图像
备用图像模型。LoRA 适配、风格迁移。主力模型不支持的场景时降级使用。
ComfyUI
FLUX.1-fill-dev
图像
图像修补模型。扩展图像、修复局部、替换画面元素。
ComfyUI

视频模型 本地 · ComfyUI · 分镜动画

LTX-Video I2V
视频
图生视频模型。将分镜源图转化为短视频片段(约 5 秒),支持运动控制和相机轨迹。
ComfyUI
CogVideoX-5B-I2V
视频
备选图生视频。更长视频生成、风格更多样。LTX 无法满足时使用。
ComfyUI

音频模型 本地 · 外置服务 · 配音

GPT-SoVITS
音频
语音克隆与生成。角色配音、情感控制、语音合成。使用角色参考音频进行零样本克隆。
外置服务
Edge-TTS
音频
备用 TTS。快速语音生成,无需额外部署。用于临时配音和预览。
内置

口型模型 本地/云端 · 口型同步

MuseTalk
口型
目标口型模型。实时口型同步,仅修改嘴部区域,保持面部原始特征。ComfyUI 节点可用。
ComfyUI
LivePortrait
口型
视频驱动面部动画。用驱动视频控制角色视频的面部姿态和表情。备选口型方案。
本地 ONNX

工具 / 编码器 本地 · 基础能力

FFmpeg
工具
媒体处理核心。视频/音频拼接、格式转换、混音、字幕叠加、缩放。全部媒体操作的基础工具。
系统工具
Ollama
工具
LLM 推理服务器。管理所有本地 LLM 的加载、推理、切换。提供 OpenAI 兼容 API。
本地服务