影视梦工厂 v3 平台工作流

四中心协同 · 统一资源池 · 跨格式互通 · 一次创作,多形态输出

登录 → 工作台 → 四大业务中心 + 五大统一资源库 → 跨中心数据互通

🏗 平台总体结构
用户登录 工作台首页
漫剧中心 小说中心 广播剧中心 数字人中心
五大统一资源库(所有中心共享)
统一项目库跨中心项目总览 统一角色库角色跨中心复用 统一剧本库多格式剧本互转 统一素材库图片/音频/视频共享 统一任务中心全平台任务看板
🔗 中心间关联总则
漫剧中心是内容源头 → 小说/广播剧/数字人中心均可从漫剧剧本/角色/声音衍生
小说中心可反向输出 → 小说改编为漫剧剧本/广播剧剧本,形成创作闭环
统一角色库是所有中心的"角色主数据" → 任一中心创建的角色可被其他中心引用
统一剧本库记录 format_type → 同一故事可有漫剧/小说/广播剧/口播四种格式版本
数字人中心共享 LLM 模型池 → 不额外部署新模型,复用现有 Ollama 服务
硬件架构
主机 (2080 Ti 22GB) 主力
CPU: i9 · RAM: 32GB · 系统: Windows
ComfyUI (图/视频) Ollama (LLM) 后端 API + 前端 小说生成 数字人推理
从机 (3060 12GB) 待部署
CPU: 7400 · RAM: 16GB · 系统: Windows
GPT-SoVITS (配音) MuseTalk (口型) 广播剧音频合成
Phase 0 · 统一平台基座
0 登录 → 工作台 → 统一资源库 全平台

用户登录进入工作台首页,看到四大业务中心入口。底部五大统一资源库提供跨中心数据共享。

统一项目库
所有中心的项目统一管理。一个项目可同时产出漫剧、小说、广播剧、数字人内容。
统一角色库
角色定义跨中心复用。漫剧角色可直接用于广播剧配音分配和数字人形象绑定。
统一剧本库
剧本独立存储(Script 表),带 format_type 标记。支持一键转换为其他格式。
统一素材库
图片、音频、视频资产跨中心共享。漫剧配音资产可直接用于广播剧。
统一任务中心
全平台任务统一看板。生成、审核、导出任务集中管理和状态跟踪。
Phase 1 · 漫剧中心
漫剧中心 – 完整动画制作流水线 主机

从剧本到成片的完整漫剧流水线,保留 v2 全部核心能力。

剧本 导演拆镜 资源匹配 资产生成 视频生成 配音 口型同步 字幕导出
⚠ 约束条件
ComfyUI 队列一次一任务,图片生成需排队等待,避免 OOM
从机未就绪时配音自动降级 Edge-TTS,口型降级 LivePortrait CPU 模式
PT-Hiro 模型精度要求:分镜一致性依赖角色设定图质量
prompt_hash 缓存:相同提示词不重复生成,节约 ComfyUI 负载
🔗 关联其他中心
→ 小说中心 漫剧剧本提存改编为小说正文(保留对白→叙述转化)
→ 广播剧中心 漫剧配音音频直接复用为广播剧角色声音
→ 数字人中心 漫剧角色设定图可转为数字人形象资产
← 小说中心 小说章节可反向改编为漫剧剧本
📤 提供给统一资源库
统一剧本库:format_type=comic 的完整剧本
统一角色库:角色定义(含 ref_audio 声音样本)
统一素材库:角色图/场景图/分镜视频/配音音频/道具图
Phase 2 · 小说中心
小说中心 – 从剧本到长篇小说 主机

基于漫剧剧本或原创设定,自动生成长篇小说。支持卷纲→章纲→正文逐级展开。

剧本/设定 卷纲生成 章纲生成 LLM 正文创作 一致性检查 导出
📖 小说层级
卷 (Volume) → 章 (Chapter) → 节 (Section)
漫剧剧本导入 → 自动分卷分章
原创小说支持从零开始 LLM 创作
⚠ 约束条件
LLM 正文生成需分段执行(单次调用约 2000 tokens),长篇小说需多次迭代
从漫剧剧本提存时,需要剧本已完成并标记为 confirmed 状态
一致性检查依赖 DeepSeek-R1:14B 推理模型,需该模型已加载
正文质量受提示词工程影响,建议逐章审核后再批量生成
🔗 关联其他中心
← 漫剧中心 导入漫剧剧本作为小说创作底本
→ 漫剧中心 小说正文反向改编为漫剧分镜剧本
→ 广播剧中心 小说章节转广播剧脚本(对白+旁白+音效提示)
→ 数字人中心 小说关键段落提取为数字人口播脚本
📤 提供给统一资源库
统一剧本库:format_type=novel 的完整小说章节
统一任务中心:正文生成任务/一致性检查任务
Phase 3 · 广播剧中心
广播剧中心 – 沉浸式听觉体验 主机 + 从机

将剧本/小说转化为多角色广播剧。复用漫剧角色声音,自动分配配音/旁白/音效/BGM。

剧本导入 角色分配 配音生成 音效制作 BGM 配乐 混音合成 导出
⚠ 约束条件
GPT-SoVITS 高质量配音依赖从机 3060 GPU,从机未交付时降级 Edge-TTS
角色声音复用前提:该角色在漫剧中心已上传 ref_audio 参考音频
混音导出对音频时长有限制,单集推荐 < 30 分钟
BGM/音效库需预先导入,平台提供基础素材包
🔗 关联其他中心
← 漫剧中心 导入角色配音资产(直接引用 asset_id)
← 漫剧中心 导入剧本提取对白+旁白+场景转换提示
← 小说中心 小说章节自动解析为广播剧脚本
→ 数字人中心 广播剧角色声音可绑定到数字人
📥 输入来源 / 📤 输出
统一角色库:选取角色分配对白和旁白演员
统一素材库:漫剧配音资产直接引用;音效/BGM 素材统一管理
统一剧本库:format_type=audio_drama 的广播剧脚本
输出至统一素材库:最终混音音频文件(MP3/WAV/FLAC)
Phase 4 · 数字人中心
数字人中心 – AI 数字分身 主机

创建数字人形象,绑定声音和口播脚本,生成口型同步视频。共享现有 LLM 大模型进行内容生成。

形象创建 声音绑定 口播脚本 LLM 生成 语音生成 口型同步 视频导出
⚠ 约束条件
不额外部署新 LLM,共享现有 Ollama 服务(Qwen3:14B / DeepSeek-R1:14B)
口型同步依赖 From机 MuseTalk 或主机 LivePortrait(CPU 模式较慢)
数字人形象生成依赖 ComfyUI FLUX 模型,与漫剧中心共享队列
声音绑定需要角色已有 GPT-SoVITS 参考音频或上传新样本
🔗 关联其他中心
← 漫剧中心 角色设定图复用为数字人形象基础
← 漫剧中心 GPT-SoVITS 角色声音绑定到数字人
← 广播剧中心 广播剧角色声音也可绑定到数字人
← 小说中心 小说段落提取为口播脚本素材
📥 模型与资源共享明细
LLM 模型池(全平台共享):Qwen3:14B → 口播脚本/知识问答/内容创作
LLM 模型池(全平台共享):DeepSeek-R1:14B → 逻辑推理/一致性检查
ComfyUI 队列(与漫剧中心共享):FLUX 形象生成 + MuseTalk 口型同步
GPT-SoVITS 服务(与漫剧/广播剧共享):角色语音合成
统一角色库:读取角色形象设定和声音引用
Phase 5 · 跨中心数据流
一次创作,多形态输出

核心差异化能力:任何格式的创作成果均可转化为其他格式,实现最大化的内容复用。

漫剧 → 小说
转化方式:LLM 解析剧本段落(对白+场景描述+动作),重写为小说叙述体
前提条件:漫剧剧本必须已完成拆镜并标记为 confirmed
约束:剧本中缺少的角色内心描写,LLM 需根据角色设定自动补全
关联:转化后的小说自动关联源剧本的 script_id,存入 ScriptConversion 表
漫剧 → 广播剧
转化方式:提取对白→角色配音,场景描述→音效提示,节奏标注→BGM 配乐方案
前提条件:角色需在统一角色库中已有 ref_audio 或漫剧配音资产可引用
约束:纯视觉镜头(如"全景展示城市天际线")需 LLM 转换为听觉描述或音效
关联:配音直接引用 asset_id,不重新生成,节约算力
小说 → 漫剧
转化方式:LLM 分析叙述段落→场景分镜,对话段落→角色对白+镜头类型
前提条件:小说需至少有完整的一章正文(建议 > 3000 字以保证质量)
约束:小说中未明确写明的视觉细节(角色长相/场景布局)需从统一角色库补全
关联:生成漫剧剧本后,自动进入漫剧中心 Phase 1 导演拆镜流程
小说 → 广播剧
转化方式:提取引号内对话→角色对白,叙述段落→旁白,场景描写→音效/BGM 生成
前提条件:小说中的角色需映射到统一角色库中的现有角色或新建角色
约束:第一人称小说需 LLM 转换为第三人称旁白以适应广播剧
关联:角色分配后自动匹配漫剧中心已有的声音资产
任意剧本 → 数字人口播
转化方式:LLM 从剧本/小说中提取适合口播的段落→口播脚本→语音→口型视频
前提条件:目标数字人已完成形象创建和声音绑定
约束:口播脚本需要人工审核调整,LLM 提取可能遗漏关键上下文
关联:口型视频生成复用漫剧中心的 ComfyUI MuseTalk 工作流
角色 / 声音共享
共享范围:角色定义(形象+性格+背景)跨漫剧/广播剧/数字人三中心共用
声音资产:漫剧角色 GPT-SoVITS 配音音频 → 广播剧直接引用 asset_id
约束:同一角色在不同中心的声音风格须保持一致(使用同一 ref_audio)
关联:统一角色库中的 voice_ref 字段记录角色声音样本路径
跨中心数据流总图
漫剧剧本 小说正文 广播剧音轨 数字人视频
统一角色库 漫剧角色 广播剧角色 数字人形象
统一素材库 漫剧配音 广播剧复用
统一大模型池 Qwen3:14B 小说生成 广播剧脚本 数字人口播
全平台约束汇总
⚠ 跨中心约束总表
硬件依赖:从机 3060 12GB 未交付 → 广播剧 GPT-SoVITS 配音 / 数字人 MuseTalk 口型暂不可用,自动降级
数据依赖:小说/广播剧/数字人从漫剧衍生时,漫剧剧本必须处于 confirmed 已完成状态
声音一致性:同一角色在漫剧/广播剧/数字人中使用同一份 ref_audio,否则音色不一致
LLM 负载:Qwen3:14B 承担四个中心的文本生成任务,高并发时需排队,建议设置任务队列优先级
ComfyUI 瓶颈:漫剧资产生成 + 数字人形象生成 + 口型同步共享同一队列,互相排队
格式转换质量:LLM 格式互转后需要人工审核,尤其小说→漫剧的镜头拆分需要导演 Agent 二次处理