影视梦工厂 v3 平台工作流

四中心协同 · 统一资源池 · 跨格式互通 · 一次创作，多形态输出

🏗 平台总体结构

用户登录 → 工作台首页

漫剧中心 ⇄ 小说中心 ⇄ 广播剧中心 ⇄ 数字人中心

五大统一资源库（所有中心共享）

统一项目库跨中心项目总览统一角色库角色跨中心复用统一剧本库多格式剧本互转统一素材库图片/音频/视频共享统一任务中心全平台任务看板

🔗 中心间关联总则

漫剧中心是内容源头 → 小说/广播剧/数字人中心均可从漫剧剧本/角色/声音衍生

小说中心可反向输出 → 小说改编为漫剧剧本/广播剧剧本，形成创作闭环

统一角色库是所有中心的"角色主数据" → 任一中心创建的角色可被其他中心引用

统一剧本库记录 format_type → 同一故事可有漫剧/小说/广播剧/口播四种格式版本

数字人中心共享 LLM 模型池 → 不额外部署新模型，复用现有 Ollama 服务

硬件架构

主机 (2080 Ti 22GB) 主力

CPU: i9 · RAM: 32GB · 系统: Windows

ComfyUI (图/视频) Ollama (LLM) 后端 API + 前端小说生成数字人推理

从机 (3060 12GB) 待部署

CPU: 7400 · RAM: 16GB · 系统: Windows

GPT-SoVITS (配音) MuseTalk (口型) 广播剧音频合成

Phase 0 · 统一平台基座

0 登录 → 工作台 → 统一资源库全平台

用户登录进入工作台首页，看到四大业务中心入口。底部五大统一资源库提供跨中心数据共享。

统一项目库

所有中心的项目统一管理。一个项目可同时产出漫剧、小说、广播剧、数字人内容。

统一角色库

角色定义跨中心复用。漫剧角色可直接用于广播剧配音分配和数字人形象绑定。

统一剧本库

剧本独立存储（Script 表），带 format_type 标记。支持一键转换为其他格式。

统一素材库

图片、音频、视频资产跨中心共享。漫剧配音资产可直接用于广播剧。

统一任务中心

全平台任务统一看板。生成、审核、导出任务集中管理和状态跟踪。

Phase 1 · 漫剧中心

漫漫剧中心 – 完整动画制作流水线主机

从剧本到成片的完整漫剧流水线，保留 v2 全部核心能力。

剧本 → 导演拆镜 → 资源匹配 → 资产生成 → 视频生成 → 配音 → 口型同步 → 字幕导出

⚠ 约束条件

ComfyUI 队列一次一任务，图片生成需排队等待，避免 OOM

从机未就绪时配音自动降级 Edge-TTS，口型降级 LivePortrait CPU 模式

PT-Hiro 模型精度要求：分镜一致性依赖角色设定图质量

prompt_hash 缓存：相同提示词不重复生成，节约 ComfyUI 负载

🔗 关联其他中心

→ 小说中心漫剧剧本提存改编为小说正文（保留对白→叙述转化）

→ 广播剧中心漫剧配音音频直接复用为广播剧角色声音

→ 数字人中心漫剧角色设定图可转为数字人形象资产

← 小说中心小说章节可反向改编为漫剧剧本

📤 提供给统一资源库

统一剧本库：format_type=comic 的完整剧本

统一角色库：角色定义（含 ref_audio 声音样本）

统一素材库：角色图/场景图/分镜视频/配音音频/道具图

Phase 2 · 小说中心

小小说中心 – 从剧本到长篇小说主机

基于漫剧剧本或原创设定，自动生成长篇小说。支持卷纲→章纲→正文逐级展开。

剧本/设定 → 卷纲生成 → 章纲生成 → LLM 正文创作 → 一致性检查 → 导出

📖 小说层级

卷 (Volume) → 章 (Chapter) → 节 (Section)

漫剧剧本导入 → 自动分卷分章

原创小说支持从零开始 LLM 创作

⚠ 约束条件

LLM 正文生成需分段执行（单次调用约 2000 tokens），长篇小说需多次迭代

从漫剧剧本提存时，需要剧本已完成并标记为 confirmed 状态

一致性检查依赖 DeepSeek-R1:14B 推理模型，需该模型已加载

正文质量受提示词工程影响，建议逐章审核后再批量生成

🔗 关联其他中心

← 漫剧中心导入漫剧剧本作为小说创作底本

→ 漫剧中心小说正文反向改编为漫剧分镜剧本

→ 广播剧中心小说章节转广播剧脚本（对白+旁白+音效提示）

→ 数字人中心小说关键段落提取为数字人口播脚本

📤 提供给统一资源库

统一剧本库：format_type=novel 的完整小说章节

统一任务中心：正文生成任务/一致性检查任务

Phase 3 · 广播剧中心

声广播剧中心 – 沉浸式听觉体验主机 + 从机

将剧本/小说转化为多角色广播剧。复用漫剧角色声音，自动分配配音/旁白/音效/BGM。

剧本导入 → 角色分配 → 配音生成 → 音效制作 → BGM 配乐 → 混音合成 → 导出

⚠ 约束条件

GPT-SoVITS 高质量配音依赖从机 3060 GPU，从机未交付时降级 Edge-TTS

角色声音复用前提：该角色在漫剧中心已上传 ref_audio 参考音频

混音导出对音频时长有限制，单集推荐 < 30 分钟

BGM/音效库需预先导入，平台提供基础素材包

🔗 关联其他中心

← 漫剧中心导入角色配音资产（直接引用 asset_id）

← 漫剧中心导入剧本提取对白+旁白+场景转换提示

← 小说中心小说章节自动解析为广播剧脚本

→ 数字人中心广播剧角色声音可绑定到数字人

📥 输入来源 / 📤 输出

统一角色库：选取角色分配对白和旁白演员

统一素材库：漫剧配音资产直接引用；音效/BGM 素材统一管理

统一剧本库：format_type=audio_drama 的广播剧脚本

输出至统一素材库：最终混音音频文件（MP3/WAV/FLAC）

Phase 4 · 数字人中心

人数字人中心 – AI 数字分身主机

创建数字人形象，绑定声音和口播脚本，生成口型同步视频。共享现有 LLM 大模型进行内容生成。

形象创建 → 声音绑定 → 口播脚本 → LLM 生成 → 语音生成 → 口型同步 → 视频导出

⚠ 约束条件

不额外部署新 LLM，共享现有 Ollama 服务（Qwen3:14B / DeepSeek-R1:14B）

口型同步依赖 From机 MuseTalk 或主机 LivePortrait（CPU 模式较慢）

数字人形象生成依赖 ComfyUI FLUX 模型，与漫剧中心共享队列

声音绑定需要角色已有 GPT-SoVITS 参考音频或上传新样本

🔗 关联其他中心

← 漫剧中心角色设定图复用为数字人形象基础

← 漫剧中心 GPT-SoVITS 角色声音绑定到数字人

← 广播剧中心广播剧角色声音也可绑定到数字人

← 小说中心小说段落提取为口播脚本素材

📥 模型与资源共享明细

LLM 模型池（全平台共享）：Qwen3:14B → 口播脚本/知识问答/内容创作

LLM 模型池（全平台共享）：DeepSeek-R1:14B → 逻辑推理/一致性检查

ComfyUI 队列（与漫剧中心共享）：FLUX 形象生成 + MuseTalk 口型同步

GPT-SoVITS 服务（与漫剧/广播剧共享）：角色语音合成

统一角色库：读取角色形象设定和声音引用

Phase 5 · 跨中心数据流

⇄ 一次创作，多形态输出

核心差异化能力：任何格式的创作成果均可转化为其他格式，实现最大化的内容复用。

漫剧 → 小说

转化方式：LLM 解析剧本段落（对白+场景描述+动作），重写为小说叙述体

前提条件：漫剧剧本必须已完成拆镜并标记为 confirmed

约束：剧本中缺少的角色内心描写，LLM 需根据角色设定自动补全

关联：转化后的小说自动关联源剧本的 script_id，存入 ScriptConversion 表

漫剧 → 广播剧

转化方式：提取对白→角色配音，场景描述→音效提示，节奏标注→BGM 配乐方案

前提条件：角色需在统一角色库中已有 ref_audio 或漫剧配音资产可引用

约束：纯视觉镜头（如"全景展示城市天际线"）需 LLM 转换为听觉描述或音效

关联：配音直接引用 asset_id，不重新生成，节约算力

小说 → 漫剧

转化方式：LLM 分析叙述段落→场景分镜，对话段落→角色对白+镜头类型

前提条件：小说需至少有完整的一章正文（建议 > 3000 字以保证质量）

约束：小说中未明确写明的视觉细节（角色长相/场景布局）需从统一角色库补全

关联：生成漫剧剧本后，自动进入漫剧中心 Phase 1 导演拆镜流程

小说 → 广播剧

转化方式：提取引号内对话→角色对白，叙述段落→旁白，场景描写→音效/BGM 生成

前提条件：小说中的角色需映射到统一角色库中的现有角色或新建角色

约束：第一人称小说需 LLM 转换为第三人称旁白以适应广播剧

关联：角色分配后自动匹配漫剧中心已有的声音资产

任意剧本 → 数字人口播

转化方式：LLM 从剧本/小说中提取适合口播的段落→口播脚本→语音→口型视频

前提条件：目标数字人已完成形象创建和声音绑定

约束：口播脚本需要人工审核调整，LLM 提取可能遗漏关键上下文

关联：口型视频生成复用漫剧中心的 ComfyUI MuseTalk 工作流

角色 / 声音共享

共享范围：角色定义（形象+性格+背景）跨漫剧/广播剧/数字人三中心共用

声音资产：漫剧角色 GPT-SoVITS 配音音频 → 广播剧直接引用 asset_id

约束：同一角色在不同中心的声音风格须保持一致（使用同一 ref_audio）

关联：统一角色库中的 voice_ref 字段记录角色声音样本路径

跨中心数据流总图

漫剧剧本 → 小说正文 ↔ 广播剧音轨 → 数字人视频

统一角色库 → 漫剧角色 → 广播剧角色 → 数字人形象

统一素材库 → 漫剧配音 → 广播剧复用

统一大模型池 → Qwen3:14B → 小说生成广播剧脚本数字人口播

全平台约束汇总

⚠ 跨中心约束总表

硬件依赖：从机 3060 12GB 未交付 → 广播剧 GPT-SoVITS 配音 / 数字人 MuseTalk 口型暂不可用，自动降级

数据依赖：小说/广播剧/数字人从漫剧衍生时，漫剧剧本必须处于 confirmed 已完成状态

声音一致性：同一角色在漫剧/广播剧/数字人中使用同一份 ref_audio，否则音色不一致

LLM 负载：Qwen3:14B 承担四个中心的文本生成任务，高并发时需排队，建议设置任务队列优先级

ComfyUI 瓶颈：漫剧资产生成 + 数字人形象生成 + 口型同步共享同一队列，互相排队

格式转换质量：LLM 格式互转后需要人工审核，尤其小说→漫剧的镜头拆分需要导演 Agent 二次处理