用户指南 影视梦工厂 v3.0

四大中心操作指南 · 从创作到多格式分发

🔧 前置条件
  • 系统已启动:后端 API + ComfyUI + Ollama + GPT-SoVITS(从机,可选)
  • 已登录系统(默认管理员 admin / admin123)
  • 已创建或选择一个项目(世界观 World)
  • 各中心独立激活,未激活的中心不会出现在导航中

漫剧制作流程(v2 经典流程,v3 完全兼容)

📝 步骤 1:创建世界观与角色
1.1 进入「世界观」页面,点击「新建世界观」
填写名称(如「太阳系探险」)、描述、类型(科普/科幻/奇幻)
1.2 进入「角色」页面,点击「新建角色」
填写角色信息,上传角色参考音频(用于 GPT-SoVITS 配音克隆)
1.3 至少创建 1-2 个主要角色
🎬 步骤 2:创建剧集与剧本
2.1 进入「剧集」页面,点击「新建剧集」
关联世界观,填写标题和剧情摘要
2.2 进入「剧本」页面,点击「编写剧本」
系统调用 LLM 生成剧本草稿。如需科普模式,先到知识库添加知识点。
2.3 审核并确认剧本内容
💡 科普模式:在知识库中添加科学知识点,编剧时会自动注入到剧本中,实现寓教于乐。
🎥 步骤 3:导演拆镜与资源匹配
3.1 在分镜页面,点击「智能拆镜」
系统自动将剧本段落分解为分镜镜头(Shot),包括镜头类型、运镜、台词、角色定位
3.2 点击「智能匹配资源」
LLM 自动分析每个分镜,匹配需要的场景、角色、道具
3.3 手动检查和补充分镜信息
调整镜头类型、补充缺失的资源关联
3.4 确认所有分镜状态为 confirmed
💡 使用智能匹配可以大幅减少手动操作。系统会分析剧本上下文并推荐最合适的场景和角色。
🖼️ 步骤 4:批量资产生成
4.1 在「资产」页面,点击「生成全部资产」
系统自动批量生成:角色设定图、场景关键帧、所有分镜图片
4.2 等待资产生成完成(ComfyUI 队列逐个处理)
可在任务列表查看每张图片的生成状态
4.3 检查生成结果,对有问题的图片手动重新生成
💡 首次生成会较慢(需加载模型到显存)。后续生成利用 prompt_hash 缓存,相同提示词不重复生成。
🎵 步骤 5:视频生成与配音
5.1 进入「视频」页面,点击「生成分镜视频」
系统用 LTX I2V 将分镜图片转化为短视频片段
5.2 进入「配音」页面,点击「批量生成配音」
系统按角色自动生成配音(GPT-SoVITS 从机执行)
5.3 试听配音效果,可单条重新生成
💡 配音质量取决于角色参考音频的质量。建议上传 10-30 秒清晰人声作为参考。
🎬 步骤 6:口型同步与导出
6.1 进入「后期」页面,点击「口型同步」
MuseTalk 将配音与分镜视频进行口型匹配
6.2 点击「生成字幕」
自动生成 SRT 格式字幕
6.3 点击「导出成片」
选择导出参数(分辨率、格式),系统调用 FFmpeg 合成最终视频
6.4 等待导出完成,下载成片
💡 导出时间取决于剧集长度。一集 5 分钟的动画通常在 3-5 分钟内完成导出。

新增:小说创作指南

📖 1. 从漫剧剧本导入 → 自动分卷
1.1 进入「小说中心」→「新建小说」
选择「从漫剧导入」,关联已有的世界观和剧集
1.2 点击「一键提存剧本」
系统将漫剧剧本自动转化为小说文体,保留角色、剧情和对话结构
1.3 LLM 自动按剧情节奏分卷
每卷对应一个剧情大段落,可手动调整分卷边界
💡 也支持从空白创建小说,完全由 LLM 续写。
📑 2. 查看/编辑卷纲
2.1 在小说详情页点击「卷纲」标签
查看每卷的名称、剧情概要、字数目标和进度
2.2 拖拽排序或点击编辑按钮修改卷信息
支持新增卷、删除卷、合并相邻卷
2.3 确认卷纲后锁定,进入章节创作
💡 建议在卷纲阶段敲定每卷的核心冲突和高潮,为后续生成提供清晰指引。
📄 3. 生成章纲
3.1 进入某卷,点击「批量生成章纲」
系统根据卷纲自动规划该卷的章节列表,每章含概要、预估字数
3.2 检查章纲内容,可手动微调
修改章节标题、概要,或拖拽调整章节顺序
3.3 确认章纲后进入正文创作
💡 章纲越详细,后续生成的正文质量越高。建议每章概要不少于 50 字。
✍️ 4. LLM 正文创作
4.1 选择目标章节,点击「AI 创作正文」
系统使用当前 LLM(可在系统配置中切换)生成正文内容
4.2 支持单章生成或批量生成整卷
批量生成时系统按章纲顺序串行执行,避免上下文断裂
4.3 生成完成后可在线编辑修改
富文本编辑器支持格式化、插图插入、脚注
💡 生成过程中可随时暂停,手动干预后再继续。
5. 一致性检查
5.1 点击「一致性分析」
LLM 自动扫描全篇,检查角色设定、时间线、剧情逻辑是否自洽
5.2 查看检测出的问题列表(角色名字前后不一、时间矛盾等)
每条问题标注原文位置和建议修正
5.3 逐条确认或批量修正
可手动修改或让 LLM 自动修复
💡 建议在每次大篇幅生成后执行一致性检查,避免问题累积。
📤 6. 导出/分发
6.1 点击「导出」选择格式
支持 TXT、EPUB、PDF、Markdown 格式
6.2 配置导出参数
EPUB 可设置封面、作者、目录结构;PDF 可设置页面大小和字体
6.3 点击「导出」开始生成文件
完成后自动下载
6.4 一键分发到已接入的平台
支持番茄小说、微信读书等平台的 API 接入(需在系统设置中配置密钥)
💡 EPUB 格式兼容性最好,推荐作为默认导出格式。

新增:广播剧制作指南

🎙️ 1. 从漫剧/小说导入脚本
1.1 进入「广播剧中心」→「新建广播剧」
选择「从漫剧导入」或「从小说导入」
1.2 选择来源项目
从漫剧导入:选择世界观、剧集,自动提取剧本台词和角色对应关系
从小说导入:选择小说卷/章,LLM 自动提取对话和叙述部分,生成配音脚本
1.3 审核导入的脚本
确认角色台词分段正确,可手动调整脚本结构
💡 从小说导入时,叙述部分会被自动标注为「旁白」角色。
👥 2. 角色分配与声音复用
2.1 在「角色分配」页面查看自动匹配的角色列表
系统根据来源自动建立角色与声音的映射
2.2 为每个角色选择音色
复用已有角色的参考音频,或上传新的参考音频
2.3 支持「声音复用池」
同一角色在不同剧集/项目中的声音设置自动同步,避免重复配置
2.4 试听音色样本,确认后锁定分配
💡 声音复用池按角色 ID 关联,跨项目同名角色自动复用,无需重新配置。
🔊 3. 配音生成(GPT-SoVITS)
3.1 进入「配音」页面,点击「批量生成」
系统按角色分配逐句调用 GPT-SoVITS 生成配音
3.2 在任务队列查看生成进度
支持并行生成(多从机)/ 串行生成(单机)
3.3 试听每条配音,可单独重新生成
点击波形图可定位到对应台词
3.4 调整语速、音调参数
支持每句独立微调或批量统一调整
💡 如 GPT-SoVITS 从机离线,系统自动降级为 Edge-TTS 生成。
🎶 4. 音效/BGM 编排
4.1 进入「音轨编排」页面
可视化时间轴,包含配音轨、音效轨、BGM 轨
4.2 点击「智能推荐音效」
LLM 分析脚本场景,推荐匹配的背景音效(脚步、门铃、风雨等)
4.3 拖拽音效/音乐片段到时间轴
支持从音效库选择或上传自定义音效
4.4 调整音量和淡入淡出
每条轨道可独立调节音量、添加效果(混响、均衡器)
💡 音效库持续更新中,你也可以上传自己的音效素材扩充音效库。
🎛️ 5. 混音合成
5.1 点击「混音预览」
实时合成当前时间轴的音频,支持从头或当前位置播放
5.2 调整各轨道最终音量比例
拖动推子调整配音、音效、BGM 的混合比例
5.3 点击「导出混音」
系统调用 FFmpeg 合成最终音频文件
5.4 预览最终结果,确认后完成
💡 混音前建议使用「母带处理」功能自动均衡响度。
📀 6. 导出
6.1 点击「导出」选择格式
支持 MP3、WAV、FLAC、M4A 格式
6.2 配置导出参数
采样率(44.1kHz/48kHz)、比特率(128kbps/192kbps/320kbps)
6.3 点击「导出」开始生成
完成后自动下载
💡 推荐 MP3 320kbps 作为通用分发格式,FLAC 用于存档。

新增:数字人创建指南

👤 1. 创建数字人形象
1.1 进入「数字人中心」→「形象管理」→「新建形象」
选择形象类型:照片转数字人 / 从零生成(AI 绘图)
1.2 照片转数字人
上传一张正面清晰照片,系统自动提取面部特征,生成 3D 可驱动模型
1.3 AI 绘图生成
输入描述词,系统调用 Stable Diffusion 生成虚拟形象,支持多风格(写实/二次元/3D)
1.4 调整面部参数
支持微调脸型、五官比例、肤色等参数
💡 照片建议光线均匀、正面免冠、表情自然,背景简洁。
🎤 2. 绑定声音
2.1 在形象详情页点击「绑定声音」
从声音复用池选择已有角色声音,或上传新的参考音频
2.2 选择声音类型
系统内置声音 / 自定义克隆声音(需提供参考音频)
2.3 试听绑定效果
系统生成一段测试视频,预览声音与形象匹配度
2.4 确认绑定
💡 声音风格建议与形象气质相符,避免违和感。
📝 3. 口播脚本编写/导入
3.1 进入「口播」页面,点击「新建口播」
选择关联的数字人形象
3.2 编写脚本
直接输入文本,或使用 LLM 辅助生成(输入主题大纲,自动生成完整脚本)
3.3 导入已有脚本
支持从漫剧剧本、小说章节、广播剧脚本导入口播文本
3.4 编辑和分段
标注段落情感(高兴/严肃/悲伤),影响表情生成
💡 分段落标注情感可以生成更丰富的表情变化,让数字人更自然。
🎥 4. 口型同步视频生成
4.1 点击「生成口播视频」
系统按脚本段落依次处理:TTS 转语音 → 口型驱动(MuseTalk)→ 合成视频
4.2 在任务列表查看生成进度
每个段落独立生成,支持按段落重试
4.3 预览生成的视频片段
检查口型同步精度、表情自然度
4.4 对有问题的段落重新生成或手动修正
💡 脚本越长生成时间越长。建议每段控制在 200 字以内以获得最佳效果。
📤 5. 导出
5.1 点击「合并导出」
将所有视频段落按顺序合并为一个完整视频
5.2 选择导出参数
分辨率(1080p/720p)、格式(MP4/MOV)、背景替换(绿幕/透明/自定义背景)
5.3 点击「导出」
合成完成后自动下载
5.4 一键上传到视频平台
支持抖音、B站、YouTube 等平台的 API 发布(需在系统设置中配置账号)
💡 绿幕模式导出后可在其他视频编辑软件中自由合成背景。

新增:跨中心操作指南

🔄 漫剧 → 小说:一键剧本提存
1 在小说中心选择「从漫剧导入」
选择世界观和剧集,系统自动提取剧本文本
2 LLM 将剧本对话格式转化为小说叙述文体
保留全部剧情和角色,增加环境描写和心理活动
3 自动分卷完成后即可进入小说创作流程
💡 剧本提存后建议运行一致性检查,确保角色名字和设定在小说化过程中未丢失。
🔄 小说 → 漫剧:小说改编漫剧
1 在漫剧中心的「剧本」页面选择「从小说导入」
选择小说,选取要改编的卷/章
2 LLM 自动提取对话和场景描述,生成剧本格式
旁白转换为场景描述和分镜说明
3 生成剧本后进入常规漫剧制作流程(拆镜 → 资产 → 视频 → 配音 → 导出)
💡 小说改编漫剧时,建议优先选择对话密集的章节,改编效果更好。
🔄 漫剧 → 广播剧:提取配音
1 在广播剧中心选择「从漫剧导入」
选择剧集,系统自动提取台词和角色映射
2 声音复用池自动匹配已有的角色声音
已有配音的台词可直接复用音频,无需重新生成
3 进入音效编排和混音流程
💡 漫剧的配音片段可直接复用,大幅减少广播剧制作时间。
🔄 任意 → 数字人:口播提取
1 在数字人中心的口播页面选择「从其他中心导入」
支持从漫剧剧本、小说章节、广播剧脚本导入文本
2 系统自动提取纯文本内容,过滤舞台指示和场景描述
可选择保留或丢弃角色名标注
3 选择数字人形象,绑定声音后直接生成口播视频
💡 跨中心导入时,系统自动转换格式,无需人工调整脚本结构。
常见问题
Q: v2 的漫剧项目能否在 v3 中使用?
完全兼容。v2 的所有项目数据自动迁移到 v3,漫剧流程不变,新增中心独立激活。
Q: 科普模式如何开启?
在知识库中添加知识点(标题+内容),编写剧本时系统会自动提取相关知识点注入到剧本中。
Q: 可以中途切换 LLM 模型吗?
可以在系统配置中切换 LLM 模型(qwen3:14b / deepseek-r1:14b / qwen3.5:9b),切换后新任务使用新模型,已有任务不受影响。
Q: 中心之间数据互通吗?
数据完全互通。漫剧、小说、广播剧、数字人四大中心共享世界观、角色、声音复用池。一个中心创建的角色可在其他中心直接使用。
Q: 从机无法连接怎么办?
系统自动降级为单机模式。配音使用 Edge-TTS,口型使用 LivePortrait CPU 模式(较慢),显存不足时自动切换模型精度。
Q: 生成失败如何排查?
检查 ComfyUI 是否运行,查看后端日志获取详细错误信息,确认 GPU 显存是否充足。数字人和广播剧生成失败建议先检查参考音频是否有效。
Q: 数字人的声音可以商用吗?
克隆声音的版权归参考音频版权方所有,请确保拥有参考音频的合法使用权。系统内置声音可免费商用。