用户指南 - AI漫剧·数字人·AI小说·AI有声剧

🔧 前置条件

系统已启动：后端 API + ComfyUI + Ollama + GPT-SoVITS（从机，可选）
已登录系统（默认管理员 admin / admin123）
已创建或选择一个项目（世界观 World）
各中心独立激活，未激活的中心不会出现在导航中

📝 步骤 1：创建世界观与角色

1.1 进入「世界观」页面，点击「新建世界观」

填写名称（如「太阳系探险」）、描述、类型（科普/科幻/奇幻）

1.2 进入「角色」页面，点击「新建角色」

填写角色信息，上传角色参考音频（用于 GPT-SoVITS 配音克隆）

1.3 至少创建 1-2 个主要角色

🎬 步骤 2：创建剧集与剧本

2.1 进入「剧集」页面，点击「新建剧集」

关联世界观，填写标题和剧情摘要

2.2 进入「剧本」页面，点击「编写剧本」

系统调用 LLM 生成剧本草稿。如需科普模式，先到知识库添加知识点。

2.3 审核并确认剧本内容

💡 科普模式：在知识库中添加科学知识点，编剧时会自动注入到剧本中，实现寓教于乐。

🎥 步骤 3：导演拆镜与资源匹配

3.1 在分镜页面，点击「智能拆镜」

系统自动将剧本段落分解为分镜镜头（Shot），包括镜头类型、运镜、台词、角色定位

3.2 点击「智能匹配资源」

LLM 自动分析每个分镜，匹配需要的场景、角色、道具

3.3 手动检查和补充分镜信息

调整镜头类型、补充缺失的资源关联

3.4 确认所有分镜状态为 confirmed

💡 使用智能匹配可以大幅减少手动操作。系统会分析剧本上下文并推荐最合适的场景和角色。

🖼️ 步骤 4：批量资产生成

4.1 在「资产」页面，点击「生成全部资产」

系统自动批量生成：角色设定图、场景关键帧、所有分镜图片

4.2 等待资产生成完成（ComfyUI 队列逐个处理）

可在任务列表查看每张图片的生成状态

4.3 检查生成结果，对有问题的图片手动重新生成

💡 首次生成会较慢（需加载模型到显存）。后续生成利用 prompt_hash 缓存，相同提示词不重复生成。

🎵 步骤 5：视频生成与配音

5.1 进入「视频」页面，点击「生成分镜视频」

系统用 LTX I2V 将分镜图片转化为短视频片段

5.2 进入「配音」页面，点击「批量生成配音」

系统按角色自动生成配音（GPT-SoVITS 从机执行）

5.3 试听配音效果，可单条重新生成

💡 配音质量取决于角色参考音频的质量。建议上传 10-30 秒清晰人声作为参考。

🎬 步骤 6：口型同步与导出

6.1 进入「后期」页面，点击「口型同步」

MuseTalk 将配音与分镜视频进行口型匹配

6.2 点击「生成字幕」

自动生成 SRT 格式字幕

6.3 点击「导出成片」

选择导出参数（分辨率、格式），系统调用 FFmpeg 合成最终视频

6.4 等待导出完成，下载成片

💡 导出时间取决于剧集长度。一集 5 分钟的动画通常在 3-5 分钟内完成导出。

📖 1. 从漫剧剧本导入 → 自动分卷

1.1 进入「小说中心」→「新建小说」

选择「从漫剧导入」，关联已有的世界观和剧集

1.2 点击「一键提存剧本」

系统将漫剧剧本自动转化为小说文体，保留角色、剧情和对话结构

1.3 LLM 自动按剧情节奏分卷

每卷对应一个剧情大段落，可手动调整分卷边界

💡 也支持从空白创建小说，完全由 LLM 续写。

📑 2. 查看/编辑卷纲

2.1 在小说详情页点击「卷纲」标签

查看每卷的名称、剧情概要、字数目标和进度

2.2 拖拽排序或点击编辑按钮修改卷信息

支持新增卷、删除卷、合并相邻卷

2.3 确认卷纲后锁定，进入章节创作

💡 建议在卷纲阶段敲定每卷的核心冲突和高潮，为后续生成提供清晰指引。

📄 3. 生成章纲

3.1 进入某卷，点击「批量生成章纲」

系统根据卷纲自动规划该卷的章节列表，每章含概要、预估字数

3.2 检查章纲内容，可手动微调

修改章节标题、概要，或拖拽调整章节顺序

3.3 确认章纲后进入正文创作

💡 章纲越详细，后续生成的正文质量越高。建议每章概要不少于 50 字。

✍️ 4. LLM 正文创作

4.1 选择目标章节，点击「AI 创作正文」

系统使用当前 LLM（可在系统配置中切换）生成正文内容

4.2 支持单章生成或批量生成整卷

批量生成时系统按章纲顺序串行执行，避免上下文断裂

4.3 生成完成后可在线编辑修改

富文本编辑器支持格式化、插图插入、脚注

💡 生成过程中可随时暂停，手动干预后再继续。

✅ 5. 一致性检查

5.1 点击「一致性分析」

LLM 自动扫描全篇，检查角色设定、时间线、剧情逻辑是否自洽

5.2 查看检测出的问题列表（角色名字前后不一、时间矛盾等）

每条问题标注原文位置和建议修正

5.3 逐条确认或批量修正

可手动修改或让 LLM 自动修复

💡 建议在每次大篇幅生成后执行一致性检查，避免问题累积。

📤 6. 导出/分发

6.1 点击「导出」选择格式

支持 TXT、EPUB、PDF、Markdown 格式

6.2 配置导出参数

EPUB 可设置封面、作者、目录结构；PDF 可设置页面大小和字体

6.3 点击「导出」开始生成文件

完成后自动下载

6.4 一键分发到已接入的平台

支持番茄小说、微信读书等平台的 API 接入（需在系统设置中配置密钥）

💡 EPUB 格式兼容性最好，推荐作为默认导出格式。

🎙️ 1. 从漫剧/小说导入脚本

1.1 进入「广播剧中心」→「新建广播剧」

选择「从漫剧导入」或「从小说导入」

1.2 选择来源项目

从漫剧导入：选择世界观、剧集，自动提取剧本台词和角色对应关系

从小说导入：选择小说卷/章，LLM 自动提取对话和叙述部分，生成配音脚本

1.3 审核导入的脚本

确认角色台词分段正确，可手动调整脚本结构

💡 从小说导入时，叙述部分会被自动标注为「旁白」角色。

👥 2. 角色分配与声音复用

2.1 在「角色分配」页面查看自动匹配的角色列表

系统根据来源自动建立角色与声音的映射

2.2 为每个角色选择音色

复用已有角色的参考音频，或上传新的参考音频

2.3 支持「声音复用池」

同一角色在不同剧集/项目中的声音设置自动同步，避免重复配置

2.4 试听音色样本，确认后锁定分配

💡 声音复用池按角色 ID 关联，跨项目同名角色自动复用，无需重新配置。

🔊 3. 配音生成（GPT-SoVITS）

3.1 进入「配音」页面，点击「批量生成」

系统按角色分配逐句调用 GPT-SoVITS 生成配音

3.2 在任务队列查看生成进度

支持并行生成（多从机）/ 串行生成（单机）

3.3 试听每条配音，可单独重新生成

点击波形图可定位到对应台词

3.4 调整语速、音调参数

支持每句独立微调或批量统一调整

💡 如 GPT-SoVITS 从机离线，系统自动降级为 Edge-TTS 生成。

🎶 4. 音效/BGM 编排

4.1 进入「音轨编排」页面

可视化时间轴，包含配音轨、音效轨、BGM 轨

4.2 点击「智能推荐音效」

LLM 分析脚本场景，推荐匹配的背景音效（脚步、门铃、风雨等）

4.3 拖拽音效/音乐片段到时间轴

支持从音效库选择或上传自定义音效

4.4 调整音量和淡入淡出

每条轨道可独立调节音量、添加效果（混响、均衡器）

💡 音效库持续更新中，你也可以上传自己的音效素材扩充音效库。

🎛️ 5. 混音合成

5.1 点击「混音预览」

实时合成当前时间轴的音频，支持从头或当前位置播放

5.2 调整各轨道最终音量比例

拖动推子调整配音、音效、BGM 的混合比例

5.3 点击「导出混音」

系统调用 FFmpeg 合成最终音频文件

5.4 预览最终结果，确认后完成

💡 混音前建议使用「母带处理」功能自动均衡响度。

📀 6. 导出

6.1 点击「导出」选择格式

支持 MP3、WAV、FLAC、M4A 格式

6.2 配置导出参数

采样率（44.1kHz/48kHz）、比特率（128kbps/192kbps/320kbps）

6.3 点击「导出」开始生成

完成后自动下载

💡 推荐 MP3 320kbps 作为通用分发格式，FLAC 用于存档。

👤 1. 创建数字人形象

1.1 进入「数字人中心」→「形象管理」→「新建形象」

选择形象类型：照片转数字人 / 从零生成（AI 绘图）

1.2 照片转数字人

上传一张正面清晰照片，系统自动提取面部特征，生成 3D 可驱动模型

1.3 AI 绘图生成

输入描述词，系统调用 Stable Diffusion 生成虚拟形象，支持多风格（写实/二次元/3D）

1.4 调整面部参数

支持微调脸型、五官比例、肤色等参数

💡 照片建议光线均匀、正面免冠、表情自然，背景简洁。

🎤 2. 绑定声音

2.1 在形象详情页点击「绑定声音」

从声音复用池选择已有角色声音，或上传新的参考音频

2.2 选择声音类型

系统内置声音 / 自定义克隆声音（需提供参考音频）

2.3 试听绑定效果

系统生成一段测试视频，预览声音与形象匹配度

2.4 确认绑定

💡 声音风格建议与形象气质相符，避免违和感。

📝 3. 口播脚本编写/导入

3.1 进入「口播」页面，点击「新建口播」

选择关联的数字人形象

3.2 编写脚本

直接输入文本，或使用 LLM 辅助生成（输入主题大纲，自动生成完整脚本）

3.3 导入已有脚本

支持从漫剧剧本、小说章节、广播剧脚本导入口播文本

3.4 编辑和分段

标注段落情感（高兴/严肃/悲伤），影响表情生成

💡 分段落标注情感可以生成更丰富的表情变化，让数字人更自然。

🎥 4. 口型同步视频生成

4.1 点击「生成口播视频」

系统按脚本段落依次处理：TTS 转语音 → 口型驱动（MuseTalk）→ 合成视频

4.2 在任务列表查看生成进度

每个段落独立生成，支持按段落重试

4.3 预览生成的视频片段

检查口型同步精度、表情自然度

4.4 对有问题的段落重新生成或手动修正

💡 脚本越长生成时间越长。建议每段控制在 200 字以内以获得最佳效果。

📤 5. 导出

5.1 点击「合并导出」

将所有视频段落按顺序合并为一个完整视频

5.2 选择导出参数

分辨率（1080p/720p）、格式（MP4/MOV）、背景替换（绿幕/透明/自定义背景）

5.3 点击「导出」

合成完成后自动下载

5.4 一键上传到视频平台

支持抖音、B站、YouTube 等平台的 API 发布（需在系统设置中配置账号）

💡 绿幕模式导出后可在其他视频编辑软件中自由合成背景。

🔄 漫剧 → 小说：一键剧本提存

1 在小说中心选择「从漫剧导入」

选择世界观和剧集，系统自动提取剧本文本

2 LLM 将剧本对话格式转化为小说叙述文体

保留全部剧情和角色，增加环境描写和心理活动

3 自动分卷完成后即可进入小说创作流程

💡 剧本提存后建议运行一致性检查，确保角色名字和设定在小说化过程中未丢失。

🔄 小说 → 漫剧：小说改编漫剧

1 在漫剧中心的「剧本」页面选择「从小说导入」

选择小说，选取要改编的卷/章

2 LLM 自动提取对话和场景描述，生成剧本格式

旁白转换为场景描述和分镜说明

3 生成剧本后进入常规漫剧制作流程（拆镜 → 资产 → 视频 → 配音 → 导出）

💡 小说改编漫剧时，建议优先选择对话密集的章节，改编效果更好。

🔄 漫剧 → 广播剧：提取配音

1 在广播剧中心选择「从漫剧导入」

选择剧集，系统自动提取台词和角色映射

2 声音复用池自动匹配已有的角色声音

已有配音的台词可直接复用音频，无需重新生成

3 进入音效编排和混音流程

💡 漫剧的配音片段可直接复用，大幅减少广播剧制作时间。

🔄 任意 → 数字人：口播提取

1 在数字人中心的口播页面选择「从其他中心导入」

支持从漫剧剧本、小说章节、广播剧脚本导入文本

2 系统自动提取纯文本内容，过滤舞台指示和场景描述

可选择保留或丢弃角色名标注

3 选择数字人形象，绑定声音后直接生成口播视频

💡 跨中心导入时，系统自动转换格式，无需人工调整脚本结构。

❓ 常见问题

Q: v2 的漫剧项目能否在 v3 中使用？

完全兼容。v2 的所有项目数据自动迁移到 v3，漫剧流程不变，新增中心独立激活。

Q: 科普模式如何开启？

在知识库中添加知识点（标题+内容），编写剧本时系统会自动提取相关知识点注入到剧本中。

Q: 可以中途切换 LLM 模型吗？

可以在系统配置中切换 LLM 模型（qwen3:14b / deepseek-r1:14b / qwen3.5:9b），切换后新任务使用新模型，已有任务不受影响。

Q: 中心之间数据互通吗？

数据完全互通。漫剧、小说、广播剧、数字人四大中心共享世界观、角色、声音复用池。一个中心创建的角色可在其他中心直接使用。

Q: 从机无法连接怎么办？

系统自动降级为单机模式。配音使用 Edge-TTS，口型使用 LivePortrait CPU 模式（较慢），显存不足时自动切换模型精度。

Q: 生成失败如何排查？

检查 ComfyUI 是否运行，查看后端日志获取详细错误信息，确认 GPU 显存是否充足。数字人和广播剧生成失败建议先检查参考音频是否有效。

Q: 数字人的声音可以商用吗？

克隆声音的版权归参考音频版权方所有，请确保拥有参考音频的合法使用权。系统内置声音可免费商用。

用户指南影视梦工厂 v3.0

漫剧制作流程（v2 经典流程，v3 完全兼容）

新增：小说创作指南

新增：广播剧制作指南

新增：数字人创建指南

新增：跨中心操作指南

用户指南 影视梦工厂 v3.0

漫剧制作流程（v2 经典流程，v3 完全兼容）

新增：小说创作指南

新增：广播剧制作指南

新增：数字人创建指南

新增：跨中心操作指南

用户指南影视梦工厂 v3.0