产品需求文档 - AI漫剧·数字人·AI小说·AI有声剧

1 产品概述

影视梦工厂 是一个面向自媒体创作者的全自动 AI 影视内容生产线。输入世界观和剧本创意，系统自动完成从编剧、分镜、资产生成、配音、口型同步到导出成片的完整流程。

v3.0 愿景：一次创作，多形态输出。同一剧本智能适配动画剧集、短视频、科普短片等多种影视形态。

v3.0 核心升级：四中心架构（创编中心/资产中心/制作中心/进化中心），统一资源库，跨中心数据流标准化。在保留 v2.0 GPT-SoVITS 配音、MuseTalk 口型同步、导演案例学习、双机架构的基础上，重构为松耦合四中心架构，提升系统可扩展性和资源复用效率。

2 核心制作流水线

从剧本到成片的完整自动化流水线，由 ProducerAgent 统一编排调度。v3.0 将流水线各阶段归入四大中心统一管理。

Phase 0 · 准备

世界观/角色/剧集创建，LLM 剧本生成，支持科普知识库增强（创编中心）

Phase 1 · 导演

LLM 拆镜（Shot Type/Camera/Position），智能匹配资源需求（创编中心）

Phase 2 · 资产

批量生成角色图/场景图/分镜图/道具图，prompt_hash 去重，ComfyUI 队列（资产中心）

Phase 3 · 视频

LTX I2V 分镜动画 + GPT-SoVITS 角色配音，双机并行（制作中心）

Phase 4 · 后期

MuseTalk 口型同步 + 字幕生成 + FFmpeg 成片导出（制作中心）

Phase 5 · 进化

NAS 视频分析 → 导演案例库 → 智能推荐，越用越聪明（进化中心）

v3.0 架构原则：全流程由 ProducerAgent 编排，四大中心解耦，中心间通过标准化数据格式通信，每个中心可独立升级/替换。

3 科普引擎

科普模式是影视梦工厂的核心差异化功能。将科学知识转化为生动的动画剧集，归属于创编中心的知识增强模块。

知识提取

DDGS 联网搜索 + LLM 提取关键知识点，形成结构化知识

内容转化

知识点 → 知识结构 → 故事情节 → 剧本段落，自然语言转化

科学审核

四级审核：科学性/通俗性/趣味性/安全性，确保内容质量

科普流程：选题 → 搜索 → 知识结构化 → 剧情化 → 剧本生成 → 科学审核 → 制作

当前已实现 KnowledgeAgent 核心功能（DDGS 联网研究、LLM 知识合成、脚本知识增强），独立科学审核引擎待开发。

4 智能匹配引擎

LLM 驱动的智能资源匹配，自动为每个分镜匹配所需的场景、角色、道具。属于创编中心 DirectorAgent 的核心能力。

匹配算法

Ollama LLM 上下文分析 → 推荐场景/角色

TF-IDF + 中文子串 + n-gram + Jaccard 相似度

模糊匹配：角色名别名/同义词支持

匹配范围

场景 Scene（位置/氛围/天气）

角色 Character（含旁白）

道具 Prop（LLM 分析源文本提取）

智能匹配大幅减少手动操作。系统自动分析剧本上下文，推荐最合适的资源。匹配结果经 ProducerAgent 下发给资产中心执行。

5 导演案例库

Phase 5 核心功能，归属于进化中心。通过分析存量视频学习优秀导演手法，指导新剧本的拆镜和拍摄方案。

视频分析

NAS 视频扫描 → FFmpeg 场景分割 → 关键帧提取

导演分析

LLM 六大维度分析：镜头类型/构图/运镜/光线/配色/情绪

智能推荐

向量相似度搜索 → 匹配最佳案例 → 指导拆镜和拍摄

当前状态：后端 API 已完成（6 端点，已注册到 main.py，已通过 200 验证），前端暂未实现。v3.0 将案例库纳入统一资源库管理。

6 双机架构

双机架构解决单机 GPU 显存不足的问题，v3.0 中所有四个中心共享同一套双机基础设施。

主机 (2080 Ti 22GB)

ComfyUI + Ollama + 后端 API + 前端

文生图图生视频LLM后端前端

从机 (3060 12GB)

GPT-SoVITS + MuseTalk

配音口型

通信方式：从机暴露 HTTP API，主机通过 HTTP 调用。网络延迟容忍设计，异步任务队列。各中心通过 ProducerAgent 统一调度双机资源。

从机未就绪时自动降级：配音降级 Edge-TTS，口型降级 LivePortrait CPU 模式。双机架构对四中心透明。

7 非功能需求

性能

单集 5 分钟动画，总制作时间 < 30 分钟（双机）

ComfyUI 队列一次一个任务，避免 OOM

图片 prompt_hash 去重缓存

跨中心数据传输延迟 < 2s

可用性

双机任一宕机，系统自动降级可用

所有 AI 服务本地运行，零网络依赖

后台 watchdog 每 30s 健康检查

中心间通信超时自动重试（3 次）

安全

JWT 认证，bcrypt 密码加密

用户隔离，数据权限控制

敏感内容检测（ReviewAgent）

可维护性

Agent 解耦，可独立升级

E2E 测试覆盖核心流程

统一日志，错误可追溯

中心间数据格式版本化（JSON Schema）

8 四中心架构

v3.0 将传统流水线重构为四个专业化中心，形成 创编 → 资产 → 制作 → 进化 的闭环生产体系。进化中心的分析结果反馈至创编中心，持续优化创作质量。

Center A · 创编中心

职责：剧本生成、拆镜分析、资源需求匹配

核心 Agent：WriterAgent, DirectorAgent, KnowledgeAgent

产出：结构化剧本 JSON、分镜清单、资源需求清单

输入：世界观设定、剧本创意、进化中心导演案例

Center B · 资产中心

职责：角色/场景/道具/分镜图批量生成与资产管理

核心 Agent：ImageAgent, LoraAgent, AssetManager

产出：角色图、场景图、道具图、LoRA 模型文件

输入：资源需求清单、角色/场景描述文本

Center C · 制作中心

职责：分镜动画、配音、口型同步、字幕合成、成片导出

核心 Agent：VideoAgent, AudioAgent, LipSyncAgent, ExportAgent

产出：MP4 成片、SRT 字幕、项目归档

输入：分镜图序列、配音文本、角色语音配置

Center D · 进化中心

职责：成片分析、导演案例提取、质量评分、智能推荐

核心 Agent：ReviewAgent, AnalystAgent, RecommenderAgent

产出：导演案例向量、质量报告、推荐策略

输入：成片视频、用户反馈、外部参考影片

四个中心通过统一资源库共享数据，ProducerAgent 作为全局调度者协调跨中心工作流。中心间依赖关系：A → B → C → D → A（反馈闭环）。

9 跨中心数据流

四中心之间通过标准化数据格式通信，确保各中心解耦并可独立演进。每个数据流包含格式转换和协议规范。

A → B · 创编到资产

剧本结构化 JSON（ShotScript schema）→ 资源需求清单（ResourceReq schema）→ 图片生成参数（GenParams schema）。ProducerAgent 将拆镜结果转化为可执行的图片生成任务。

B → C · 资产到制作

图片资产及 LoRA 文件 → 视频合成素材包（MediaPackage schema）。资产中心输出按分镜索引打包的图片序列、角色 LoRA、场景背景图。

C → D · 制作到进化

成片 MP4 + 制作元数据（ProductionMeta schema）→ 分析样本。进化中心接收成片及其对应的剧本、分镜、资产信息，进行多维度分析。

D → A · 进化到创编

导演案例六维向量 + 质量评分 → 拆镜策略优化建议（DirectiveAdvice schema）。进化中心的分析结果反馈至创编中心，优化新剧本的拆镜决策。

数据格式规范：所有 schema 以 JSON Schema 定义，版本化存储在统一资源库的协议目录中。ProducerAgent 负责格式校验和转换编排。

10 统一资源库

统一资源库是五个共享资源池的集合，为四个中心提供统一的数据存取服务。每个资源池包含存储层、索引层和版本管理。

角色池

内容：角色设计图、角色 LoRA、角色语音音色

索引：角色名、别名、风格标签、创建时间

访问：创编中心读写，资产中心/制作中心只读

场景池

内容：场景图、场景 LoRA、氛围参数配置

索引：场景名、位置标签、天气/氛围标签

访问：创编中心读写，资产中心/制作中心只读

道具池

内容：道具图、道具描述、关联场景

索引：道具名、类别、所属场景

访问：创编中心读写，资产中心/制作中心只读

媒体池

内容：视频片段 MP4、音频文件 WAV、字幕 SRT

索引：剧集ID、分镜ID、资源类型、时长

访问：制作中心读写，进化中心只读

案例池

内容：导演案例六维向量、质量评分、推荐策略

索引：向量索引（FAISS）、标签、评分区间

访问：进化中心读写，创编中心只读

五大资源池共享同一套存储基础设施（NAS + PostgreSQL + FAISS），通过 ResourceManager Agent 统一管理访问权限和版本控制。

PRD 产品需求文档