PRD 产品需求文档

影视梦工厂 v3.0 · 完整产品需求

📑 目录
1 产品概述

影视梦工厂 是一个面向自媒体创作者的全自动 AI 影视内容生产线。输入世界观和剧本创意,系统自动完成从编剧、分镜、资产生成、配音、口型同步到导出成片的完整流程。

v3.0 愿景:一次创作,多形态输出。同一剧本智能适配动画剧集、短视频、科普短片等多种影视形态。

v3.0 核心升级:四中心架构(创编中心/资产中心/制作中心/进化中心),统一资源库,跨中心数据流标准化。在保留 v2.0 GPT-SoVITS 配音、MuseTalk 口型同步、导演案例学习、双机架构的基础上,重构为松耦合四中心架构,提升系统可扩展性和资源复用效率。

2 核心制作流水线

从剧本到成片的完整自动化流水线,由 ProducerAgent 统一编排调度。v3.0 将流水线各阶段归入四大中心统一管理。

Phase 0 · 准备
世界观/角色/剧集创建,LLM 剧本生成,支持科普知识库增强(创编中心)
Phase 1 · 导演
LLM 拆镜(Shot Type/Camera/Position),智能匹配资源需求(创编中心)
Phase 2 · 资产
批量生成角色图/场景图/分镜图/道具图,prompt_hash 去重,ComfyUI 队列(资产中心)
Phase 3 · 视频
LTX I2V 分镜动画 + GPT-SoVITS 角色配音,双机并行(制作中心)
Phase 4 · 后期
MuseTalk 口型同步 + 字幕生成 + FFmpeg 成片导出(制作中心)
Phase 5 · 进化
NAS 视频分析 → 导演案例库 → 智能推荐,越用越聪明(进化中心)
v3.0 架构原则:全流程由 ProducerAgent 编排,四大中心解耦,中心间通过标准化数据格式通信,每个中心可独立升级/替换。
3 科普引擎

科普模式是 影视梦工厂的核心差异化功能。将科学知识转化为生动的动画剧集,归属于创编中心的知识增强模块。

知识提取
DDGS 联网搜索 + LLM 提取关键知识点,形成结构化知识
内容转化
知识点 → 知识结构 → 故事情节 → 剧本段落,自然语言转化
科学审核
四级审核:科学性/通俗性/趣味性/安全性,确保内容质量
科普流程:选题 → 搜索 → 知识结构化 → 剧情化 → 剧本生成 → 科学审核 → 制作

当前已实现 KnowledgeAgent 核心功能(DDGS 联网研究、LLM 知识合成、脚本知识增强),独立科学审核引擎待开发。

4 智能匹配引擎

LLM 驱动的智能资源匹配,自动为每个分镜匹配所需的场景、角色、道具。属于创编中心 DirectorAgent 的核心能力。

匹配算法
Ollama LLM 上下文分析 → 推荐场景/角色
TF-IDF + 中文子串 + n-gram + Jaccard 相似度
模糊匹配:角色名别名/同义词支持
匹配范围
场景 Scene(位置/氛围/天气)
角色 Character(含旁白)
道具 Prop(LLM 分析源文本提取)
智能匹配大幅减少手动操作。系统自动分析剧本上下文,推荐最合适的资源。匹配结果经 ProducerAgent 下发给资产中心执行。
5 导演案例库

Phase 5 核心功能,归属于进化中心。通过分析存量视频学习优秀导演手法,指导新剧本的拆镜和拍摄方案。

视频分析
NAS 视频扫描 → FFmpeg 场景分割 → 关键帧提取
导演分析
LLM 六大维度分析:镜头类型/构图/运镜/光线/配色/情绪
智能推荐
向量相似度搜索 → 匹配最佳案例 → 指导拆镜和拍摄

当前状态:后端 API 已完成(6 端点,已注册到 main.py,已通过 200 验证),前端暂未实现。v3.0 将案例库纳入统一资源库管理。

6 双机架构

双机架构解决单机 GPU 显存不足的问题,v3.0 中所有四个中心共享同一套双机基础设施。

主机 (2080 Ti 22GB)
ComfyUI + Ollama + 后端 API + 前端
文生图图生视频LLM后端前端
从机 (3060 12GB)
GPT-SoVITS + MuseTalk
配音口型

通信方式:从机暴露 HTTP API,主机通过 HTTP 调用。网络延迟容忍设计,异步任务队列。各中心通过 ProducerAgent 统一调度双机资源。

从机未就绪时自动降级:配音降级 Edge-TTS,口型降级 LivePortrait CPU 模式。双机架构对四中心透明。
7 非功能需求
性能
单集 5 分钟动画,总制作时间 < 30 分钟(双机)
ComfyUI 队列一次一个任务,避免 OOM
图片 prompt_hash 去重缓存
跨中心数据传输延迟 < 2s
可用性
双机任一宕机,系统自动降级可用
所有 AI 服务本地运行,零网络依赖
后台 watchdog 每 30s 健康检查
中心间通信超时自动重试(3 次)
安全
JWT 认证,bcrypt 密码加密
用户隔离,数据权限控制
敏感内容检测(ReviewAgent)
可维护性
Agent 解耦,可独立升级
E2E 测试覆盖核心流程
统一日志,错误可追溯
中心间数据格式版本化(JSON Schema)
8 四中心架构

v3.0 将传统流水线重构为四个专业化中心,形成 创编 → 资产 → 制作 → 进化 的闭环生产体系。进化中心的分析结果反馈至创编中心,持续优化创作质量。

Center A · 创编中心
职责:剧本生成、拆镜分析、资源需求匹配
核心 Agent:WriterAgent, DirectorAgent, KnowledgeAgent
产出:结构化剧本 JSON、分镜清单、资源需求清单
输入:世界观设定、剧本创意、进化中心导演案例
Center B · 资产中心
职责:角色/场景/道具/分镜图批量生成与资产管理
核心 Agent:ImageAgent, LoraAgent, AssetManager
产出:角色图、场景图、道具图、LoRA 模型文件
输入:资源需求清单、角色/场景描述文本
Center C · 制作中心
职责:分镜动画、配音、口型同步、字幕合成、成片导出
核心 Agent:VideoAgent, AudioAgent, LipSyncAgent, ExportAgent
产出:MP4 成片、SRT 字幕、项目归档
输入:分镜图序列、配音文本、角色语音配置
Center D · 进化中心
职责:成片分析、导演案例提取、质量评分、智能推荐
核心 Agent:ReviewAgent, AnalystAgent, RecommenderAgent
产出:导演案例向量、质量报告、推荐策略
输入:成片视频、用户反馈、外部参考影片
四个中心通过统一资源库共享数据,ProducerAgent 作为全局调度者协调跨中心工作流。中心间依赖关系:A → B → C → D → A(反馈闭环)。
9 跨中心数据流

四中心之间通过标准化数据格式通信,确保各中心解耦并可独立演进。每个数据流包含格式转换和协议规范。

A → B · 创编到资产
剧本结构化 JSON(ShotScript schema)→ 资源需求清单(ResourceReq schema)→ 图片生成参数(GenParams schema)。ProducerAgent 将拆镜结果转化为可执行的图片生成任务。
B → C · 资产到制作
图片资产及 LoRA 文件 → 视频合成素材包(MediaPackage schema)。资产中心输出按分镜索引打包的图片序列、角色 LoRA、场景背景图。
C → D · 制作到进化
成片 MP4 + 制作元数据(ProductionMeta schema)→ 分析样本。进化中心接收成片及其对应的剧本、分镜、资产信息,进行多维度分析。
D → A · 进化到创编
导演案例六维向量 + 质量评分 → 拆镜策略优化建议(DirectiveAdvice schema)。进化中心的分析结果反馈至创编中心,优化新剧本的拆镜决策。
数据格式规范:所有 schema 以 JSON Schema 定义,版本化存储在统一资源库的协议目录中。ProducerAgent 负责格式校验和转换编排。
10 统一资源库

统一资源库是五个共享资源池的集合,为四个中心提供统一的数据存取服务。每个资源池包含存储层、索引层和版本管理。

角色池
内容:角色设计图、角色 LoRA、角色语音音色
索引:角色名、别名、风格标签、创建时间
访问:创编中心读写,资产中心/制作中心只读
场景池
内容:场景图、场景 LoRA、氛围参数配置
索引:场景名、位置标签、天气/氛围标签
访问:创编中心读写,资产中心/制作中心只读
道具池
内容:道具图、道具描述、关联场景
索引:道具名、类别、所属场景
访问:创编中心读写,资产中心/制作中心只读
媒体池
内容:视频片段 MP4、音频文件 WAV、字幕 SRT
索引:剧集ID、分镜ID、资源类型、时长
访问:制作中心读写,进化中心只读
案例池
内容:导演案例六维向量、质量评分、推荐策略
索引:向量索引(FAISS)、标签、评分区间
访问:进化中心读写,创编中心只读
五大资源池共享同一套存储基础设施(NAS + PostgreSQL + FAISS),通过 ResourceManager Agent 统一管理访问权限和版本控制。