AI 时代影视工业的变革
从前期剧本到虚拟制片、后期与宣发,梳理 AI 在影视各环节的能力边界,以及 3DGS、世界模型对游戏与场景建设的意义
Film Virtual Production 3DGS World Model
影视流水线中的 AI 介入
电影工业可按 前期 → 中期 → 后期 → 市场化 理解 AI 的落点。共性判断:AI 擅长结构化、重复性、数据密集型工作;审美判断、情绪呼吸感、难以言说的创作意图仍依赖人。
| 阶段 | AI 能做什么 | 仍须人主导 |
|---|---|---|
| 前期 | 剧本辅助、世界观构建、预演可视化 | 故事灵魂、责编级审美、选角直觉 |
| 中期 | 跟焦/构图辅助、虚拟灯光、LED 虚拟制片 | 表演情绪、复杂机位设计、Motion Control |
| 后期 | 初剪分段、配音翻译、口型对齐 | 剪辑节奏与叙事「灵魂」 |
| 市场化 | 物料宣发、海报优化、票房预测辅助 | 品牌调性、最终创意决策 |
前期:创作与筹备
创作
Sudowrite(虚构类写作助手)常用能力:
| 功能 | 作用 |
|---|---|
| Write | 续写,保持风格延续 |
| Describe | 五感场景描写,丰富画面感 |
| Brainstorm | 角色补充、剧情反转、世界观发散 |
| Story Bible | 故事圣经:角色设定、大纲等结构化文档 |
配套思路:
- 剧本辅助:扮演「资深责编」;剧本医生输出问题清单,做结构化修订而非代写灵魂。
- 故事观构建:地图、组织、历史、利益关系、权力架构——把抽象设定落成可讨论的文档与视觉参考。
- 灵感风暴:文字设定 + 视觉参考 + 地图绘制,降低团队对齐成本。
- 剧本评估与预测:市场本身不确定,AI 更适合 排除明显质量差的方案,而非保证爆款。
筹备
| 方向 | 判断 |
|---|---|
| 智能选角 | 当前匹配度有限,不宜过度依赖 |
| 预演可视化(3D / 4D 高斯泼溅) | 对 游戏场景建设 影响更大;摄影机运动与构图预览空间显著扩大 |
3D Gaussian Splatting(3DGS)要点:
- 用数百万个半透明 3D 高斯椭球表示场景,可达 照片级画质 + 1080p 级实时帧率。
- 典型用途:3D 内容生成、游戏 / 虚拟制片、数字孪生(文物数字化、电商 3D 展示)。
- 原理直觉:从多视角像素反推场景,用椭球体近似真实拍摄的空间结构。
- 当前局限:光影往往 不可灵活重调,尚不能替代完整灯光设计流程。
4D 高斯 Splatting 在 3DGS 基础上处理 动态场景,与下文「世界模型」形成互补(见文末)。
中期:拍摄与虚拟制作
摄影辅助
- AI 跟焦:可减轻跟焦体力,但 无法替代 与演员情绪、呼吸节奏绑定的运镜意图。
- AI 自动构图:在简单机位或电视台常规画面中可用;复杂、严肃、高难度镜头 仍需摄影指导经验。
智能灯光(虚拟制作)
在虚拟制片流程里,可在 虚拟环境中实时调整 打在演员身上的光线,使棚内表演与最终画面光感一致,减少后期「贴脸」违和。
虚拟制作与 LED 棚拍
代表作思路:《新蝙蝠侠》《曼达洛人》。
核心不是「绿幕 + 后期想象」,而是 可视化的工业化现场:
LED 环幕 + 实时渲染(常配合 UE)+ 摄像机追踪
→ 演员在棚内面对逼真虚拟场景表演
→ 摄影机所见即所得,后期特效部分前置
对比传统:
| 方式 | 演员体验 | 导演/摄影 |
|---|---|---|
| 绿幕 / 纯实景 | 大量靠想象 | 构图与光效难现场统一 |
| LED 虚拟制片 | 真实空间感与反射 | 现场调机位、调光,节奏更接近实拍 |
虚幻引擎(UE) 在学生作业与独立预演中已是常见底座。
具身智能与机械臂
机器人摄影控制在探索中,但 无法取代编程机械臂(Motion Control):后者擅长 精准重复运动、复杂危险镜头,是工业级确定性需求,不是「跟拍」能覆盖的。
后期
| 能力 | 说明 |
|---|---|
| 智能初剪 | 镜头分段、粗剪组织;无法改变 剪辑师对节奏与叙事的判断 |
| AI 配音与翻译 | 打破英语国家作品的字幕/配音壁垒;可做 多语种音画口型再对齐 |
市场化与数据
- 物料生成、宣发素材、受众反馈归纳。
- 海报制作与 A/B 优化、票房预测等 数据驱动辅助——决策权仍在发行与品牌策略。
AIGC 对内容形态的影响
生成式 AI 显著压缩了部分形态的门槛:
- 短视频、短剧、漫剧 等「轻叙事 + 强视觉」赛道,产能与试错成本下降,竞争更集中在 创意差异化与审美。
- 课程强调的两条底线:
- 审美与创作判断 无法外包给模型。
- 许多 不可明说、难以结构化 的表达,仍需要人完成。
空间智能与世界模型(李飞飞方向)
大语言模型擅长 符号、文本、逻辑,但不理解 物理世界如何运转。「空间智能」关注:
| 维度 | 含义 |
|---|---|
| 空间知觉 | 理解三维布局与视角 |
| 物体认知 | 物体是什么、如何关联 |
| 物理常识 | 重力、碰撞、支撑关系 |
| 行动能力 | 在空间中规划与执行动作 |
相关概念与产品方向(课程提及):
| 名称 | 方向 |
|---|---|
| RTFM | 实时世界渲染 |
| Marble | 多模态世界生成:可编辑场景,支持移动与物理交互(推、拉、碰撞) |
| PointWorld | 面向机器人的世界模型 |
4D 高斯 Splatting vs 世界模型
| 技术路线 | 强项 |
|---|---|
| 4D 高斯 Splatting | 极速重建 真实世界的动态(实拍/扫描向) |
| 世界模型 | 长期物理模拟、交互、生成(规则与因果向) |
二者 互补:前者偏「把真实录进来并实时呈现」,后者偏「在脑子里模拟世界再行动」。对 游戏关卡、虚拟制片、数字孪生 的选型,取决于更需要 还原实拍 还是 可交互的物理一致世界。
对游戏与互动媒体的启示
- 3DGS / 4DGS:场景资产与预演管线成本下降,独立团队可更早做「可走的镜头预览」。
- LED + UE 虚拟制片思路:与实时渲染游戏、互动叙事共用技术栈,影视经验可反哺 过场、宣发片、沉浸式展览。
- 世界模型:长期看影响 NPC 行为、可破坏环境、AI 关卡测试——与纯文本 LLM 叙事引擎是不同层的能力。
实操记忆
- 前期:Sudowrite + 故事圣经 + 剧本医生清单;用 3DGS 做预演,别指望光影一步到位。
- 中期:虚拟制片的价值在 演员现场感 与 所见即所得,不是省掉导演。
- 后期:AI 做粗剪与多语种,剪辑灵魂与表演节奏留给人。
- 趋势:AIGC 挤占的是 产能,不是 审美;下一跳竞争在 空间智能 + 世界模型 与实拍重建(4DGS)如何组合。