2026年5月31日

AI+行业

AI 时代影视工业的变革

从前期剧本到虚拟制片、后期与宣发，梳理 AI 在影视各环节的能力边界，以及 3DGS、世界模型对游戏与场景建设的意义

Film Virtual Production 3DGS World Model

影视流水线中的 AI 介入

电影工业可按 前期 → 中期 → 后期 → 市场化 理解 AI 的落点。共性判断：AI 擅长结构化、重复性、数据密集型工作；审美判断、情绪呼吸感、难以言说的创作意图仍依赖人。

阶段	AI 能做什么	仍须人主导
前期	剧本辅助、世界观构建、预演可视化	故事灵魂、责编级审美、选角直觉
中期	跟焦/构图辅助、虚拟灯光、LED 虚拟制片	表演情绪、复杂机位设计、Motion Control
后期	初剪分段、配音翻译、口型对齐	剪辑节奏与叙事「灵魂」
市场化	物料宣发、海报优化、票房预测辅助	品牌调性、最终创意决策

前期：创作与筹备

创作

Sudowrite（虚构类写作助手）常用能力：

功能	作用
Write	续写，保持风格延续
Describe	五感场景描写，丰富画面感
Brainstorm	角色补充、剧情反转、世界观发散
Story Bible	故事圣经：角色设定、大纲等结构化文档

配套思路：

剧本辅助：扮演「资深责编」；剧本医生输出问题清单，做结构化修订而非代写灵魂。
故事观构建：地图、组织、历史、利益关系、权力架构——把抽象设定落成可讨论的文档与视觉参考。
灵感风暴：文字设定 + 视觉参考 + 地图绘制，降低团队对齐成本。
剧本评估与预测：市场本身不确定，AI 更适合 排除明显质量差的方案，而非保证爆款。

筹备

方向	判断
智能选角	当前匹配度有限，不宜过度依赖
预演可视化（3D / 4D 高斯泼溅）	对游戏场景建设影响更大；摄影机运动与构图预览空间显著扩大

3D Gaussian Splatting（3DGS）要点：

用数百万个半透明 3D 高斯椭球表示场景，可达 照片级画质 + 1080p 级实时帧率。
典型用途：3D 内容生成、游戏 / 虚拟制片、数字孪生（文物数字化、电商 3D 展示）。
原理直觉：从多视角像素反推场景，用椭球体近似真实拍摄的空间结构。
当前局限：光影往往 不可灵活重调，尚不能替代完整灯光设计流程。

4D 高斯 Splatting 在 3DGS 基础上处理 动态场景，与下文「世界模型」形成互补（见文末）。

中期：拍摄与虚拟制作

摄影辅助

AI 跟焦：可减轻跟焦体力，但 无法替代 与演员情绪、呼吸节奏绑定的运镜意图。
AI 自动构图：在简单机位或电视台常规画面中可用；复杂、严肃、高难度镜头 仍需摄影指导经验。

智能灯光（虚拟制作）

在虚拟制片流程里，可在 虚拟环境中实时调整 打在演员身上的光线，使棚内表演与最终画面光感一致，减少后期「贴脸」违和。

虚拟制作与 LED 棚拍

代表作思路：《新蝙蝠侠》《曼达洛人》。

核心不是「绿幕 + 后期想象」，而是 可视化的工业化现场：

LED 环幕 + 实时渲染（常配合 UE）+ 摄像机追踪
→ 演员在棚内面对逼真虚拟场景表演
→ 摄影机所见即所得，后期特效部分前置

对比传统：

方式	演员体验	导演/摄影
绿幕 / 纯实景	大量靠想象	构图与光效难现场统一
LED 虚拟制片	真实空间感与反射	现场调机位、调光，节奏更接近实拍

虚幻引擎（UE） 在学生作业与独立预演中已是常见底座。

具身智能与机械臂

机器人摄影控制在探索中，但 无法取代编程机械臂（Motion Control）：后者擅长 精准重复运动、复杂危险镜头，是工业级确定性需求，不是「跟拍」能覆盖的。

后期

能力	说明
智能初剪	镜头分段、粗剪组织；无法改变剪辑师对节奏与叙事的判断
AI 配音与翻译	打破英语国家作品的字幕/配音壁垒；可做多语种音画口型再对齐

市场化与数据

物料生成、宣发素材、受众反馈归纳。
海报制作与 A/B 优化、票房预测等 数据驱动辅助——决策权仍在发行与品牌策略。

AIGC 对内容形态的影响

生成式 AI 显著压缩了部分形态的门槛：

短视频、短剧、漫剧 等「轻叙事 + 强视觉」赛道，产能与试错成本下降，竞争更集中在 创意差异化与审美。
课程强调的两条底线：
1. 审美与创作判断 无法外包给模型。
2. 许多 不可明说、难以结构化 的表达，仍需要人完成。

空间智能与世界模型（李飞飞方向）

大语言模型擅长 符号、文本、逻辑，但不理解 物理世界如何运转。「空间智能」关注：

维度	含义
空间知觉	理解三维布局与视角
物体认知	物体是什么、如何关联
物理常识	重力、碰撞、支撑关系
行动能力	在空间中规划与执行动作

相关概念与产品方向（课程提及）：

名称	方向
RTFM	实时世界渲染
Marble	多模态世界生成：可编辑场景，支持移动与物理交互（推、拉、碰撞）
PointWorld	面向机器人的世界模型

4D 高斯 Splatting vs 世界模型

技术路线	强项
4D 高斯 Splatting	极速重建真实世界的动态（实拍/扫描向）
世界模型	长期物理模拟、交互、生成（规则与因果向）

二者互补：前者偏「把真实录进来并实时呈现」，后者偏「在脑子里模拟世界再行动」。对 游戏关卡、虚拟制片、数字孪生 的选型，取决于更需要 还原实拍 还是 可交互的物理一致世界。

对游戏与互动媒体的启示

3DGS / 4DGS：场景资产与预演管线成本下降，独立团队可更早做「可走的镜头预览」。
LED + UE 虚拟制片思路：与实时渲染游戏、互动叙事共用技术栈，影视经验可反哺 过场、宣发片、沉浸式展览。
世界模型：长期看影响 NPC 行为、可破坏环境、AI 关卡测试——与纯文本 LLM 叙事引擎是不同层的能力。

实操记忆

前期：Sudowrite + 故事圣经 + 剧本医生清单；用 3DGS 做预演，别指望光影一步到位。
中期：虚拟制片的价值在 演员现场感 与 所见即所得，不是省掉导演。
后期：AI 做粗剪与多语种，剪辑灵魂与表演节奏留给人。
趋势：AIGC 挤占的是产能，不是审美；下一跳竞争在 空间智能 + 世界模型 与实拍重建（4DGS）如何组合。