AIGC 学习与应用总结
开为科技实习沉淀:生图/生视频提示词框架、模型选型、工作流模式、常见问题与 AI 短片制作链路
开为科技 AIGC 模板小组实习期间,围绕 生图、生视频、模板配置、游戏预告片 做了大量实践与模型对比。本文是对原始学习笔记的概括性整理,侧重 框架、选型与流程,不展开具体提示词正文。
一、生图:结构化提示词框架
解决什么问题
人物/背景不一致、镜头漂移、光影逻辑混乱,是模板类业务最常见的 badcase。核心思路是把文学性描述 拆解为可复用的视觉坐标。
三层控制手段
| 手段 | 作用 |
|---|---|
| 核心特征结构化 | 把抽象概念落成具体视觉元素(五官、材质、体态等) |
| 场景坐标网格化 | 锁定光源方向、机位视角、核心参照物,减少随机漂移 |
| JSON 格式约束 | 用固定字段表约束模型输出,相当于给 AI 一张规范表格 |
辅助手段: 角色设定图 + 场景设定图;参考图模式;后期局部修特征。
生图提示词模块划分
可按以下模块分层填写,模块之间职责清晰、便于复用与迭代:
核心主体
├── 基本信息(身份、气质、大致体态)
├── 空间与朝向锁定(构图类型、姿态、视线)
├── 外貌特征(面部、眼、发、肤、比例)
└── 穿搭细节(头饰、上下装、配饰、核心道具)
场景与环境
├── 场地设定
└── 空间层次(前景遮挡、中景交互、远景、大气光学)
光源与照明
├── 全局光照
├── 三点布光(主光 / 辅光 / 轮廓光)
└── 场景内实用光源
摄像机与画面控制
├── 画面规格(宽高)
├── 机位绝对控制(位置、俯仰角、距离)
├── 镜头物理参数(景别、焦段、景深)
└── 构图与渲染风格(构图法则、引擎/画风质感)
实践要点: 先定「机位 + 光源 + 参照物」三角,再填人物与场景细节;比堆砌形容词更稳。
二、生视频:结构化提示词框架
与静图的区别
视频提示词除画面外,还要写清 时间轴、动作链、运镜、切镜风格、音画关系。复杂短片常按 0–3s / 3–6s / … 分段描述动作、特效与声音。
模块划分
| 模块 | 写什么 |
|---|---|
| 核心主题与风格 | 题材、美学基调、叙事类型(如特摄变身、治愈日常) |
| 人物与基础设定 | 面部/服装/场景的一致性要求(通常引用上传参考图) |
| 氛围与画质 | 胶片感、色彩影调、镜头焦段、颗粒与柔焦等 |
| 切镜风格 | 一镜到底 / 硬切 / 遮罩转场等 |
| 分镜细节 | 按秒级写动作、特效、台词、视线落点 |
首帧确定后的精简原则
首帧一旦定稿,视频提示词宜短: 只保留 动作链 + 运镜 + 风格,避免与首帧重复描述外貌与环境。
音频的现实边界
Seedance、可灵、Runway 等主流模型 通常无法直接生成与口型同步的角色台词,也不会自动配上完整环境音。常见做法:
- 后期分层配音:旁白、环境底噪、角色音、音效分轨混音
- 口型:AI 对口型,或台词改为画外音/内心独白
三、业务工作流类型
开为模板后台支持多种生产模式,理解差异有助于选型与排期:
| 工作流 | 说明 |
|---|---|
| 生图 | 上传参考图 + 结构化 Prompt;注意参考图须本地上传 |
| 生视频 | 首帧驱动 / 多帧驱动 / 纯文生视频 |
| 先生图后生视频 | 首帧由生图产出,再进入图生视频,一致性最好 |
| 动作模仿 / 视频换人 | 以参考动作或人物替换为主 |
| 智能体 | 多步骤流程编排,类似 ComfyUI / Lovart / Tapnow 的节点式组合 |
模板配置注意事项(生图)
- 测试环境制作模板时 生成后勿误保存 到生产
- 参考图类型:通用模板需兼容男/女/宠物;特殊模板在表单写明主体限定
seed常用 -1;「生图读图 / 生视频读图」按场景勾选,一般默认不勾- 模型优先:Seedream 4.5、Nanobanana 等(见下文对比)
模板配置注意事项(生视频)
模型成本与效果取舍(业务内常用优先级):
自研(无声) > Wan 2.6 Flash > Seedance 1.5 Pro
- Sora 2:效果好但成本高
- Wan 2.6 完整版:贵,有声版有时随机
- 帧模式:上传照片作首帧,或沿用生图结果作首帧
四、生图模型对比与常见问题
模型横向观察(同一任务下)
以「参考图 + 结构化描述」的宠物/人像场景为例,各模型差异大致如下:
| 模型 | 文生图 | 图生图 | 总体印象 |
|---|---|---|---|
| Nanobanana 2.0 | 可用 | 信息吸收更好 | 主体质感、背景空间、光感较稳 |
| Seedream 4.5 | 可用 | 图生图更「人性化」 | 工业常用基线 |
| Seedream 5.0 Lite | 介于两者之间 | — | 轻量备选 |
| Nanobanana Pro | 画质上限更高 | 对齐参考更强 | 偏精品模板 |
| 自研 T2I | 蒸馏效果 | — | 成本可控,上限视训练而定 |
图生图 vs 文生图: 有参考图时,图生图往往能更好保留眼睛神态、打光逻辑、空间布置等细节。
Nanobanana 系 vs Seedream 系(粗排):
Nanobanana Pro > Nanobanana 2.0 > Seedream 5.0 Lite > Seedream 4.5
差异常体现在:主体质感真实度、背景是实体 3D 还是偏 2.5D、空间位置是否合理、光感是否自然。
生图常见问题
| 问题 | 原因 / 对策 |
|---|---|
| 人物变脸 | 未锁参考图或未写一致性约束;需角色设定图 + 固定 Seed |
| 光影不合逻辑 | 未网格化光源与机位;补三点布光描述 |
| 构图漂移 | 缺少景别、焦段、机位绝对控制 |
| 参考图无效 | 未走图生图模式,或「读图」开关与场景不匹配 |
| 男女宠不适配 | 模板未做多主体兼容或未在参数里限定主体类型 |
五、生视频模型对比与选型
各模型适合做什么
| 模型 | 擅长场景 | 限制 |
|---|---|---|
| Sora 2 | 写实科幻、物理特效、长剧情、好莱坞风 | 海外网络、英文 Prompt、审核严、贵 |
| Seedance 2.0 | 广告/MV/卡点、复杂分镜、多模态参考、音画同步、2K | 成本与参数学习曲线 |
| 可灵 Kling 3.0 | 短剧、剧情、舞蹈、真人出镜 | 单段时长与风格偏写实剧情 |
| 海螺 Hailuo 2.3 | 二次元/动漫、短视频批量 | 性价比导向 |
| Wan 2.6 | 虚拟人 IP、人设固定系列短剧 | 生成难度高、成本高 |
| HappyHorse 1.0 | 开源、私有化、二次微调 | 分镜感偏强,商业质感需调参 |
输入模式差异
| 模式 | 适用 | 注意 |
|---|---|---|
| 文生视频 | 无参考、强创意 | 主体控制难,流程复杂 |
| 首帧生视频 | 预告片、模板主路径 | 最常用;首帧质量决定上限 |
| 参考图生视频 | 人设锁定 | 需标准化「唯一外貌依据」控制段 |
| 多帧/首尾帧 | 转场、连续动作 | 适合分镜衔接 |
| frames_to_video | 多关键帧叙事 | 适合广告、梗片、复杂剪辑感 |
文生视频的典型难点
纯文生 + 图形参考控制时,流程长、主体难锁、音画难一体,实践中更推荐 文/图生首帧 → 首帧生视频 → 后期配音 链路。
后期音频分层示例(8 秒短片)
| 时间 | 音轨 | 处理 |
|---|---|---|
| 全片 | 旁白 | -12 ~ -15 dB,垫底叙事 |
| 全片 | 环境音 | -20 ~ -24 dB |
| 局部 | 角色台词 | -6 ~ -8 dB,对齐动作 |
| 收尾 | 音效(如通知「叮」) | -10 dB,配合画面 |
六、模板与素材:可复用的生产模式
热门模板玩法分类
| 类型 | 典型流程 |
|---|---|
| 人像玩法 | 上传人物图 → 固定 Prompt 换场景/风格(圣诞、街拍、水下等) |
| 萌宠特效 | 上传宠物 → 生图拟人化/换装 → 再生视频做动作 |
| 动作模仿 | 首帧定造型 → 短视频提示词只写舞蹈/动作 |
| 创意特效 | 多帧或一镜到底,强调运镜与模因感 |
共性: 平台模板常 锁定 Prompt、只换参考图;运营侧靠封面剧情感与标签拉 CTR。
优质素材的提示词特征(抽象规律)
不写具体文案,但高质量案例通常具备:
- 全局约束:如「全程仅一根缆绳」「禁止字幕」等硬规则
- 秒级分镜:景别 + 运镜 + 动作 + 声音同步写清
- 相机连续:跟踪 → 推近 → 环绕 → 定格,避免硬切导致穿帮
- 情绪节奏:慢推入 → 突变 → 慢动作 → 恢复正常速度
- 风格关键词集中:电影级、浅景深、9:16、无对白等一次说清
七、AI 漫剧 / 短片写作与制作链路
文本阶段(四步)
大纲(梗概)
→ 故事(AI 扩写 + 人工删改:去掉无法被画面表现的描写)
→ 分镜脚本(时长、景别、推拉摇移、动作、台词)
→ 生图资产(人设三视图、道具特写、场景图)
→ 生视频(一致性控制 + 简单正向约束)
→ 剪辑(剪映自动字幕、混音)
分镜脚本要点
- 标明 分镜序号,方便剪辑对齐
- 每镜写清:时长、景别、镜头运动、人物动作、台词
- 控制单段连续场景 不超过模型单次上限(如 15s)
生图资产阶段
- 先生成男女主形象描述 → 加控制词(纯白底、平视、三视图姿势等)
- 用参考图生成三视图、特写;按场景换装/换发型
- 单独产出场景图、道具特写
生视频一致性控制
| 维度 | 手段 |
|---|---|
| 人物/场景 | @ 引用人物或场景图;参考图模式 |
| 音频 | 导入 MP3 作参考(部分流程支持) |
| 上下文 | 上一段视频 尾帧 作下一段首帧 |
| 正向约束 | 表情生动、动作张力、无字幕、无 BGM、4K 等短句叠加在分镜 Prompt 上 |
八、游戏预告片 UGC 工作流(摘要)
面向互动叙事游戏的竖屏预告,典型协作表包含:
| 列 | 内容 |
|---|---|
| 背景/TTS 旁白 | 世界观简介 + 情绪化旁白人设描述 |
| 分镜 | LLM 辅助生成:时长、景别、运镜、动作(中英双语便于海外素材) |
| 标准化控制段 | 参考图锁定男女主;禁止字幕/整段 BGM |
| 文生首帧 | 根据分镜单独生成静态首帧 Prompt |
| 首帧生视频 | 短提示词续写动作 |
| TTS | 按剧本改写旁白音色描述(控制长度,约数百 token 级) |
分镜设计能力 决定上限:要有镜头想象力(POV、过肩、环绕、甩镜、ECU 焦点转换等),并控制每段 5–15 秒 内讲完一个情绪节拍。
九、Seedance 2.0 等多模态能力(官方能力摘要)
面向复杂商业片,新一代视频模型强调:
- 多模态输入:文本、图片、视频、音频均可作参考
- 运镜/动作复刻:模仿电影走位与复杂动作
- 模板/特效复刻:转场、广告成片、镜头语言、视觉结构
- 剧情补全:漫画改短剧、按镜号补画面
- 视频延长与编辑:向后/向前延伸;指定片段定向改动作或节奏
- 连贯性写法:在 Prompt 中显式写「动作连贯流畅」,并 @ 多张参考图
十、实践结论
- 一致性优先于炫技:参考图 + 结构化框架 + 首帧驱动,比纯文生视频稳一个数量级。
- 静图 Prompt 厚、视频 Prompt 薄:首帧承担外貌与环境,视频段只推动作与镜头。
- 音画分离是常态:台词、环境、旁白分轨后期,不要指望单模型一次出片。
- 模型按场景选型:广告卡点用 Seedance,剧情短剧用可灵,批量动漫用海螺,人设 IP 用 Wan,研发/私有化用 HappyHorse。
- 模板业务本质是 Workflow:节点可复现、参数可配置、指标可量化——与 Prompt 工程中的 JSON 强约束实践 中叙事侧的思路同源。
延伸阅读
- Prompt 工程中的 JSON 强约束实践 — 叙事引擎侧结构化输出
- AI互动叙事产品学习 — 互动叙事产品机制与多模态同步
- AI 时代影视工业的变革 — 影视流水线中的 AI 介入点