个人思考

AIGC 学习与应用总结

开为科技实习沉淀:生图/生视频提示词框架、模型选型、工作流模式、常见问题与 AI 短片制作链路

AIGC Image Generation Video Generation Workflow

开为科技 AIGC 模板小组实习期间,围绕 生图、生视频、模板配置、游戏预告片 做了大量实践与模型对比。本文是对原始学习笔记的概括性整理,侧重 框架、选型与流程,不展开具体提示词正文。


一、生图:结构化提示词框架

解决什么问题

人物/背景不一致、镜头漂移、光影逻辑混乱,是模板类业务最常见的 badcase。核心思路是把文学性描述 拆解为可复用的视觉坐标

三层控制手段

手段作用
核心特征结构化把抽象概念落成具体视觉元素(五官、材质、体态等)
场景坐标网格化锁定光源方向、机位视角、核心参照物,减少随机漂移
JSON 格式约束用固定字段表约束模型输出,相当于给 AI 一张规范表格

辅助手段: 角色设定图 + 场景设定图;参考图模式;后期局部修特征。

生图提示词模块划分

可按以下模块分层填写,模块之间职责清晰、便于复用与迭代:

核心主体
├── 基本信息(身份、气质、大致体态)
├── 空间与朝向锁定(构图类型、姿态、视线)
├── 外貌特征(面部、眼、发、肤、比例)
└── 穿搭细节(头饰、上下装、配饰、核心道具)

场景与环境
├── 场地设定
└── 空间层次(前景遮挡、中景交互、远景、大气光学)

光源与照明
├── 全局光照
├── 三点布光(主光 / 辅光 / 轮廓光)
└── 场景内实用光源

摄像机与画面控制
├── 画面规格(宽高)
├── 机位绝对控制(位置、俯仰角、距离)
├── 镜头物理参数(景别、焦段、景深)
└── 构图与渲染风格(构图法则、引擎/画风质感)

实践要点: 先定「机位 + 光源 + 参照物」三角,再填人物与场景细节;比堆砌形容词更稳。


二、生视频:结构化提示词框架

与静图的区别

视频提示词除画面外,还要写清 时间轴、动作链、运镜、切镜风格、音画关系。复杂短片常按 0–3s / 3–6s / … 分段描述动作、特效与声音。

模块划分

模块写什么
核心主题与风格题材、美学基调、叙事类型(如特摄变身、治愈日常)
人物与基础设定面部/服装/场景的一致性要求(通常引用上传参考图)
氛围与画质胶片感、色彩影调、镜头焦段、颗粒与柔焦等
切镜风格一镜到底 / 硬切 / 遮罩转场等
分镜细节按秒级写动作、特效、台词、视线落点

首帧确定后的精简原则

首帧一旦定稿,视频提示词宜短: 只保留 动作链 + 运镜 + 风格,避免与首帧重复描述外貌与环境。

音频的现实边界

Seedance、可灵、Runway 等主流模型 通常无法直接生成与口型同步的角色台词,也不会自动配上完整环境音。常见做法:

  • 后期分层配音:旁白、环境底噪、角色音、音效分轨混音
  • 口型:AI 对口型,或台词改为画外音/内心独白

三、业务工作流类型

开为模板后台支持多种生产模式,理解差异有助于选型与排期:

工作流说明
生图上传参考图 + 结构化 Prompt;注意参考图须本地上传
生视频首帧驱动 / 多帧驱动 / 纯文生视频
先生图后生视频首帧由生图产出,再进入图生视频,一致性最好
动作模仿 / 视频换人以参考动作或人物替换为主
智能体多步骤流程编排,类似 ComfyUI / Lovart / Tapnow 的节点式组合

模板配置注意事项(生图)

  • 测试环境制作模板时 生成后勿误保存 到生产
  • 参考图类型:通用模板需兼容男/女/宠物;特殊模板在表单写明主体限定
  • seed 常用 -1;「生图读图 / 生视频读图」按场景勾选,一般默认不勾
  • 模型优先:Seedream 4.5、Nanobanana 等(见下文对比)

模板配置注意事项(生视频)

模型成本与效果取舍(业务内常用优先级):

自研(无声) > Wan 2.6 Flash > Seedance 1.5 Pro
  • Sora 2:效果好但成本高
  • Wan 2.6 完整版:贵,有声版有时随机
  • 帧模式:上传照片作首帧,或沿用生图结果作首帧

四、生图模型对比与常见问题

模型横向观察(同一任务下)

以「参考图 + 结构化描述」的宠物/人像场景为例,各模型差异大致如下:

模型文生图图生图总体印象
Nanobanana 2.0可用信息吸收更好主体质感、背景空间、光感较稳
Seedream 4.5可用图生图更「人性化」工业常用基线
Seedream 5.0 Lite介于两者之间轻量备选
Nanobanana Pro画质上限更高对齐参考更强偏精品模板
自研 T2I蒸馏效果成本可控,上限视训练而定

图生图 vs 文生图: 有参考图时,图生图往往能更好保留眼睛神态、打光逻辑、空间布置等细节。

Nanobanana 系 vs Seedream 系(粗排):
Nanobanana Pro > Nanobanana 2.0 > Seedream 5.0 Lite > Seedream 4.5
差异常体现在:主体质感真实度、背景是实体 3D 还是偏 2.5D、空间位置是否合理、光感是否自然。

生图常见问题

问题原因 / 对策
人物变脸未锁参考图或未写一致性约束;需角色设定图 + 固定 Seed
光影不合逻辑未网格化光源与机位;补三点布光描述
构图漂移缺少景别、焦段、机位绝对控制
参考图无效未走图生图模式,或「读图」开关与场景不匹配
男女宠不适配模板未做多主体兼容或未在参数里限定主体类型

五、生视频模型对比与选型

各模型适合做什么

模型擅长场景限制
Sora 2写实科幻、物理特效、长剧情、好莱坞风海外网络、英文 Prompt、审核严、贵
Seedance 2.0广告/MV/卡点、复杂分镜、多模态参考、音画同步、2K成本与参数学习曲线
可灵 Kling 3.0短剧、剧情、舞蹈、真人出镜单段时长与风格偏写实剧情
海螺 Hailuo 2.3二次元/动漫、短视频批量性价比导向
Wan 2.6虚拟人 IP、人设固定系列短剧生成难度高、成本高
HappyHorse 1.0开源、私有化、二次微调分镜感偏强,商业质感需调参

输入模式差异

模式适用注意
文生视频无参考、强创意主体控制难,流程复杂
首帧生视频预告片、模板主路径最常用;首帧质量决定上限
参考图生视频人设锁定需标准化「唯一外貌依据」控制段
多帧/首尾帧转场、连续动作适合分镜衔接
frames_to_video多关键帧叙事适合广告、梗片、复杂剪辑感

文生视频的典型难点

纯文生 + 图形参考控制时,流程长、主体难锁、音画难一体,实践中更推荐 文/图生首帧 → 首帧生视频 → 后期配音 链路。

后期音频分层示例(8 秒短片)

时间音轨处理
全片旁白-12 ~ -15 dB,垫底叙事
全片环境音-20 ~ -24 dB
局部角色台词-6 ~ -8 dB,对齐动作
收尾音效(如通知「叮」)-10 dB,配合画面

六、模板与素材:可复用的生产模式

热门模板玩法分类

类型典型流程
人像玩法上传人物图 → 固定 Prompt 换场景/风格(圣诞、街拍、水下等)
萌宠特效上传宠物 → 生图拟人化/换装 → 再生视频做动作
动作模仿首帧定造型 → 短视频提示词只写舞蹈/动作
创意特效多帧或一镜到底,强调运镜与模因感

共性: 平台模板常 锁定 Prompt、只换参考图;运营侧靠封面剧情感与标签拉 CTR。

优质素材的提示词特征(抽象规律)

不写具体文案,但高质量案例通常具备:

  • 全局约束:如「全程仅一根缆绳」「禁止字幕」等硬规则
  • 秒级分镜:景别 + 运镜 + 动作 + 声音同步写清
  • 相机连续:跟踪 → 推近 → 环绕 → 定格,避免硬切导致穿帮
  • 情绪节奏:慢推入 → 突变 → 慢动作 → 恢复正常速度
  • 风格关键词集中:电影级、浅景深、9:16、无对白等一次说清

七、AI 漫剧 / 短片写作与制作链路

文本阶段(四步)

大纲(梗概)
  → 故事(AI 扩写 + 人工删改:去掉无法被画面表现的描写)
    → 分镜脚本(时长、景别、推拉摇移、动作、台词)
      → 生图资产(人设三视图、道具特写、场景图)
        → 生视频(一致性控制 + 简单正向约束)
          → 剪辑(剪映自动字幕、混音)

分镜脚本要点

  • 标明 分镜序号,方便剪辑对齐
  • 每镜写清:时长、景别、镜头运动、人物动作、台词
  • 控制单段连续场景 不超过模型单次上限(如 15s)

生图资产阶段

  1. 先生成男女主形象描述 → 加控制词(纯白底、平视、三视图姿势等)
  2. 用参考图生成三视图、特写;按场景换装/换发型
  3. 单独产出场景图、道具特写

生视频一致性控制

维度手段
人物/场景@ 引用人物或场景图;参考图模式
音频导入 MP3 作参考(部分流程支持)
上下文上一段视频 尾帧 作下一段首帧
正向约束表情生动、动作张力、无字幕、无 BGM、4K 等短句叠加在分镜 Prompt 上

八、游戏预告片 UGC 工作流(摘要)

面向互动叙事游戏的竖屏预告,典型协作表包含:

内容
背景/TTS 旁白世界观简介 + 情绪化旁白人设描述
分镜LLM 辅助生成:时长、景别、运镜、动作(中英双语便于海外素材)
标准化控制段参考图锁定男女主;禁止字幕/整段 BGM
文生首帧根据分镜单独生成静态首帧 Prompt
首帧生视频短提示词续写动作
TTS按剧本改写旁白音色描述(控制长度,约数百 token 级)

分镜设计能力 决定上限:要有镜头想象力(POV、过肩、环绕、甩镜、ECU 焦点转换等),并控制每段 5–15 秒 内讲完一个情绪节拍。


九、Seedance 2.0 等多模态能力(官方能力摘要)

面向复杂商业片,新一代视频模型强调:

  • 多模态输入:文本、图片、视频、音频均可作参考
  • 运镜/动作复刻:模仿电影走位与复杂动作
  • 模板/特效复刻:转场、广告成片、镜头语言、视觉结构
  • 剧情补全:漫画改短剧、按镜号补画面
  • 视频延长与编辑:向后/向前延伸;指定片段定向改动作或节奏
  • 连贯性写法:在 Prompt 中显式写「动作连贯流畅」,并 @ 多张参考图

十、实践结论

  1. 一致性优先于炫技:参考图 + 结构化框架 + 首帧驱动,比纯文生视频稳一个数量级。
  2. 静图 Prompt 厚、视频 Prompt 薄:首帧承担外貌与环境,视频段只推动作与镜头。
  3. 音画分离是常态:台词、环境、旁白分轨后期,不要指望单模型一次出片。
  4. 模型按场景选型:广告卡点用 Seedance,剧情短剧用可灵,批量动漫用海螺,人设 IP 用 Wan,研发/私有化用 HappyHorse。
  5. 模板业务本质是 Workflow:节点可复现、参数可配置、指标可量化——与 Prompt 工程中的 JSON 强约束实践 中叙事侧的思路同源。

延伸阅读