2026年6月5日

个人思考

AIGC 学习与应用总结

开为科技实习沉淀：生图/生视频提示词框架、模型选型、工作流模式、常见问题与 AI 短片制作链路

AIGC Image Generation Video Generation Workflow

开为科技 AIGC 模板小组实习期间，围绕 生图、生视频、模板配置、游戏预告片 做了大量实践与模型对比。本文是对原始学习笔记的概括性整理，侧重 框架、选型与流程，不展开具体提示词正文。

一、生图：结构化提示词框架

解决什么问题

人物/背景不一致、镜头漂移、光影逻辑混乱，是模板类业务最常见的 badcase。核心思路是把文学性描述 拆解为可复用的视觉坐标。

三层控制手段

手段	作用
核心特征结构化	把抽象概念落成具体视觉元素（五官、材质、体态等）
场景坐标网格化	锁定光源方向、机位视角、核心参照物，减少随机漂移
JSON 格式约束	用固定字段表约束模型输出，相当于给 AI 一张规范表格

辅助手段： 角色设定图 + 场景设定图；参考图模式；后期局部修特征。

生图提示词模块划分

可按以下模块分层填写，模块之间职责清晰、便于复用与迭代：

核心主体
├── 基本信息（身份、气质、大致体态）
├── 空间与朝向锁定（构图类型、姿态、视线）
├── 外貌特征（面部、眼、发、肤、比例）
└── 穿搭细节（头饰、上下装、配饰、核心道具）

场景与环境
├── 场地设定
└── 空间层次（前景遮挡、中景交互、远景、大气光学）

光源与照明
├── 全局光照
├── 三点布光（主光 / 辅光 / 轮廓光）
└── 场景内实用光源

摄像机与画面控制
├── 画面规格（宽高）
├── 机位绝对控制（位置、俯仰角、距离）
├── 镜头物理参数（景别、焦段、景深）
└── 构图与渲染风格（构图法则、引擎/画风质感）

实践要点： 先定「机位 + 光源 + 参照物」三角，再填人物与场景细节；比堆砌形容词更稳。

二、生视频：结构化提示词框架

与静图的区别

视频提示词除画面外，还要写清 时间轴、动作链、运镜、切镜风格、音画关系。复杂短片常按 0–3s / 3–6s / … 分段描述动作、特效与声音。

模块划分

模块	写什么
核心主题与风格	题材、美学基调、叙事类型（如特摄变身、治愈日常）
人物与基础设定	面部/服装/场景的一致性要求（通常引用上传参考图）
氛围与画质	胶片感、色彩影调、镜头焦段、颗粒与柔焦等
切镜风格	一镜到底 / 硬切 / 遮罩转场等
分镜细节	按秒级写动作、特效、台词、视线落点

首帧确定后的精简原则

首帧一旦定稿，视频提示词宜短： 只保留 动作链 + 运镜 + 风格，避免与首帧重复描述外貌与环境。

音频的现实边界

Seedance、可灵、Runway 等主流模型 通常无法直接生成与口型同步的角色台词，也不会自动配上完整环境音。常见做法：

后期分层配音：旁白、环境底噪、角色音、音效分轨混音
口型：AI 对口型，或台词改为画外音/内心独白

三、业务工作流类型

开为模板后台支持多种生产模式，理解差异有助于选型与排期：

工作流	说明
生图	上传参考图 + 结构化 Prompt；注意参考图须本地上传
生视频	首帧驱动 / 多帧驱动 / 纯文生视频
先生图后生视频	首帧由生图产出，再进入图生视频，一致性最好
动作模仿 / 视频换人	以参考动作或人物替换为主
智能体	多步骤流程编排，类似 ComfyUI / Lovart / Tapnow 的节点式组合

模板配置注意事项（生图）

测试环境制作模板时 生成后勿误保存 到生产
参考图类型：通用模板需兼容男/女/宠物；特殊模板在表单写明主体限定
seed 常用 -1；「生图读图 / 生视频读图」按场景勾选，一般默认不勾
模型优先：Seedream 4.5、Nanobanana 等（见下文对比）

模板配置注意事项（生视频）

模型成本与效果取舍（业务内常用优先级）：

自研（无声） > Wan 2.6 Flash > Seedance 1.5 Pro

Sora 2：效果好但成本高
Wan 2.6 完整版：贵，有声版有时随机
帧模式：上传照片作首帧，或沿用生图结果作首帧

四、生图模型对比与常见问题

模型横向观察（同一任务下）

以「参考图 + 结构化描述」的宠物/人像场景为例，各模型差异大致如下：

模型	文生图	图生图	总体印象
Nanobanana 2.0	可用	信息吸收更好	主体质感、背景空间、光感较稳
Seedream 4.5	可用	图生图更「人性化」	工业常用基线
Seedream 5.0 Lite	介于两者之间	—	轻量备选
Nanobanana Pro	画质上限更高	对齐参考更强	偏精品模板
自研 T2I	蒸馏效果	—	成本可控，上限视训练而定

图生图 vs 文生图： 有参考图时，图生图往往能更好保留眼睛神态、打光逻辑、空间布置等细节。

Nanobanana 系 vs Seedream 系（粗排）：
Nanobanana Pro > Nanobanana 2.0 > Seedream 5.0 Lite > Seedream 4.5
差异常体现在：主体质感真实度、背景是实体 3D 还是偏 2.5D、空间位置是否合理、光感是否自然。

生图常见问题

问题	原因 / 对策
人物变脸	未锁参考图或未写一致性约束；需角色设定图 + 固定 Seed
光影不合逻辑	未网格化光源与机位；补三点布光描述
构图漂移	缺少景别、焦段、机位绝对控制
参考图无效	未走图生图模式，或「读图」开关与场景不匹配
男女宠不适配	模板未做多主体兼容或未在参数里限定主体类型

五、生视频模型对比与选型

各模型适合做什么

模型	擅长场景	限制
Sora 2	写实科幻、物理特效、长剧情、好莱坞风	海外网络、英文 Prompt、审核严、贵
Seedance 2.0	广告/MV/卡点、复杂分镜、多模态参考、音画同步、2K	成本与参数学习曲线
可灵 Kling 3.0	短剧、剧情、舞蹈、真人出镜	单段时长与风格偏写实剧情
海螺 Hailuo 2.3	二次元/动漫、短视频批量	性价比导向
Wan 2.6	虚拟人 IP、人设固定系列短剧	生成难度高、成本高
HappyHorse 1.0	开源、私有化、二次微调	分镜感偏强，商业质感需调参

输入模式差异

模式	适用	注意
文生视频	无参考、强创意	主体控制难，流程复杂
首帧生视频	预告片、模板主路径	最常用；首帧质量决定上限
参考图生视频	人设锁定	需标准化「唯一外貌依据」控制段
多帧/首尾帧	转场、连续动作	适合分镜衔接
frames_to_video	多关键帧叙事	适合广告、梗片、复杂剪辑感

文生视频的典型难点

纯文生 + 图形参考控制时，流程长、主体难锁、音画难一体，实践中更推荐 文/图生首帧 → 首帧生视频 → 后期配音 链路。

后期音频分层示例（8 秒短片）

时间	音轨	处理
全片	旁白	-12 ~ -15 dB，垫底叙事
全片	环境音	-20 ~ -24 dB
局部	角色台词	-6 ~ -8 dB，对齐动作
收尾	音效（如通知「叮」）	-10 dB，配合画面

六、模板与素材：可复用的生产模式

类型	典型流程
人像玩法	上传人物图 → 固定 Prompt 换场景/风格（圣诞、街拍、水下等）
萌宠特效	上传宠物 → 生图拟人化/换装 → 再生视频做动作
动作模仿	首帧定造型 → 短视频提示词只写舞蹈/动作
创意特效	多帧或一镜到底，强调运镜与模因感

优质素材的提示词特征（抽象规律）

不写具体文案，但高质量案例通常具备：

全局约束：如「全程仅一根缆绳」「禁止字幕」等硬规则
秒级分镜：景别 + 运镜 + 动作 + 声音同步写清
相机连续：跟踪 → 推近 → 环绕 → 定格，避免硬切导致穿帮
情绪节奏：慢推入 → 突变 → 慢动作 → 恢复正常速度
风格关键词集中：电影级、浅景深、9:16、无对白等一次说清

七、AI 漫剧 / 短片写作与制作链路

文本阶段（四步）

大纲（梗概）
  → 故事（AI 扩写 + 人工删改：去掉无法被画面表现的描写）
    → 分镜脚本（时长、景别、推拉摇移、动作、台词）
      → 生图资产（人设三视图、道具特写、场景图）
        → 生视频（一致性控制 + 简单正向约束）
          → 剪辑（剪映自动字幕、混音）

分镜脚本要点

标明 分镜序号，方便剪辑对齐
每镜写清：时长、景别、镜头运动、人物动作、台词
控制单段连续场景 不超过模型单次上限（如 15s）

生图资产阶段

先生成男女主形象描述 → 加控制词（纯白底、平视、三视图姿势等）
用参考图生成三视图、特写；按场景换装/换发型
单独产出场景图、道具特写

生视频一致性控制

维度	手段
人物/场景	@ 引用人物或场景图；参考图模式
音频	导入 MP3 作参考（部分流程支持）
上下文	上一段视频尾帧作下一段首帧
正向约束	表情生动、动作张力、无字幕、无 BGM、4K 等短句叠加在分镜 Prompt 上

八、游戏预告片 UGC 工作流（摘要）

面向互动叙事游戏的竖屏预告，典型协作表包含：

列	内容
背景/TTS 旁白	世界观简介 + 情绪化旁白人设描述
分镜	LLM 辅助生成：时长、景别、运镜、动作（中英双语便于海外素材）
标准化控制段	参考图锁定男女主；禁止字幕/整段 BGM
文生首帧	根据分镜单独生成静态首帧 Prompt
首帧生视频	短提示词续写动作
TTS	按剧本改写旁白音色描述（控制长度，约数百 token 级）

分镜设计能力 决定上限：要有镜头想象力（POV、过肩、环绕、甩镜、ECU 焦点转换等），并控制每段 5–15 秒 内讲完一个情绪节拍。

九、Seedance 2.0 等多模态能力（官方能力摘要）

面向复杂商业片，新一代视频模型强调：

多模态输入：文本、图片、视频、音频均可作参考
运镜/动作复刻：模仿电影走位与复杂动作
模板/特效复刻：转场、广告成片、镜头语言、视觉结构
剧情补全：漫画改短剧、按镜号补画面
视频延长与编辑：向后/向前延伸；指定片段定向改动作或节奏
连贯性写法：在 Prompt 中显式写「动作连贯流畅」，并 @ 多张参考图

十、实践结论

一致性优先于炫技：参考图 + 结构化框架 + 首帧驱动，比纯文生视频稳一个数量级。
静图 Prompt 厚、视频 Prompt 薄：首帧承担外貌与环境，视频段只推动作与镜头。
音画分离是常态：台词、环境、旁白分轨后期，不要指望单模型一次出片。
模型按场景选型：广告卡点用 Seedance，剧情短剧用可灵，批量动漫用海螺，人设 IP 用 Wan，研发/私有化用 HappyHorse。
模板业务本质是 Workflow：节点可复现、参数可配置、指标可量化——与 Prompt 工程中的 JSON 强约束实践中叙事侧的思路同源。