一条普通的 AI 视频和一条真正惊艳的 AI 视频,差别往往不在模型本身,而在提示词。只要提示词写得更具体、更有镜头感、更清楚地表达风格与声音,HappyHorse 1.0 输出的结果就会完全不一样。
这篇指南会带你系统梳理:如何写出更稳定、更可控、更像成片方案的 AI 视频提示词。
为什么提示词这么重要
HappyHorse 1.0 这类 AI 视频模型能力已经很强,但它依然需要清晰的输入。模糊的提示词只会得到“看得过去”的泛化结果;而高质量提示词,才有机会得到真正有电影感的画面。

同一个概念,不同的提示词,结果会完全不同:
❌ 弱提示词:
一个女人在雨中行走✅ 强提示词:
电影感镜头:一位穿红色大衣的年轻女性走在夜晚的东京雨街上。
霓虹灯倒映在积水中,镜头从背后跟拍并缓慢推进。
背景是忧郁的钢琴旋律,伴随雨声和远处车流声。
画面带胶片颗粒,整体为蓝橙对比的情绪化调色。第二条提示词之所以更强,是因为它同时交代了主体、场景、镜头、情绪和声音,模型更容易理解你到底想要什么。
一条好提示词的基础
几乎所有高质量的 HappyHorse 1.0 提示词,都可以拆成下面 6 个部分:
[主体] + [动作] + [场景] + [镜头] + [风格] + [音频]1. 主体:是谁,或者是什么
主体越清晰,输出越稳定。
| 弱描述 | 强描述 |
|---|---|
| 一个男人 | 一位穿深蓝定制西装的中年商务人士 |
| 一辆车 | 一辆复古红色 1965 Mustang 敞篷车 |
| 一份食物 | 一碗热气腾腾的豚骨拉面,配半熟蛋 |
实用建议: 尽量补充年龄、服装、神态、材质和辨识度特征。
2. 动作:正在发生什么
动作描述决定视频是否“像在演”,还是“像在摆拍”。
| 弱描述 | 强描述 |
|---|---|
| 跳舞 | 以流畅的手臂动作跳一支优雅的华尔兹 |
| 跑步 | 冲过终点线,双臂高举庆祝胜利 |
| 做饭 | 用利落精准的刀工切细蔬菜 |
实用建议: 多用动作动词,并描述动作气质,比如缓慢、优雅、爆发、迟疑、克制。
3. 场景:在哪里发生
环境决定画面气氛。
| 弱描述 | 强描述 |
|---|---|
| 在城市里 | 凌晨两点的东京街头,地面被雨水打湿,霓虹灯闪烁 |
| 在海边 | 黄金时刻的马尔代夫海滩,海水呈现通透的青绿色 |
| 在办公室 | 一间极简北欧风办公室,落地窗采光充足 |
实用建议: 尽量交代时间、天气、光线和氛围,而不是只写一个地点名词。
4. 镜头:怎么拍
HappyHorse 1.0 能理解大量常见电影摄影术语。镜头描述越明确,画面越有可控性。
常见镜头角度:
- 低机位:让主体更有力量感
- 高机位:让主体显得脆弱或被观察
- 平视:自然、中性、容易共情
- 荷兰角:制造紧张感和不稳定感
- 鸟瞰:从上方俯拍
- 虫视:从很低的位置往上看
常见镜头运动:
- 平移(Pan)
- 俯仰(Tilt)
- 推进(Push in / Dolly in)
- 拉远(Pull out)
- 跟拍(Tracking shot)
- 升降(Crane shot)
- 环绕(Orbit)
- 手持感(Handheld)
- 稳定跟拍(Steadicam)
常见景别:
- 极近特写
- 特写
- 中景
- 全身镜头
- 广角镜头
- 超广角镜头
5. 风格:想要什么视觉气质
风格不是可有可无,它决定画面是否“像你想象中的那支片子”。
常见电影风格:
- Film noir:高反差、阴影强、戏剧化
- Wes Anderson:对称构图、柔和色彩、轻奇幻感
- Christopher Nolan:宏大、严肃、IMAX 质感
- 王家卫:高饱和、动感模糊、浪漫气息
- Blade Runner:赛博朋克、霓虹、潮湿、反乌托邦
常见技术风格:
- 变形宽银幕镜头
- 胶片颗粒
- 浅景深
- 高反差 / 低照度布光
- 自然光 / 黄金时刻
- 摄影棚布光
常见调色倾向:
- 蓝橙对比
- 低饱和
- 高饱和
- 单色主导
- 暖调 / 冷调
6. 音频:声音怎么设计
HappyHorse 1.0 的独特优势之一,就是它不仅会生成画面,还能把声音一起考虑进去。
音乐:
忧郁的钢琴旋律
明快的电子舞曲
史诗感鼓点与管弦配乐
轻柔的原声吉他
紧张而持续推进的合成器音色音效:
雨后路面上的脚步声
远处滚动的雷声
忙碌咖啡馆的环境氛围
风吹过树林的声音
机械设备运转的轻微嗡鸣对白 / 旁白:
自信的男性旁白
低声叙述
激动的人群欢呼声常用提示词模板
产品展示
[产品类型] 展示在 [背景/表面] 上。
[镜头运动] 逐步呈现 [产品细节]。
[布光风格],[色彩氛围]。
[音乐风格] 的背景音乐,[时长]。示例:
黑色大理石台面上的奢华香水瓶产品展示。
镜头缓慢 360 度环绕,捕捉玻璃折射与反光细节。
戏剧化轮廓光,深紫与金色的高级色彩氛围。
优雅古典弦乐作为背景,时长 15 秒。人物动作
[人物描述] 在 [场景] 中进行 [动作]。
[镜头角度与镜头运动]。
[时间/天气/氛围]。
[视觉风格]、[调色倾向]。
[音频:音乐 + 音效],[时长]。示例:
身穿黑色运动装的年轻女性,在工业仓库中完成一记有力的回旋踢。
低机位跟拍镜头紧贴动作移动。
傍晚时分,灰尘颗粒在斜射阳光中漂浮。
整体质感粗粝、反差强烈、略带去饱和,并保留橙色高光。
背景是紧张有力的电子节拍,踢击瞬间配合冲击音效,时长 10 秒。风景 / 氛围镜头
[地点类型],时间为 [一天中的时间]。
[天气条件]。
[镜头运动] 穿过整个场景。
[情绪/氛围],[视觉风格]。
[环境音频],[时长]。示例:
黎明时分的山间薄雾湖面。
轻雾在静水上缓慢流动,松树剪影映在粉色天空下。
无人机镜头低空缓慢向前掠过水面。
整体平静、冥想、柔和,采用低对比与粉彩色调。
背景是细微水声与远处鸟鸣,时长 15 秒。对话 / 剧情场景
[角色 A 描述] 与 [角色 B 描述]
在 [场景] 中发生 [互动]。
[景别]、[镜头运动]。
[情绪基调]。
[灯光]、[风格]。
[对白描述] 与 [背景音频],[时长]。示例:
一位眼神温和的老爷爷与年幼的孙女坐在门廊秋千上分享故事。
中景双人镜头,轻柔推进。
整体情绪温暖、怀旧。
黄金时段光线,轻微胶片颗粒感。
爷爷温柔讲述故事,孩子轻声笑起来,背景有蟋蟀叫声,时长 15 秒。进阶写法
多镜头结构
如果你想做更完整的短片,不要把所有内容挤成一句话,可以直接按镜头顺序写:
镜头 1:极近特写,人物突然睁眼。
镜头 2:镜头拉开,显示她在陌生房间中醒来。
镜头 3:主观视角扫过神秘空间。
镜头 4:广角镜头中她起身,显得略微迷失。
背景音乐持续堆叠紧张氛围,整体情绪神秘。结合参考输入
HappyHorse 1.0 支持多模态参考,可以把提示词和参考文件组合使用:
@image1 作为人物外观参考。
@image2 作为场景风格参考。
@video1 作为镜头运动参考。
@audio1 作为音乐氛围参考。
让 @image1 中的人物走在类似 @image2 的环境中,
镜头运动参考 @video1,音乐情绪接近 @audio1。
加入脚步声和城市环境音。负面提示词
如果你明确知道不要什么,也要写出来:
大剧院中的优雅芭蕾舞表演,动作轻盈,布光专业,背景为古典配乐。
避免:动作生硬、观众席空无一人、现代服装、流行音乐、手持抖动镜头。常见错误
❌ 错误 1:描述太泛
不推荐: 一个人在自然中
更好: 一位穿橙色冲锋衣的年轻徒步者站在悬崖边,俯瞰晨雾山谷。广角镜头,缓慢推进,背景是风声和安静的环境音乐。
❌ 错误 2:指令彼此冲突
不推荐: 快节奏动作场面,配缓慢而宁静的音乐
更好: 快节奏动作场面,配高张力、持续推进的打击乐
❌ 错误 3:忘了写声音
不推荐: 海上日落延时摄影
更好: 海上日落延时摄影,海浪缓慢拍岸,远处海鸥鸣叫,背景是轻柔钢琴旋律。
❌ 错误 4:信息塞太满
不推荐: 把人物长相、天气、动作、情节、背景、配角、宠物、市场叫卖全部塞进一条句子里。
更好: 一位穿蓝色长裙的时尚女性穿过色彩鲜艳的摩洛哥集市。跟拍镜头穿过摊位,午后暖光,环境热闹,背景能听见远处音乐和商贩吆喝,时长 15 秒。
❌ 错误 5:忽略物理逻辑
不推荐: 人物在写实风格下无支撑漂浮在空中
更好: 人物优雅跃起,在最高点进入短暂慢动作,呈现一瞬失重感,随后自然下落。
不同用途的提示词示例
社交媒体广告
一支关于新款智能手机的高能开箱短片。
手部从高级包装中取出设备,依次展示镜头模组、屏幕和按键细节。
大量特写镜头,场景简洁、现代,摄影棚柔光布光。
背景为明快电子音乐,加入包装摩擦与拆封音效。
时长 15 秒,竖屏 9:16。音乐视频风格
歌手在一座废弃的大教堂中演唱情绪化民谣。
彩色玻璃投射出戏剧化的斑驳光束。
镜头缓慢环绕表演者,并穿插手部与表情特写。
整体为电影级变形宽银幕质感,带轻微胶片颗粒。
歌声在空间中回响,时长 15 秒。教程 / 演示
咖啡冲煮过程的分步教学视频。
镜头展示咖啡师研磨咖啡豆、注水、萃取浓缩液的细节。
使用俯拍与 45 度角切换。
明亮干净的厨房环境,声音以 ASMR 风格为主:
包括研磨声、倒水声和机器蒸汽声,背景音乐轻柔。
时长 15 秒。电影预告片
史诗奇幻战斗场景。盔甲战士在迷雾战场上正面交锋。
先用广角镜头建立空间,再切入激烈动作特写。
关键冲击瞬间加入戏剧化慢动作。
整体调色偏深、略低饱和,以橙色火光作为高光点缀。
背景为雷鸣般的管弦乐和金属撞击音效,时长 15 秒。生活方式 / 品牌短片
晨间例行生活蒙太奇。年轻职场人从卧室醒来伸展,
手冲咖啡、挑选穿搭,准备开始一天。
镜头转场平滑,整体风格温暖、克制、具有生活方式品牌感。
背景为轻柔独立原声音乐,加入细微环境声。
晨光从窗边倾泻进来,时长 15 秒。快速参考表
常见镜头运动
| 术语 | 常见效果 |
|---|---|
| 推进 | 聚焦主体、增加压迫感或期待感 |
| 拉远 | 交代环境、建立空间关系 |
| 平移 | 展示空间和场景信息 |
| 环绕 | 让主体更具展示感和戏剧性 |
| 跟拍 | 强调动作过程 |
| 升降 | 用于戏剧性揭示 |
| 手持 | 增加纪实感和临场感 |
常见情绪关键词
| 情绪 | 可用关键词 |
|---|---|
| 史诗 | 宏大、力量感、庄严、震撼 |
| 亲密 | 温暖、贴近、柔和、私人化 |
| 紧张 | 阴暗、悬疑、压迫、不稳定 |
| 快乐 | 明亮、活泼、轻快、温暖 |
| 忧郁 | 克制、缓慢、蓝调、沉思 |
| 神秘 | 雾气、空灵、模糊、未知 |
常见音频关键词
| 类型 | 可用关键词 |
|---|---|
| 音乐 | 管弦乐、电子乐、原声、氛围乐、爵士、古典 |
| 情绪 | 欢快、忧郁、紧张、平静、史诗、俏皮 |
| 音效 | 脚步声、雨声、风声、车流声、自然声、机械声 |
练习建议
练习 1:优化这条提示词
原始版本: 一只狗在公园里玩
尝试把它扩写成:主体更明确、动作更具体、场景更完整、镜头更清晰、声音更合理的版本。
练习 2:模仿一个经典镜头
挑一段你喜欢的电影场景,写出能复现它情绪、风格和摄影感的提示词。
练习 3:给身边的产品写一条展示片提示词
随手拿一个产品,写出一条完整的 15 秒展示提示词,并确保包含 6 个核心元素。
结语
写好 AI 视频提示词,本质上是在训练自己把“脑中的画面”拆解成模型能理解的语言。记住这个:
主体 + 动作 + 场景 + 镜头 + 风格 + 音频
先从这篇文章里的模板开始,再逐渐形成你自己的写法。描述越具体,视频越稳定;控制越明确,结果越接近你真正想要的成片。
准备开始练手了吗? 免费试试 HappyHorse 1.0,把这些方法直接跑一遍。
建议把这篇指南收藏起来,写提示词时随手对照。你的视频质量会明显提升。
