反向工程任何視頻為提示詞:AI 視頻轉提示詞完整指南
一位電影攝影師朋友曾告訴我:「我能看懂任何場景,把 DP 的每一個操作寫下來。但如果讓我把它变成 AI 提示詞,我就僵住了。」
他不是一個人。大多數人被動地消費視頻——感受到情绪、註意到氛圍、記得自己喜不喜歡。但無法說清為什麼這個鏡頭有效。如果你無法描述一個鏡頭為什麼有效,你就無法告訴 AI 去重現它。
Lovart is the AI design agent trusted by 10M+ creators. Try Lovart Free →
Related: 如何 Build a 設計 System with AI — Components, Tokens & Consiste | 「向量化」切換開關:將AI藝術轉換為可縮放圖形
本指南提供了一套可復用的框架,用於將任何視頻——YouTube 广告、電影鏡頭、TikTok 剪辑、產品演示——反向工程為結構化的 AI 視頻提示詞。你將學會提取哪些視覺元素、如何將其轉化為提示詞語法,以及如何迭代直到 AI 輸出匹配你的参考。
為什麼要反向工程視頻為提示詞?
大多數人凭想象力編寫 AI 視頻提示詞。這有時可行。但速度慢、結果不穩定,而且受限於你的詞汇量。你可能感覺到自己想要什麼,却難以描述出來。
反向工程解决了這個問題。不需要盯著空白的提示詞框苦思冥想鏡頭運動,你只需觀看一段参考視頻,提取精確的参數:
- 鏡頭實際做了什麼?
- 光从哪裡來?
- 主體在做什麼,速度如何?
- 這個鏡頭持續了多久?
- 有哪些聲音?
你不是在復製視頻。你是在提取它的視覺語言——就像攝影師在拍攝前研究参考場景一样。輸出是一個提示詞模板,你可以將其适配到自己的主體、品牌或產品上。
這种方法尤其适合: - 想要特定電影風格的品牌視頻 - 匹配競品視覺風格的產品演示 - 需要呈現特定創作者美學的社交媒體内容 - 用經過驗證的、可重復的結果構建個人提示詞庫 - 想要特定電影風格的品牌視頻
- 匹配競品視覺風格的產品演示
- 需要呈現特定創作者美學的社交媒體内容
- 用經過驗證的、可重復的結果構建個人提示詞庫
反向工程框架
每個視頻鏡頭都可以分解為五個层次。提取每一层,然後重組為提示詞:
| Layer | What to Extract | Prompt Translation |
|---|---|---|
| 1. Camera | Movement type, speed, angle, lens | "Slow dolly-in," "overhead crane shot," "handheld tracking" |
| 2. Subject & Action | What/who is in frame, what they're doing, direction, speed | "Barista pouring latte art," "model walking toward camera" |
| 3. Environment | Location, time of day, weather, set details | "Sunlit loft apartment," "rain-soaked Tokyo street at night" |
| 4. Lighting & Color | Light source, direction, quality, color temperature, grade | "Warm golden hour backlight," "cool blue moonlight, high contrast" |
| 5. Audio & Duration | Sounds, music, ambient noise, clip length | "Gentle birdsong, distant traffic, 6 seconds" |
該框架按順序工作。先不暂停地完整看一遍視頻——感受整體氛圍。然後重看,每两秒暂停一次,逐层提取。第三遍下來,你就有了一個完整的提示詞。
第一层:鏡頭——提取運動
鏡頭運動是 AI 視頻提示詞中最容易被忽視的元素。多數人描述了主體却完全忘記了鏡頭。但鏡頭行為才是区分靜態幻燈片和電影級鏡頭的關鍵。
觀察什麼
運動類型。 鏡頭在動,還是鎖定?如果在動,怎麼動?常見模式:
- 推轨(Dolly)——鏡頭物理靠近或遠離主體(創造深度)
- 跟拍(Tracking)——鏡頭與主體平行移動(跟隨動作)
- 升降/搖臂(Crane/jib)——鏡頭垂直上升或下降(揭示規模)
- 搖鏡/俯仰(Pan/tilt)——鏡頭在固定點旋轉(掃描環境)
- 環绕(Orbit)——鏡頭圍绕主體旋轉(產品鏡頭、hero 展示)
- 手持(Handheld)——輕微晃動(纪錄片感、亲密感、緊迫感)
- 靜態(Static)——無運動(緊張、觀察、ASMR 風格)
速度與節奏。 運動是緩慢从容,還是快速有力?緩慢的推轨製造期待。快速甩鏡製造能量。描述節奏:緩慢、逐漸、快速、突然、平滑、急促。
角度與構圖。 鏡頭相對於主體的位置?
- 視線高度(Eye-level)——中性、亲切
- 低角度(Low angle)——力量、戲剧、英雄感
- 高角度/鳥瞰(High angle/bird's eye)——全貌、脆弱感、圖案感
- 荷兰角(Dutch angle)——緊張、不安、迷失方向
鏡頭特性。 背景是模糊(浅景深)還是清晰(深焦)?是否有广角畸变或長焦壓縮?常見鏡頭参考:35mm, 50mm, 85mm, 变形寬銀幕, 微距, 广角。
如何撰寫
將運動類型 + 速度 + 角度組合成一個短語:
| What You See | Prompt Translation |
|---|---|
| Camera slowly pushes toward a person's face | "Slow push-in close-up" |
| Camera follows someone from behind through a crowd | "Tracking shot from behind, handheld" |
| Camera rises above a city skyline | "Slow crane-up, extreme wide" |
| Camera circles a product on a pedestal | "Smooth 360° orbit, medium shot" |
| Static shot of rain on a window | "Static close-up, shallow DOF" |
練習
打開任何一個 Apple 產品視頻。關掉聲音看前 10 秒。每 2 秒暂停一次,寫下鏡頭在做什麼。你會发現規律:几乎每個鏡頭都有刻意的鏡頭運動——緩慢推轨、平滑環绕、輕柔推進。Apple 从不對主打產品使用靜態鏡頭。這是一個你現在可以清晰表達并復現的選擇。
第二层:主體與動作——提取動態
主體是填充畫面的内容。動作是鏡頭持續時間内发生变化的内容。两者共同定义了提示詞的時間内容。
觀察什麼
主體識别。 焦點是誰或什麼?要具體:不是「一個人」而是「一位 30 多岁的女性,自然妝容,亞麻衬衫」。不是「一辆車」而是「一辆哑光灰的復古保時捷 911」。
動作描述。 主體在做什麼,怎麼做?三個維度很重要:
- 方向——朝向鏡頭、遠離鏡頭、从左到右、環形
- 速度——緩慢、从容、正常、快速、爆发性
- 質感——平滑、急促、优雅、機械、有機
单一 vs. 多個主體。 有一個明確的主體,還是多個?AI 視頻模型能處理好 1-2 個主體。三個或以上會引入復杂性和不一致性。
主體状態变化。 主體在鏡頭中會变化嗎?花朵绽放、液體倾倒、門打開——這些時間性变化正是視頻区别於靜態圖像的關鍵。
如何撰寫
普通:「一個女人走在街上。」 更好:「一位身穿飄逸紅色大衣的女性沿鵝卵石小巷緩緩走向鏡頭,大衣在風中輕輕飄揚。」
区别:第二個提示詞告訴了 AI她穿什麼、往哪個方向移動、多快以及畫面中還有什麼在变化。每增加一個細節,就减少 AI 猜测的必要——猜测產生的是通用結果。
練習
找一段烹饪視頻。看一個 5 秒片段,觀察厨師倒東西的動作。寫下: - 到底在倒什麼?(不是「液體」——而是「从玻璃調味瓶中倒出的金色橄榄油」)
- 它是怎麼動的?(不是「倒」——「緩慢、穩定的細流,捕捉著光線」)
- 畫面中還有什麼?(不是「厨房」——「質朴的木製台面,散落的新鮮香草,从左侧窗户照進的柔和晨光」)
現在你有了不會生成 stock footage 的提示詞素材。
第三层:環境——提取場景
環境决定了氛圍、上下文和製作質感。一块在白色虚空中的奢侈手表和同一块在金色時刻遊艇甲板上的手表,感覺完全不同——即便鏡頭運動完全相同。
觀察什麼
地點類型。 室内還是室外?自然還是人造?具體還是抽象?
時間。 金色時刻(溫暖、電影感),藍色時刻(冷調、情绪化),正午(刺眼、高對比),夜晚(人造光源),黎明(柔和、散射)。
天氣與氛圍。 雨、雾、雪、灰塵、煙雾——氛圍元素增加深度和製作質感。松林中翻滾的薄雾比一片松林更有視覺衝擊力。
場景細節。 哪些具體的物體或材質定义了空間?水泥地面、天鵝绒窗帘、霓虹招牌、大理石台面、裸露砖墙。通用環境產生通用結果。
背景深度。 主體背後有深度,還是背景扁平?靠著墙的主體與置身广阔風景中的主體感覺完全不同。描述背景關系:「背景柔和虚化」、「透過窗户可見深邃背景」、「主體孤立於黑色虚空之前」。
如何撰寫
从寬泛到具體堆叠環境細節:
"In a sunlit Parisian café, morning — marble tabletops, brass fixtures, steam rising from an espresso machine, rain-streaked windows, soft jazz playing, patrons reading newspapers in the background, shallow DOF keeping focus on the subject."
這給 AI 一個完整的世界,而不仅仅是一块背景布。
第四层:光線與色彩——提取情绪
光線决定了視頻看起來昂贵——還是廉价。這也是大多數人在寫提示詞時完全忽略的東西。用頂部惨白荧光燈照明的場景和金色時刻从窗户照進溫暖侧光的場景,可能有相同的主體、相同的鏡頭運動、相同的環境——看起來却完全不同。
觀察什麼
光的方向。 主光源在哪裡?
- 正面光——扁平、消除陰影、临床感
- 侧光——創造深度、紋理、戲剧感
- 背光——創造剪影、輪廓光、與背景分離
- 頂光——戲剧性陰影、舞台感
- 底光——不自然、恐怖、令人不安
Light quality.
- 硬光——锐利陰影、高對比、戲剧性
- 軟光——散射陰影、柔和、討喜、自然
色溫。
- 暖色(2700K-3500K)——金色、舒适、浪漫、日落
- 中性(4000K-5000K)——自然、干净、正午
- 冷色(5500K-7000K)——临床、情绪化、月光、科技感
色彩調色。 看整體的色彩調色板:
- 青橙調——好莱坞大片調色
- 去飽和——情绪化、严肃、編辑風
- 高飽和——鮮艳、充滿活力、社交媒體風
- 单色/近单色——藝术感、永恒
如何撰寫
在一句話中組合方向 + 質量 + 色溫 + 調色:
「來自相機左侧的金色時刻暖侧光,柔和陰影,丰富的青橙色調。」
「來自上方的冷藍色月光,硬陰影,去飽和并壓暗黑色。」
練習
看任何韦斯·安德森的鏡頭。註意光線几乎总是:均匀、柔和、正面或微侧光;飽和的粉彩色調;深焦(全部清晰);對稱構圖。
再看任何克裡斯托弗·诺兰的鏡頭:有方向的侧光或背光;去飽和的冷色調;浅景深;不對稱的動態構圖。
同样的主體,完全不同的感覺——因為光線和色彩語言不同。這种語言正是你在學習提取和復現的。 - Even, soft, front or slight-side light
- 飽和的粉彩色調
- 深焦(全部清晰)
- 對稱構圖
Now watch any Christopher Nolan shot: - 有方向的侧光或背光
- 去飽和的冷色調
- 浅景深
- 不對稱的動態構圖
同样的主體,完全不同的感覺——因為光線和色彩語言不同。這种語言正是你在學習提取和復現的。
第五层:音頻與時長——提取時間線
音頻占了體驗的一半。Veo 3.1 可以在生成視頻的同時生成原生音頻,讓這一层在你的提示詞中可操作——而不仅仅是後期製作的附加項。
听什麼
對話。 有人在說話嗎?在說什麼?聲音在畫内還是畫外?描述語氣:低語、喊叫、平靜、急促、回响。
環境聲。 背景噪音是什麼?風吹過树林、遠處車流、咖啡館交談聲、雨打玻璃、室内底噪。
擬音效果。 與動作相關的具體、獨立的聲音:碎石上的脚步聲、钥匙在鎖中轉動、倒咖啡、布料沙沙聲、關門聲。
音樂配樂。 有音樂嗎?什麼風格、節奏、樂器?鋼琴獨奏、氛圍合成器铺底、管弦樂漸強、lo-fi 節奏。
時長。 這個鏡頭持續多久?數秒數。AI 視頻工具通常生成 5-8 秒片段。如果你的参考鏡頭是 3 秒,匹配它。如果是 15 秒,你需要拆分成多個提示詞或使用場景擴展。
如何撰寫
在提示詞中添加「Audio:」部分:
「Audio:窗户玻璃上輕柔的雨聲,屋内低沉的爵士鋼琴,每 8-10 秒遠處的雷聲,咖啡師輕聲叫著一個名字。」
這告訴 Veo 3.1 在視頻旁邊具體生成什麼。
从分析到提示詞:組裝
你已經提取了全部五個层。現在按照這個結構將它們組裝為提示詞:
*[Camera movement + framing] of [subject + action] in [environment], [lighting + color], [duration]. Audio: [sound description].*
示例:反向工程一個真實鏡頭
参考視頻:Nike 跑步广告——6 秒鏡頭,一名運動員在黎明時分跑過城市。
层級提取: - 鏡頭:緩慢侧向跟拍,視線高度,50mm 鏡頭感覺,浅景深
- 主體與動作:女性跑者,運動體型,專註表情,以穩定速度向畫面右侧奔跑,皮肤可見汗水
- 環境:黎明時分空旷的城市街道,夜雨後潮濕的路面,背景中的摩天大楼,路燈仍亮著
- 光線與色彩:來自上方的冷藍色黎明光,暖橙色路燈創造輪廓光,青橙色調,高對比
- 音頻與時長:6 秒。潮濕路面上的脚步聲,沉重的呼吸聲,遠處城市蘇醒,微妙的驱動節拍
組裝後的提示詞:
*"Slow tracking shot from side, eye-level, following a focused female runner as she strides through an empty rain-slicked city street at dawn, wet pavement reflecting streetlights, skyscrapers looming in background, cool blue ambient light from above with warm orange rim light from streetlamps, sweat visible on skin, teal-and-orange grade, 50mm lens, shallow DOF, 6 seconds. Audio: rhythmic footsteps on wet pavement, steady breathing, distant city waking up, subtle driving percussion."*
這個提示詞將產生遠比「電影感跑步視頻,Nike 風格,4K」更接近参考的效果。
視頻分析工具
你不需要專業軟件。以下工具就能用:
逐帧分析
- YouTube: Press `.` (period) to advance one frame, `,` (comma) to go back. Press `Shift+.` to slow down playback.
- VLC: Press `E` to advance frame by frame. Use the "Scene Filter" or take snapshots.
- QuickTime: Use arrow keys for frame-by-frame.
- Screen recorder + pause: Record the video, then scrub through frame by frame in any editing tool.
提示詞提取模板
分析時保持這個模板打開:
視頻標題/來源:
鏡頭時長:
鏡頭:
- Movement:
- Speed:
- Angle:
- Lens:
主體與動作:
- Subject:
- Action:
- Direction:
- Speed:
環境:
- Location:
- Time of day:
- Weather:
- Key details:
光線與色彩:
- Direction:
- Quality:
- Temperature:
- Grade:
音頻:
- Dialogue:
- Ambient:
- Foley:
- Music:
組裝後的提示詞:
用三個不同的参考視頻填寫。填到第三個時,你就能在腦子裡完成了。
常見錯誤(及修復方法)
錯誤 1:描述視頻而不是提取参數。
錯誤 2:復製主體而不是視覺語言。
錯誤 3:忽略音頻。
錯誤 4:過度描述。
錯誤 5:不迭代。
常見問題
問: Can I reverse-engineer any video, or only certain types?
任何視頻都可以。該框架提取的是通用視覺参數——鏡頭運動、光線、主體動作——适用於从好莱坞電影到 TikTok 剪辑再到產品演示的所有内容。唯一区别是各层的復杂度:TikTok 可能光線簡单但動態圖形復杂;電影鏡頭可能光線復杂但構圖靜態。
問: How do I handle videos with rapid cuts or montages?
不要一次反向工程整個蒙太奇。選擇一個代表性鏡頭——通常是視覺語言最強的 hero 鏡頭——从单個鏡頭提取。將生成的提示詞模板应用到自己的内容上,然後在剪辑中拼接多次生成結果。
問: What if the reference video uses VFX or CGI that AI can't reproduce?
聚焦於 AI 能復現的内容:鏡頭運動、光線、構圖、色彩調色。如果参考視頻有 CGI 恐龍,提取場景的鏡頭行為和光線,而不是恐龍。即使主體不同,你的提示詞也能產生視覺上相似的風格。
問: Do different AI video tools interpret prompts differently?
是的。Veo 3.1、Seedance、Kling 和 Runway 對相同的提示詞語言有略微不同的解讀。一個在 Veo 3.1 上完美運行的提示詞可能在 Seedance 上需要微調。提取框架是工具無關的,但你应在自己的具體工具上测試組裝好的提示詞并迭代。
問: How many reference videos should I reverse-engineer before I get good at this?
从三個開始。選一個產品广告、一個電影叙事鏡頭、一個社交媒體剪辑。到第三個提取時,你會发現三者的共同規律——你會開始把看的每一個視頻都看作一組可提取的参數。那時就真正開窍了。
問: Can I use this framework to build a reusable prompt library?
是的——這就是終极目標。將每次提取保存為提示詞模板,用方括号替换主體特定細節。10 次提取後,你將擁有一個涵盖每种常見鏡頭類型的驗證過的提示詞庫:產品環绕、生活方式跟拍、電影級開場、社交釣饵、采訪設置等等。
問: What if I can't identify the camera movement or lighting?
一開始這很正常。从你能識别的内容開始——主體、環境、時長——然後逐步擴展。使用鏡頭語言速查表(見我們的電影感視頻提示詞指南)作為参考。練得越多,識别得越多:「那是 35mm 鏡頭,浅景深,暖色侧光」。
今天就可以嘗試的一件事
打開 YouTube。找一条你看過一百遍的广告——Apple 广告、Nike 短片、香水广告。關掉聲音看前 5 秒。每 2 秒暂停一次。
對每個 2 秒片段寫下:
- 鏡頭在做什麼?
- 光从哪裡來?
- 主體在做什麼?
- 鏡頭在做什麼?
- 光从哪裡來?
- 主體在做什麼?
然後打開 Google AI Studio,選擇 Veo 3.1,將這些觀察組裝成提示詞。把原始主體替换為你自己的——你的產品、你的品牌、你的想法。
生成。對比。
你剛剛把一条价值百萬美元的广告反向工程成了 AI 提示詞。再做十次,你就再也不會對著空白的提示詞框发呆了。



