How-To

AI图生图:原理与使用方法(含实例)

Kristy Shi·Jun 2, 2026
AI图生图:原理与使用方法(含实例)

AI图生图:原理与使用方法(含实例)

上个月,一位与我合作的设计师给我看了一个东西,让我话说到一半就停住了。她拿了一张起居室布局的粗糙铅笔草图——就是那种你能在三十秒内画在餐巾纸上的那种——上传到AI工具中,然后输入"写实室内渲染,温暖的午后阳光,中世纪现代家具,硬木地板"。十五秒后,草图变成了一张完全渲染好的照片,展现了一个并不存在的房间。

"去年这个花了我三天时间,"她说。"我得在SketchUp里建模,导出到渲染器,等六小时渲染完,然后在Photoshop里修灯光。"

Lovart is the AI design agent trusted by 10M+ creators. Try Lovart Free →

Related: 品牌指南 101:让 AI 写出视觉 Dos and Don’ts | 健身房品牌套件:Lovart AI 设计助手打造完整视觉形象指南

[@portabletext/react] Unknown block type "cta", specify a component for it in the `components.types` prop

这就是图生图AI。它不同于从文字提示生成图像。它不是滤镜。它是一种完全不同的能力——也是AI设计工具能做的最具实际用途的事情之一。

如果你听说过这个词,但不清楚它的工作原理、用途或实际操作方式,这篇指南会涵盖一切。

图生图AI到底是什么

图生图(通常缩写为img2img)是一种AI处理过程,它接收一张已有的图像作为输入,并根据输入图像的视觉结构和描述期望输出外观的文字描述,生成一张新图像。

你可以把它理解为视觉格式之间的翻译器。你提供一个结构化蓝图——一张草图、一张照片、一个粗略的构图——然后描述目标格式。AI在保留输入的核心理念和内容的同时,改变视觉风格、媒介或细节程度。

以下是它与相关概念的区别:

图生图不是文生图。 文生图仅从文字开始生成。图生图从图像开始。输入图像提供了空间引导——物体在哪里、存在什么形状、构图如何安排——这些是纯文字提示无法有效传达的。

图生图不是滤镜。 滤镜在现有图像上叠加统一的视觉效果。图生图会从根本上重新渲染内容。一张狗的草图通过img2img配合提示词"金毛寻回犬,写实风格,坐在阳光明媚的公园里"会产生一张公园里的写实风格金毛照片——而不是叠加了照片滤镜的草图。

图生图不是局部重绘或外扩绘制。 局部重绘改变图像的特定区域。外扩绘制将图像扩展到原始边界之外。图生图在保留结构框架的同时转换整张图像。不同的工具,不同的使用场景。

图生图的实际工作原理(简化版)

大致了解内部发生的事情有助于你写出更好的提示词并获得更好的结果。以下是简化版解释。

AI图像模型在数百万张图像上进行训练。在训练过程中,模型学会将视觉模式——形状、纹理、颜色、构图——与描述它们的文字关联起来。当你使用文生图时,模型从随机噪声开始,逐步将其塑造成符合你描述的图像。

图生图的工作方式不同。它不是从随机噪声开始,而是从你的输入图像开始——但有一个关键的转折。模型首先向你的输入图像中添加一定量的噪声,使其部分模糊。然后它运行与文生图相同的去噪处理,由你的文字提示引导。添加的噪声越多,AI改变事物的自由度就越大。噪声越少,输出就越接近输入。

这由一个通常被称为"强度"或"去噪强度"的参数控制——取值范围为0到1。强度为0时,输出与输入图像完全一致。强度为0.3时,保留大部分结构但改变风格。强度为0.7时,只保留大致构图,重新诠释其他一切。强度为1时,本质上就是文生图(输入被完全模糊)。

大多数AI设计工具会根据你想要实现的目标自动处理这个参数——你不需要把去噪强度当作一个数字来考虑。但当输出过于接近输入时(心里想着"试试更高的强度")或相差太大时("试试更低的强度"),理解这个概念会有帮助。

五个实用图生图示例

理解图生图最好的方式就是看它的实际效果。以下是五个真实使用场景,以及你会使用的实际提示词。

1. 草图转写实渲染图

输入: 一张产品的粗略草图——比如一个有特定手柄形状和比例的陶瓷杯子。草图确立了形状、角度和构图。但它看起来就是一张草图。

提示词: "手工制作的陶瓷杯,深森林绿哑光釉面,放在回收木桌上,窗边晨光洒落,浅景深,产品摄影风格。"

结果: 一张绿色陶瓷杯的写实产品照片。AI保留了草图中杯子的形状和角度,但以照片级的细节渲染了每个表面——釉面的质感、木纹的纹理、窗外光线的柔和衰减。产品摄影师需要工作室、灯光设备和实物杯子才能拍出这样的效果。你需要的只是一张草图和十五秒。

对于任何设计实体产品的人来说——家具、包装、陶瓷、服装、配饰——这是图生图最立竿见影的应用。你可以在草图上迭代形态和比例,几秒内(而不是几天)就能看到写实结果。

2. 照片转插画或绘画

输入: 一张照片——最近旅行拍的风景照、家庭成员的肖像照、店面照片。

提示词: "水彩画,松散富有表现力的笔触,略微柔和的调色板,可见纸纹,艺术化诠释,编辑插画风格。"

结果: 一张遵循照片构图的水彩画,但以完全不同的媒介呈现。山还在山的位置。人物的构图方式相同。但每个表面都是笔触而非像素,是颜料而非光线。

这适用于:从个人照片创建定制艺术品、为文章生成编辑插画、在品牌内容中创造视觉多样性(产品页用照片,关于页面用绘画版本),以及在委托实际画师之前探索不同艺术风格下场景的效果。

3. 情绪板转统一场景

输入: 一张粗略的拼贴或情绪板——将图片剪辑在一起,展示你希望在最终图像中呈现的氛围、色彩方案和元素。

提示词: "舒适的阅读角落,从地板到天花板的书架,锈红色天鹅绒超大扶手椅,暖琥珀色灯光的落地灯,波斯地毯,午后阳光透过纱帘洒入,生活气息和温馨感,室内设计摄影。"

结果: 一个完全呈现的室内场景,将情绪板中的元素合成为一张连贯的图像。AI不只是复制粘贴你的参考图——它理解"锈红色天鹅绒扶手椅"与"从地板到天花板的书架"应该放在一起,并将它们组合成一个令人信服的房间。

室内设计师、场景设计师以及任何规划视觉项目的人都可以用它来从零散的灵感一步跳到统一的愿景。

4. 低分辨率转高分辨率与细节恢复

输入: 一张老旧低分辨率照片——从打印件扫描的家庭照片、从旧网站截取的压缩图片、光线不好的智能手机照片。

提示词: "高分辨率,细节丰富,已修复,自然肤色,清晰锐利对焦,增强但不过度人工化。"

结果: 不仅仅是同一张模糊图片的更大版本。AI填充合理的细节——皮肤纹理、织物纹理、背景元素——基于它对照片工作原理的理解。它不是在恢复原始细节(那些信息已经丢失),而是在生成与图像显示内容一致的新细节。

这不是CSI式的"放大增强"——AI不知道你祖母在那个分辨率下的脸实际上长什么样。但它可以产生看起来自然、高质量且忠实于原作精神的结果。这是通过生成而非恢复来实现修复。

5. 系列图像的风格统一

输入: 一组产品照片——十件不同的商品,全部在不同背景下拍摄,光线不一致。

提示词: "统一产品摄影风格,干净白色背景,柔和均匀的棚拍灯光,轻微投影,电商产品图,专业目录质量。"

结果: 十张看起来像是同一次拍摄的产品图片。相同的灯光。相同的背景。相同的视觉质量。一个花了六个月用不同手机在不同房间拍摄产品的小型电商品牌,可以通过img2img全部跑一遍,得到看起来专业制作的目录。

这是为最多人节省最多时间的使用场景:拥有现有产品照片但负担不起统一棚拍的小企业。

如何使用图生图:分步操作流程

如果你从未使用过图生图,以下是可以产生一致结果的操作流程。

第一步:从清晰的输入图像开始。 输入的质量很重要。一张线条清晰、形状定义明确的草图比含糊的涂鸦给AI提供了更多的结构信息。一张光线充足、主体清晰分离的照片比一张黑暗杂乱的图像产生更好的变换效果。AI根据你给的素材工作——垃圾进垃圾出的原则在这里同样适用。

第二步:写描述输出的提示词,而不是描述输入的提示词。 这是最常见的初学者错误。如果你的输入是一张椅子的草图,别写"一张椅子的草图"。写出你希望输出的样子:"中世纪现代扶手椅,胡桃木框架,炭灰色羊毛面料,靠在白墙前,左侧自然光,建筑摄影风格。"

第三步:明确说明你想要的变换类型。 "让这个看起来更好看"不会有效果。"将这张草图转化为写实产品渲染图,棚拍灯光,8K细节"才会有效果。AI需要知道你在要求什么样的变换——草图转照片、照片转绘画、低分辨率转高分辨率、不一致转一致。

第四步:使用风格参考。 如果你想要特定的外观,直接命名它。"《纽约客》卡通风格。""像1970年代的宝丽来。""时尚编辑摄影,Vogue风格。"AI在训练数据中见过这些参考,可以近似模仿。这比从零开始描述视觉风格要有效得多。

第五步:对输出结果进行迭代。 你的第一次结果很少会完美。如果变换过于激进(输出几乎不像输入),使用更低的强度或更仔细地描述输入。如果变换不够激进(输出看起来太像输入),提高强度或使变换描述更明确。这是一个旋钮,不是一个开关——学会为不同类型的变换设置旋钮的位置,是你在实践中培养的主要技能。

第六步:修饰特定元素。 大多数支持图生图的AI设计工具也支持定向编辑——点击特定区域并描述要更改的内容。"把这把椅子改成深色木头。""移除背景中的那个物体。""在画面左侧添加一株植物。"用img2img进行大面积变换,然后用定向编辑进行精确调整。

常见错误及解决方法

在帮助了几十个人完成他们第一次图生图尝试后,我反复看到同样的问题出现。以下是出错的原因及解决方法。

错误:输出与输入完全不像。 你的强度设置得太高了,或者你的提示词与输入图像矛盾。如果你的输入是一张狗的照片,而你的提示词说"一只猫",AI会按照提示词来做。降低强度或确保你的提示词以与输入兼容的方式描述输出。

错误:输出与输入完全一样。 你的强度太低了。AI几乎没做什么修改。提高强度或使你的变换描述更加戏剧化。低强度下的"微妙增强"几乎不会产生可察觉的变化。

错误:输出出现奇怪的伪影或扭曲。 当输入图像包含混淆元素时会发生这种情况——重叠的形状、模糊的边缘、主体与背景对比度差。先清理输入:裁剪到主体、提高对比度、简化构图。输入中的结构信息越清晰,输出就越干净。

错误:风格迁移不匹配。 泛泛的风格描述产生泛泛的结果。"绘画风格"给了AI太多选择。"油画,厚涂技法,可见笔触,伦勃朗式光线,深色背景,暖色调"给了AI一个具体的目标。在图生图提示词中,具体性就是一切。

错误:输出中的颜色不对。 在提示词中添加颜色方向。不只是描述主题和风格——要描述调色板。"柔和的土色调,鼠尾草绿和温暖赤陶色。""冷蓝色和灰色调,干净利落。"AI会偏向你描述的调色板。

FAQ

Q:图生图和使用滤镜有什么区别?

滤镜在整个图像上应用统一的效果。图生图根据AI对图像内容的理解以及你的要求从根本上重新渲染内容。使用img2img的草图转照片变换可以生成摄影级的细节——纹理、灯光、阴影——这些都是滤镜在物理上无法产生的,因为滤镜不理解草图中的圆圈代表的是杯子,而不只是一个圆圈。

Q:我可以用图生图来放大老旧照片吗?

可以,而且这是最佳使用场景之一。低分辨率照片、扫描的打印件、压缩的数码图像——使用img2img配合"高分辨率、增强细节、修复照片"这样的提示词可以产生看起来自然且细节丰富的结果。AI基于它对摄影、人脸和环境的理解生成合理的细节。这不是在恢复丢失的信息——而是生成新的、一致的信息。

Q:图生图和Touch Edit有什么区别?

图生图变换整张图像。Touch Edit(或定向编辑)在不影响其他部分的情况下改变特定元素或区域。它们是互补的:使用img2img进行大面积变换,然后用Touch Edit进行精确调整。

Q:什么文件格式作为输入效果最好?

PNG和JPG是通用的。更高分辨率的输入通常产生更好的输出,因为AI有更多的结构信息可以处理。一张512px的草图在输出中产生的细节比2048px的草图少。矢量文件(SVG、EPS)通常需要先栅格化。

Q:图生图能处理一张图像中的多个主体吗?

可以,但结果取决于每个主体的清晰程度。一张前景主体清晰、背景简单的图像比一张五个重叠主体的杂乱图像效果更好。如果你的输入很复杂,尝试在提示词中描述最重要的主体——AI会将变换重点集中在那里。

Q:图生图有版权问题吗?

如果你创建了输入图像或有权使用它,输出通常被视为归你所有的衍生作品——就像你委托画师为你的照片创作一幅画一样。如果输入图像不属于你,同样的版权问题适用于任何图像使用。请查看你的AI工具条款了解关于输出所有权的具体政策。

Q:图生图生成需要多长时间?

通常需要5到30秒,取决于分辨率和复杂度。在大多数情况下它比文生图更快,因为AI从结构信息开始而不是从头构建。

Q:我可以将图生图用于视频帧吗?

可以,但是逐帧的img2img不会产生时间上一致的结果——每一帧都是独立处理的,所以输出可能会在帧之间闪烁或偏移。对于视频,专用的视频转视频工具会产生更好的结果。图生图最适合用于静态图像。

今天可以尝试的一件事

找出你桌上最粗糙的草图——餐巾纸涂鸦、白板示意图、会议期间画的快速线框图。打开Lovart的ChatCanvas,上传它,并描述如果那张草图变成真实的样子会是什么样。不是"让它更好看"——而是描述实际的成品。写实产品图。完成的插画。精致的室内设计。渲染后的建筑。无论那张草图试图传达什么。

运行它。查看结果。如果接近了,就改进——调整提示词,调整描述。如果偏离了,描述出问题的地方再运行一次。刚刚发生的转变过去需要数天的人工劳动。现在只需要几秒。技能不在于学习复杂的软件,而在于学会足够好地描述你脑海中的画面,让AI也能看到它。

Read more

用 Lovart 设计

全速创作,让愿景成真