How-To

AI圖生圖:原理與使用方法(含實例)

Kristy Shi·Jun 2, 2026
AI圖生圖:原理與使用方法(含實例)

AI圖生圖:原理與使用方法(含實例)

上個月,一位和我合作的設計師給我看了一個東西,讓我話說到一半就停住了。她拿起一張客廳佈局的粗糙鉛筆草稿——就是那種三十秒內能在餐巾紙上畫出來的草稿——上傳到一個AI工具,然後輸入:「寫實室內渲染,溫暖的午後光線,中世紀現代風格家具,硬木地板」。十五秒後,那張草稿變成了一間不存在的房間的完整渲染照片。

「去年這要花我三天的時間,」她說。「我得先在SketchUp裡建模,匯出到渲染器,等六個小時的渲染,然後在Photoshop裡調整光線。」

Lovart is the AI design agent trusted by 10M+ creators. Try Lovart Free →

Related: 2026 年最佳 Pixverse AI 替代方案:影片生成比較 | 如何 Chat-Generate Facebook Ads 創意s with Lovart — Lower CPA, H

[@portabletext/react] Unknown block type "cta", specify a component for it in the `components.types` prop

這就是AI圖生圖。它和用文字提示生成圖片不一樣。它不是濾鏡。它是一種完全不同的能力——而且是AI設計工具能做的、最實用的功能之一。

如果你聽過這個詞,但不了解它的原理、用途,或該怎麼實際操作,本指南會涵蓋所有內容。

AI圖生圖究竟是什麼

圖生圖(常縮寫為img2img)是一種AI處理流程,它接收一張現有的圖片作為輸入,並根據輸入圖片的視覺結構以及你對輸出結果的文字描述,生成一張新的圖片。

可以把它想像成視覺格式之間的翻譯器。你提供一個結構藍圖——草稿、照片、粗略構圖——並描述目標格式。AI在保留你輸入內容的核心佈局和主體的同時,轉換視覺風格、媒介或細節層次。

以下是它與相關概念的區別:

圖生圖不是文生圖。 文生圖只從文字開始。圖生圖從圖片開始。輸入圖片提供了空間指引——物件在哪裡、有什麼形狀、構圖如何排列——這些是純文字提示無法有效傳達的。

圖生圖不是濾鏡。 濾鏡是在現有圖片上套用均勻的視覺效果。圖生圖是從根本上重新渲染內容。一張狗的草稿透過img2img處理,搭配提示詞「黃金獵犬,寫實風格,坐在陽光明媚的公園裡」,會產生一張在公園裡的、照片般的黃金獵犬——而不是一張疊加照片濾鏡的草稿。

圖生圖不是局部重繪或向外擴展。 局部重繪是改變圖片的特定區域。向外擴展是將圖片延伸到原始邊界之外。圖生圖則是轉換整張圖片,同時保留其結構框架。不同工具,不同用途。

圖生圖的實際運作原理(簡單版)

大致了解幕後的運作機制,能幫助你寫出更好的提示詞並獲得更好的結果。以下是簡化版。

AI圖片模型是在數百萬張圖片上訓練出來的。在訓練過程中,模型學會將視覺模式——形狀、紋理、顏色、構圖——與描述它們的詞彙聯繫起來。當你使用文生圖時,模型從隨機噪點開始,逐步將它塑造成符合你描述的圖片。

圖生圖的運作方式不同。它不是從隨機噪點開始,而是從你的輸入圖片開始——但有一個關鍵的轉折。模型首先向你的輸入圖片加入受控量的噪點,部分地模糊它。然後它執行與文生圖相同的去噪過程,並由你的文字提示引導。加入的噪點越多,AI就有越大的自由度去改變內容。噪點越少,輸出就越接近輸入。

這由一個通常稱為「強度」或「去噪強度」的參數控制——數值範圍從0到1。強度為0時,輸出等於原圖不變。強度0.3保留大部分結構但改變風格。強度0.7只保留粗略構圖,其他一切都重新詮釋。強度1基本上就是文生圖(輸入完全被模糊)。

大多數AI設計工具會根據你正在做的事自動處理這個參數——你不需要把去噪強度當成一個數字來考慮。但理解這個概念有幫助,當輸出太接近輸入時(在心裡想「試試更高的強度」),或差異太大時(「試試更低的強度」)。

五個圖生圖的實例

了解圖生圖最好的方式就是看它實際運作。以下是五個真實的應用場景,附帶你實際會用到的提示詞。

1. 草稿轉寫實渲染圖

輸入: 一張產品的粗糙草稿——比如說,一個有特定手柄形狀和比例的陶瓷馬克杯。草稿確定了形狀、角度、構圖。但它看起來就是草稿。

提示詞: 「手工陶瓷馬克杯,啞光深森林綠釉面,放在回收木桌上,來自附近窗戶的清晨光線,淺景深,產品攝影風格。」

結果: 一張綠色陶瓷馬克杯的寫實產品照。AI保留了草稿中杯子的形狀和角度,但以攝影級的細節渲染了每一個表面——釉面的質感、木頭的紋理、窗光的柔和衰減。一位產品攝影師需要工作室、燈光設備和一個實體杯子才能做出這樣的效果。你只需要一張草稿和十五秒鐘。

這對於任何設計實體產品的人來說,是圖生圖最直接的應用——家具、包裝、陶瓷、服裝、配件。你可以在草稿中反覆調整形態和比例,並在幾秒鐘內看到寫實的結果,而不是幾天。

2. 照片轉插畫或繪畫

輸入: 一張照片——最近旅行的風景照、家人的肖像照、店面的照片。

提示詞: 「水彩繪畫,鬆散富有表現力的筆觸,稍微柔和的色調,紙張紋理可見,藝術性詮釋,編輯插畫風格。」

結果: 一幅遵循你照片構圖的水彩畫,但以完全不同的媒介呈現。山還在山原來的位置。人物還是同樣的構圖。但每個表面都是筆觸而非像素,是顏料而非光線。

這適用於:從個人照片創作自訂藝術品、為文章生成編輯插畫、為品牌內容產出視覺多樣性(產品頁用照片,「關於我們」頁用繪畫版本),以及在委託真正的藝術家之前,探索一個場景在不同藝術風格下的樣貌。

3. 情緒板轉統一場景

輸入: 一個粗略的拼貼或情緒板——剪輯在一起的圖片,展示你想要在最終圖片中呈現的氛圍、色彩調性和元素。

提示詞: 「舒適的閱讀角落,挑高落地書架,鐵鏽色天鵝絨特大扶手椅,散發溫暖琥珀光的落地燈,波斯地毯,午後光線透過薄紗窗簾,居住感十足且溫馨宜人,室內設計攝影。」

結果: 一個完全實現的室內場景,將你情緒板中的元素綜合成一張連貫的圖片。AI不只是複製貼上你的參考圖——它理解「鐵鏽色天鵝絨扶手椅」適合放在「挑高落地書架」旁邊,並將它們組合成一個可信的房間。

室內設計師、場景設計師以及任何規劃視覺專案的人,都可以用這個方法在一步之內從零散的靈感走向統一的願景。

4. 低解析度轉高解析度與細節復原

輸入: 一張舊的、低解析度的照片——從列印品掃描的家庭照、從舊網站抓下來的壓縮圖片、在光線不好的情況下用手機拍的照片。

提示詞: 「高解析度,細節豐富,修復,自然膚色,清晰銳利的焦點,增強但不顯人工。」

結果: 不只是一張同樣模糊圖片的放大版。AI填補了合理的細節——皮膚紋理、布料織法、背景元素——基於它對照片如何運作的理解。這不是在恢復原始細節(那些資訊已經丟失了)。這是在生成與圖片所顯示內容一致的新細節。

這不是CSI式的「增強」——AI不知道你祖母的臉在那個解析度下實際上長什麼樣子。但它能產生看起來自然、高品質且忠於原作精神的結果。這是透過生成來修復,而非透過復原。

5. 系列作品的風格轉換

輸入: 一組產品照片——十個不同的項目,全部在不同背景下拍攝,光線不一致。

提示詞: 「一致的產品攝影風格,乾淨的白色背景,柔和均勻的工作室燈光,輕微的投影,電商產品照,專業目錄品質。」

結果: 十張看起來像是出自同一組攝影的產品圖片。同樣的燈光。同樣的背景。同樣的視覺品質。一個小型電商品牌,在六個月內用不同的手機、在不同的房間拍攝了產品,可以將它們全部透過img2img處理,得到一個看起來專業製作的目錄。

這是為最多人節省最多時間的應用場景:有現有產品照片但負擔不起統一工作室重拍的小型企業。

如何使用圖生圖:逐步操作流程

如果你以前從未用過圖生圖,以下是能產出一致效果的流程。

步驟1:從清晰的輸入圖片開始。 輸入的品質很重要。線條清晰、形狀明確的草稿比模糊的塗鴉能提供AI更多結構資訊。光線良好且主體分離清晰的照片,比陰暗雜亂的圖片能產生更好的轉換效果。AI根據你提供的內容工作——「垃圾進,垃圾出」在這裡同樣適用。

步驟2:寫描述輸出結果的提示詞,而非輸入。 這是最常見的初學者錯誤。如果你的輸入是一張椅子的草稿,不要寫「一張椅子的草稿」。寫出你希望輸出結果是什麼:「中世紀現代扶手椅,胡桃木框架,炭灰色羊毛面料,靠白牆,左側自然光,建築攝影風格。」

步驟3:明確指出你想要的轉換類型。 「讓這個看起來更好」不會有用。「將這個草稿轉換為寫實產品渲染圖,工作室燈光,8K細節」就會有用。AI需要知道你要求的轉換類型——草稿轉照片、照片轉繪畫、低解析度轉高解析度、不一致轉一致。

步驟4:使用風格參考。 如果你想要特定的外觀,直接說出來。「以《紐約客》漫畫的風格。」「像1970年代的拍立得。」「時尚編輯攝影,Vogue風格。」AI在訓練資料中見過這些參考,可以近似模擬。這比試圖從零描述視覺風格有效得多。

步驟5:對輸出結果進行迭代。 你第一次的結果很少會是完美的。如果轉換過於激進(輸出幾乎不像輸入),使用較低的強度或更仔細地描述輸入。如果不夠激進(輸出太像輸入),提高強度或讓轉換描述更加明確。這是一個旋鈕,不是開關——學習針對不同類型的轉換設定旋鈕的位置,是你透過練習會培養的主要技能。

步驟6:微調特定元素。 大多數支援圖生圖的AI設計工具也支援定點編輯——點擊特定區域並描述要更改的內容。「讓這張椅子的木材顏色更深。」「從背景中移除那個物體。」「在畫面左側增加一株植物。」使用img2img進行廣泛的轉換,再用定點編輯進行精確調整。

常見錯誤及如何修正

在幫助數十個人進行他們的第一次圖生圖嘗試後,我看到同樣的問題反覆出現。以下是出錯的地方以及如何修正。

錯誤:輸出結果完全不像輸入。 你的強度設得太高,或你的提示詞與輸入圖片矛盾。如果你的輸入是一張狗的照片,而提示詞說「一隻貓」,AI會遵循提示詞。降低強度,或確保提示詞以與輸入相容的方式描述輸出。

錯誤:輸出結果看起來和輸入一模一樣。 你的強度太低。AI幾乎沒有修改任何東西。提高強度,或讓轉換描述更加顯著。「輕微增強」在低強度下產生的變化幾乎察覺不到。

錯誤:輸出結果有奇怪的偽影或扭曲。 這種情況發生在輸入圖片有令人困惑的元素時——重疊的形狀、模糊的邊緣、主體與背景之間的對比度不足。先清理輸入:裁切到主體、提高對比度、簡化構圖。輸入中的結構資訊越清晰,輸出就越乾淨。

錯誤:風格轉換不相符。 泛泛的風格描述產生泛泛的結果。「繪畫風格」給AI太多選擇。「油畫,厚塗技法,可見筆觸,林布蘭式光線,深色背景,暖色調」給AI一個具體的目標。在圖生圖提示詞中,明確性是關鍵。

錯誤:輸出的顏色不對。 在提示詞中加入色彩方向。不要只描述主體和風格——描述色調。「柔和大地色調,鼠尾草綠和溫暖陶土色。」「冷藍色和灰色,乾淨冷調。」AI會偏向你所描述的色調。

常見問題

Q:圖生圖和單純使用濾鏡有什麼差別?

A:濾鏡在整張圖片上套用均勻的效果。圖生圖基於AI對圖片內容以及你需求的理解,從根本上重新渲染內容。使用img2img進行草稿轉照片的轉換會生成攝影級的細節——紋理、光線、陰影——這些是濾鏡實際上無法產生的,因為濾鏡不知道草稿中的圓圈代表的是一個馬克杯,而不僅僅是圓圈。

Q:我可以用圖生圖來提升舊照片的解析度嗎?

A:可以,而且這是最好的應用場景之一。低解析度照片、掃描列印品、壓縮數位圖片——img2img搭配像「高解析度,增強細節,修復照片」這樣的提示詞,可以產生看起來自然且細節豐富的結果。AI基於它對攝影、人臉和環境的理解來生成合理的細節。這不是在恢復丟失的資訊——而是在生成新的、一致的資訊。

Q:圖生圖和觸碰編輯有何不同?

A:圖生圖轉換整張圖片。觸碰編輯(或定點編輯)在不影響其他部分的情況下,更改特定的元素或區域。它們是互補的:用img2img進行廣泛的轉換,再用觸碰編輯進行精細調整。

Q:什麼檔案格式最適合當作輸入?

A:PNG和JPG是通用的。較高解析度的輸入通常能產出更好的輸出,因為AI有更多的結構資訊可用。512px的草稿在輸出中產生的細節比2048px的草稿少。向量檔案(SVG、EPS)通常需要先柵格化。

Q:圖生圖能處理一張圖片中的多個主體嗎?

A:可以,但結果取決於每個主體的清晰程度。前景主體清晰、背景簡單的圖片,會比有五個重疊主體的雜亂圖片效果好。如果你的輸入很複雜,試著在提示詞中描述最重要的主體——AI會將轉換的重點放在那裡。

Q:圖生圖有任何版權問題嗎?

A:如果你創建了輸入圖片或擁有使用它的權利,輸出通常被視為你擁有的衍生作品——就像你委託藝術家為你的照片繪製一個版本一樣。如果輸入圖片不屬於你,則與任何圖片使用同樣的版權顧慮適用。查看你的AI工具的服務條款,了解關於輸出所有權的具體政策。

Q:圖生圖的生成需要多長時間?

A:通常需要5到30秒,取決於解析度和複雜度。在大多數情況下比文生圖更快,因為AI從結構資訊開始,而非從零構建。

Q:我可以對影片的每一幀使用圖生圖嗎?

A:可以,但逐幀img2img不會產出時間上一致的結果——每一幀都是獨立處理的,所以輸出可能在幀之間閃爍或偏移。對於影片,專門的影片轉影片工具會產出更好的結果。圖生圖最適合用於靜態圖片。

今天你可以嘗試的一件事

找出你桌上最粗糙的草稿——餐巾紙上的塗鴉、白板上的示意圖、會議中畫的快速線框圖。打開Lovart的ChatCanvas,上傳它,然後描述如果這張草稿變成真的,你希望它看起來是什麼樣子。不要說「讓它更好」——描述實際完成的作品。寫實產品。完成插畫。精緻室內。渲染建築。無論這張草稿想要傳達的是什麼。

執行它。看看結果。如果接近,就精煉——調整提示詞,微調描述。如果不對,描述哪裡出了問題然後再次執行。剛剛發生的轉換,過去需要數天專業技能的勞動。現在只需幾秒鐘。技能不在於學習複雜的軟體。技能在於學習足夠好地描述你腦海中看到的東西,讓AI也能看到它。

Read more

用 Lovart 設計

全速創作,讓願景成真