AI圖生圖：原理與使用方法（含實例）

上個月，一位和我合作的設計師給我看了一個東西，讓我話說到一半就停住了。她拿起一張客廳佈局的粗糙鉛筆草稿——就是那種三十秒內能在餐巾紙上畫出來的草稿——上傳到一個AI工具，然後輸入：「寫實室內渲染，溫暖的午後光線，中世紀現代風格家具，硬木地板」。十五秒後，那張草稿變成了一間不存在的房間的完整渲染照片。

「去年這要花我三天的時間，」她說。「我得先在SketchUp裡建模，匯出到渲染器，等六個小時的渲染，然後在Photoshop裡調整光線。」

Lovart is the AI design agent trusted by 10M+ creators. Try Lovart Free →

這就是AI圖生圖。它和用文字提示生成圖片不一樣。它不是濾鏡。它是一種完全不同的能力——而且是AI設計工具能做的、最實用的功能之一。

如果你聽過這個詞，但不了解它的原理、用途，或該怎麼實際操作，本指南會涵蓋所有內容。

AI圖生圖究竟是什麼

圖生圖（常縮寫為img2img）是一種AI處理流程，它接收一張現有的圖片作為輸入，並根據輸入圖片的視覺結構以及你對輸出結果的文字描述，生成一張新的圖片。

可以把它想像成視覺格式之間的翻譯器。你提供一個結構藍圖——草稿、照片、粗略構圖——並描述目標格式。AI在保留你輸入內容的核心佈局和主體的同時，轉換視覺風格、媒介或細節層次。

以下是它與相關概念的區別：

圖生圖不是文生圖。 文生圖只從文字開始。圖生圖從圖片開始。輸入圖片提供了空間指引——物件在哪裡、有什麼形狀、構圖如何排列——這些是純文字提示無法有效傳達的。

圖生圖不是濾鏡。 濾鏡是在現有圖片上套用均勻的視覺效果。圖生圖是從根本上重新渲染內容。一張狗的草稿透過img2img處理，搭配提示詞「黃金獵犬，寫實風格，坐在陽光明媚的公園裡」，會產生一張在公園裡的、照片般的黃金獵犬——而不是一張疊加照片濾鏡的草稿。

圖生圖不是局部重繪或向外擴展。 局部重繪是改變圖片的特定區域。向外擴展是將圖片延伸到原始邊界之外。圖生圖則是轉換整張圖片，同時保留其結構框架。不同工具，不同用途。

圖生圖的實際運作原理（簡單版）

大致了解幕後的運作機制，能幫助你寫出更好的提示詞並獲得更好的結果。以下是簡化版。

AI圖片模型是在數百萬張圖片上訓練出來的。在訓練過程中，模型學會將視覺模式——形狀、紋理、顏色、構圖——與描述它們的詞彙聯繫起來。當你使用文生圖時，模型從隨機噪點開始，逐步將它塑造成符合你描述的圖片。

圖生圖的運作方式不同。它不是從隨機噪點開始，而是從你的輸入圖片開始——但有一個關鍵的轉折。模型首先向你的輸入圖片加入受控量的噪點，部分地模糊它。然後它執行與文生圖相同的去噪過程，並由你的文字提示引導。加入的噪點越多，AI就有越大的自由度去改變內容。噪點越少，輸出就越接近輸入。

這由一個通常稱為「強度」或「去噪強度」的參數控制——數值範圍從0到1。強度為0時，輸出等於原圖不變。強度0.3保留大部分結構但改變風格。強度0.7只保留粗略構圖，其他一切都重新詮釋。強度1基本上就是文生圖（輸入完全被模糊）。

大多數AI設計工具會根據你正在做的事自動處理這個參數——你不需要把去噪強度當成一個數字來考慮。但理解這個概念有幫助，當輸出太接近輸入時（在心裡想「試試更高的強度」），或差異太大時（「試試更低的強度」）。

五個圖生圖的實例

了解圖生圖最好的方式就是看它實際運作。以下是五個真實的應用場景，附帶你實際會用到的提示詞。

1. 草稿轉寫實渲染圖

輸入： 一張產品的粗糙草稿——比如說，一個有特定手柄形狀和比例的陶瓷馬克杯。草稿確定了形狀、角度、構圖。但它看起來就是草稿。

提示詞： 「手工陶瓷馬克杯，啞光深森林綠釉面，放在回收木桌上，來自附近窗戶的清晨光線，淺景深，產品攝影風格。」

結果： 一張綠色陶瓷馬克杯的寫實產品照。AI保留了草稿中杯子的形狀和角度，但以攝影級的細節渲染了每一個表面——釉面的質感、木頭的紋理、窗光的柔和衰減。一位產品攝影師需要工作室、燈光設備和一個實體杯子才能做出這樣的效果。你只需要一張草稿和十五秒鐘。

這對於任何設計實體產品的人來說，是圖生圖最直接的應用——家具、包裝、陶瓷、服裝、配件。你可以在草稿中反覆調整形態和比例，並在幾秒鐘內看到寫實的結果，而不是幾天。

2. 照片轉插畫或繪畫

輸入： 一張照片——最近旅行的風景照、家人的肖像照、店面的照片。

提示詞： 「水彩繪畫，鬆散富有表現力的筆觸，稍微柔和的色調，紙張紋理可見，藝術性詮釋，編輯插畫風格。」

結果： 一幅遵循你照片構圖的水彩畫，但以完全不同的媒介呈現。山還在山原來的位置。人物還是同樣的構圖。但每個表面都是筆觸而非像素，是顏料而非光線。

這適用於：從個人照片創作自訂藝術品、為文章生成編輯插畫、為品牌內容產出視覺多樣性（產品頁用照片，「關於我們」頁用繪畫版本），以及在委託真正的藝術家之前，探索一個場景在不同藝術風格下的樣貌。

3. 情緒板轉統一場景

輸入： 一個粗略的拼貼或情緒板——剪輯在一起的圖片，展示你想要在最終圖片中呈現的氛圍、色彩調性和元素。

提示詞： 「舒適的閱讀角落，挑高落地書架，鐵鏽色天鵝絨特大扶手椅，散發溫暖琥珀光的落地燈，波斯地毯，午後光線透過薄紗窗簾，居住感十足且溫馨宜人，室內設計攝影。」

結果： 一個完全實現的室內場景，將你情緒板中的元素綜合成一張連貫的圖片。AI不只是複製貼上你的參考圖——它理解「鐵鏽色天鵝絨扶手椅」適合放在「挑高落地書架」旁邊，並將它們組合成一個可信的房間。

室內設計師、場景設計師以及任何規劃視覺專案的人，都可以用這個方法在一步之內從零散的靈感走向統一的願景。

4. 低解析度轉高解析度與細節復原

輸入： 一張舊的、低解析度的照片——從列印品掃描的家庭照、從舊網站抓下來的壓縮圖片、在光線不好的情況下用手機拍的照片。

提示詞： 「高解析度，細節豐富，修復，自然膚色，清晰銳利的焦點，增強但不顯人工。」

結果： 不只是一張同樣模糊圖片的放大版。AI填補了合理的細節——皮膚紋理、布料織法、背景元素——基於它對照片如何運作的理解。這不是在恢復原始細節（那些資訊已經丟失了）。這是在生成與圖片所顯示內容一致的新細節。

這不是CSI式的「增強」——AI不知道你祖母的臉在那個解析度下實際上長什麼樣子。但它能產生看起來自然、高品質且忠於原作精神的結果。這是透過生成來修復，而非透過復原。

5. 系列作品的風格轉換

輸入： 一組產品照片——十個不同的項目，全部在不同背景下拍攝，光線不一致。

提示詞： 「一致的產品攝影風格，乾淨的白色背景，柔和均勻的工作室燈光，輕微的投影，電商產品照，專業目錄品質。」

結果： 十張看起來像是出自同一組攝影的產品圖片。同樣的燈光。同樣的背景。同樣的視覺品質。一個小型電商品牌，在六個月內用不同的手機、在不同的房間拍攝了產品，可以將它們全部透過img2img處理，得到一個看起來專業製作的目錄。

這是為最多人節省最多時間的應用場景：有現有產品照片但負擔不起統一工作室重拍的小型企業。

如何使用圖生圖：逐步操作流程

如果你以前從未用過圖生圖，以下是能產出一致效果的流程。

步驟1：從清晰的輸入圖片開始。 輸入的品質很重要。線條清晰、形狀明確的草稿比模糊的塗鴉能提供AI更多結構資訊。光線良好且主體分離清晰的照片，比陰暗雜亂的圖片能產生更好的轉換效果。AI根據你提供的內容工作——「垃圾進，垃圾出」在這裡同樣適用。

步驟2：寫描述輸出結果的提示詞，而非輸入。 這是最常見的初學者錯誤。如果你的輸入是一張椅子的草稿，不要寫「一張椅子的草稿」。寫出你希望輸出結果是什麼：「中世紀現代扶手椅，胡桃木框架，炭灰色羊毛面料，靠白牆，左側自然光，建築攝影風格。」

步驟3：明確指出你想要的轉換類型。 「讓這個看起來更好」不會有用。「將這個草稿轉換為寫實產品渲染圖，工作室燈光，8K細節」就會有用。AI需要知道你要求的轉換類型——草稿轉照片、照片轉繪畫、低解析度轉高解析度、不一致轉一致。

步驟4：使用風格參考。 如果你想要特定的外觀，直接說出來。「以《紐約客》漫畫的風格。」「像1970年代的拍立得。」「時尚編輯攝影，Vogue風格。」AI在訓練資料中見過這些參考，可以近似模擬。這比試圖從零描述視覺風格有效得多。

步驟5：對輸出結果進行迭代。 你第一次的結果很少會是完美的。如果轉換過於激進（輸出幾乎不像輸入），使用較低的強度或更仔細地描述輸入。如果不夠激進（輸出太像輸入），提高強度或讓轉換描述更加明確。這是一個旋鈕，不是開關——學習針對不同類型的轉換設定旋鈕的位置，是你透過練習會培養的主要技能。

步驟6：微調特定元素。 大多數支援圖生圖的AI設計工具也支援定點編輯——點擊特定區域並描述要更改的內容。「讓這張椅子的木材顏色更深。」「從背景中移除那個物體。」「在畫面左側增加一株植物。」使用img2img進行廣泛的轉換，再用定點編輯進行精確調整。

常見錯誤及如何修正

在幫助數十個人進行他們的第一次圖生圖嘗試後，我看到同樣的問題反覆出現。以下是出錯的地方以及如何修正。

錯誤：輸出結果完全不像輸入。 你的強度設得太高，或你的提示詞與輸入圖片矛盾。如果你的輸入是一張狗的照片，而提示詞說「一隻貓」，AI會遵循提示詞。降低強度，或確保提示詞以與輸入相容的方式描述輸出。

錯誤：輸出結果看起來和輸入一模一樣。 你的強度太低。AI幾乎沒有修改任何東西。提高強度，或讓轉換描述更加顯著。「輕微增強」在低強度下產生的變化幾乎察覺不到。

錯誤：輸出結果有奇怪的偽影或扭曲。 這種情況發生在輸入圖片有令人困惑的元素時——重疊的形狀、模糊的邊緣、主體與背景之間的對比度不足。先清理輸入：裁切到主體、提高對比度、簡化構圖。輸入中的結構資訊越清晰，輸出就越乾淨。

錯誤：風格轉換不相符。 泛泛的風格描述產生泛泛的結果。「繪畫風格」給AI太多選擇。「油畫，厚塗技法，可見筆觸，林布蘭式光線，深色背景，暖色調」給AI一個具體的目標。在圖生圖提示詞中，明確性是關鍵。

錯誤：輸出的顏色不對。 在提示詞中加入色彩方向。不要只描述主體和風格——描述色調。「柔和大地色調，鼠尾草綠和溫暖陶土色。」「冷藍色和灰色，乾淨冷調。」AI會偏向你所描述的色調。

常見問題

Q：圖生圖和單純使用濾鏡有什麼差別？

A：濾鏡在整張圖片上套用均勻的效果。圖生圖基於AI對圖片內容以及你需求的理解，從根本上重新渲染內容。使用img2img進行草稿轉照片的轉換會生成攝影級的細節——紋理、光線、陰影——這些是濾鏡實際上無法產生的，因為濾鏡不知道草稿中的圓圈代表的是一個馬克杯，而不僅僅是圓圈。

Q：我可以用圖生圖來提升舊照片的解析度嗎？

A：可以，而且這是最好的應用場景之一。低解析度照片、掃描列印品、壓縮數位圖片——img2img搭配像「高解析度，增強細節，修復照片」這樣的提示詞，可以產生看起來自然且細節豐富的結果。AI基於它對攝影、人臉和環境的理解來生成合理的細節。這不是在恢復丟失的資訊——而是在生成新的、一致的資訊。

Q：圖生圖和觸碰編輯有何不同？

A：圖生圖轉換整張圖片。觸碰編輯（或定點編輯）在不影響其他部分的情況下，更改特定的元素或區域。它們是互補的：用img2img進行廣泛的轉換，再用觸碰編輯進行精細調整。

Q：什麼檔案格式最適合當作輸入？

A：PNG和JPG是通用的。較高解析度的輸入通常能產出更好的輸出，因為AI有更多的結構資訊可用。512px的草稿在輸出中產生的細節比2048px的草稿少。向量檔案（SVG、EPS）通常需要先柵格化。

Q：圖生圖能處理一張圖片中的多個主體嗎？

A：可以，但結果取決於每個主體的清晰程度。前景主體清晰、背景簡單的圖片，會比有五個重疊主體的雜亂圖片效果好。如果你的輸入很複雜，試著在提示詞中描述最重要的主體——AI會將轉換的重點放在那裡。

Q：圖生圖有任何版權問題嗎？

A：如果你創建了輸入圖片或擁有使用它的權利，輸出通常被視為你擁有的衍生作品——就像你委託藝術家為你的照片繪製一個版本一樣。如果輸入圖片不屬於你，則與任何圖片使用同樣的版權顧慮適用。查看你的AI工具的服務條款，了解關於輸出所有權的具體政策。

Q：圖生圖的生成需要多長時間？

A：通常需要5到30秒，取決於解析度和複雜度。在大多數情況下比文生圖更快，因為AI從結構資訊開始，而非從零構建。

Q：我可以對影片的每一幀使用圖生圖嗎？

A：可以，但逐幀img2img不會產出時間上一致的結果——每一幀都是獨立處理的，所以輸出可能在幀之間閃爍或偏移。對於影片，專門的影片轉影片工具會產出更好的結果。圖生圖最適合用於靜態圖片。

今天你可以嘗試的一件事

找出你桌上最粗糙的草稿——餐巾紙上的塗鴉、白板上的示意圖、會議中畫的快速線框圖。打開Lovart的ChatCanvas，上傳它，然後描述如果這張草稿變成真的，你希望它看起來是什麼樣子。不要說「讓它更好」——描述實際完成的作品。寫實產品。完成插畫。精緻室內。渲染建築。無論這張草稿想要傳達的是什麼。

執行它。看看結果。如果接近，就精煉——調整提示詞，微調描述。如果不對，描述哪裡出了問題然後再次執行。剛剛發生的轉換，過去需要數天專業技能的勞動。現在只需幾秒鐘。技能不在於學習複雜的軟體。技能在於學習足夠好地描述你腦海中看到的東西，讓AI也能看到它。

AI圖生圖：原理與使用方法（含實例）

AI圖生圖：原理與使用方法（含實例）

AI圖生圖究竟是什麼

圖生圖的實際運作原理（簡單版）

五個圖生圖的實例

1. 草稿轉寫實渲染圖

2. 照片轉插畫或繪畫

3. 情緒板轉統一場景

4. 低解析度轉高解析度與細節復原

5. 系列作品的風格轉換

如何使用圖生圖：逐步操作流程

常見錯誤及如何修正

常見問題

今天你可以嘗試的一件事

Read more

AdCreative.ai 2026評測：AI廣告變體、品牌控制和更好的替代方案

AI 名片設計：如何快速製作專業品質名片

AI菜單設計：餐廳如何快速生成專業菜單版面

用 Lovart 設計