阿裏巴巴發布 Qwen-Image-Edit:20B 開源模型用於高級圖像和文本編輯

簡要

阿裏雲的Qwen團隊推出了Qwen-Image-Edit,這是一個最先進的圖像編輯模型,結合了語義和外觀編輯與精確的雙語文本修改,爲創意和實用應用提供了先進的能力。

阿裏巴巴發布 qwen-image-edit:用於高級圖像和文本編輯的 20B 開源模型

阿裏巴巴雲的 Qwen 團隊推出了 Qwen-Image-Edit,這是一個基於 20B Qwen-Image 框架的先進圖像編輯模型。新系統在 Qwen-Image 獨特的文本渲染能力基礎上進行了擴展,將其應用於圖像編輯,特別關注文本修改的精確性。Qwen-Image-Edit 通過兩個並行組件處理輸入圖像:Qwen2.5-VL,負責視覺語義控制,以及 VAE 編碼器,負責視覺外觀。這種雙重方法使模型能夠有效地處理語義級和外觀級的編輯任務。該工具可以通過 Qwen Chat 的“圖像編輯”功能訪問。

Qwen-Image-Edit 旨在在多個編輯維度上執行。它支持外觀級調整,例如添加、刪除或修改視覺元素,同時保持圖像的所有其他區域完好無損,以及語義級編輯,例如知識產權創建、物體旋轉或風格遷移,在這些情況下,允許更廣泛的像素修改,但保留語義完整性。它還提供精細的文本編輯功能,支持中文和英文,允許用戶在圖像中添加、刪除或調整文本,同時保持字體、大小和風格的一致性。對多個廣泛認可的數據集進行的基準測試表明,Qwen-Image-Edit 在圖像編輯方面達到了最先進的性能,使其成爲該領域未來應用的強大基礎模型。

Qwen-Image-Edit的語義和外觀編輯,適用於創意和實用應用

Qwen-Image-Edit 的一個顯著特點是其在語義和外觀編輯方面的高級功能。語義編輯涉及在確保圖像的基本視覺意義保持不變的情況下,改變圖像的內容。爲了以簡單的方式說明這一功能,開發團隊以 Qwen 的官方吉祥物水豚作爲一個實際示例。

![qwen-image-edit 展示了用於創意和實際應用的高級語義和外觀編輯](http://img-cdn.gateio.im/social/moments-5970b5aae8436ebb045c2c725df60a57019283746574839201

觀察表明,盡管修改後的圖像中大部分像素與左側原始輸入圖像中的像素不同,但水豚角色的整體一致性仍然完全保持。這表明Qwen-Image-Edit具有強大的語義編輯能力,支持原創知識產權內容的靈活和多樣化發展。此外,在Qwen Chat中,圍繞16種MBTI人格類型創建了一套專門的編輯提示。使用這些提示,成功制作了一整套以水豚吉祥物爲特色的MBTI主題表情包,有效地擴展了角色的表現和可見度。

此外,新穎的視圖合成代表了語義編輯中的另一個重要用例。Qwen-Image-Edit能夠將物體旋轉90度或執行完整的180度旋轉,從而直接可視化物體的背面。語義編輯的另一個例子是風格遷移,例如,標準肖像可以被重新詮釋爲多種藝術美學,包括讓人想起吉卜力工作室的風格。

除了語義編輯,外觀編輯也是圖像修改中常見的功能。這種方法側重於保持圖像特定區域完全不變,同時引入、刪除或更改指定元素。如在一個示例中,招牌無縫地融入場景,外觀編輯適用於多種應用,例如個人背景調整或服裝修改。Qwen-Image-Edit的另一個顯著特點是其在文本編輯方面的精確性,這一特性源於Qwen-Image在文本渲染技術方面的先進專長。

IN-8.65%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)