Alibaba Lança Qwen-Image-Edit: Modelo Open-Source de 20B Para Edição Avançada de Imagens e Texto

Em resumo

A equipe Qwen da Alibaba Cloud lançou o Qwen-Image-Edit, um modelo de edição de imagem de última geração que combina edição semântica e de aparência com modificação precisa de texto bilíngue, oferecendo capacidades avançadas para aplicações criativas e práticas.

Alibaba Lança Qwen-Image-Edit: Modelo Open-Source de 20B Para Edição Avançada de Imagem e Texto

A equipe Qwen da Alibaba Cloud apresentou o Qwen-Image-Edit, um modelo avançado de edição de imagens derivado da estrutura Qwen-Image de 20B. O novo sistema expande as distintas capacidades de renderização de texto do Qwen-Image aplicando-as à edição de imagens, com um foco particular na precisão nas modificações de texto. O Qwen-Image-Edit processa imagens de entrada através de dois componentes paralelos: Qwen2.5-VL, que gerencia o controle semântico visual, e o Codificador VAE, que governa a aparência visual. Essa abordagem dupla permite que o modelo lide de forma eficaz com tarefas de edição tanto em nível semântico quanto em nível de aparência. A ferramenta está acessível através do Qwen Chat na funcionalidade "Edição de Imagens".

O Qwen-Image-Edit foi projetado para atuar em múltiplas dimensões de edição. Ele suporta ajustes a nível de aparência, como a adição, remoção ou modificação de elementos visuais, enquanto mantém todas as outras áreas da imagem intactas, e edições a nível semântico, como criação de propriedade intelectual, rotação de objetos ou transferências de estilo, onde alterações de pixels mais amplas são permitidas, mas a integridade semântica é preservada. Ele também fornece capacidades refinadas de edição de texto em chinês e inglês, permitindo que os usuários adicionem, removam ou ajustem texto dentro das imagens, mantendo a consistência da fonte, tamanho e estilo. Testes de referência em vários conjuntos de dados amplamente reconhecidos indicam que o Qwen-Image-Edit alcança desempenho de ponta em edição de imagens, posicionando-o como um forte modelo base para futuras aplicações neste domínio.

Edição Semântica e de Aparência do Qwen-Image-Edit para Aplicações Criativas e Práticas

Um dos aspectos definidores do Qwen-Image-Edit é a sua funcionalidade avançada tanto na edição semântica quanto na edição de aparência. A edição semântica envolve a alteração do conteúdo de uma imagem, garantindo que o significado visual subjacente permaneça intacto. Para ilustrar esta função de forma simples, a equipe de desenvolvimento destaca o seu uso com a mascote oficial do Qwen, a Capivara, como um exemplo prático.

Qwen-Image-Edit Mostra Edição Semântica e de Aparência Avançada para Aplicações Criativas e Práticas

A observação mostra que, embora a maioria dos pixels na imagem modificada difira daqueles na imagem de entrada original à esquerda, a consistência geral do personagem Capybara permanece totalmente mantida. Isso demonstra a forte capacidade de edição semântica do Qwen-Image-Edit, que suporta o desenvolvimento flexível e variado de conteúdo de propriedade intelectual original. Além disso, dentro do Qwen Chat, um conjunto dedicado de prompts de edição foi criado em torno dos 16 tipos de personalidade MBTI. Usando esses prompts, uma coleção completa de pacotes de emojis com tema MBTI apresentando a mascote Capybara foi produzida com sucesso, estendendo efetivamente tanto a representação quanto a visibilidade do personagem.

Além disso, a síntese de novas perspectivas representa outro caso de uso importante dentro da edição semântica. O Qwen-Image-Edit é capaz de girar objetos em 90 graus ou executar uma rotação completa de 180 graus, permitindo a visualização direta do lado traseiro de um objeto. Um exemplo adicional de edição semântica reside na transferência de estilo, onde, por exemplo, um retrato padrão pode ser reinterpretado em múltiplas estéticas artísticas, incluindo estilos que lembram o Studio Ghibli.

Juntamente com a edição semântica, a edição de aparência constitui uma função frequentemente requerida na modificação de imagens. Esta abordagem foca em preservar regiões específicas de uma imagem totalmente inalteradas, enquanto introduz, remove ou altera elementos designados. Como demonstrado em um exemplo onde uma placa é incorporada de forma fluida em uma cena, a edição de aparência se presta a uma ampla gama de aplicações, como ajustes de fundo para indivíduos ou modificações de vestuário. Outra capacidade definidora do Qwen-Image-Edit é sua precisão na edição de texto, um recurso derivado da avançada especialização do Qwen-Image em tecnologias de renderização de texto.

IN-8.94%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)