A Configuração Mais Importante que Você Pode Estar Ignorando
Você criou o prompt perfeito. As palavras são precisas, o estilo está definido, você clica em gerar... e o resultado é ou uma bagunça borrada ou um pesadelo crocante e supersaturado. O que deu errado?
Muitas vezes, o culpado é o CFG Scale - um dos parâmetros mais importantes e mal compreendidos da geração de imagens com IA. Entender essa única configuração pode melhorar dramaticamente seus resultados.
O que é CFG Scale?
CFG significa Classifier-Free Guidance (Orientação Livre de Classificador). É um parâmetro que controla o quanto a IA segue seu prompt de texto em comparação com gerar uma saída mais "livre" e criativa.
Pense nele como um botão entre dois extremos:
- CFG baixo (1-5): A IA tem mais liberdade criativa. Os resultados podem se desviar do seu prompt, mas geralmente parecem mais naturais e orgânicos
- CFG alto (15-30): A IA segue rigorosamente seu prompt. Os resultados correspondem à sua descrição de perto, mas podem parecer artificiais ou supersaturados
Uma Analogia Simples
Imagine dar instruções a um artista:
- CFG baixo: "Pinte uma paisagem para mim. Sinta-se livre para interpretar como quiser."
- CFG médio: "Pinte uma paisagem de pôr do sol com montanhas. Certifique-se de que esses elementos estejam lá, mas pode adicionar seus próprios toques."
- CFG alto: "Pinte exatamente isto: uma paisagem de pôr do sol com montanhas cobertas de neve, três pinheiros à esquerda, um lago refletindo o céu laranja. Cada elemento deve ser exatamente como eu descrevi."
Como o CFG Scale Funciona (Explicação Técnica)
Para quem quer entender a mecânica:
O Processo de Denoising
A geração de imagens com IA funciona começando com ruído aleatório e gradualmente "removendo o ruído" para formar uma imagem. Em cada etapa, o modelo faz previsões sobre como a imagem final deve parecer.
Condicional vs. Incondicional
O modelo na verdade faz duas previsões em cada etapa:
- Previsão incondicional: "Como seria uma imagem genérica?"
- Previsão condicional: "Como seria uma imagem que corresponda a este prompt específico?"
A Fórmula do CFG
O CFG Scale determina como mesclar essas previsões:
Final = Incondicional + CFG × (Condicional − Incondicional)
- CFG = 1: Usa apenas a previsão condicional (guiada pelo prompt, mas fraca)
- CFG = 7: Empurra fortemente em direção ao conteúdo que corresponde ao prompt
- CFG = 20: Impõe agressivamente a aderência ao prompt (geralmente demais)
CFG mais alto significa que a diferença entre "o que você pediu" e "imagem genérica" é amplificada mais fortemente.
Encontrando o Ponto Ideal
A Faixa Comum: 5-15
A maioria dos geradores de imagem com IA funciona melhor nessa faixa. O ponto ideal exato depende de:
- O modelo específico que você está usando
- A complexidade do seu prompt
- O estilo que você está buscando
- Preferência pessoal
Recomendações por Modelo
Stable Diffusion (SD 1.5, SDXL):
- Uso geral: 7-8
- Fotorrealista: 5-7
- Artístico/estilizado: 8-12
- Máxima aderência ao prompt: 12-15
Modelos Flux:
- Flux Schnell: 1-4 (projetado para CFG baixo)
- Flux Dev: 3-5
- Flux Pro: 2-4
Midjourney:
- Usa o parâmetro "stylize" em vez disso (conceito similar)
- Menor = mais literal, maior = mais artístico
DALL-E:
- CFG é gerenciado internamente, não ajustável pelo usuário
Efeitos de Diferentes Valores de CFG
Muito Baixo (1-3)
Características:
- Qualidade suave, onírica
- Cores são suaves e naturais
- Aderência ao prompt é frouxa
- Pode ignorar detalhes específicos
- Pode parecer sem foco ou aleatório
Quando usar:
- Arte abstrata ou surreal
- Quando você quer criatividade da IA
- Imagens suaves e atmosféricas
- Com modelos Flux (projetados para CFG baixo)
Baixo-Médio (4-6)
Características:
- Imagens de aparência natural
- Bom equilíbrio entre seguir o prompt e criatividade
- Iluminação suave, cores realistas
- Detalhes menores podem variar do prompt
Quando usar:
- Imagens fotorrealistas
- Retratos e pessoas
- Cenas naturais
- Quando o realismo importa mais que a precisão
Médio (7-9)
Características:
- Forte aderência ao prompt
- Saturação e contraste equilibrados
- Definição clara do assunto
- Boa reprodução de detalhes
Quando usar:
- Geração de propósito geral
- Quando você precisa de resultados confiáveis
- Imagens comerciais e de produtos
- Maioria dos fluxos de trabalho com Stable Diffusion
Médio-Alto (10-14)
Características:
- Aderência muito forte ao prompt
- Saturação aumentada
- Contraste mais alto
- Detalhes se tornam mais pronunciados
- Começa a parecer "gerado por IA"
Quando usar:
- Quando a precisão do prompt é crítica
- Arte estilizada ou gráfica
- Quando elementos específicos devem aparecer
- Tentativas de renderização de texto
Alto (15-20+)
Características:
- Máxima aderência ao prompt
- Cores supersaturadas
- Aparência áspera e artificial
- Artefatos e distorções comuns
- Aparência "crocante" ou "fritada"
Quando usar:
- Raramente - geralmente indica que o prompt precisa de ajustes
- Efeitos artísticos específicos
- Teste de eficácia do prompt
- Alguns estilos de arte abstrata ou glitch
Problemas Comuns e Soluções
Problema: Imagens Parecem Borradas ou Sem Foco
Causa provável: CFG muito baixo
Solução: Aumente o CFG em 2-3 pontos. Se estiver usando Flux, tente ir de 2 para 4.
Problema: Imagens Parecem Supersaturadas ou Artificiais
Causa provável: CFG muito alto
Solução: Diminua o CFG em 2-3 pontos. A maioria dos casos funciona bem entre 6-8.
Problema: IA Ignora Partes do Prompt
Causa provável: CFG pode estar muito baixo, mas geralmente o prompt em si precisa de ajustes
Solução: Tente aumentar o CFG ligeiramente. Se isso não ajudar, reestruture seu prompt para enfatizar elementos importantes.
Problema: Artefatos Estranhos ou Visual "Fritado"
Causa provável: CFG significativamente alto demais
Solução: Diminua o CFG para a faixa de 7-10. Os artefatos crocantes são um sinal clássico de orientação excessiva.
Problema: Rostos Parecem Distorcidos
Causa provável: CFG interagindo mal com a geração de rostos
Solução: Para retratos, diminua o CFG para a faixa de 5-7. Rostos são sensíveis a valores altos de CFG.
Estratégias de CFG Scale
Estratégia 1: A Abordagem de Bracketing
Quando não tiver certeza, gere o mesmo prompt em múltiplos valores de CFG:
- Gere em CFG 5, 7, 9, 11
- Compare os resultados
- Ajuste fino ao redor do seu favorito
Isso mostra rapidamente a faixa ideal para seu prompt específico.
Estratégia 2: Combine CFG ao Conteúdo
- Fotos realistas: CFG mais baixo (5-7)
- Ilustrações: CFG médio (7-10)
- Arte gráfica: CFG mais alto (9-12)
- Abstrato: Variável (experimente!)
Estratégia 3: Ajuste pela Complexidade do Prompt
- Prompts simples: Podem funcionar com CFG mais baixo
- Prompts complexos: Podem precisar de CFG mais alto para incluir todos os elementos
- Prompts muito específicos: CFG mais alto, mas atenção aos artefatos
CFG e Outros Parâmetros
CFG vs. Steps
Eles interagem significativamente:
- CFG mais alto geralmente se beneficia de mais steps para resolver detalhes
- CFG mais baixo geralmente pode usar menos steps sem perda de qualidade
- Se aumentar o CFG, considere aumentar os steps um pouco também
CFG vs. Sampler
Diferentes samplers têm diferentes sensibilidades ao CFG:
- Euler: Resposta padrão ao CFG
- DPM++ 2M: Funciona bem com CFG moderado
- DDIM: Consegue lidar com CFG mais alto com menos artefatos
CFG vs. Modelo
Cada modelo tem sua própria faixa ideal de CFG:
- Leia a documentação do modelo para recomendações
- Modelos customizados com fine-tuning podem ter necessidades específicas de CFG
- Ao trocar de modelo, não assuma que seu CFG habitual vai funcionar
Avançado: CFG Dinâmico
Alguns fluxos de trabalho avançados usam CFG variável ao longo da geração:
- CFG alto no início: Estabelece composição e elementos-chave
- CFG mais baixo depois: Permite desenvolvimento natural de detalhes
Isso pode produzir imagens que são tanto fiéis ao prompt quanto de aparência natural. Ferramentas como ComfyUI suportam isso através de nós personalizados.
Exemplos Práticos
Fotografia de Retrato
Prompt: "Foto corporativa profissional de uma mulher de negócios, iluminação de estúdio, fundo neutro"
- CFG 5: Iluminação suave e natural, leve variação do prompt
- CFG 7: Iluminação de estúdio clara, fiel ao prompt
- CFG 12: Iluminação dura, possíveis tons de pele não naturais
- Melhor escolha: 5-7
Ilustração de Fantasia
Prompt: "Dragão épico empoleirado em uma montanha de cristal, pôr do sol, estilo de arte fantasia"
- CFG 5: Atmosférico, mas detalhes podem ficar vagos
- CFG 8: Dragão e montanha claros, bom equilíbrio
- CFG 12: Elementos muito definidos, cores intensificadas
- Melhor escolha: 7-10
Foto de Produto
Prompt: "Tênis branco em fundo branco, fotografia de produto, iluminação limpa"
- CFG 5: Pode não alcançar o visual limpo de produto
- CFG 8: Aparência limpa e profissional
- CFG 12: Risco de nitidez excessiva e artefatos
- Melhor escolha: 7-9
Conclusão
O CFG Scale é sua alavanca mais poderosa para controlar a qualidade da geração de imagens com IA. Muito baixo e suas imagens se desviam da sua visão; muito alto e elas se tornam artificiais e ásperas.
Os insights-chave:
- 7-8 é um ponto de partida seguro para a maioria dos modelos e prompts
- Ajuste com base no tipo de conteúdo - realista = mais baixo, estilizado = mais alto
- Observe os sinais reveladores - borrado significa muito baixo, crocante significa muito alto
- Diferentes modelos têm diferentes pontos ideais - sempre verifique a documentação
- Na dúvida, faça bracketing - teste múltiplos valores e compare
Domine o CFG Scale e você terá muito mais controle sobre suas imagens geradas por IA. É a diferença entre lutar contra a IA e colaborar com ela.