📖Glossar

CFG Scale erklärt: Steuerung der KI-Bildgenerierung meistern

Verstehen Sie die CFG Scale (Classifier-Free Guidance) - den entscheidenden Parameter, der steuert, wie genau die KI Ihren Prompts folgt. Lernen Sie optimale Werte für verschiedene Szenarien.

CFG Scale erklärt: Steuerung der KI-Bildgenerierung meistern

Die wichtigste Einstellung, die Sie möglicherweise ignorieren

Sie haben den perfekten Prompt erstellt. Die Worte sind präzise, der Stil ist definiert, Sie klicken auf Generieren... und das Ergebnis ist entweder ein unscharfes Durcheinander oder ein knuspriger, übersättigter Albtraum. Was ist schiefgelaufen?

Oft ist der Übeltäter die CFG Scale - einer der wichtigsten, aber am meisten missverstandenen Parameter in der KI-Bildgenerierung. Das Verständnis dieser einzelnen Einstellung kann Ihre Ergebnisse dramatisch verbessern.

Was ist die CFG Scale?

CFG steht für Classifier-Free Guidance. Es ist ein Parameter, der steuert, wie stark die KI Ihrem Text-Prompt folgt, im Gegensatz zu einer eher "freien" kreativen Ausgabe.

Stellen Sie es sich als Regler zwischen zwei Extremen vor:

  • Niedrige CFG (1-5): Die KI hat mehr kreative Freiheit. Ergebnisse können vom Prompt abweichen, sehen aber oft natürlicher und organischer aus
  • Hohe CFG (15-30): Die KI folgt strikt Ihrem Prompt. Ergebnisse entsprechen Ihrer Beschreibung genau, können aber künstlich oder übersättigt wirken

Eine einfache Analogie

Stellen Sie sich vor, Sie geben einem Künstler Anweisungen:

  • Niedrige CFG: "Male mir eine Landschaft. Interpretiere das so, wie du möchtest."
  • Mittlere CFG: "Male mir eine Sonnenuntergangslandschaft mit Bergen. Stelle sicher, dass diese Elemente vorhanden sind, aber du darfst eigene Akzente setzen."
  • Hohe CFG: "Male mir genau das: eine Sonnenuntergangslandschaft mit schneebedeckten Bergen, drei Kiefern auf der linken Seite, ein See, der den orangefarbenen Himmel spiegelt. Jedes Element muss exakt so sein, wie ich es beschreibe."

Wie die CFG Scale funktioniert (Technische Erklärung)

Für diejenigen, die die Mechanik verstehen möchten:

Der Entrauschungsprozess

KI-Bildgenerierung funktioniert, indem sie mit zufälligem Rauschen beginnt und dieses schrittweise in ein Bild "entrauscht". Bei jedem Schritt trifft das Modell Vorhersagen darüber, wie das endgültige Bild aussehen sollte.

Bedingt vs. Unbedingt

Das Modell macht tatsächlich zwei Vorhersagen bei jedem Schritt:

  1. Unbedingte Vorhersage: "Wie würde ein generisches Bild aussehen?"
  2. Bedingte Vorhersage: "Wie würde ein Bild aussehen, das diesem spezifischen Prompt entspricht?"

Die CFG-Formel

Die CFG Scale bestimmt, wie diese Vorhersagen gemischt werden:

Ergebnis = Unbedingt + CFG × (Bedingt − Unbedingt)

  • CFG = 1: Verwendet nur die bedingte Vorhersage (prompt-geführt, aber schwach)
  • CFG = 7: Drängt stark in Richtung prompt-entsprechender Inhalte
  • CFG = 20: Erzwingt aggressiv die Prompt-Befolgung (oft zu viel)

Höhere CFG bedeutet, dass der Unterschied zwischen "was Sie angefragt haben" und "generisches Bild" stärker verstärkt wird.

Den Sweet Spot finden

Der gängige Bereich: 5-15

Die meisten KI-Bildgeneratoren funktionieren am besten in diesem Bereich. Der genaue Sweet Spot hängt ab von:

  • Dem spezifischen Modell, das Sie verwenden
  • Der Komplexität Ihres Prompts
  • Dem angestrebten Stil
  • Persönlicher Vorliebe

Modellspezifische Empfehlungen

Stable Diffusion (SD 1.5, SDXL):

  • Allgemeine Nutzung: 7-8
  • Fotorealistisch: 5-7
  • Künstlerisch/stilisiert: 8-12
  • Maximale Prompt-Befolgung: 12-15

Flux-Modelle:

  • Flux Schnell: 1-4 (für niedrige CFG konzipiert)
  • Flux Dev: 3-5
  • Flux Pro: 2-4

Midjourney:

  • Verwendet stattdessen den "Stylize"-Parameter (ähnliches Konzept)
  • Niedriger = wörtlicher, höher = künstlerischer

DALL-E:

  • CFG wird intern verarbeitet, nicht vom Benutzer einstellbar

Auswirkungen verschiedener CFG-Werte

Sehr niedrig (1-3)

Eigenschaften:

  • Weiche, traumhafte Qualität
  • Gedämpfte, natürliche Farben
  • Lockere Prompt-Befolgung
  • Kann spezifische Details ignorieren
  • Kann unfokussiert oder zufällig wirken

Wann verwenden:

  • Abstrakte oder surreale Kunst
  • Wenn Sie KI-Kreativität wünschen
  • Weiche, atmosphärische Bilder
  • Mit Flux-Modellen (für niedrige CFG konzipiert)

Niedrig-Mittel (4-6)

Eigenschaften:

  • Natürlich aussehende Bilder
  • Gute Balance aus Prompt-Befolgung und Kreativität
  • Weiches Licht, realistische Farben
  • Kleinere Details können vom Prompt abweichen

Wann verwenden:

  • Fotorealistische Bilder
  • Porträts und Personen
  • Naturszenen
  • Wenn Realismus wichtiger als Präzision ist

Mittel (7-9)

Eigenschaften:

  • Starke Prompt-Befolgung
  • Ausgewogene Sättigung und Kontrast
  • Klare Motivdefinition
  • Gute Detailwiedergabe

Wann verwenden:

  • Allgemeine Generierung
  • Wenn Sie zuverlässige Ergebnisse brauchen
  • Kommerzielle und Produktbilder
  • Die meisten Stable Diffusion-Workflows

Mittel-Hoch (10-14)

Eigenschaften:

  • Sehr starke Prompt-Befolgung
  • Erhöhte Sättigung
  • Höherer Kontrast
  • Details werden ausgeprägter
  • Beginnt "KI-generiert" auszusehen

Wann verwenden:

  • Wenn Prompt-Präzision entscheidend ist
  • Stilisierte oder grafische Kunst
  • Wenn bestimmte Elemente erscheinen müssen
  • Versuche der Textdarstellung

Hoch (15-20+)

Eigenschaften:

  • Maximale Prompt-Befolgung
  • Übersättigte Farben
  • Harscher, künstlicher Look
  • Artefakte und Verzerrungen häufig
  • "Knuspriges" oder "übertriebenes" Erscheinungsbild

Wann verwenden:

  • Selten - deutet meist darauf hin, dass der Prompt überarbeitet werden muss
  • Spezifische künstlerische Effekte
  • Testen der Prompt-Wirksamkeit
  • Einige abstrakte oder Glitch-Art-Stile

Häufige Probleme und Lösungen

Problem: Bilder sehen unscharf oder unfokussiert aus

Wahrscheinliche Ursache: CFG zu niedrig

Lösung: CFG um 2-3 Punkte erhöhen. Bei Flux von 2 auf 4 versuchen.

Problem: Bilder sehen übersättigt oder künstlich aus

Wahrscheinliche Ursache: CFG zu hoch

Lösung: CFG um 2-3 Punkte senken. Die meisten Fälle funktionieren gut zwischen 6-8.

Problem: KI ignoriert Teile des Prompts

Wahrscheinliche Ursache: CFG möglicherweise zu niedrig, aber oft muss der Prompt selbst überarbeitet werden

Lösung: Versuchen Sie, die CFG leicht zu erhöhen. Wenn das nicht hilft, strukturieren Sie Ihren Prompt um, um wichtige Elemente zu betonen.

Problem: Seltsame Artefakte oder "übertriebener" Look

Wahrscheinliche Ursache: CFG deutlich zu hoch

Lösung: CFG in den Bereich 7-10 senken. Die knusprigen Artefakte sind ein klassisches Zeichen übermäßiger Führung.

Problem: Gesichter sehen verzerrt aus

Wahrscheinliche Ursache: CFG interagiert schlecht mit der Gesichtsgenerierung

Lösung: Für Porträts CFG in den Bereich 5-7 senken. Gesichter sind empfindlich gegenüber hohen CFG-Werten.

CFG Scale-Strategien

Strategie 1: Der Reihenansatz

Wenn Sie unsicher sind, generieren Sie denselben Prompt mit mehreren CFG-Werten:

  1. Generieren bei CFG 5, 7, 9, 11
  2. Ergebnisse vergleichen
  3. Um Ihren Favoriten herum feinabstimmen

Dies zeigt schnell den optimalen Bereich für Ihren spezifischen Prompt.

Strategie 2: CFG an den Inhalt anpassen

  • Realistische Fotos: Niedrigere CFG (5-7)
  • Illustrationen: Mittlere CFG (7-10)
  • Grafische Kunst: Höhere CFG (9-12)
  • Abstrakt: Variabel (experimentieren!)

Strategie 3: An Prompt-Komplexität anpassen

  • Einfache Prompts: Können mit niedrigerer CFG umgehen
  • Komplexe Prompts: Brauchen möglicherweise höhere CFG, um alle Elemente einzuschließen
  • Sehr spezifische Prompts: Höhere CFG, aber auf Artefakte achten

CFG und andere Parameter

CFG vs. Schritte

Diese interagieren erheblich:

  • Höhere CFG profitiert oft von mehr Schritten, um Details aufzulösen
  • Niedrigere CFG kann oft weniger Schritte ohne Qualitätsverlust verwenden
  • Wenn Sie die CFG erhöhen, erwägen Sie auch eine leichte Erhöhung der Schritte

CFG vs. Sampler

Verschiedene Sampler haben unterschiedliche CFG-Empfindlichkeiten:

  • Euler: Standard-CFG-Reaktion
  • DPM++ 2M: Funktioniert gut mit moderater CFG
  • DDIM: Kann höhere CFG mit weniger Artefakten verarbeiten

CFG vs. Modell

Jedes Modell hat seinen eigenen optimalen CFG-Bereich:

  • Modelldokumentation für Empfehlungen lesen
  • Benutzerdefiniert feinabgestimmte Modelle können spezifische CFG-Anforderungen haben
  • Beim Wechsel des Modells nicht davon ausgehen, dass Ihre übliche CFG funktioniert

Fortgeschritten: Dynamische CFG

Einige fortgeschrittene Workflows verwenden variierende CFG während der Generierung:

  • Hohe CFG anfangs: Legt Komposition und Schlüsselelemente fest
  • Niedrigere CFG später: Ermöglicht natürliche Detailentwicklung

Dies kann Bilder erzeugen, die sowohl prompt-genau als auch natürlich aussehen. Tools wie ComfyUI unterstützen dies durch benutzerdefinierte Knoten.

Praktische Beispiele

Porträtfotografie

Prompt: "Professionelles Bewerbungsfoto einer Geschäftsfrau, Studiobeleuchtung, neutraler Hintergrund"

  • CFG 5: Weiches, natürliches Licht, leichte Prompt-Variation
  • CFG 7: Klare Studiobeleuchtung, prompt-genau
  • CFG 12: Harsches Licht, möglicherweise unnatürliche Hauttöne
  • Beste Wahl: 5-7

Fantasy-Illustration

Prompt: "Epischer Drache auf einem Kristallberg, Sonnenuntergang, Fantasy-Art-Stil"

  • CFG 5: Atmosphärisch, aber Details können vage sein
  • CFG 8: Klarer Drache und Berg, gute Balance
  • CFG 12: Sehr definierte Elemente, verstärkte Farben
  • Beste Wahl: 7-10

Produktaufnahme

Prompt: "Weißer Sneaker auf weißem Hintergrund, Produktfotografie, saubere Beleuchtung"

  • CFG 5: Erreicht möglicherweise nicht den sauberen Produkt-Look
  • CFG 8: Sauberes, professionelles Erscheinungsbild
  • CFG 12: Risiko von Überschärfung und Artefakten
  • Beste Wahl: 7-9

Fazit

Die CFG Scale ist Ihr leistungsstärkstes Werkzeug zur Steuerung der KI-Bildgenerierungsqualität. Zu niedrig und Ihre Bilder weichen von Ihrer Vision ab; zu hoch und sie werden künstlich und harsch.

Die wichtigsten Erkenntnisse:

  • 7-8 ist ein sicherer Ausgangspunkt für die meisten Modelle und Prompts
  • An den Inhaltstyp anpassen - realistisch = niedriger, stilisiert = höher
  • Auf verräterische Anzeichen achten - unscharf bedeutet zu niedrig, knusprig bedeutet zu hoch
  • Verschiedene Modelle haben verschiedene Sweet Spots - immer Dokumentation prüfen
  • Im Zweifel in Reihe testen - mehrere Werte testen und vergleichen

Meistern Sie die CFG Scale, und Sie haben viel mehr Kontrolle über Ihre KI-generierten Bilder. Es ist der Unterschied zwischen dem Kampf gegen die KI und der Zusammenarbeit mit ihr.

TAGS

Verwandte Artikel

Zurück zur Wissensdatenbank