Wie wird so eine KI-Animation gemacht?

Nedsch · 26.07.2025

Generative KI ist bei Kreativen umstritten. Ich selber finde sie bisher zu 90% überflüssig. (Außer Retusche-Funktionen in Photoshop.) Bei den Beispielen von Firefly und Co. sträuben sich bei mir meist die Nackenhaare. Nicht wegen der Qualität, sondern wegen den Motiven an sich.
Es gibt jedoch KI-Animationen, die ich sehr faszinieren finde. Zum Beispiel diese:

Bitte kostenlos registrieren, damit du die Links siehst.

Ich habe ein paar KI-Plattformen ausprobiert und auch ComfyUI installiert und dort einiges getestet (Video to Video, Image to Video).
Mir bleibt es jedoch ein Rätsel, wie so etwas gemacht wird. Hat jemand irgendeinen Hinweis? Sind eigens trainierte Modelle nötig? Damit habe ich noch keine Erfahrung.

KBB · 27.07.2025

Wenn man seinen Begleittext ernst und wörtlich nimmt (und auch das Ergebnis spricht dafür), dann sind hier im Gegenteil weniger selbst trainierte Modelle oder LoRas im Einsatz. Als Start der Videoabschnitte (das Video wird bei der Länge aus verschiedenen Abschnitten bestehen, die entweder online sehr gut und für die Modelle entsprechend missverständlich choreografiert, oder in Comfy eben abschnittsweise mit dem jeweils letzten Bild gestartet wurden) würde ich es mit T2V probieren. Text bietet imho deutlich mehr Raum für die provozierten Missverständnisse als I2V oder sogar V2V. Videos geben ja alles vor, er sucht hier jedoch nach Fehlern.

Lately, my work has turned toward the tension between memory and fabrication. I’ve been using machine hallucinations to reconstruct what’s missing, lost realities, unrealized thoughts, and emotional debris. Rather than seeking clarity, I’m interested in how AI misremembers, how it speculates. I’ve leaned into that failure, letting the system act less as a tool and more as a flawed collaborator, one that simulates recollection but never lands on truth. This recent body of work isn’t concerned with clean representation; it’s about dislocation, synthetic memory, and the emotional charge of things that feel remembered, even when they never were.

Manzano spielt geradezu mit der Fehlerhaftigkeit der KI Generierung. Er setzt gezielt auf Hallus, dem idR. fehlerhaften Füllen von Lücken im „KI-Gedächtnis, die - emotional aufgeladen - nie die Wahrheit treffen“.

D.h. grob gesagt: prompten und auf die Fehler warten, damit arbeiten. Ich weiß nicht, ob man mit I2V -Abschnitten einen solchen flüssigen Bildlauf hinbekommt (immer das letzte Bild eines Abschnitts als Start der nächsten Sequenz), da ruckt die Kamera gern mal in die falsche Richtung. Aber selbst wenn er das über online-Tools gemacht hat - Kling, Veo, Seedance, Sora, Flux, ViDu, WAN und was es noch an noch Neuerem gibt, das wächst ja wie Unkraut - wird es wahrscheinlich nicht in einem Schritt passiert sein, um Kontrolle über die Fehlerhaftigkeit zu behalten. Auch wenn technisch wohl mehrere Minuten Film am Stück möglich sind.
Es sei denn, er ist ein extrem guter Prompter, der genau weiß, wie er diese Hallus provozieren kann. Die waren ja bei Lebewesen lange „Standard“ - 4 Finger, 3 Augen, 2 Köpfe usw. ^^ und auch in allen anderen Bereichen vorhanden und mehr oder weniger gut sichtbar.
Vermutlich ist er das nach vielen Experimenten sogar

Was mich an Offline-Anwendungen (Comfy) denken lässt: Online werden die Videomodelle ja öfter mal gegen das aktuellste Modell ausgetauscht, wenn auch nicht immer. Aber das durchbricht dann schnell mal „never change a running system“: wenn erstmal Prompts für Manzano funktionieren, würde ein neues Modell, selbst ein nur überarbeitetes, das u.U. wieder durchbrechen. Er setzt ja auf die Fehlerhaftigkeit, braucht diese für seine Arbeit. Neuere Modelle *sollten* weniger fehlerhaft sein.

Just my 2 cent.
Btw., ich hab neulich ein sehr interessantes längeres KI-Video mit Making of gesehen, mal sehen ob ich das wiederfinde. Das zeigt zwischendrin einige idR. ungewollte Fehler, mit denen Manzano vermutlich weitergearbeitet hätte

KBB · 27.07.2025

S.u., hat etwas gedauert. „The Wall Street Journal“ hatte vor kurzem für Research einen KI-Film erstellt mit der Frau, die diesen Research durchgeführt hatte, als Protagonistin, und einem Roboter als 24h-Dauersupport. Das Video enthielt einen längeren Abschnitt übers Making of.
Dabei wurden viele unterschiedliche Techniken und Modelle genutzt (Video, V2V, Sound, Speech, Köppe austauschen uvam.), um letztlich zu einem brauchbaren Ergebnis zu kommen, und das ganze hat eine Weile gedauert und war nicht gerade billig. Für Commercials z.B. noch relativ unbrauchbar. Die bezahlten Kosten werden im Video mit etwa $ 1.000,- angegeben, bevor Google und Co. dem WSJ die Tore geöffnet und den Rest kostenlos machen ließen. Na toll ^^

Im Vergleich dazu habe ich eben das hier gefunden. Hier sind *beide* Filme vollständig AI, sowohl der Porsche-Spot als auch das Making of

Leider ohne Angaben, wie lange das gedauert hat und was es kosten würde. Aber das ändert sich quasi ja auch minütlich.

Bitte kostenlos registrieren, damit du die Links siehst.

Edit: da isser, der WSJ-Research ^^

Noch ein paar ausführlichere Daten zu dem WSJ-Film:

Bitte kostenlos registrieren, damit du die Links siehst.

Nedsch · 27.07.2025

Hallo KBB,
danke für deine Antwort. Ich tappe irgendwie immer noch im Dunklen. Kann mir kaum vorstellen, dass das ganze nur durch Prompts entstanden ist. Sicher nicht mit den gängingen KI-Video-Plattformen. Ich habe schon bei Kling usw. versucht, "schräge" Ergebnisse zu erziehlen, aber das klappt nicht. Vielleicht sind die gängigen Plattformen sind zu sehr auf brav und kitschig getrimmt.

Hier noch ein KI-Künstler, den ich extrem gut finde. Und auch hier keinen blassen Schimmer, wie er das wohl hinbekommen hat.

KBB · 27.07.2025

nicht vorstellen, machen!
wenn du dir nicht vorstellen kannst, wie es geht, dann versuche doch einfach folgendes: erstell dir ein surreales anfangs- und ein End-Bild - und da du ja mit ComfyUI fit bist, holst du dir einen WorkFlow, der von einem anfangsBild mittels Prompt (Kameraflug, Morphing etc.) zu einem Endbild gehen kann.

Edit, bevor ichs vergesse: Manzano stellt es ja selbst vor in seinem Text, wenn er von Hallus (Halluzinationen) spricht.
Das ist ein in der KI (Generierung) festgelegter Begriff, der von plausibel wirkendem Pseudo-Füllstoff handelt, wo die KI nicht "weiter weiß", keine echten Informationen erlangen kann. Weder durch Recherche noch durch Logik oder Berechnung. Das passiert mit jeder Form heutiger KI-Modelle (sind ja immer alles noch keine echten KIs, von künstlicher Intelligenz kann noch lange keine Rede sein. Aber das ist ein anderes Kapitel), also idR. mit LLMs.
Wat anneres ham wir ja noch nich weitläufisch zur Verfüüjung.

Edit 2: Du kannst natürlich gerne LoRas zufügen, die auf Abstraktes oder Surreales trainiert wurden und damit Anfangs-/Endbilder generieren und die dann gezielt "morphen". Aber ich glaube nicht, dass die beiden Künstler oben ihre Arbeiten darauf stützen mussten.

KBB · 27.07.2025

Und noch eine Anleitung, von meiner KI für Deine

Methoden zur Provokation von Halluzinationen
1. Widersprüchliche oder absurde Prompts (Kombiniere Elemente, die nicht zusammengehören)
"A melting typewriter made of clouds, writing underwater on a flaming scroll"
Je surrealer und logikferner, desto halluzinativer.

2. Overprompting / Prompt Overload
Gib zu viele Details in einem einzigen Prompt, z. B. 10 visuelle Objekte, komplexe Aktionen, widersprüchliche Beleuchtungen:
"A man with five heads, each reading a different book, floating above an inverted pyramid inside a spaceship shaped like a cathedral"

3. Schwammige Begriffe & Metaphern
Vermeide klare Anweisungen, nutze abstrakte Sprache:
"The memory of silence floating through industrial nostalgia"

4. CFG Scale erhöhen
Setze den CFG-Wert (Classifier-Free Guidance) sehr hoch, z. B. 15–20.
Das zwingt das Modell, dem Prompt zwanghaft zu folgen – was zu Überinterpretationen und Bildfehlern führen kann.

5. Prompt Loops / Feedback-Schleifen
Generiere ein Bild, beschreibe es mit einer Bildbeschreibung-KI, und verwende die Beschreibung als neuen Prompt – wiederholt.
Nach 3–4 Iterationen entstehen oft surreale "Fehlinterpretationen".

6. Negative Prompt gezielt umkehren
Nutze den negative prompt absichtlich paradox:
Prompt: "a normal dog"
Negative Prompt: "dog, animal, normal, realistic, fur"

7. Latent Noise Layer manuell manipulieren (ComfyUI, Deforum)
Moduliere das Rauschen oder die Latentschicht (z. B. mit Noise Injection, Latent Math, oder Empty Latent Image + ControlNet), um instabile Kompositionen zu erzwingen.

8. Vergrößer doch mal das Bild in einen Bereich, für den die Grafikkarte nicht gebaut ist. Entweder mit der Pixelgröße oder mittels "hires.fix", da kommen auch garantiert komische Sachen bei raus.

Bonus: Tools & Modelle für Halluzinationseffekte
Verrückte +d widersprüchliche LoRA / StyleMixes
- Textual Inversions mit sinnlosen Tokens
- Modelle mit instabiler Gewichtung: experimentelle Checkpoints, schlechte Merges oder "glitch art" Modelle
- Prompt-to-Prompt / Attention Control: lenkt gezielt bestimmte Token zur Halluzination

(frag mich bitte nicht zu den Boni ^^)

Nedsch · 28.07.2025

Vielen Dank für die Hinweise. Werde ich mal testen.
Trotzdem könnte ich schwören, dass die Videos nicht nur durch Prompts entstanden sind.

Hier mal Bilder-Beispiele von Firefly. Zu gewöhnlich, zu sehr IKEA-Style.

Bitte kostenlos registrieren, damit du die Links siehst.

KBB · 28.07.2025

und ich kann schwören, dass er das nicht mit Firefly gemacht hat

die genutzten Modelle sind auch sehr wichtig.

probier noch: lack abplatzen lassen, risse in die Wände, Farbe von den Wänden fallen lassen, Ziegelsteine sehen, 10 cm Wasser auf dem Fußboden, ein bisschen Rauch und Nebel in die Hütte, eher Nacht als Tageslicht, Amateurhafte Beleuchtung, und so weiter.

btw., unter „bear mass“ hast du gelesen?

Created with
Bitte kostenlos registrieren, damit du die Links siehst.
× Runway × Kling × Suno

Nedsch · 28.07.2025

KBB schrieb:
und ich kann schwören, dass er das nicht mit Firefly gemacht hat

Das kann ich dir ausdrücklich bezeugen.

KBB · 28.07.2025

Schau dir bitte von Manzano mal die anderen Videos in seiner Kollektion im Link unten an, vor allen Dingen „Odd man out“und „Electrolytes“.

Bitte kostenlos registrieren, damit du die Links siehst.

Die sind voll von den typischen Hallus. Es ist nicht unbedingt so einfach, die zu provozieren (in Bildern schon, in Videos hatte ich die noch nicht so oft ^^), aber „das ist der weg“ …

Ich hatte das Bsp. vom WSJ oben verlinkt, weil die im Making Of Teil hinten auch einen Abschnitt „Outtakes“ hatten. Und das ist genau das, was Manzano nutzt.

KBB · 29.07.2025

Ein paar Minuten prompten, ich fand’s brauchbar.
Bewegtbild ist dann wie oben gesagt ne 2. Sache.