Automatisierte Kurzvideos mit Miniaturwelten und KI-Audio erstellen
Hey, jetzt kommt der Clou: Stell dir vor, du hast Miniaturmenschen aus verschiedenen Ländern, gekleidet in traditionelle Trachten, die ihre typische Landes-Küche zusammenbauen – und das vollautomatisch! Dazu noch eine kulturelle Kulisse und als i-Tüpfelchen die jeweilige Landesflagge. Und als Bonus wird auch der Sound komplett KI-generiert, passend zur Szenen-Stimmung. Mega simpel und so cool, dass du es dir auf keinen Fall entgehen lassen solltest.
In diesem Artikel zeige ich dir Schritt für Schritt, wie genau das Ganze abläuft und wie du selbst solche Videos bauen kannst – ganz ohne Vorwissen, verspreche ich. Und weil ich’s gern locker und direkt mag, keine Angst vor trockener Technik: Ich bring’s dir praxisnah mit lockeren Sprüchen und Bildern – wie unter Freunden eben.
Übersicht: So läuft der Workflow ab
Der gesamte Prozess gliedert sich in mehrere Phasen:
- Prompts generieren – Bild, Video und Audio werden von KI mit cleveren Textbefehlen vorbereitet.
- Bilder generieren – detaillierte Miniaturszenen entstehen aus den Prompts.
- Videos generieren – aus den Bildern werden animierte Clips.
- Audios generieren – passende Hintergrundgeräusche oder Musik kreiert.
- Finales Video rendern – alles zusammengesetzt und fertig zum Teilen.
Beispiel-Szenen
Lass uns mit China starten, dem Land des beliebten Dim Sum. Vor deinen Augen bauen winzige Miniaturmenschen in traditioneller Kleidung einen riesigen Dim Sum, umgeben von einer chinesischen Straßenszene und der chinesischen Flagge. Klingt verrückt? Ist es auch!
Das Video besteht aus neun Clip-Schnipseln, kombiniert aus drei einzelnen Videos. So bekommst du gleich einen Eindruck, wie vielfältig und lebendig das Endprodukt ist.
Schritt für Schritt: Vom Prompt zum fertigen Video
Manuelle Steuerung und Google Sheets
Die ganze Automation startet manuell per Klick. Anschließend zieht sich das System die Länder-Daten aus einer Google-Tabelle. Dort legst du fest, welche Länder dieses Mal dran sind – z.B. England, Indien und Mexiko. Das klappt so, weil die Tabelle wie eine Datenbank funktioniert, und die Automatisierung pro Lauf nur eine Reihe mit Status „neu“ abholt.
Prompts generieren mit KI-Agent
Jetzt kommt der kreative Part: Ein KI-Agent erzeugt für jedes Land einzigartige Texte (Prompts), die genau beschreiben, wie die Szene aussehen, klingen und sich anfühlen soll – inklusive der Flagge und einem riesigen, ikonischen Objekt wie einem Teekessel für England oder einem überdimensionalen Gericht für Indien.
Die Prompts sind richtig gut strukturiert und geben klare Vorgaben:
- Miniaturmenschen in traditioneller Kleidung
- Bau eines übergroßen nationalen Objekts
- Lebendige, dynamische Szenen
- Nationalflagge prominent platziert
- Authentisches Setting, z.B. Markt oder Dorf
Der Clou: Die KI spuckt ihre Antworten als JSON-Objekte aus, die maschinenfreundlich und perfekt für den nächsten Schritt sind.
Bilder generieren mit file.ai
Diese Prompts werden jetzt in Requests an eine Bildgenerierung geschickt – hier nutze ich file.ai, wo du per API deinen Auftrag absetzt. Die KI malt deine Miniaturszenen, die dann als Vorlage für die Videos dienen. Praktisch: Die Video-Maschine schaut sich das Bild an, um das Video lebendig und stimmig zu gestalten.
Tipp: Achte auf das Authentifizierungs-Setup in file.ai, das ist ein bisschen Fummelei, aber kein Hexenwerk.
Videos generieren
Aus den gut designten Bildern bastelt die Videogeneration von file.ai via Model „Cling 1.6 Pro“ animierte Clips. Jeweils rund 5 Sekunden lang und mit vertikalem 9:16-Format. Hier wartet man dann ein paar Minuten, bis alles fertig ist.
Tipp: Vermeide schlechte Qualität, Verzerrungen oder verschwommene Einzelheiten mit klugen Negativ-Prompts.
Audios erstellen mit 11Labs
Für die Audio-Generation geht’s zu 11Labs. Dort erzeugt die KI 5-Sekunden-Soundscapes, die stimmungsvoll und kulturtypisch sind – z.B. ruhige Dorfklänge mit Piano für England.
11Labs gibt dir zu Beginn kostenlos Credits für etwa 50 Audios, was für den Anfang perfekt ist.
Upload und Zusammenbau
Da das finale Video auch den Sound braucht, lade ich die Audiodateien auf Google Drive hoch und mache sie öffentlich zugänglich. Dann bringe ich Video- und Audioquellen zusammen in einem JSON-Set.
Zum Rendern nutze ich den Service Creoate (pro Tarif ca. 50 US-Dollar/Monat). Dort lassen sich Platzhalter in einem Template mit den selbst generierten Medien ersetzen – simpel und effektiv.
Alternative & Community-Tipp
Falls du keine monatlichen Kosten willst: Du kannst die Videos auch lokal laden und mit kostenlosen Tools wie FFmpeg zusammenfügen. FFmpeg ist ein Kommandozeilen-Tool, das ich demnächst ausführlich in meinem Channel erkläre. Spoiler: Du kannst damit volle Kontrolle ohne Kosten bekommen, aber es ist ein bisschen Technik-Action nötig.
Und hey, wenn du das Ganze konkret umsetzen willst, gibt’s mein Template und weitere Premium-Vorlagen in meiner Community. Dort helfe ich dir bei Fragen und wir haben regelmäßige Live Calls – das coole Early Bird-Angebot von 39 Dollar gilt noch für 20 Mitglieder.
Kostencheck: Was kostet die ganze Magie?
- Bildgenerierung Flux 1 Pro: 3–4 Cent pro Bild (es gibt günstigere Alternativen, fast 17x billiger, aber Flux macht für mich den besseren Job)
- Videogenerierung Cling 1.6: ca. 47,5 Cent pro 5-Sekunden-Clip
- Audiogenerierung 11Labs: 10.000 Credits kostenlos, dann günstige Pläne
- Final Rendering Creoate: Free Tier mit limitierter Qualität, Pro Plan um 50 US-Dollar pro Monat
Insgesamt liegt das Erstellen eines Videos mit ca. 15 Sekunden Länge bei etwa 1,53 bis 1,61 US-Dollar, exklusive Creoate-Pro-Plan.
Fazit und nächste Schritte
Kopf hoch, das war jetzt viel, aber das Coole daran ist: Was jetzt noch komplex klingt, kannst du morgen selbst bauen! Schritt für Schritt, mit den richtigen Tools und ein wenig Geduld für den ersten Prozesslauf.
Du hast hier die Technik: Von der manuellen Auslösung über Google Sheets, KI-Prompt-Generierung, Bild- und Video-KI, Audio-Synthese bis hin zum finalen Rendering.
Und das Beste: Die ganze Automation kannst du dir entweder selbst bauen – oder du schließt dich meiner Community an, wo ich dich persönlich supporte, es täglich live zeige und dir exklusive Templates gebe.
Mach den nächsten Schritt, nutze die Kraft der KI und werde zum Video-Held deiner eigenen Kultur-Miniversionen! 🎬🌍
Na, neugierig geworden? Dann leg los, probier’s aus und abonniere meinen Kanal – ich bring bald noch mehr spannende Automatisierungs-Hacks für dich!
Keywords:
KI-gestützte Videoproduktion, Kurzvideos automatisieren, Miniaturwelten, kulturelle Kurzvideos, AI Audio Generierung