Entscheidungshilfe für Marketing, Kommunikation & IT
KI-Modelle für Bild, Video und Audio Vergleichsmatrix 2026
Generative Medienmodelle sind 2026 beschaffungsreif, aber die Risiken liegen woanders als bei Coding-Tools: Output-Rechte, Provenance-Pflichten und Lizenz-Fallstricke entscheiden, nicht Benchmarks.
Diese Matrix vergleicht 28 Bild-, Video- und Audio-Modelle sowie ein modellunabhängiges Workflow-Tool nach den Kriterien, an denen Einführungen in der Schweiz und der EU tatsächlich scheitern: Dürfen die Outputs kommerziell genutzt werden? Gibt es IP-Indemnification? Lässt sich das Modell On-Prem betreiben, und gilt die Lizenz überhaupt in der EU?
01 · Einordnung
Drei Medien, ein Beschaffungsproblem.
Was sich 2025 zu 2026 wesentlich verändert hat, und warum die Auswahlkriterien andere sind als bei LLMs.
Bild: Multimodale Modelle wie GPT-Image-2 und Googles Nano Banana Pro haben das alte Ausschlusskriterium «kein lesbarer Text» erledigt. Im Open-Weights-Lager machen FLUX.2 klein (Apache 2.0, aus Deutschland) und Qwen-Image kommerzielles Self-Hosting erstmals lizenzrechtlich vergleichsweise klar, während Tencents Hunyuan-Lizenzen die Nutzung in der EU, UK und Südkorea nach ihren Lizenzbedingungen ausschliessen (Lizenz im Einzelfall prüfen).
Video: Die grösste Zäsur ist der Rückzug von OpenAI, die Sora-2-API soll laut OpenAI auslaufen (kommuniziertes Ende: 24.09.2026; Stand Juni 2026, ohne Gewähr). Das Enterprise-Feld übernehmen Google Veo 3.1 (SynthID, EU-Region Frankfurt), Runway und Adobe; On-Prem sind Alibaba Wan 2.2 und Lightricks LTX-2 für Pilot- und Produktionsszenarien einsetzbar geworden.
Audio: Bei Musik bewegt sich die Rechtslage: nach ersten Label-Settlements (Warner ↔ Suno) gewinnen lizenzierte Modelle mit C2PA-Wasserzeichen an Boden, während Sony und UMG weiter klagen oder verhandeln; eine richtungsweisende Entscheidung im Verfahren gegen Suno wird für Sommer 2026 erwartet (Summary-Judgment-Anhörung). Bei Voice verschiebt sich der Markt zu Echtzeit-Agenten; DSGVO-konforme On-Prem-Transkription ist mit NVIDIAs offenen Modellen technisch gut machbar geworden; Datenschutz, Betrieb und Modell-Governance bleiben im Einzelfall zu prüfen.
02 ·
Medienmodelle: Rechte, Provenance, On-Prem
Die Dimensionen, an denen Medien-KI-Beschaffung in der Schweiz und der EU scheitert oder sich verzögert.
| Modell | Typ | Lizenz | Output-Rechte | Provenance | Stand | On-Prem / Hardware | Preis (indikativ) | DACH-Risiko |
|---|---|---|---|---|---|---|---|---|
| Bild – Generierung & Design | ||||||||
| FLUX.2 FamilieBlack Forest Labs · Deutschland | klein-4B: · dev: FLUX Non-Commercial | klein & API frei · dev nur mit Vertrag | API: ja · : nein | 11/25 · klein 01/26 | Ja · dev ~80 GB · klein ab Consumer-GPU | API ab $0.03/MP · Weights frei | EU-Anbieter · Lizenzstufen prüfen | |
| Stable Diffusion 3.5Stability AI · UK | Community License | frei unter Umsatzschwelle | unklar | 3.5 · 10/2024 | Ja · Consumer–High-End-GPU | Weights frei · API | Getty-Klage: UK 11/25 verloren, US offen | |
| GPT-Image-2OpenAI · USA | API | Proprietär | frei · () | 04/2026 | Nein | $0.006–0.21/Bild | ||
| Nano Banana ProGoogle (Gemini 3 Pro Image) · USA | API | Proprietär | frei · auf Vertex AI | (immer aktiv) | GA 05/2026 · 4K Preview | Nein | $0.13/2K-Bild · Imagen 4 ab $0.02 | |
| Firefly Image 5Adobe · USA | API | Proprietär | frei · volle | () | 03/2026 | Nein · Custom Models möglich | CC Pro $69.99/Mo · API | vergleichsweise gering |
| Midjourney V8.1Midjourney · USA | API | SaaS-Abo | >$1 Mio. Umsatz: Pro/Mega-Plan nötig | Nein | V8.1 · 06/2026 | Nein | $10–120/Mo | Disney/Universal-Klage · keine |
| Recraft V4 / V4 ProRecraft · USA | API | Proprietär | frei auf Paid · Brand-/Vektor-Fokus | Nein | 05/2026 | Nein | $0.04 · Pro $0.25/Bild | junger Anbieter |
| Qwen-Image-2512Alibaba · China | frei · keine Schwellen | Nein () | 12/2025 | Ja · 20B, quantisiert ab ~24 GB | Weights frei | · Daten intransparent | ||
| HunyuanImage 3.0Tencent · China | Hunyuan Community License | Nutzung in EU/UK/Südkorea ausgeschlossen | Nein | 09/2025 | (Ja · 80B , ≥3×80 GB) | Weights frei (ausserhalb EU) | Lizenz schliesst EU/UK/Südkorea aus | |
| Video – Generierung | ||||||||
| Veo 3.1Google DeepMind · USA | API | Proprietär | frei · auf Vertex AI | 01/2026 · 4K | Nein · EU-Region Frankfurt | $0.05–0.75/s | US-Anbieter · EU-Region verfügbar | |
| Sora 2OpenAI · USA | API | Proprietär | nur noch bis Sunset | + | EOL 24.09.2026 | Nein | $0.10–0.70/s | Dienst wird eingestellt |
| Runway Gen-4.5Runway · USA | API | Proprietär | frei auf Paid · Enterprise-Verträge | 12/2025 | Nein | ~$0.25/s · Abos ab $12/Mo | Credit-Kosten skalieren schnell | |
| Kling 3.0Kuaishou · China | API | Proprietär | frei auf Paid · keine | im Free-Tier | 02/2026 · 4K | Nein | $0.08–0.17/s | CN-Datenrouting · prüfen |
| Seedance 2.0ByteDance · China | API | Proprietär | frei auf Paid | global seit 04/2026 (BytePlus/fal) | Nein | ~$0.24/s (fal, 720p) | CN-Anbieter · /Datenrouting prüfen | |
| Firefly VideoAdobe · USA | API | Proprietär | frei · , lizenzierte Daten | () | 2026 | Nein | Premium $199.99/Mo (First-Party unlim., Promo bis 08/26) | vergleichsweise gering |
| Luma Ray3Luma AI · USA | API | Proprietär | frei ab Paid | kein Default- | Ray3 · 4K/HDR | Nein | Plus $30 / Pro $90 / Ultra $300 /Mo | kleinerer Anbieter |
| Wan 2.2Alibaba · China | frei · keine Royalties | Nein () | 2.2 · offen (2025) | Ja · 14B, ab 24 GB ( ab 16 GB) | Weights frei | · eigene Governance nötig | ||
| LTX-2Lightricks · Israel | Community License (<$10M frei) | frei unter -Schwelle | optional | 01/2026 · 4K + Audio | Ja · ab RTX-4090-Klasse | Weights frei · API via fal/Replicate | -Schwelle vertraglich beachten | |
| HunyuanVideo 1.5Tencent · China | Hunyuan Community License | Nutzung in EU/UK/Südkorea ausgeschlossen | Nein | 11/2025 | (Ja · RTX 4090) | Weights frei (ausserhalb EU) | Lizenz schliesst EU/UK/Südkorea aus | |
| Audio – Voice, Musik & Transkription | ||||||||
| Eleven v3ElevenLabs · USA/UK | API | Proprietär | frei ab Starter · Musik (Indie-Deals: Merlin/Kobalt) | Musik: · : Classifier | v3 · 2026 | Nein · EU-Datenresidenz | $5–1'320/Mo · Enterprise custom | -Compliance · |
| GPT-Realtime-2OpenAI · USA | API | Proprietär | frei (API-Terms) | Nein | 05/2026 | Nein · Azure-EU möglich | $32/$64 pro 1M Audio-Token | |
| Cartesia Sonic 3.5Cartesia · USA | API | Proprietär | frei ab Paid | Nein | ~90 ms Latenz | Private Deployments (Enterprise) | ~$35/1M Zeichen | junger Anbieter |
| Azure AI SpeechMicrosoft · USA | Proprietär | frei · nur mit Freigabe | aktivierbar | HD-Update 03/2026 | Teilweise (Container) · EU-Regionen | $15–22/1M Zeichen | starke DACH-Compliance-Story | |
| Fish Audio S2Fish Audio (OpenAudio) | Research License | kommerziell NUR mit Lizenzvertrag | Nein | open seit 03/2026 | Ja · 1 GPU | Weights frei (non-commercial) | Lizenzunklarheit · Cloning | |
| Kokoro 82MHexgrad / Community | frei | Nein | #1 -Arena 01/26 | Ja · CPU/Mini-GPU (~300 MB) | gratis · Hosting im Cent-Bereich | kein Enterprise-Support | ||
| NVIDIA Canary / ParakeetNVIDIA · USA · STT | CC-BY-4.0 | Transkripte frei nutzbar | – | v2/v3 · 04/2026 | Ja · 1 GPU · NIM-Support | Weights frei · AI-Enterprise-Abo optional | ideale -On-Prem-Transkription | |
| Suno v5.5Suno · USA · Musik | API | Proprietär | ab Pro-Plan · Warner-Deal, Klagen offen | - | lizenzierte Gen. 03/2026 | Nein | $10–30/Mo | UMG-/Sony-Klagen laufen |
| Stable Audio 3.0Stability AI · UK · Musik | (Small/Med) + API | frei · voll lizenzierte Trainingsdaten | unklar | 3.0 · 05/2026 | Ja · Open Weights (Small/Med) | nutzungsbasiert · Enterprise custom | lizenzseitig besser absicherbare Musik-Option | |
| Workflow & Orchestrierung – modellunabhängig | ||||||||
| ComfyUIComfy Org · Open Source | Workflow-Tool | GPL-3.0 | abhängig vom geladenen Modell | abhängig vom Modell | $30M-Runde 04/2026 · Cloud + API-Nodes | Ja · 1 GPU (je nach Modell) | frei (GPL) · Comfy Cloud optional | GPL-Copyleft bei Einbettung prüfen |
Bild – Generierung & Design
- Lizenz
- klein-4B: · dev: FLUX Non-Commercial
- On-Prem / Hardware
- Ja · dev ~80 GB · klein ab Consumer-GPU
- Preis (indikativ)
- API ab $0.03/MP · Weights frei
- DACH-Risiko
- EU-Anbieter · Lizenzstufen prüfen
- Lizenz
- Community License
- On-Prem / Hardware
- Ja · Consumer–High-End-GPU
- Preis (indikativ)
- Weights frei · API
- DACH-Risiko
- Getty-Klage: UK 11/25 verloren, US offen
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- $0.006–0.21/Bild
- DACH-Risiko
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- $0.13/2K-Bild · Imagen 4 ab $0.02
- DACH-Risiko
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein · Custom Models möglich
- Preis (indikativ)
- CC Pro $69.99/Mo · API
- DACH-Risiko
- vergleichsweise gering
- Lizenz
- SaaS-Abo
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- $10–120/Mo
- DACH-Risiko
- Disney/Universal-Klage · keine
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- $0.04 · Pro $0.25/Bild
- DACH-Risiko
- junger Anbieter
- Lizenz
- On-Prem / Hardware
- Ja · 20B, quantisiert ab ~24 GB
- Preis (indikativ)
- Weights frei
- DACH-Risiko
- · Daten intransparent
- Lizenz
- Hunyuan Community License
- On-Prem / Hardware
- (Ja · 80B , ≥3×80 GB)
- Preis (indikativ)
- Weights frei (ausserhalb EU)
- DACH-Risiko
- Lizenz schliesst EU/UK/Südkorea aus
Video – Generierung
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein · EU-Region Frankfurt
- Preis (indikativ)
- $0.05–0.75/s
- DACH-Risiko
- US-Anbieter · EU-Region verfügbar
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- $0.10–0.70/s
- DACH-Risiko
- Dienst wird eingestellt
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- ~$0.25/s · Abos ab $12/Mo
- DACH-Risiko
- Credit-Kosten skalieren schnell
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- $0.08–0.17/s
- DACH-Risiko
- CN-Datenrouting · prüfen
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- ~$0.24/s (fal, 720p)
- DACH-Risiko
- CN-Anbieter · /Datenrouting prüfen
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- Premium $199.99/Mo (First-Party unlim., Promo bis 08/26)
- DACH-Risiko
- vergleichsweise gering
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- Plus $30 / Pro $90 / Ultra $300 /Mo
- DACH-Risiko
- kleinerer Anbieter
- Lizenz
- On-Prem / Hardware
- Ja · 14B, ab 24 GB ( ab 16 GB)
- Preis (indikativ)
- Weights frei
- DACH-Risiko
- · eigene Governance nötig
- Lizenz
- Community License (<$10M frei)
- On-Prem / Hardware
- Ja · ab RTX-4090-Klasse
- Preis (indikativ)
- Weights frei · API via fal/Replicate
- DACH-Risiko
- -Schwelle vertraglich beachten
- Lizenz
- Hunyuan Community License
- On-Prem / Hardware
- (Ja · RTX 4090)
- Preis (indikativ)
- Weights frei (ausserhalb EU)
- DACH-Risiko
- Lizenz schliesst EU/UK/Südkorea aus
Audio – Voice, Musik & Transkription
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein · EU-Datenresidenz
- Preis (indikativ)
- $5–1'320/Mo · Enterprise custom
- DACH-Risiko
- -Compliance ·
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein · Azure-EU möglich
- Preis (indikativ)
- $32/$64 pro 1M Audio-Token
- DACH-Risiko
- Lizenz
- Proprietär
- On-Prem / Hardware
- Private Deployments (Enterprise)
- Preis (indikativ)
- ~$35/1M Zeichen
- DACH-Risiko
- junger Anbieter
- Lizenz
- Proprietär
- On-Prem / Hardware
- Teilweise (Container) · EU-Regionen
- Preis (indikativ)
- $15–22/1M Zeichen
- DACH-Risiko
- starke DACH-Compliance-Story
- Lizenz
- Research License
- On-Prem / Hardware
- Ja · 1 GPU
- Preis (indikativ)
- Weights frei (non-commercial)
- DACH-Risiko
- Lizenzunklarheit · Cloning
- Lizenz
- On-Prem / Hardware
- Ja · CPU/Mini-GPU (~300 MB)
- Preis (indikativ)
- gratis · Hosting im Cent-Bereich
- DACH-Risiko
- kein Enterprise-Support
- Lizenz
- CC-BY-4.0
- On-Prem / Hardware
- Ja · 1 GPU · NIM-Support
- Preis (indikativ)
- Weights frei · AI-Enterprise-Abo optional
- DACH-Risiko
- ideale -On-Prem-Transkription
- Lizenz
- Proprietär
- On-Prem / Hardware
- Nein
- Preis (indikativ)
- $10–30/Mo
- DACH-Risiko
- UMG-/Sony-Klagen laufen
- Lizenz
- (Small/Med) + API
- On-Prem / Hardware
- Ja · Open Weights (Small/Med)
- Preis (indikativ)
- nutzungsbasiert · Enterprise custom
- DACH-Risiko
- lizenzseitig besser absicherbare Musik-Option
Workflow & Orchestrierung – modellunabhängig
- Lizenz
- GPL-3.0
- On-Prem / Hardware
- Ja · 1 GPU (je nach Modell)
- Preis (indikativ)
- frei (GPL) · Comfy Cloud optional
- DACH-Risiko
- GPL-Copyleft bei Einbettung prüfen
- → Preise indikativ: Listenpreise der Anbieter, ohne Volumenrabatte.
- → Redaktionell zusammengetragen: Stand 25.06.2026; nicht abschliessend verifizierbare Punkte sind konservativ bewertet.
- ⚠ Keine Rechtsberatung: Lizenz- und Rechtefragen im Einzelfall juristisch prüfen.
- → ComfyUI: als modellunabhängiges Workflow-Tool gelistet; Output-Rechte und Provenance richten sich nach dem jeweils geladenen Modell.
Angaben in diesem Markt ändern sich häufig und kurzfristig; ohne Gewähr und ohne Anspruch auf Vollständigkeit. Für verbindliche Konditionen jeweils die offizielle Anbieterseite konsultieren.
Sie suchen Coding-Agenten und LLM-Werkzeuge statt Medienmodelle? Zum KI-Coding-Tools-Vergleich →03 · Einordnung
Werkzeuge rund um die Modelle.
Neben den Modellen selbst gibt es ein Ökosystem aus Oberflächen und Plattformen, sie gehören bewusst nicht in die Matrix, weil sie keine eigene Modell-Entscheidung sind.
Workflow-Oberflächen
ComfyUI ist der De-facto-Standard für node-basierte Medien-Pipelines (deshalb als einziges Tool in der Matrix). Alternativen wie Invoke oder SwarmUI sind je nach Team einfacher zu bedienen, die Modell-Frage bleibt dieselbe.
Inference-Plattformen
fal.ai, Replicate & Co. hosten offene Modelle per API, schneller Start ohne eigene GPUs, dafür laufen Daten über den Plattform-Anbieter. Für On-Prem-Anforderungen keine Lösung, für Prototypen oft die beste.
Suiten-Integrationen
Adobe, Canva und zunehmend auch DAM-Systeme betten Modelle direkt in Kreativ-Workflows ein. Bequem für Teams, die Rechte- und Provenance-Fragen aus der Matrix gelten dort unverändert.
04 ·
Welches Modell passt zu Ihrem Vorhaben?
05 · Begriffe kurz erklärt
Begriffe kurz erklärt (21) +
Die wichtigsten Fachbegriffe aus dem Vergleich, neutral erklärt.
- Content Credentials
- Adobes Umsetzung des C2PA-Standards: sichtbare Herkunftsangaben («Nutrition Label») an Bildern und Videos, wer hat was womit erzeugt und bearbeitet.
- Copyright Shield
- OpenAIs Zusage, Business- und API-Kunden bei Urheberrechtsansprüchen wegen generierter Inhalte rechtlich zu verteidigen und Kosten zu übernehmen.
- IP-Indemnity
- Der Anbieter stellt Sie von Ansprüchen Dritter frei, falls generierte Inhalte fremde Schutzrechte verletzen, zentrales Beschaffungskriterium bei Medien-KI.
- Voice-Cloning
- Nachbildung einer realen Stimme aus kurzen Audio-Beispielen. Rechtlich heikel: Einwilligung der Person und EU-AI-Act-Transparenzpflichten beachten.
- Open-Weights
- Die Modellgewichte sind frei verfügbar, das Modell kann auf eigener Hardware betrieben werden. Nicht zwingend Open Source im strengen Sinn; Lizenz im Detail prüfen.
- Indemnity
- Freistellung: Der Anbieter übernimmt Haftung und Verteidigungskosten, wenn aus den generierten Inhalten Rechtsansprüche Dritter entstehen.
- Watermark
- Wasserzeichen in KI-Inhalten, sichtbar oder unsichtbar (z. B. SynthID). Hilft bei Kennzeichnungspflichten, kann aber je nach Anbieter nicht abschaltbar sein.
- SynthID
- Googles unsichtbares, robustes Wasserzeichen für KI-generierte Bilder, Videos und Audio, bei Google-Modellen immer aktiv und maschinell verifizierbar.
- AI Act
- EU-KI-Verordnung: regelt u. a. Transparenz- und Kennzeichnungspflichten für KI-generierte Inhalte und Deepfakes. Gilt faktisch auch für Schweizer Anbieter mit EU-Kunden.
- DSGVO
- EU-Datenschutz-Grundverordnung. Für Schweizer Unternehmen neben dem DSG relevant, sobald Daten von EU-Personen verarbeitet werden.
- C2PA
- Offener Industriestandard (Adobe, Microsoft, Google u. a.) für kryptografisch signierte Herkunftsangaben in Mediendateien, die technische Basis für Provenance-Pflichten.
- GGUF
- Komprimiertes Modellformat für quantisierte KI-Modelle, senkt den Speicherbedarf deutlich und macht grosse Modelle auf kleinerer Hardware lauffähig.
- ARR
- Annual Recurring Revenue (Jahresumsatz mit wiederkehrenden Erlösen), manche «freien» Lizenzen gelten nur unterhalb einer ARR-Schwelle.
- Self-Host
- Eigenbetrieb der Software/des Modells auf eigener Infrastruktur statt beim Anbieter, volle Datenkontrolle, voller Betriebsaufwand.
- TTS
- Text-to-Speech: Sprachsynthese aus Text. Enterprise-Kriterien: Stimmenqualität, Latenz, Sprachen, Cloning-Kontrollen.
- US Cloud Act
- US-Gesetz, das amerikanische Anbieter verpflichten kann, Daten an US-Behörden herauszugeben, auch wenn die Server in Europa stehen. Relevant für Schweizer Datenschutz-Bewertungen.
- MoE
- Mixture of Experts, Modellarchitektur, bei der pro Anfrage nur ein Teil des Modells aktiv ist. Grosse Leistung bei geringeren Betriebskosten.
- Apache 2.0
- Freie Open-Source-Lizenz inkl. kommerzieller Nutzung und Patentschutz-Klausel.
- Credits
- Verbrauchsbasiertes Modell: Der Monatspreis entspricht einem Nutzungskontingent, intensive Nutzung kostet zusätzlich.
- CN-Herkunft
- Anbieter aus China: Beim Selbstbetrieb der offenen Gewichte unkritisch, bei Nutzung der Anbieter-API gelten chinesische Datengesetze.
- Hybrid
- Flexibles Deployment: wahlweise Cloud, eigene Private Cloud oder vollständig im eigenen Rechenzentrum.