Entscheidungshilfe für Marketing, Kommunikation & IT

KI-Modelle für Bild, Video und Audio Vergleichsmatrix 2026

Generative Medienmodelle sind 2026 beschaffungsreif, aber die Risiken liegen woanders als bei Coding-Tools: Output-Rechte, Provenance-Pflichten und Lizenz-Fallstricke entscheiden, nicht Benchmarks.

Diese Matrix vergleicht 28 Bild-, Video- und Audio-Modelle sowie ein modellunabhängiges Workflow-Tool nach den Kriterien, an denen Einführungen in der Schweiz und der EU tatsächlich scheitern: Dürfen die Outputs kommerziell genutzt werden? Gibt es IP-Indemnification? Lässt sich das Modell On-Prem betreiben, und gilt die Lizenz überhaupt in der EU?

Unverbindlich · via Teams
Modelle & Tools im Vergleich 29
Medienkategorien Bild · Video · Audio
Stand 25.06.2026 · redaktionelle Einordnung

01 · Einordnung

Drei Medien, ein Beschaffungsproblem.

Was sich 2025 zu 2026 wesentlich verändert hat, und warum die Auswahlkriterien andere sind als bei LLMs.

Bild: Multimodale Modelle wie GPT-Image-2 und Googles Nano Banana Pro haben das alte Ausschlusskriterium «kein lesbarer Text» erledigt. Im Open-Weights-Lager machen FLUX.2 klein (Apache 2.0, aus Deutschland) und Qwen-Image kommerzielles Self-Hosting erstmals lizenzrechtlich vergleichsweise klar, während Tencents Hunyuan-Lizenzen die Nutzung in der EU, UK und Südkorea nach ihren Lizenzbedingungen ausschliessen (Lizenz im Einzelfall prüfen).

Video: Die grösste Zäsur ist der Rückzug von OpenAI, die Sora-2-API soll laut OpenAI auslaufen (kommuniziertes Ende: 24.09.2026; Stand Juni 2026, ohne Gewähr). Das Enterprise-Feld übernehmen Google Veo 3.1 (SynthID, EU-Region Frankfurt), Runway und Adobe; On-Prem sind Alibaba Wan 2.2 und Lightricks LTX-2 für Pilot- und Produktionsszenarien einsetzbar geworden.

Audio: Bei Musik bewegt sich die Rechtslage: nach ersten Label-Settlements (Warner ↔ Suno) gewinnen lizenzierte Modelle mit C2PA-Wasserzeichen an Boden, während Sony und UMG weiter klagen oder verhandeln; eine richtungsweisende Entscheidung im Verfahren gegen Suno wird für Sommer 2026 erwartet (Summary-Judgment-Anhörung). Bei Voice verschiebt sich der Markt zu Echtzeit-Agenten; DSGVO-konforme On-Prem-Transkription ist mit NVIDIAs offenen Modellen technisch gut machbar geworden; Datenschutz, Betrieb und Modell-Governance bleiben im Einzelfall zu prüfen.

02 ·

Medienmodelle: Rechte, Provenance, On-Prem

Die Dimensionen, an denen Medien-KI-Beschaffung in der Schweiz und der EU scheitert oder sich verzögert.

Filter · was ist Ihnen wichtig? Filter Tools sichtbar
● Redaktionelle Einordnung, Stand Juni 2026. positiv / unkritisch mit Einschränkung kritisch prüfen
ModellTypLizenzOutput-RechteProvenanceStandOn-Prem / HardwarePreis (indikativ)DACH-Risiko
Bild – Generierung & Design
FLUX.2 FamilieBlack Forest Labs · Deutschland klein-4B: · dev: FLUX Non-Commercial klein & API frei · dev nur mit Vertrag API: ja · : nein 11/25 · klein 01/26 Ja · dev ~80 GB · klein ab Consumer-GPU API ab $0.03/MP · Weights frei EU-Anbieter · Lizenzstufen prüfen
Stable Diffusion 3.5Stability AI · UK Community License frei unter Umsatzschwelle unklar 3.5 · 10/2024 Ja · Consumer–High-End-GPU Weights frei · API Getty-Klage: UK 11/25 verloren, US offen
GPT-Image-2OpenAI · USA API Proprietär frei · () 04/2026 Nein $0.006–0.21/Bild
Nano Banana ProGoogle (Gemini 3 Pro Image) · USA API Proprietär frei · auf Vertex AI (immer aktiv) GA 05/2026 · 4K Preview Nein $0.13/2K-Bild · Imagen 4 ab $0.02
Firefly Image 5Adobe · USA API Proprietär frei · volle () 03/2026 Nein · Custom Models möglich CC Pro $69.99/Mo · API vergleichsweise gering
Midjourney V8.1Midjourney · USA API SaaS-Abo >$1 Mio. Umsatz: Pro/Mega-Plan nötig Nein V8.1 · 06/2026 Nein $10–120/Mo Disney/Universal-Klage · keine
Recraft V4 / V4 ProRecraft · USA API Proprietär frei auf Paid · Brand-/Vektor-Fokus Nein 05/2026 Nein $0.04 · Pro $0.25/Bild junger Anbieter
Qwen-Image-2512Alibaba · China frei · keine Schwellen Nein () 12/2025 Ja · 20B, quantisiert ab ~24 GB Weights frei · Daten intransparent
HunyuanImage 3.0Tencent · China Hunyuan Community License Nutzung in EU/UK/Südkorea ausgeschlossen Nein 09/2025 (Ja · 80B , ≥3×80 GB) Weights frei (ausserhalb EU) Lizenz schliesst EU/UK/Südkorea aus
Video – Generierung
Veo 3.1Google DeepMind · USA API Proprietär frei · auf Vertex AI 01/2026 · 4K Nein · EU-Region Frankfurt $0.05–0.75/s US-Anbieter · EU-Region verfügbar
Sora 2OpenAI · USA API Proprietär nur noch bis Sunset + EOL 24.09.2026 Nein $0.10–0.70/s Dienst wird eingestellt
Runway Gen-4.5Runway · USA API Proprietär frei auf Paid · Enterprise-Verträge 12/2025 Nein ~$0.25/s · Abos ab $12/Mo Credit-Kosten skalieren schnell
Kling 3.0Kuaishou · China API Proprietär frei auf Paid · keine im Free-Tier 02/2026 · 4K Nein $0.08–0.17/s CN-Datenrouting · prüfen
Seedance 2.0ByteDance · China API Proprietär frei auf Paid global seit 04/2026 (BytePlus/fal) Nein ~$0.24/s (fal, 720p) CN-Anbieter · /Datenrouting prüfen
Firefly VideoAdobe · USA API Proprietär frei · , lizenzierte Daten () 2026 Nein Premium $199.99/Mo (First-Party unlim., Promo bis 08/26) vergleichsweise gering
Luma Ray3Luma AI · USA API Proprietär frei ab Paid kein Default- Ray3 · 4K/HDR Nein Plus $30 / Pro $90 / Ultra $300 /Mo kleinerer Anbieter
Wan 2.2Alibaba · China frei · keine Royalties Nein () 2.2 · offen (2025) Ja · 14B, ab 24 GB ( ab 16 GB) Weights frei · eigene Governance nötig
LTX-2Lightricks · Israel Community License (<$10M frei) frei unter -Schwelle optional 01/2026 · 4K + Audio Ja · ab RTX-4090-Klasse Weights frei · API via fal/Replicate -Schwelle vertraglich beachten
HunyuanVideo 1.5Tencent · China Hunyuan Community License Nutzung in EU/UK/Südkorea ausgeschlossen Nein 11/2025 (Ja · RTX 4090) Weights frei (ausserhalb EU) Lizenz schliesst EU/UK/Südkorea aus
Audio – Voice, Musik & Transkription
Eleven v3ElevenLabs · USA/UK API Proprietär frei ab Starter · Musik (Indie-Deals: Merlin/Kobalt) Musik: · : Classifier v3 · 2026 Nein · EU-Datenresidenz $5–1'320/Mo · Enterprise custom -Compliance ·
GPT-Realtime-2OpenAI · USA API Proprietär frei (API-Terms) Nein 05/2026 Nein · Azure-EU möglich $32/$64 pro 1M Audio-Token
Cartesia Sonic 3.5Cartesia · USA API Proprietär frei ab Paid Nein ~90 ms Latenz Private Deployments (Enterprise) ~$35/1M Zeichen junger Anbieter
Azure AI SpeechMicrosoft · USA Proprietär frei · nur mit Freigabe aktivierbar HD-Update 03/2026 Teilweise (Container) · EU-Regionen $15–22/1M Zeichen starke DACH-Compliance-Story
Fish Audio S2Fish Audio (OpenAudio) Research License kommerziell NUR mit Lizenzvertrag Nein open seit 03/2026 Ja · 1 GPU Weights frei (non-commercial) Lizenzunklarheit · Cloning
Kokoro 82MHexgrad / Community frei Nein #1 -Arena 01/26 Ja · CPU/Mini-GPU (~300 MB) gratis · Hosting im Cent-Bereich kein Enterprise-Support
NVIDIA Canary / ParakeetNVIDIA · USA · STT CC-BY-4.0 Transkripte frei nutzbar v2/v3 · 04/2026 Ja · 1 GPU · NIM-Support Weights frei · AI-Enterprise-Abo optional ideale -On-Prem-Transkription
Suno v5.5Suno · USA · Musik API Proprietär ab Pro-Plan · Warner-Deal, Klagen offen - lizenzierte Gen. 03/2026 Nein $10–30/Mo UMG-/Sony-Klagen laufen
Stable Audio 3.0Stability AI · UK · Musik (Small/Med) + API frei · voll lizenzierte Trainingsdaten unklar 3.0 · 05/2026 Ja · Open Weights (Small/Med) nutzungsbasiert · Enterprise custom lizenzseitig besser absicherbare Musik-Option
Workflow & Orchestrierung – modellunabhängig
ComfyUIComfy Org · Open Source Workflow-Tool GPL-3.0 abhängig vom geladenen Modell abhängig vom Modell $30M-Runde 04/2026 · Cloud + API-Nodes Ja · 1 GPU (je nach Modell) frei (GPL) · Comfy Cloud optional GPL-Copyleft bei Einbettung prüfen

Bild – Generierung & Design

FLUX.2 FamilieBlack Forest Labs · Deutschland
Lizenz
klein-4B: · dev: FLUX Non-Commercial
On-Prem / Hardware
Ja · dev ~80 GB · klein ab Consumer-GPU
Preis (indikativ)
API ab $0.03/MP · Weights frei
DACH-Risiko
EU-Anbieter · Lizenzstufen prüfen
Stable Diffusion 3.5Stability AI · UK
Lizenz
Community License
On-Prem / Hardware
Ja · Consumer–High-End-GPU
Preis (indikativ)
Weights frei · API
DACH-Risiko
Getty-Klage: UK 11/25 verloren, US offen
GPT-Image-2OpenAI · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
$0.006–0.21/Bild
DACH-Risiko
Nano Banana ProGoogle (Gemini 3 Pro Image) · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
$0.13/2K-Bild · Imagen 4 ab $0.02
DACH-Risiko
Firefly Image 5Adobe · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein · Custom Models möglich
Preis (indikativ)
CC Pro $69.99/Mo · API
DACH-Risiko
vergleichsweise gering
Midjourney V8.1Midjourney · USA
API
Lizenz
SaaS-Abo
On-Prem / Hardware
Nein
Preis (indikativ)
$10–120/Mo
DACH-Risiko
Disney/Universal-Klage · keine
Recraft V4 / V4 ProRecraft · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
$0.04 · Pro $0.25/Bild
DACH-Risiko
junger Anbieter
Qwen-Image-2512Alibaba · China
Lizenz
On-Prem / Hardware
Ja · 20B, quantisiert ab ~24 GB
Preis (indikativ)
Weights frei
DACH-Risiko
· Daten intransparent
HunyuanImage 3.0Tencent · China
Lizenz
Hunyuan Community License
On-Prem / Hardware
(Ja · 80B , ≥3×80 GB)
Preis (indikativ)
Weights frei (ausserhalb EU)
DACH-Risiko
Lizenz schliesst EU/UK/Südkorea aus

Video – Generierung

Veo 3.1Google DeepMind · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein · EU-Region Frankfurt
Preis (indikativ)
$0.05–0.75/s
DACH-Risiko
US-Anbieter · EU-Region verfügbar
Sora 2OpenAI · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
$0.10–0.70/s
DACH-Risiko
Dienst wird eingestellt
Runway Gen-4.5Runway · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
~$0.25/s · Abos ab $12/Mo
DACH-Risiko
Credit-Kosten skalieren schnell
Kling 3.0Kuaishou · China
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
$0.08–0.17/s
DACH-Risiko
CN-Datenrouting · prüfen
Seedance 2.0ByteDance · China
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
~$0.24/s (fal, 720p)
DACH-Risiko
CN-Anbieter · /Datenrouting prüfen
Firefly VideoAdobe · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
Premium $199.99/Mo (First-Party unlim., Promo bis 08/26)
DACH-Risiko
vergleichsweise gering
Luma Ray3Luma AI · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
Plus $30 / Pro $90 / Ultra $300 /Mo
DACH-Risiko
kleinerer Anbieter
Wan 2.2Alibaba · China
Lizenz
On-Prem / Hardware
Ja · 14B, ab 24 GB ( ab 16 GB)
Preis (indikativ)
Weights frei
DACH-Risiko
· eigene Governance nötig
LTX-2Lightricks · Israel
Lizenz
Community License (<$10M frei)
On-Prem / Hardware
Ja · ab RTX-4090-Klasse
Preis (indikativ)
Weights frei · API via fal/Replicate
DACH-Risiko
-Schwelle vertraglich beachten
HunyuanVideo 1.5Tencent · China
Lizenz
Hunyuan Community License
On-Prem / Hardware
(Ja · RTX 4090)
Preis (indikativ)
Weights frei (ausserhalb EU)
DACH-Risiko
Lizenz schliesst EU/UK/Südkorea aus

Audio – Voice, Musik & Transkription

Eleven v3ElevenLabs · USA/UK
API
Lizenz
Proprietär
On-Prem / Hardware
Nein · EU-Datenresidenz
Preis (indikativ)
$5–1'320/Mo · Enterprise custom
DACH-Risiko
-Compliance ·
GPT-Realtime-2OpenAI · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Nein · Azure-EU möglich
Preis (indikativ)
$32/$64 pro 1M Audio-Token
DACH-Risiko
Cartesia Sonic 3.5Cartesia · USA
API
Lizenz
Proprietär
On-Prem / Hardware
Private Deployments (Enterprise)
Preis (indikativ)
~$35/1M Zeichen
DACH-Risiko
junger Anbieter
Azure AI SpeechMicrosoft · USA
Lizenz
Proprietär
On-Prem / Hardware
Teilweise (Container) · EU-Regionen
Preis (indikativ)
$15–22/1M Zeichen
DACH-Risiko
starke DACH-Compliance-Story
Fish Audio S2Fish Audio (OpenAudio)
Lizenz
Research License
On-Prem / Hardware
Ja · 1 GPU
Preis (indikativ)
Weights frei (non-commercial)
DACH-Risiko
Lizenzunklarheit · Cloning
Kokoro 82MHexgrad / Community
Lizenz
On-Prem / Hardware
Ja · CPU/Mini-GPU (~300 MB)
Preis (indikativ)
gratis · Hosting im Cent-Bereich
DACH-Risiko
kein Enterprise-Support
NVIDIA Canary / ParakeetNVIDIA · USA · STT
Lizenz
CC-BY-4.0
On-Prem / Hardware
Ja · 1 GPU · NIM-Support
Preis (indikativ)
Weights frei · AI-Enterprise-Abo optional
DACH-Risiko
ideale -On-Prem-Transkription
Suno v5.5Suno · USA · Musik
API
Lizenz
Proprietär
On-Prem / Hardware
Nein
Preis (indikativ)
$10–30/Mo
DACH-Risiko
UMG-/Sony-Klagen laufen
Stable Audio 3.0Stability AI · UK · Musik
Lizenz
(Small/Med) + API
On-Prem / Hardware
Ja · Open Weights (Small/Med)
Preis (indikativ)
nutzungsbasiert · Enterprise custom
DACH-Risiko
lizenzseitig besser absicherbare Musik-Option

Workflow & Orchestrierung – modellunabhängig

ComfyUIComfy Org · Open Source
Workflow-Tool
Lizenz
GPL-3.0
On-Prem / Hardware
Ja · 1 GPU (je nach Modell)
Preis (indikativ)
frei (GPL) · Comfy Cloud optional
DACH-Risiko
GPL-Copyleft bei Einbettung prüfen
  • Preise indikativ: Listenpreise der Anbieter, ohne Volumenrabatte.
  • Redaktionell zusammengetragen: Stand 25.06.2026; nicht abschliessend verifizierbare Punkte sind konservativ bewertet.
  • Keine Rechtsberatung: Lizenz- und Rechtefragen im Einzelfall juristisch prüfen.
  • ComfyUI: als modellunabhängiges Workflow-Tool gelistet; Output-Rechte und Provenance richten sich nach dem jeweils geladenen Modell.

Angaben in diesem Markt ändern sich häufig und kurzfristig; ohne Gewähr und ohne Anspruch auf Vollständigkeit. Für verbindliche Konditionen jeweils die offizielle Anbieterseite konsultieren.

Sie suchen Coding-Agenten und LLM-Werkzeuge statt Medienmodelle? Zum KI-Coding-Tools-Vergleich →

03 · Einordnung

Werkzeuge rund um die Modelle.

Neben den Modellen selbst gibt es ein Ökosystem aus Oberflächen und Plattformen, sie gehören bewusst nicht in die Matrix, weil sie keine eigene Modell-Entscheidung sind.

Workflow-Oberflächen

ComfyUI ist der De-facto-Standard für node-basierte Medien-Pipelines (deshalb als einziges Tool in der Matrix). Alternativen wie Invoke oder SwarmUI sind je nach Team einfacher zu bedienen, die Modell-Frage bleibt dieselbe.

Inference-Plattformen

fal.ai, Replicate & Co. hosten offene Modelle per API, schneller Start ohne eigene GPUs, dafür laufen Daten über den Plattform-Anbieter. Für On-Prem-Anforderungen keine Lösung, für Prototypen oft die beste.

Suiten-Integrationen

Adobe, Canva und zunehmend auch DAM-Systeme betten Modelle direkt in Kreativ-Workflows ein. Bequem für Teams, die Rechte- und Provenance-Fragen aus der Matrix gelten dort unverändert.

04 ·

Welches Modell passt zu Ihrem Vorhaben?

Antwort innert 24 h · Stundenbasis · kein Lock-in

05 · Begriffe kurz erklärt

Begriffe kurz erklärt (21) +

Die wichtigsten Fachbegriffe aus dem Vergleich, neutral erklärt.

Content Credentials
Adobes Umsetzung des C2PA-Standards: sichtbare Herkunftsangaben («Nutrition Label») an Bildern und Videos, wer hat was womit erzeugt und bearbeitet.
IP-Indemnity
Der Anbieter stellt Sie von Ansprüchen Dritter frei, falls generierte Inhalte fremde Schutzrechte verletzen, zentrales Beschaffungskriterium bei Medien-KI.
Voice-Cloning
Nachbildung einer realen Stimme aus kurzen Audio-Beispielen. Rechtlich heikel: Einwilligung der Person und EU-AI-Act-Transparenzpflichten beachten.
Open-Weights
Die Modellgewichte sind frei verfügbar, das Modell kann auf eigener Hardware betrieben werden. Nicht zwingend Open Source im strengen Sinn; Lizenz im Detail prüfen.
Indemnity
Freistellung: Der Anbieter übernimmt Haftung und Verteidigungskosten, wenn aus den generierten Inhalten Rechtsansprüche Dritter entstehen.
Watermark
Wasserzeichen in KI-Inhalten, sichtbar oder unsichtbar (z. B. SynthID). Hilft bei Kennzeichnungspflichten, kann aber je nach Anbieter nicht abschaltbar sein.
SynthID
Googles unsichtbares, robustes Wasserzeichen für KI-generierte Bilder, Videos und Audio, bei Google-Modellen immer aktiv und maschinell verifizierbar.
AI Act
EU-KI-Verordnung: regelt u. a. Transparenz- und Kennzeichnungspflichten für KI-generierte Inhalte und Deepfakes. Gilt faktisch auch für Schweizer Anbieter mit EU-Kunden.
DSGVO
EU-Datenschutz-Grundverordnung. Für Schweizer Unternehmen neben dem DSG relevant, sobald Daten von EU-Personen verarbeitet werden.
C2PA
Offener Industriestandard (Adobe, Microsoft, Google u. a.) für kryptografisch signierte Herkunftsangaben in Mediendateien, die technische Basis für Provenance-Pflichten.
GGUF
Komprimiertes Modellformat für quantisierte KI-Modelle, senkt den Speicherbedarf deutlich und macht grosse Modelle auf kleinerer Hardware lauffähig.
ARR
Annual Recurring Revenue (Jahresumsatz mit wiederkehrenden Erlösen), manche «freien» Lizenzen gelten nur unterhalb einer ARR-Schwelle.
Self-Host
Eigenbetrieb der Software/des Modells auf eigener Infrastruktur statt beim Anbieter, volle Datenkontrolle, voller Betriebsaufwand.
TTS
Text-to-Speech: Sprachsynthese aus Text. Enterprise-Kriterien: Stimmenqualität, Latenz, Sprachen, Cloning-Kontrollen.
US Cloud Act
US-Gesetz, das amerikanische Anbieter verpflichten kann, Daten an US-Behörden herauszugeben, auch wenn die Server in Europa stehen. Relevant für Schweizer Datenschutz-Bewertungen.
MoE
Mixture of Experts, Modellarchitektur, bei der pro Anfrage nur ein Teil des Modells aktiv ist. Grosse Leistung bei geringeren Betriebskosten.
Apache 2.0
Freie Open-Source-Lizenz inkl. kommerzieller Nutzung und Patentschutz-Klausel.
Credits
Verbrauchsbasiertes Modell: Der Monatspreis entspricht einem Nutzungskontingent, intensive Nutzung kostet zusätzlich.
CN-Herkunft
Anbieter aus China: Beim Selbstbetrieb der offenen Gewichte unkritisch, bei Nutzung der Anbieter-API gelten chinesische Datengesetze.
Hybrid
Flexibles Deployment: wahlweise Cloud, eigene Private Cloud oder vollständig im eigenen Rechenzentrum.