Multimodales RAG ist nicht produktionsreif, und das ist okay

Wir behandeln multimodales Retrieval Augmented Generation, als wäre es unvermeidlich. Es ist nicht. Das ist Hype, der auf unvorbereitete Infrastruktur trifft, und irgendwo setzt ein Startup das ganze Unternehmen darauf.

Text-RAG skaliert kaum. Die meisten Unternehmen verstehen immer noch nicht richtig, wie man Dokumente aufteilt. Inzwischen lesen sie über multimodales RAG und fragen sich, ob sie hinterherhinken.

Die Anziehung ist offensichtlich: Dokumente, Diagramme, Bilder, Video alles gleichzeitig abrufen. Ein Krankenhaus, das Richtlinien und Aufnahmen zeigt. Ein Rechtsteam, das Verträge und ihre Flowcharts nebeneinander findet. Die Idee ist sauber. Die Umsetzung ist ein Desaster.

Beginnen Sie mit den Zahlen. Ein multimodales Embedding-Modell erzeugt 1.024 bis 2.048 dimensionale Vektoren pro Bild. Nehmen Sie eine typische Unternehmenssammlung: 500K PDFs, 3 Bilder je Datei. Das sind 1,5 Millionen Embeddings. 4KB pro Embedding. 6 Terabyte nur für die Vektoren. Das ist nicht einfach ein Optimierungsproblem. Das ist eine Infrastruktur-Kategorie.

Dann die Abruf-Latenz. Textsuche: 100K Vektoren in 50ms. Jetzt: 1,5 Milliarden. Der Index, der schnell war, wird langsam. Quantisieren — niedrigere Präzision — um schneller zu werden. 10x Durchsatz. Halb so gute Suchergebnisse. Multimodales RAG ist jetzt schlechter als nur Text.

Dann Fusion. Sie holen die 10 besten Text-Chunks, die 10 besten Bilder. Wie ranken Sie das zusammen? Keine Standardantwort. Late Fusion: separate Reranker für jede Modalität, dann Scores kombinieren — mehr Latenz, mehr Unsicherheit. Intermediate Fusion: ein Modell für Text-Bild-Paare — langsamer, braucht ein anderes Embedding-Modell als zum Indexieren. Nichts ist einfach.

Die Marktdaten sprechen. Multimodale KI soll bis 2034 um 32,7% wachsen. Klingt schnell. 2024 sind es aber immer noch 1,6 Milliarden Dollar. Text-RAG ist schon 2,33 Milliarden, wächst schneller. Mehr Geld, mehr Deployments, mehr Produktionssysteme bei der einfacheren Technologie.

Ich habe Teams gesehen, die Monate in multimodales RAG gesteckt haben. Embedding-Modelle gewählt (CLIP oder LLaVA — unterschiedliche Tradeoffs), Quantisierung abgestimmt, debuggt, warum Bilder gut kamen, aber Cross-Modal-Ranking kaputt war. Gebaut: System kostet 3x Infrastruktur, um Probleme zu lösen, die ein einfacheres System längst hätte.

Das echte Problem: Diese Unternehmen brauchten keine multimodale Suche. Sie brauchten OCR und Textindexierung plus Suche. Multimodal löst das nicht. Verschiebt nur die Komplexität.

Juristische Dokumentenprüfung: Team sucht Verträge nach Präzedenzfällen. Text-RAG funktioniert. Brauchen sie wirklich, ein Flowchart aus einem anderen Vertrag zu holen, um eine Rechtsfrage zu klären? Manchmal. Nicht oft genug, um Infrastruktur dafür aufzubauen.

Die unbequeme Frage: Welche Probleme löst multimodale Suche, die Text-only plus gezielte Abfragen nicht löst?

Für die meisten Unternehmen gerade: keine. Noch nicht. Infrastruktur-Kosten und operative Komplexität überwiegen das, was Textsysteme längst leisten.

Multimodales RAG wird reifen. Die Technik wird besser. Das sind aber noch Jahre. Wenn Sie das evaluieren: Ist das Problem wirklich multimodal, oder baue ich Komplexität ein, um innovativ zu wirken?

Quellen

Geschrieben vonYevhen Kim

Weiterlesen

Alle Journal-Einträge ansehen

Wenn dieser Artikel hilfreich war, gibt es im Journal weitere Notizen zu Architektur, AI-Workflows, Delivery und Engineering-Praxis.

2026-04-29•pinned

Multimodales RAG ist nicht produktionsreif, und das ist okay

Quellen

Weiterlesen

Der blinde Fleck des RAG-Architekten: Vektorbanken als Black Boxes behandeln

Warum Ihre Deployment-Pipeline zu Ihrem Wettbewerbsvorteil wird

KI in der Entwicklung ist kein Zusatz mehr — sie wird zur Basisschicht der Arbeit