Multimodales RAG ist nicht produktionsreif, und das ist okay
Wir behandeln multimodales Retrieval Augmented Generation, als wäre es unvermeidlich. Es ist nicht. Das ist Hype, der auf unvorbereitete Infrastruktur trifft, und irgendwo setzt ein Startup das ganze Unternehmen darauf.
Text-RAG skaliert kaum. Die meisten Unternehmen verstehen immer noch nicht richtig, wie man Dokumente aufteilt. Inzwischen lesen sie über multimodales RAG und fragen sich, ob sie hinterherhinken.
Die Anziehung ist offensichtlich: Dokumente, Diagramme, Bilder, Video alles gleichzeitig abrufen. Ein Krankenhaus, das Richtlinien und Aufnahmen zeigt. Ein Rechtsteam, das Verträge und ihre Flowcharts nebeneinander findet. Die Idee ist sauber. Die Umsetzung ist ein Desaster.
Beginnen Sie mit den Zahlen. Ein multimodales Embedding-Modell erzeugt 1.024 bis 2.048 dimensionale Vektoren pro Bild. Nehmen Sie eine typische Unternehmenssammlung: 500K PDFs, 3 Bilder je Datei. Das sind 1,5 Millionen Embeddings. 4KB pro Embedding. 6 Terabyte nur für die Vektoren. Das ist nicht einfach ein Optimierungsproblem. Das ist eine Infrastruktur-Kategorie.
Dann die Abruf-Latenz. Textsuche: 100K Vektoren in 50ms. Jetzt: 1,5 Milliarden. Der Index, der schnell war, wird langsam. Quantisieren — niedrigere Präzision — um schneller zu werden. 10x Durchsatz. Halb so gute Suchergebnisse. Multimodales RAG ist jetzt schlechter als nur Text.
Dann Fusion. Sie holen die 10 besten Text-Chunks, die 10 besten Bilder. Wie ranken Sie das zusammen? Keine Standardantwort. Late Fusion: separate Reranker für jede Modalität, dann Scores kombinieren — mehr Latenz, mehr Unsicherheit. Intermediate Fusion: ein Modell für Text-Bild-Paare — langsamer, braucht ein anderes Embedding-Modell als zum Indexieren. Nichts ist einfach.
Die Marktdaten sprechen. Multimodale KI soll bis 2034 um 32,7% wachsen. Klingt schnell. 2024 sind es aber immer noch 1,6 Milliarden Dollar. Text-RAG ist schon 2,33 Milliarden, wächst schneller. Mehr Geld, mehr Deployments, mehr Produktionssysteme bei der einfacheren Technologie.
Ich habe Teams gesehen, die Monate in multimodales RAG gesteckt haben. Embedding-Modelle gewählt (CLIP oder LLaVA — unterschiedliche Tradeoffs), Quantisierung abgestimmt, debuggt, warum Bilder gut kamen, aber Cross-Modal-Ranking kaputt war. Gebaut: System kostet 3x Infrastruktur, um Probleme zu lösen, die ein einfacheres System längst hätte.
Das echte Problem: Diese Unternehmen brauchten keine multimodale Suche. Sie brauchten OCR und Textindexierung plus Suche. Multimodal löst das nicht. Verschiebt nur die Komplexität.
Juristische Dokumentenprüfung: Team sucht Verträge nach Präzedenzfällen. Text-RAG funktioniert. Brauchen sie wirklich, ein Flowchart aus einem anderen Vertrag zu holen, um eine Rechtsfrage zu klären? Manchmal. Nicht oft genug, um Infrastruktur dafür aufzubauen.
Die unbequeme Frage: Welche Probleme löst multimodale Suche, die Text-only plus gezielte Abfragen nicht löst?
Für die meisten Unternehmen gerade: keine. Noch nicht. Infrastruktur-Kosten und operative Komplexität überwiegen das, was Textsysteme längst leisten.
Multimodales RAG wird reifen. Die Technik wird besser. Das sind aber noch Jahre. Wenn Sie das evaluieren: Ist das Problem wirklich multimodal, oder baue ich Komplexität ein, um innovativ zu wirken?
Quellen
- RAG at the Crossroads - Mid-2025 Reflections on AI's Incremental Evolution (RAGFlow, 2025)
- The State of Retrieval-Augmented Generation (RAG) in 2025 and Beyond (Aya Data, 2025)
- RAG in 2025: The enterprise guide to retrieval augmented generation, Graph RAG and agentic AI (Data Nucleus, 2025)
- A Systematic Review of Key Retrieval-Augmented Generation (RAG) Systems: Progress, Gaps, and Future Directions (arXiv, 2025)
- Rethinking RAG: Pipelines Are the Past, Agentic Is the Future (Medium, 2025)
Weiterlesen
Alle Journal-Einträge ansehenWenn dieser Artikel hilfreich war, gibt es im Journal weitere Notizen zu Architektur, AI-Workflows, Delivery und Engineering-Praxis.