yk.camelcase.work
Yevhen Kim
techaiproductionRAGmultimodal RAG

Мультимодальний RAG не готовий до продакшену, і це в порядку

Ми трактуємо мультимодальний RAG так, ніби це неминуче. Це не так. Це гайп, що зустрічається з інфраструктурою, яка не готова, і де-небудь якійсь стартап робить ставку компанії на це.

Текстовий RAG навряд чи справляється у масштабі. Більшість компаній все ще розбирається в тому, як розділяти документи. Тим часом вони читають про мультимодальний RAG і хвилюються, що відстають.

Привабливість очевидна: витягувати документи, діаграми, зображення, відео одночасно. Медична система, яка показує рекомендації та знімки. Юридична команда, яка знаходить контракти і їхні блок-схеми поруч. Ідея чиста. Реалізація — жах.

Почніть з чисел. Мультимодальна модель embedding випускає 1024-2048 вимірні вектори на зображення. Візьміть типову корпоративну бібліотеку: 500K PDF, 3 зображення в кожному. Це 1,5 мільйона embeddings. 4KB на один embedding. 6 терабайт тільки для векторів. Це не проблема оптимізації. Це окремий клас інфраструктури.

Потім — затримка пошуку. Текстова система шукала 100K векторів за 50ms. Тепер 1,5 мільярда. Індекс, який був швидким, стає повільним. Квантизуєте — нижча точність — щоб прискорити. Пропускна спроможність в 10 разів більша. Якість пошуку гірша. Мультимодальна система тепер працює гірше, ніж тільки текст.

Потім fusion. Ви витягли 10 кращих текстових блоків, 10 кращих зображень. Як їх ранжувати разом? Немає стандартної відповіді. Можна use окремі rerankers для кожного типу, потім об'єднати оцінки — більше затримок, більше непевності. Або використати один мультимодальний модель для оцінки пар — повільніше, і він потребує інший embedding модель, ніж використовували для індексування. Нічого простого.

Дані ринку промовлять. Мультимодальний AI буде зростати на 32.7% до 2034. Звучить швидко. Але це $1.6 мільярда в 2024. Текстовий RAG вже $2.33 мільярда, зростає швидше. Більше грошей, більше розгортань, більше готових систем у простішу технологію.

Я бачив, як команди витрачали місяці на мультимодальний RAG. Вибирали моделі (CLIP або LLaVA — різні компроміси), налаштовували квантизацію (зберігання або точність), налагоджували, чому зображення знаходяться добре, але cross-modal ранжування ламалось. Побудували систему, що коштує в 3 рази більше інфраструктури, щоб вирішити те, що простіша система давно могла б обробити.

Насправді ці компанії не потребували мультимодального пошуку. Їм були потрібні OCR документів, індексування видобутого тексту, пошук. Мультимодальний RAG це не вирішує. Просто переміщує складність.

Або візьміть роботу з юридичними контрактами. Команда шукає прецеденти. Текстовий RAG працює. Їм дійсно потрібна блок-схема з іншого контракту, щоб відповісти на питання? Іноді. Не досить часто, щоб виправдати інфраструктуру.

Незручне питання: які проблеми вирішує мультимодальний пошук, яких не вирішує текстовий плюс цільові запити?

Для більшості компаній зараз відповідь: нікакие. Ще ні. Вартість інфраструктури і операційна складність перевищують все, що можуть дати текстові системи.

Мультимодальний RAG дозріє. Інженерія покращиться. Але це роки. Якщо оцінюєте, запитайте: чи проблема дійсно мультимодальна, чи я додаю складність, щоб виглядати інноваційно?

Джерела

Автор:Yevhen Kim

Якщо ця стаття була корисною, у щоденнику є більше нотаток про архітектуру, AI-процеси, delivery та інженерну практику.