RAG Retrieval-Augmented Generation: как SSD и оффлоад решают проблемы памяти и затрат при масштабировании AI-инференса.
Главная » SSD ускоряет AI с RAG: на 50% быстрее и на 57% меньше памяти
| |

SSD ускоряет AI с RAG: на 50% быстрее и на 57% меньше памяти

AI-инференс с использованием RAG (Retrieval-Augmented Generation) переживает бум, сравнимый разве что с Вудстоком-1969. Все хотят его внедрить, но, как и на том легендарном фестивале, масштабный спрос создает проблемы с инфраструктурой. Без должного подхода потенциал технологии упирается в высокие затраты и ограничения памяти.

RAG — это метод, при котором модель ИИ перед генерацией ответа извлекает дополнительные данные из внешних источников, расширяя свои знания, а затем генерирует ответ. Например, запросив у чат-бота список документов для поездки за границу, вы получите точный ответ, даже если этой информации не было в обучающей выборке модели.

Преимущества RAG:

  • Не нужно постоянно переобучать модели.
  • Можно использовать актуальные и специализированные данные.

Некоторые утверждают, что RAG уже устарел из-за появления моделей с огромными контекстными окнами (например, Llama 4 Scout с 10 млн токенов). Однако исследования показывают, что точность таких моделей падает при обработке больших объемов данных — эффективный предел около 2K токенов.

Проблема: аппетиты растут, память дорожает

Компании хотят:

  • Большие наборы данных RAG для повышения качества ответов.
  • Более сложные модели, требующие значительных ресурсов.

Но хранение всего этого в оперативной памяти становится непозволительно дорогим.

Решение: оффлоад на SSD

Solidigm и Metrum AI предложили подход, при котором часть данных (как RAG, так и веса модели) переносится с памяти на высокопроизводительные SSD. Это снижает затраты и позволяет масштабировать системы.

Два ключевых компонента:

  • Оффлоад данных RAG — с помощью алгоритмов DiskANN, оптимизированных для поиска в больших векторных базах.
  • Оффлоад весов модели — через Ray Serve и DeepSpeed, что позволяет, например, запускать 70-миллиардную модель, сократив использование памяти с 160 ГБ до 7–8 ГБ.

Результаты тестирования

1. Экономия памяти

На больших наборах данных (100 млн векторов) использование DRAM сократилось на 57% (191 ГБ).

2. Рост скорости запросов

Неожиданно, но оффлоад на SSD увеличил производительность: на 50–70% больше запросов в секунду (QPS) по сравнению с чисто оперативной памятью.

3. Обратная сторона: время индексации

Построение индекса RAG занимает на 30–60% больше времени. Но поскольку это разовая операция, долгосрочные выгоды перевешивают.

4. Точность (recall)

Осталась на уровне ~100%, то есть оффлоад не ухудшил качество ответов.

Подход Solidigm и Metrum AI позволяет:

  • Масштабировать RAG без огромных затрат на память.
  • Развертывать сложные модели на старом железе или на edge-устройствах.

Подробности — в GitHub-репозитории и белой книге.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *