RAG Retrieval-Augmented Generation: как SSD и оффлоад решают проблемы памяти и затрат при масштабировании AI-инференса.

Главная » SSD ускоряет AI с RAG: на 50% быстрее и на 57% меньше памяти

SSD ускоряет AI с RAG: на 50% быстрее и на 57% меньше памяти

ОтWriter 23.07.2025

AI-инференс с использованием RAG (Retrieval-Augmented Generation) переживает бум, сравнимый разве что с Вудстоком-1969. Все хотят его внедрить, но, как и на том легендарном фестивале, масштабный спрос создает проблемы с инфраструктурой. Без должного подхода потенциал технологии упирается в высокие затраты и ограничения памяти.

RAG — это метод, при котором модель ИИ перед генерацией ответа извлекает дополнительные данные из внешних источников, расширяя свои знания, а затем генерирует ответ. Например, запросив у чат-бота список документов для поездки за границу, вы получите точный ответ, даже если этой информации не было в обучающей выборке модели.

Преимущества RAG:

Не нужно постоянно переобучать модели.

Можно использовать актуальные и специализированные данные.

Некоторые утверждают, что RAG уже устарел из-за появления моделей с огромными контекстными окнами (например, Llama 4 Scout с 10 млн токенов). Однако исследования показывают, что точность таких моделей падает при обработке больших объемов данных — эффективный предел около 2K токенов.

Проблема: аппетиты растут, память дорожает

Компании хотят:

Большие наборы данных RAG для повышения качества ответов.

Более сложные модели, требующие значительных ресурсов.

Но хранение всего этого в оперативной памяти становится непозволительно дорогим.

Решение: оффлоад на SSD

Solidigm и Metrum AI предложили подход, при котором часть данных (как RAG, так и веса модели) переносится с памяти на высокопроизводительные SSD. Это снижает затраты и позволяет масштабировать системы.

Два ключевых компонента:

Оффлоад данных RAG — с помощью алгоритмов DiskANN, оптимизированных для поиска в больших векторных базах.

Оффлоад весов модели — через Ray Serve и DeepSpeed, что позволяет, например, запускать 70-миллиардную модель, сократив использование памяти с 160 ГБ до 7–8 ГБ.

Результаты тестирования

1. Экономия памяти

На больших наборах данных (100 млн векторов) использование DRAM сократилось на 57% (191 ГБ).

2. Рост скорости запросов

Неожиданно, но оффлоад на SSD увеличил производительность: на 50–70% больше запросов в секунду (QPS) по сравнению с чисто оперативной памятью.

3. Обратная сторона: время индексации

Построение индекса RAG занимает на 30–60% больше времени. Но поскольку это разовая операция, долгосрочные выгоды перевешивают.

4. Точность (recall)

Осталась на уровне ~100%, то есть оффлоад не ухудшил качество ответов.

Подход Solidigm и Metrum AI позволяет:

Масштабировать RAG без огромных затрат на память.

Развертывать сложные модели на старом железе или на edge-устройствах.

Подробности — в GitHub-репозитории и белой книге.

Xiaomi готовит смартфон с аккумулятором 8500 мAh и толщиной 8,5 мм, используя кремний-углеродные технологии для рекордной автономности.

Смартфоны, планшеты | Технологии

Xiaomi разрабатывает смартфон с огромной батареей

ОтWriter 07.08.2025

Xiaomi, через суббренд Redmi, похоже, решила переписать правила игры в автономности смартфонов. После Redmi Turbo 4 Pro с батареей 7500 мAh компания, по слухам, готовит устройство с ещё более ёмким аккумулятором 8500 мAh. И всё это в корпусе толщиной не более 8,5 мм. Толще, но не слишком Да, 8,5 мм это не ультратонкий корпус….

Скидки до 100 на iPad Air M3: цены от 499 за 11-дюймовую версию. Выгодные предложения в Amazon и Best Buy.

Apple | Акции | Смартфоны, планшеты | Технологии

Скидка $100 на M3 iPad Air в Amazon — цена от $499

ОтWriter 01.06.2025

Amazon предлагает скидки на линейку M3 iPad Air почти все модели подешевели на 100. Цены начинаются от 499 за 11-дюймовую версию с 128 ГБ памяти и Wi-Fi. Обычно она стоит 599. Best Buy тоже снизил цены на эти планшеты. Скидки применяются автоматически не нужно активировать купоны. В продаже есть обе версии: 11 и 13…

Исследователи MIT создали робота с ИИ, прыгающего на 41 выше аналогов. Новые соединения и диффузионные модели обеспечили стабильность и эффективность.

И-Интеллект | Технологии

Искусственный интеллект MIT побил рекорд по прыжкам в высоту

ОтWriter 02.07.2025

Исследователи из MIT использовали искусственный интеллект для создания робота, который прыгает на 41 выше своих предшественников. Модель ИИ позволила разработать изогнутые и толстые соединения, увеличивающие энергию перед прыжком. Роботы, созданные ИИ, падают на 84 реже, чем традиционные модели. Как ИИ проектирует роботов Основной прорыв заключается в использовании диффузионных моделей, генерирующих структуры и системы управления…

Samsung Galaxy S26 Ultra получит 60W зарядку, Snapdragon 8 Elite 2 и обновленные камеры. Возможен ребрендинг линейки и рост цен.

Смартфоны, планшеты | Технологии

Samsung Galaxy S26 Ultra: быстрая зарядка и новые функции

ОтWriter 31.07.2025

Слухи о Samsung Galaxy S26 Ultra начали появляться задолго до анонса. И если верить утечкам, компания наконец-то решила пересмотреть свою консервативную политику в вопросах зарядки. 60W вместо 45W Согласно данным из прошивки One UI 8.5, флагман получит поддержку 60-ваттной зарядки. Это серьезный шаг вперед по сравнению с нынешними 45W. Правда, емкость аккумулятора останется прежней…

Uber тестирует беспилотные авто в Лондоне, готовясь к масштабному внедрению в Европе. ИИ-технологии и новые рабочие места.

Технологии | Транспорт

Uber тестирует беспилотные такси в Великобритании перед выходом в Европу

ОтWriter 10.06.2025

Uber планирует начать испытания беспилотных автомобилей в Великобритании, а затем развернуть их по всей Европе. Компания объявила о запуске тестовых поездок в Лондоне в ближайшие месяцы. Это первый шаг к масштабному внедрению автономных технологий на континенте. Технологии и регулирование В Европе и Франции пока разрешены только автомобили 3-го уровня автономности. Они могут управляться без…

Nintendo Switch 2: высокие ожидания и скрытые риски. Почему новая консоль может не повторить успех оригинала? Читайте в нашем блоге.

Гаджеты | Игры | Технологии

Nintendo Switch 2: перспективы и риски

ОтWriter 31.05.2025

Скоро выходит Nintendo Switch 2, и пока все выглядит радужно: предзаказы разлетаются, фанаты стоят в очередях. Но за этим ажиотажем скрываются серьезные проблемы, которые могут подпортить будущее консоли. Почему Switch 2 может не повторить успех оригинала Стартовые продажи не показатель долгосрочного успеха. Wii U тоже хорошо стартовала, но в итоге провалилась. Switch 2 ждет…