Google Gemma 3 open-source ИИ с vision-language пониманием, обработкой 128k токенов и улучшенной мультиязычностью. Оптимизирована для работы на GPUTPU.
Главная » Gemma 3: мощное зрение, длинный контекст и мультиязычность
|

Gemma 3: мощное зрение, длинный контекст и мультиязычность

Google представила третью версию своей open-source модели генеративного искусственного интеллекта Gemma. Основные нововведения включают поддержку vision-language понимания, обработку длинного контекста и улучшенную мультиязычность. Модель также получила оптимизацию памяти KV-cache, новый токенизатор и более производительные энкодеры для работы с изображениями.

Gemma 3 научилась интерпретировать визуальную информацию благодаря использованию vision-энкодера SigLIP. Для обработки изображений с разным соотношением сторон или высоким разрешением применяется алгоритм Pan & Scan, который адаптивно кадрирует и масштабирует изображение до 896×896 пикселей. Визуальные данные представляются в виде компактных ‘мягких токенов’ (256 векторов), что снижает нагрузку на ресурсы при инференсе.

Длинный контекст и оптимизация памяти

Архитектурные изменения позволили сократить использование памяти KV-cache при работе с длинным контекстом. Теперь модели могут обрабатывать до 128k токенов (для версий 4B, 12B и 27B параметров). Это достигается за счет модификации механизма внимания и увеличения базовой частоты Rotary Position Embedding (RoPE) до 1M на глобальных слоях self-attention.

Мультиязычность и токенизатор

Новый токенизатор с размером словаря 262k (аналогичный используемому в Gemini) улучшил работу с неанглийскими языками. Обучение проводилось на пересмотренной смеси данных с увеличенной долей многоязычного контента. В результате Gemma 3 демонстрирует более сбалансированную производительность для разных языков.

Производительность

По данным тестов, Gemma 3 превосходит предыдущую версию на различных бенчмарках. Модель Gemma 27B IT вошла в топ-10 рейтинга LM Arena, опережая более крупные open-модели. При этом она остается достаточно компактной для запуска на consumer GPU или TPU.

Для разработчиков доступны руководство, карта модели и сообщество Gemmaverse с примерами использования.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *