Новая модель CAV-MAE Sync от MIT учится связывать звук и изображение без человека, разбивая аудио на сегменты для точного сопоставления с видео.

Главная » ИИ учится связывать зрение и звук без участия человека

ИИ учится связывать зрение и звук без участия человека

ОтWriter 22.05.2025

Исследователи из MIT и других учреждений разработали улучшенную версию модели CAV-MAE, которая учится связывать звук и изображение без участия человека. Новая модель, CAV-MAE Sync, разбивает аудио на более мелкие сегменты, что позволяет точнее сопоставлять звуковые события с конкретными кадрами видео.

Модель обрабатывает видео и аудио параллельно через отдельные энкодеры. Аудиоэнкодер работает с более мелкими временными интервалами, чтобы лучше согласовываться с визуальными кадрами. Оба модальности взаимодействуют через совместный слой и декодер, обучаясь как на восстановлении данных, так и на контрастном сравнении.

Ключевые улучшения:

Разделение аудио на короткие окна для точного сопоставления с кадрами.

Добавление глобальных токенов для контрастного обучения.

Регистрационные токены, помогающие фокусироваться на важных деталях для восстановления.

Практическое применение

Модель может автоматически находить соответствия между звуком и изображением — например, сопоставлять хлопок двери с кадром её закрытия. Это полезно для:

Автоматической разметки мультимедийного контента в журналистике и кинопроизводстве.

Улучшения понимания роботами окружающей среды, где звук и изображение взаимосвязаны.

В тестах CAV-MAE Sync показала более высокую точность в поиске видео по аудиозапросу и классификации сцен по сравнению с предыдущими методами, включая более сложные модели, требующие больших объёмов данных для обучения.

Перспективы

Исследователи планируют:

Интегрировать более совершенные модели генерации представлений данных.

Добавить обработку текста для создания мультимодальных языковых моделей.

Работа будет представлена на конференции CVPR 2025 в июне.

Дрон-камера RedBull развивает 360 кмч, снимая гонки с невероятной четкостью. Технология Dutch Drone Gods открывает новые ракурсы для автоспорта и кинопроизводства.

Гаджеты | Технологии | Фото-Видео

Дрон с рекордной скоростью 360 км/ч: сравнение с F1

ОтWriter 29.07.2025

RedBull представил дрон-камеру, способную развивать скорость до 360 кмч почти как болиды Формулы-1. Разработанный командой Dutch Drone Gods, этот аппарат успешно протестирован на трассе Silverstone, сопровождая машину Max Verstappen. Технологический прорыв Дрон оснащен продвинутыми сенсорами и системой стабилизации, обеспечивающей четкое изображение даже на максимальной скорости. Его аэродинамический дизайн позволяет маневрировать с невероятной точностью, открывая…

LandSpace совершила прорыв, запустив первую в мире ракету на метане, опередив SpaceX и Blue Origin. Это шаг к экологичным и многоразовым технологиям.

Технологии

Китайский CEO заявил о лидерстве в космосе благодаря топливу на метане

ОтWriter 13.07.2025

LandSpace, частная китайская аэрокосмическая компания, успешно запустила ракету на метане, что стало важным шагом в развитии космической отрасли. Это событие подчеркивает растущую конкуренцию в сфере коммерческих запусков и переход к более экологичным технологиям. Технологический прорыв В июле 2023 года LandSpace первой в мире использовала метан и жидкий кислород в качестве топлива, опередив таких гигантов,…

Xiaomi QLED TV G32 2025 бюджетный телевизор с квантовыми точками, Google TV и хорошим контрастом. Идеален для спальни или кухни.

Бытовая техника | Технологии

Xiaomi QLED TV G32: доступный смарт-телевизор с хорошим качеством

ОтWriter 27.07.2025

Xiaomi QLED TV G32 2025 попытка компании сделать квантовые точки доступными даже в бюджетном сегменте. За 13 999 рупий примерно 12 500 рублей предлагают 32-дюймовую модель с улучшенной матрицей и Google TV. Звучит заманчиво, но стоит ли оно того? Дизайн и подключение Телевизор выглядит аккуратно: тонкие рамки, лаконичная подставка. Из портов два HDMI, два…

500 млн пользователей Windows 10 столкнулись с выбором: обновляться до Windows 11 или остаться без поддержки и защиты от угроз.

Безопасность | Софт | Технологии

Microsoft предупреждает: 500 млн пользователей Windows в зоне риска

ОтWriter 02.06.2025

Microsofts Bad News500 Million Windows Users Must Now Decide Неожиданно плохие новости для Microsoft: 500 миллионов пользователей Windows столкнулись с необходимостью срочного выбора. Компания Asus предупредила, что компьютеры под управлением Windows 10 и более старых версий становятся магнитом для угроз безопасности из-за прекращения поддержки в октябре 2025 года. Asus активно продвигает Windows 11, делая…

Kaspersky зафиксировала 19 млн атак под видом игр для Gen Z. В топе GTA, Minecraft и Call of Duty. Защита аккаунтов новый must-have.

Безопасность | Игры | Технологии

Kaspersky: Игры для Gen Z стали целью 19 млн кибератак

ОтWriter 22.06.2025

Kaspersky зафиксировала более 19 миллионов попыток распространения вредоносных файлов под видом популярных среди поколения Z игр. Мониторинг проводился с 1 апреля 2024 по 31 марта 2025 года. В результате атак пострадали свыше 400 тысяч пользователей по всему миру. Какие игры чаще всего используют злоумышленники В топе мошеннических схем оказались: Grand Theft Auto GTA 4…

5 лучших приложений для путешествий: планирование маршрутов, бронирование билетов, навигация и переводчик. Удобство и экономия времени.

Софт | Технологии

Лучшие приложения для путешествий летом

ОтWriter 31.05.2025

Лето время путешествий и неизбежного стресса, связанного с планированием. К счастью, есть приложения, которые помогут организовать поездку от бронирования билетов до возвращения домой. Базовые приложения Если летите самолетом, установите приложение авиакомпании для отслеживания рейсов, багажа и электронных посадочных. Для отелей полезны их официальные приложения: управление бронированием, доступ в номер и бонусные программы. Для аренды…

Практическое применение

Перспективы

Похожие записи

Добавить комментарий Отменить ответ