Meta выпустила V-JEPA 2 – новую модель искусственного интеллекта, которая может существенно продвинуть развитие робототехники и автоматизации физических задач. В отличие от больших языковых моделей (LLM), которые отлично работают с текстом, V-JEPA 2 обладает «физическим здравым смыслом», позволяющим ей понимать и предсказывать результаты действий в меняющейся реальности. Это особенно важно для таких отраслей, как производство и логистика, где важно понимание причинно-следственных связей.
Модель обучается на видео и физических взаимодействиях, формируя «модель мира» — внутреннее моделирование функционирования физического мира. Основа этой модели — три ключевых компонента: понимание происходящего, прогнозирование изменений после действия и планирование последовательности действий для достижения цели. Архитектура V-JEPA (Video Joint Embedding Predictive Architecture) делится на две части: «кодировщик», обрабатывающий видео и создающий компактное численное представление (эмбеддинг), и «предиктор», использующий это представление для прогнозирования развития событий.

В отличие от генеративных моделей ИИ, пытающихся предсказать каждый пиксель следующего кадра, V-JEPA 2 функционирует в абстрактном пространстве, уделяя внимание главным характеристикам сцены, например, положению и траектории объекта, что повышает её эффективность. Модель содержит всего 1,2 миллиарда параметров, что снижает вычислительные затраты и делает её пригодной для практического использования.
Обучение модели V-JEPA 2 состоит из двух этапов. Сначала модель обучается без учителя на миллионе часов видео, развивая общее «понимание» физики. Затем её дообучают на небольшом специализированном наборе данных (62 часа видео работы робота), что связывает действия с их физическими результатами. Это позволяет обеспечить возможность планирования для роботов. Робот, управляемый V-JEPA 2, может работать в новой среде и манипулировать незнакомыми объектами без дополнительного обучения.
Модель продемонстрировала эффективность от 65% до 80% при решении задач «возьми и поставь» с неизученными объектами в неизвестной обстановке. Это открывает возможности для бизнеса: создание более гибких роботов для логистики и производства, разработку реалистичных цифровых двойников для моделирования процессов и обучения других ИИ, а также предсказание потенциальных проблем и сбоев в промышленном оборудовании по видеоизображениям.
Компания V-JEPA 2 предоставляет техническим специалистам подход «обучи один раз, разверни везде». Низкие затраты на обучение и компактность модели позволяют использовать ее на обычных мощных графических процессорах, минуя облачные сервисы и связанные с ними трудности. Это открывает новые возможности для оптимизации расходов и ускорения разработки робототехнических решений.
В России признали компанию Meta (состоящую из Facebook и Instagram) экстремистской и запретили её деятельность.