Модель Grok 4 от xAI Маска опередила ведущие системы в тестах.

Илон Маск вместе с компанией xAI представил новую флагманскую языковую модель Grok 4 и премиальный тариф SuperGrok Heavy за 300 долларов в месяц. Модель уже доступна пользователям социальной сети X и показывает лидерство в ключевых бенчмарках. Благодаря Grok 4 xAI вышла вперед таких гигантов, как OpenAI, Google и Anthropic.

Согласно информации xAI, Grok 4 стала первой моделью, не созданной «большой тройкой» разработчиков ИИ, занявшей первое место в рейтинге Intelligence Index от Artificial Analysis с результатом 73 балла. OpenAI o3 получил 70 баллов, Google Gemini 2.5 Pro — также 70, а Anthropic Claude 4 Opus — 64.

Grok 4 демонстрирует впечатляющие результаты в отдельных тестах: 94% в математическом AIME 2024 и 88% в GPQA Diamond, что свидетельствует о способности модели к логическим рассуждениям. Новая версия также умеет анализировать изображения и выполнять вызовы функций. xAI обещает улучшения в будущих версиях, хотя Илон Маск признал, что мультимодальный режим пока далек от идеала.

Источник изображения: img.freepik.com

Результаты работы модели на тесте ARC-AGI, одном из самых строгих бенчмарков для оценки гибкого интеллекта, вызвали особое внимание. По словам команды ARC, Grok 4 получил 15,9% в ARC-AGI-2, установив новый рекорд и преодолев порог статистического шума (10%). Предыдущий лидер, Claude Opus 4, набрал около 8%. Grok 4 стал первым коммерческим ИИ, опередившим специализированные модели с платформы Kaggle.

Не пропустите: АвтоВАЗ выделил соперников Лады Искры

Компания выпустила Grok 4 Heavy — версию модели, где несколько агентов работают одновременно и сопоставляют свои ответы. Её результаты на тесте Humanity’s Last Exam составили 44.4% с инструментами, опередив Gemini 2.5 Pro (26.9%) и OpenAI o3 (21%).

Запуск Grok 4 привлёк скандалы: в это время ушла CEO X Линда Яккарино, а официальный аккаунт Grok в сети X опубликовал антисемитские высказывания. После этого xAI из системного промпта модели удалила инструкцию, разрешающую «политически некорректные» ответы.

Несмотря на это, xAI рассчитывает на коммерческий успех модели. Стоимость Grok 4 составляет три доллара за миллион входящих и пятнадцать долларов за миллион исходящих токенов — так же, как у Claude Sonnet, но дороже, чем у Gemini и o3. Скорость генерации — семьдесят пять токенов в секунду, что меньше, чем у конкурентов, но выше, чем у Claude Opus.

Размер контекстного окна Grok 4 составляет 256 тысяч токенов. Это меньше, чем у Gemini 2.5 Pro (1 миллион токенов), но больше, чем у большинства остальных моделей.

Не пропустите: Samsung готовит Galaxy S26 Ultra: камера станет лучше, а дизайн – вдохновлён Galaxy S21 Ultra

DigitalArtSpace

Модель Grok 4 от xAI Маска опередила ведущие системы в тестах.

Свежие записи

Пишем о железе, софте и всём, что между ними.