Илон Маск вместе с компанией xAI представил новую флагманскую языковую модель Grok 4 и премиальный тариф SuperGrok Heavy за 300 долларов в месяц. Модель уже доступна пользователям социальной сети X и показывает лидерство в ключевых бенчмарках. Благодаря Grok 4 xAI вышла вперед таких гигантов, как OpenAI, Google и Anthropic.
Согласно информации xAI, Grok 4 стала первой моделью, не созданной «большой тройкой» разработчиков ИИ, занявшей первое место в рейтинге Intelligence Index от Artificial Analysis с результатом 73 балла. OpenAI o3 получил 70 баллов, Google Gemini 2.5 Pro — также 70, а Anthropic Claude 4 Opus — 64.
Grok 4 демонстрирует впечатляющие результаты в отдельных тестах: 94% в математическом AIME 2024 и 88% в GPQA Diamond, что свидетельствует о способности модели к логическим рассуждениям. Новая версия также умеет анализировать изображения и выполнять вызовы функций. xAI обещает улучшения в будущих версиях, хотя Илон Маск признал, что мультимодальный режим пока далек от идеала.
Результаты работы модели на тесте ARC-AGI, одном из самых строгих бенчмарков для оценки гибкого интеллекта, вызвали особое внимание. По словам команды ARC, Grok 4 получил 15,9% в ARC-AGI-2, установив новый рекорд и преодолев порог статистического шума (10%). Предыдущий лидер, Claude Opus 4, набрал около 8%. Grok 4 стал первым коммерческим ИИ, опередившим специализированные модели с платформы Kaggle.
Компания выпустила Grok 4 Heavy — версию модели, где несколько агентов работают одновременно и сопоставляют свои ответы. Её результаты на тесте Humanity’s Last Exam составили 44.4% с инструментами, опередив Gemini 2.5 Pro (26.9%) и OpenAI o3 (21%).
Запуск Grok 4 привлёк скандалы: в это время ушла CEO X Линда Яккарино, а официальный аккаунт Grok в сети X опубликовал антисемитские высказывания. После этого xAI из системного промпта модели удалила инструкцию, разрешающую «политически некорректные» ответы.
Несмотря на это, xAI рассчитывает на коммерческий успех модели. Стоимость Grok 4 составляет три доллара за миллион входящих и пятнадцать долларов за миллион исходящих токенов — так же, как у Claude Sonnet, но дороже, чем у Gemini и o3. Скорость генерации — семьдесят пять токенов в секунду, что меньше, чем у конкурентов, но выше, чем у Claude Opus.
Размер контекстного окна Grok 4 составляет 256 тысяч токенов. Это меньше, чем у Gemini 2.5 Pro (1 миллион токенов), но больше, чем у большинства остальных моделей.