DeepSeek V3.1: ИИ, сопоставимый с GPT-5 и Claude 4, доступен за 1 доллар

Новая модель искусственного интеллекта DeepSeek V3.1, разработанная китайским стартапом DeepSeek, вызвала большой интерес у разработчиков. Модель, насчитывающая 685 миллиардов параметров, стала доступна для скачивания на платформе Hugging Face, что обеспечивает её использование без каких-либо географических ограничений.

Первоначальные тесты продемонстрировали, что DeepSeek V3.1 достигает результатов, сравнимых с моделями OpenAI и Anthropic. На бенчмарке Aider, предназначенном для оценки навыков написания кода, модель показала результат 71,6%, что позволяет отнести её к числу наиболее эффективных существующих решений.

DeepSeek V3.1 способна обрабатывать до 128 000 токенов контекста, что эквивалентно примерно 400 страницам текста, при этом сохраняя высокую скорость работы. Модель поддерживает различные форматы точности, начиная от стандартного BF16 и заканчивая экспериментальным FP8, что дает разработчикам возможность оптимизировать работу под имеющиеся аппаратные ресурсы. Значительным прогрессом стала разработка «гибридной архитектуры», которая объединяет функции чата, логического мышления и генерации кода в рамках одной модели. Ранее подобные попытки часто приводили к ухудшению общей производительности.

В ходе изучения архитектуры модели были выявлены четыре новых специализированных токена: токены поиска, которые обеспечивают взаимодействие с веб-ресурсами в реальном времени, и токены рассуждения, предназначенные для выполнения логических операций внутри модели.

Не пропустите:  Плазменный протуберанц огромных размеров от Солнца

DeepSeek V3.1 была выпущена после выхода GPT-5 от OpenAI и Claude 4 от Anthropic. Позитивная реакция разработчиков всего мира последовала за анонсом DeepSeek V3.1.

Похожие статьи