ВК представила нейросеть для работы с разговорным русским языком.

Компания VK (прежний Mail.ru Group) открыла доступ к модели RuModernBERT для обработки русского языка. Разработчики заявляют, что она понимает длинные тексты целиком, не разбивая их на части, и функционирует локально без внешних API, что уменьшает нагрузку на инфраструктуру.

В VK рассказали:

Инженеры применяют ее для задач по обработке текста, таких как извлечение информации, анализ тональности, поиск и ранжирование в приложениях и сервисах. Модель способна понять сложный или длинный запрос пользователя, например, в поисковой строке, и найти наиболее релевантную информацию, видео, товары или документы.

RuModernBERT обучена на 2 триллионах токенов данных русского, английского языков и кода. Максимальная длина контекста – 8192 токена. Для обучения использовались различные источники: книги, статьи, посты и комментарии в социальных сетях. Это позволяет ей работать с современным текстом и учитывать разговорную речь.

RuModernBERT представлена в версиях с 150 миллионами параметров и облегчённой версией с 35 миллионами параметров. Обновлены также версии USER и USER2, которые помогают инженерам лучше группировать и находить подобную информацию. В версии USER2 применена технология для сокращения объёма данных практически без потери точности. Все версии модели доступны на… Hugging Face.

Не пропустите:  Начинается прием заказов на Huawei Pura80 Ultra с необычной камерой

Похожие статьи