Как ИИ-агенты приходят к разным ответам на один и тот же вопрос

Агенты, использующие большие языковые модели (LLM) и способные решать сложные задачи благодаря инструментам и логическим цепочкам, всё чаще применяются в практических приложениях. Однако степень стабильности их работы при одинаковых входных данных остаётся недостаточно исследованной. Это критически важно для отладки, оценки и обеспечения надёжности подобных систем.

Для ответа на поставленный вопрос было проведено систематическое исследование, оценивающее согласованность поведения агентов на трех моделях: Llama 3.1 70B, GPT-4o и Claude Sonnet 4.5. В качестве тестового набора использовался датасет HotpotQA, который представляет собой коллекцию вопросов с несколькими вариантами ответа. Этот набор данных был разработан группой исследователей, работающих в области обработки естественного языка, из Университета Карнеги-Меллона, Стэнфордского университета и Монреальского университета.

В ходе 3 000 экспериментов (100 задач, 10 запусков каждой задачи и 3 модели) было установлено, что агенты нередко выбирают различные последовательности действий, даже если получают одинаковые входные данные. В среднем на 10 запусков фиксируется от 2 до 4 уникальных траекторий, при этом количество шагов может отличаться на 55%.

Высокая степень единообразия в действиях (не более двух различных последовательностей) обеспечивает точность в диапазоне от 80% до 92%, в то время как значительная изменчивость (шесть и более последовательностей) снижает точность до 25–60%. При этом, 69% расхождений проявляются уже на втором этапе – при формировании первоначального запроса. Длина последовательности также влияет на точность: короткие цепочки (состоящие из трех шагов) обеспечивают 90% корректных ответов, а протяженные (восемь и более шагов) – всего 43%.

Не пропустите:  Baseus EnerFill FC41: внешний аккумулятор с двумя кабелями и дисплеем

С целью улучшения согласованности рекомендуется уменьшать температуру генерации (с 0.7 до 0.0). Это позволяет сократить количество уникальных вариантов развития и увеличить точность на 5,4 процентных пункта. Авторы советуют мониторить согласованность работы в режиме реального времени: если агент демонстрирует признаки неверного поведения с самого начала, то результат, скорее всего, будет неточным. Это создаёт возможность для автоматизированного контроля качества и выбора более надёжных моделей.

В представленной работе отмечается: даже при использовании ограниченного набора инструментов агенты проявляют заметные различия, а по мере усложнения задач эта тенденция усиливается. Для успешного внедрения в практику необходимо не только улучшать точность, но и гарантировать устойчивость работы — это позволит создавать более надёжные и предсказуемые системы.

Похожие статьи