Ученые много лет стремятся завершить этот цикл, создав искусственных интеллектов, способных рекурсивно совершенствовать себя. Новое исследование демонстрирует захватывающий пример такой системы.
«Это отличная работа», — заявил Юрген Шмидхубер, учёный-компьютерщик из Университета науки и технологий имени короля Абдуллы (KAUST) в Саудовской Аравии, не участвовавший в новом исследовании. «Считаю, многие люди получат от результатов неожиданности. Работая над этой темой почти 40 лет, для меня это, возможно, менее удивительно».
В 2003 году Шмидхубер разработал решатели задач, изменявшие свой код только при формально доказанной пользе обновлений. Таких машин он назвал машинами Гёделя в честь математика Курта Гёделя, занимавшегося самоссылающимися системами. Для сложных агентов доказываемая полезность представляется затруднительной задачей.
Новые системы, описанные в недавнем исследовании, опираются на эмпирические доказательства. В честь Шмидхубера их называют машинами Дарвина-Гёделя (ДГМ). ДГМ начинается с кодирующего агента, который может читать, писать и выполнять код, используя LLM для чтения и записи. Затем эволюционный алгоритм применяется для создания множества новых агентов. На каждой итерации ДГМ выбирает одного агента из популяции и поручает LLM создать одно изменение для улучшения способности агента к написанию кода. LLM обладают чем-то вроде интуиции о том, что может помочь, потому что обучаются на большом количестве кода, написанного человеком. В результате получается управляемая эволюция — нечто среднее между случайной мутацией и доказуемо полезным улучшением. Затем ДГМ тестирует нового агента на эталонном коде, оценивая его способность решать задачи программирования.
Некоторые эволюционные алгоритмы оставляют только лучших исполнителей в популяции, полагая, что развитие непрерывно идет вперед. ДГМ же сохраняют всех, на случай если инновация, изначально не удачная, станет решающей позже после доработки. Это форма «открытого исследования», не ограничивающая пути прогресса (ДГМ все же предпочитают агентов с более высокими баллами при выборе предков).
Учёные протестировали ДГМ в течение 80 итераций, применяя эталонный код SWE-bench, и ещё раз в течение 80 итераций, используя эталонный код Polyglot. Результаты агентов улучшились на SWE-bench с 20% до 50%, а на Polyglot — с 14% до 31%.
«Мы были очень удивлены, что агент мог написать такой сложный код сам», — сказала Дженни Чжан, учёный из Университета Британской Колумбии и ведущий автор статьи. «Агент мог редактировать несколько файлов, создавать новые файлы и создавать действительно сложные системы». Важно, что метод ДГМ превзошёл альтернативный метод, который использовал внешнюю систему для улучшения агентов. С помощью ДГМ улучшения агентов накапливались по мере того, как они улучшали себя в улучшении себя. Метод ДГМ также превзошёл версию, которая не поддерживала популяцию агентов и просто модифицировала последнего агента. Лучший агент SWE-bench был не так хорош, как лучший агент, разработанный людьми, который набрал около 70%, но он был сгенерирован автоматически, и возможно, с достаточным временем и вычислительными мощностями агент сможет превзойти человеческую экспертизу.
Агенты могут стать неинтерпретируемыми или перестать следовать указаниям человека. В связи с этим Чжан и её коллеги добавили ограждения, держа ДГМ в песочницах без доступа к Интернету или операционной системе, регистрируя и проверяя все изменения кода. В будущем предполагается продолжить исследование с вознаграждением агентов за то, что они делают себя более интерпретируемыми и согласованными.