Sony Aibo научился ходить бесшумно и танцевать с помощью алгоритмов обучения с подкреплением.

Разработанный Sony миниатюрный робопёс Aibo, позиционирующийся как домашний компаньон, может имитировать поведение собак: ходить на четырёх лапах, откликаться на имя, играть с игрушками и реагировать на ласку. Инженеры из ETH Zurich и Sony Group Corporation представили два новых алгоритма на основе обучения с подкреплением, которые делают робота тише во время передвижения и наделяют его навыками выразительного танца. Результаты исследований открывают путь к более «тактичным» и артистичным домашним роботам.

Пользователи Aibo неоднократно отмечали шум во время ходьбы робота. Команда под руководством Рё Ватанабэ разработала RL-алгоритм, уменьшающий громкость шагов за счёт снижения скорости контакта лап с поверхностью в физическом симуляторе.

В ходе обучения модели акцент был сделан на подавлении колебаний и повышении жёсткости суставов с помощью информации от датчиков на лапах. Также введены санкции за быстрые движения, вызывающие шум, как уточнил Ватанабэ в интервью.

Фото: Watanabe et al.

В экспериментах алгоритм оценили по сравнению с базовыми методами RL и коммерческими контроллерами Sony. Новая система снижает шум на 30% – 50%, делая передвижение Aibo практически бесшумным. Исследователь отметил, что подход значительно тише как стандартных решений Sony, так и традиционных RL-контроллеров.

Разработчики создали модель Deep Fourier Mimic (DFM), которая использует RL и анализ движений для формирования сложных танцевальных паттернов. «Создание артистичных движений для развлекательных роботов обычно подразумевает ручной труд проектировщиков и ограничивается воспроизведением заранее запрограммированных движений, — сказал Ватанабэ. — DFM позволяет роботу имитировать танцевальные движения, одновременно выполняя задачи, например, перемещение в пространстве».

Тесты выявили, что DFM позволяет добиться плавных переходов между движениями. В результате танец Aibo становится более естественным и интерактивным. Робот освоил не только выполнение заранее запрограммированных паттернов, но и адаптацию к движениям пользователя, формируя импровизированные «дуэты».

Разработанные методы можно использовать в новых версиях Aibo, а также адаптировать для других домашних роботов или развлекательных систем в парках аттракционов. Но перед этим нужно решить ключевые задачи. Например, текущая версия алгоритма ходьбы совмещает тишину и устойчивость: чем тише шаги, тем выше риск потери равновесия. «Планируем интегрировать данные с камер и сенсоров для достижения одновременной тишины и надежности», — поделился планами Ватанабэ.