Японского робота-гуманоида научили двигаться, выполняя устные команды
Робота-гуманоида, способного общаться и учиться благодаря возможностям самой совершенной языковой модели GPT-4, создали исследователи из Токийского университета, 5 января сообщает Fox News.
Alter3 — робот-гуманоид, имеющий человекоподобный внешний вид, способный имитировать мимику лица, двигать верхней частью тела и головой по 43 осям. В обоих глазах у него установлены видеокамеры, позволяющие ему видеть и взаимодействовать с окружающей средой.
Новый робот демонстрирует потенциал обучаемости посредством человеческого языка. Используя GPT-4, он может выполнять широкий спектр задач, получая устные команды — без необходимости программирования или ручного управления.
Благодаря этому, робот может учиться на собственном опыте и на отзывах людей, а также развивать чувство юмора и индивидуальность. По мнению исследователей Токийского университета, это приближает нас к появлению друзей-роботов, которые могут общаться с нами и развлекать нас.
Уникальность Alter3 заключается в том, что теперь он может использовать GPT-4 — языковую модель глубокого обучения, чтобы контролировать свои движения и поведение. То есть теперь, вместо того чтобы программировать каждое движение робота, исследователи могут просто дать ему устные инструкции, а GPT-4 уже сам сгенерирует соответствующий программный код Python, который запустит движок Android.
Например, чтобы заставить Alter3 сделать селфи, человек может сказать ему примерно такие слова:
«Создайте широкую радостную улыбку и широко раскройте глаза, чтобы показать волнение. Быстро поверните верхнюю часть тела слегка влево, приняв динамичную позу. Высоко поднимите правую руку, имитируя телефон. Согните правый локоть, приближая телефон к лицу. Слегка наклоните голову вправо, создавая игривую атмосферу».
И GPT-4 сгенерирует код, который заставит Alter3 выполнить именно эти телодвижения.
Исследователи протестировали Alter3 с GPT-4 в разнообразных сценариях, таких как подбрасывание мяча, поедание попкорна и игра на гитаре. Также тестировались различные типы обратной связи, такие как лингвистическая, визуальная и эмоциональная, чтобы ускорить адаптируемость робота.
По словам ученых, наиболее интересной способностью Alter3 является обучаемость на основе собственной памяти и реакций человека. Например, если роботу удается рассмешить человека, он запоминает это и может попытаться повторить свой удачный опыт в будущем. Также, способности робота подобны подражанию новорожденных детей мимике и жестам своих родителей.
Ранее была опубликована статья под названием «От текста к движению: заземление GPT-4 в гуманоидном роботе Alter3» под авторством Такахидэ Есиды, Ацуши Масумори и Такаши Икегами. Она доступна на сервере препринтов arXiv.