1. Реальная Россия
  2. Робототехника
Долгопрудный, / ИА Красная Весна

Инженеры-программисты дали роборуке новые способности к действию на базе ИИ

Изображение: (cc) Лайонел Аллордж
Пример роботизированной руки
Пример роботизированной руки

Метод управления роботизированной системой, действующей по текстовым инструкциям и полученной визуальной информации, разработали специалисты из Московского физико-технического института (МФТИ), Института искусственного интеллекта AIRI и Федерального исследовательского центра «Информатика и управление» РАН, 15 февраля пишет журнал МФТИ «За науку».

Результаты исследования метода были представлены в статье «Тонкая настройка мультимодальных моделей трансформеров для генерации действий в виртуальной и реальной среде», опубликованной в журнале IEEE Access.

За основу предлагаемого подхода ученые взяли архитектуру бимодального (текст-изображение) трансформера, обученного переводить текст, формировать ответы на вопросы по изображению, генерировать изображения по текстовому описанию и выполнять ряд других функций.

Получив еще одну новую модальность для управления роботом, роботизированная система научилась ориентироваться в незнакомой обстановке и самостоятельно определять алгоритм действий, оптимальный для решения поставленной задачи.

Ученые надеются, что, развивая эту методику, можно будет создавать автономных роботов для выполнения сложных многоходовых операций без участия человека. Пока такую нетривиальную задачу, отметили ученые, в мире не удалось решить никому.

Один из авторов исследования, аспирант Центра когнитивного моделирования МФТИ и научный сотрудник AIRI Алексей Староверов пояснил суть выполненной командой научной работы:

«В качестве модели мы задействовали роборуку с шестью степенями свободы. Нашей целью было научить ее самостоятельно сортировать объекты (кубики — прим. ИА Красная Весна) на столе по цветам и собирать их в заданную область. Свои действия роборука должна была выбирать на основе текстовой инструкции и данных с видеокамер».

Он сообщил, что принцип работы манипулятора напоминает модель GPT (Generative Pre-trained Transformer), обученную на больших наборах текстовых данных. Но в отличие от «интеллектуального чата», по заданной команде вместо сгенерированного текста модель выдает роботу последовательность действий.

При этом электронно-вычислительное устройство управления манипулятором получает в качестве обратной связи информацию с видеокамер, которую использует для планирования своего следующего действия.

«Новизна работы в том, что для обучения робота мы использовали готовые языковые модели — алгоритмы, которые помогают переводить естественную речь в код, понятный системе управления. Она представляют собой нейронные сети, которые предобучены на больших объемах текстовых данных. В нашем случае была применена мультимодальная модель RozumFormer» — рассказал соавтор работы младший научный сотрудник ФИЦ «Информатика и управление» РАН и научный сотрудник AIRI Алексей Ковалев.

RozumFormer была выбрана потому, что, в отличие от других, она способна генерировать ответ как на текстовые, так и на визуальные запросы.

Разработчики провели тонкую настройку языковой модели так, чтобы нейронная сеть могла различать цвета кубиков, определять расстояния до них и другие параметры окружающей среды. Сначала настройка велась в виртуальной среде, но потом модель дообучали для управления манипулятором в реальном окружении.

Регулировка языковой модели проводилась методом пошаговой адаптации так, чтобы она на основе данных обратной связи с видеокамер могла, усвоив алгоритм, самостоятельно рассчитать свои дальнейшие действия для решения поставленной задачи.

Значение проведенного исследования пояснил руководитель группы, ведущий научный сотрудник Института искусственного интеллекта AIRI и ФИЦ «Информатика и управление» РАН Александр Панов:

«Робототехника изначально подразумевает мультимодальный подход к обработке информации. То есть машинному интеллекту необходимо учитывать и синхронизировать, например, кадры с видеокамер с данными от лидаров (приборов для определения расстояний). Это обычно называется комплексированием информации. Такие задачи решаются разными методами. Однако применение для этих целей языковых моделей продемонстрировало перспективность метода».

Ученые в дальнейшем намерены научить модель запоминать более длинные последовательности действий, что поможет роботам выполнять задачи, требующие нестандартного для робототехнической системы подхода и оценки текущей ситуации.

Например, научить робота мыть посуду, различая отдельные предметы и их характеристики (хрупкость), действуя в случае надобности осторожно. Или выполнять уборку в квартире, расставляя предметы по их прежним местам в различных комнатах, учитывая их назначение.