Boston Dynamics рассказала, как человекоподобный робот Atlas «видит» окружающий мир
Большое количество задач, которые может выполнять человекоподобный робот на заводе, складе или дома, требует понимания геометрических и семантических свойств окружающих его предметов, таких как формы и контекст объектов взаимодействия. Инженеры компании Boston Dynamics поделились подробностями относительно того, как их робот Atlas «видит» мир благодаря гибкой и адаптивной системе восприятия.
Источник изображений: Boston Dynamics
Даже простая на первый взгляд задача — подобрать деталь автомобиля и установить её в нужное место — разбивается на несколько этапов, выполнение каждого из которых требует обширных знаний об окружающем пространстве. Сначала Atlas обнаруживает и идентифицирует объект. Многие детали на заводе блестящие или же малоконтрастные и тёмные, поэтому камерам робота трудно их различать. Затем роботу нужно определить, где находится объект, чтобы схватить его. Нужный объект может лежать на столе, находиться в контейнере с ограниченным пространством и др. Когда Atlas определяется с выбором объекта, он решает, куда его установить и как его доставить в нужное место.
В конечном счёте Atlas должен с высокой точностью разместить объект в определённом месте и отклонение даже на пару сантиметров может привести к тому, что предмет, с которым взаимодействует робот, будет установлен неправильно или упадёт. Чтобы избежать этого Atlas должен быть способен вносить корректировки в свои действия, если что-то пойдёт не так. Например, если не удалось установить деталь и она упала на пол, робот может поднять её, используя систему на основе компьютерного зрения.
Выполнение таких задач требуют внедрения новых методов и влияют на всю систему восприятия Atlas, которая включает в себя качественно откалиброванные сенсоры, современные ИИ-алгоритмы с машинным обучением, систему оценки состояния и др. Восприятие начинается с того, что находится вокруг робота и есть ли на его пути какие-то препятствия. Для идентификации окружающих объектов инженеры Boston Dynamics задействовали систему обнаружения, которая предоставляет данные о предметах в виде идентификаторов, ограничительных рамок и точек интереса.
В процессе работы на автомобильном производстве Atlas обнаруживает стеллажи, на которых хранятся разные автомобильные детали. Стеллажи могут быть разной формы и размера, поэтому робот должен знать не только их тип, но и местоположение, чтобы избежать столкновений с ними. Наряду с обнаружением стеллажей робот идентифицирует их углы как точки интереса, за счёт чего окружающее пространство удаётся привести в соответствие с внутренней картой.
Ключевые точки представляют собой двумерные пиксельные точки двух типов: внешние (зелёные) и внутренние (красные). Внешние точки отражают объекты, которые следует огибать в процессе работы. Внутренние более разнообразны и многочисленны, они могут отражать распределение полок на стеллаже, расположение ящиков, а также позволяют точно локализовать отдельные объекты. Для классификации крупных объектов и прогнозирования расположения точек интереса Atlas использует облегчённую сетевую архитектуру, позволяющую достичь компромисса между производительностью и восприятием, что важно для обеспечения манёвренности робота.
Перед проведением манипуляций с объектами внутри подсвеченных точками пространств Atlas определяет своё местоположение, для чего задействуется модуль локализации объекта по ключевым точкам. Система оценивает положение объекта и его ориентацию по отношению к другим объектам, находящимся поблизости. Система локализации получает данные о внутренних и внешних точках интереса из конвейера обнаружения объектов и выравнивает их в соответствии с предварительной моделью их распределения в пространстве. В дополнение к этому задействована кинематическая одометрия для определения движений робота, чтобы свести воедино положение объектов и повысить надёжность прогнозирования расположения точек интереса.
Навыки Atlas в манипулировании предметами основаны на точности восприятия окружающего пространства в режиме онлайн. Система отслеживания положения SuperTracker объединяет разные потоки информации: кинематику робота, компьютерное зрение и др. Кинематическая информация, получаемая от энкодеров суставов Atlas, позволяет определить расположение захватов робота в пространстве. Объединение кинематических данных позволяет преодолевать ситуации, когда нужный объект скрыт или не находится в поле зрения камер.
Когда объект находится в поле зрения камер, Atlas задействует модель оценки положения объекта, которая использует рендеринг и сравнение для оценки положения по монокулярным изображениям. Модель обучена на большом массиве синтетических данных и обобщает данные с нулевого кадра для новых объектов с использованием CAD-модели. При инициализации с использованием 3D-изображения модель уточняет его вид, чтобы минимизировать расхождения между визуализированной CAD-моделью и изображением с камеры. В качестве альтернативы система оценки может работать на основе 2D-модели области интереса, например, маски объекта. После этого генерируется пакет гипотез, которые анализируются специальным алгоритмом для выбора оптимальной. Система оценки Atlas надёжно работает на сотнях заводских объектов, которые предварительно были смоделированы и текстурированы.
Система SuperTracker получает визуальные оценки позы робота в формате 3D. В сценариях с манипуляциями визуальные оценки позы могут быть неоднозначными, например, из-за неполной видимости или плохого освещения. Для проверки точности оценки в этих случаях используются специальные фильтры.
При выполнении точных манипуляций, включающих в себя несколько действий, важное значение имеет точная калибровка датчиков, системы компьютерного зрения и др. Инженеры отмечают, что точная калибровка является ключевым фактором, который позволяет обеспечить высокопроизводительное манипулирование и автономность на основе восприятия окружающего пространства.
В дальнейшем Boston Dynamics планирует повышать точность действий и адаптивность Atlas. Команда сосредоточена на продвижении к созданию единой базовой модели для Atlas. Разработчики намерены выйти за рамки достигнутого, когда восприятие и действие не являются отдельными процессами.