Российские учёные научили ИИ понимать трёхмерное пространство: прорыв в робототехнике

Исследователи из России, представляющие Институт AIRI и Центр когнитивного моделирования МФТИ, разработали инновационный подход, который позволяет крупным языковым моделям более эффективно работать с трёхмерным пространством.
Традиционные модели, анализируя окружающую среду, часто ограничиваются двумерными изображениями или необработанными данными в виде облаков точек. Это затрудняет для искусственного интеллекта (ИИ) правильное понимание взаимосвязей между объектами, например, того, что стул стоит у стола и предназначен для сидения.
Новая система, получившая название 3DGraphLLM, учитывает не только сами объекты, но и их пространственные и смысловые связи. Это особенно важно в помещениях с большим количеством предметов, таких как кухни, мастерские или офисы.
Модель была обучена на известных наборах данных, содержащих точные трёхмерные реконструкции реальных помещений и текстовые описания объектов. В качестве языковых моделей были использованы Vicuna-v1.5 и LLAMA3, которые оптимизированы для работы на энергоэффективных устройствах, подходящих для робототехники.
По результатам тестирования 3DGraphLLM превзошла по точности распознавания объектов многие существующие методы, в том числе и другие подходы с использованием языковых моделей. Модель продемонстрировала улучшение точности более чем на 7% по сравнению с базовым решением и работает быстрее и эффективнее по сравнению с самыми современными аналогами.
В настоящее время команда исследователей работает над интеграцией этого метода в реальные робототехнические системы. Основная цель — научить роботов не просто видеть объекты, но и понимать их взаимосвязи, что позволит им эффективно выполнять задачи, поставленные пользователем. Эти навыки необходимы для создания сервисных и бытовых роботов нового поколения.
Комментарии