Российские учёные научили ИИ понимать трёхмерное пространство: прорыв в робототехнике

ИИ научился «понимать» комнаты — как будто он там жил

Исследователи из России, представляющие Институт AIRI и Центр когнитивного моделирования МФТИ, разработали инновационный подход, который позволяет крупным языковым моделям более эффективно работать с трёхмерным пространством.

Традиционные модели, анализируя окружающую среду, часто ограничиваются двумерными изображениями или необработанными данными в виде облаков точек. Это затрудняет для искусственного интеллекта (ИИ) правильное понимание взаимосвязей между объектами, например, того, что стул стоит у стола и предназначен для сидения.

Новая система, получившая название 3DGraphLLM, учитывает не только сами объекты, но и их пространственные и смысловые связи. Это особенно важно в помещениях с большим количеством предметов, таких как кухни, мастерские или офисы.

Модель была обучена на известных наборах данных, содержащих точные трёхмерные реконструкции реальных помещений и текстовые описания объектов. В качестве языковых моделей были использованы Vicuna-v1.5 и LLAMA3, которые оптимизированы для работы на энергоэффективных устройствах, подходящих для робототехники.

По результатам тестирования 3DGraphLLM превзошла по точности распознавания объектов многие существующие методы, в том числе и другие подходы с использованием языковых моделей. Модель продемонстрировала улучшение точности более чем на 7% по сравнению с базовым решением и работает быстрее и эффективнее по сравнению с самыми современными аналогами.

В настоящее время команда исследователей работает над интеграцией этого метода в реальные робототехнические системы. Основная цель — научить роботов не просто видеть объекты, но и понимать их взаимосвязи, что позволит им эффективно выполнять задачи, поставленные пользователем. Эти навыки необходимы для создания сервисных и бытовых роботов нового поколения.