Ученые разработали эталонный тест для определения AGI

На модерации Отложенный

Учёные из OpenAI разработали революционный бенчмарк для оценки возможностей искусственного интеллекта (ИИ) – MLE-bench. Этот набор из 75 задач призван определить, способен ли ИИ к самосовершенствованию и автономной инженерии машинного обучения (AutoML). В отличие от традиционных тестов, проверяющих лишь узкоспециализированные навыки, MLE-bench фокусируется на способности ИИ самостоятельно улучшать свой код, адаптироваться к новым задачам и проводить полноценный научный эксперимент без вмешательства человека. Это выходит далеко за рамки простого выполнения заданного алгоритма и приближает нас к появлению истинного искусственного интеллекта общего назначения (AGI). AGI – это гипотетический ИИ, обладающий интеллектуальными способностями, сравнимыми или превосходящими человеческие. Он сможет решать сложные задачи в различных областях, учиться на собственном опыте и адаптироваться к новым ситуациям без программирования.

Каждая из 75 задач MLE-bench представляет собой реальную проблему из мира науки и техники.

Это не абстрактные математические головоломки, а задачи, требующие глубокого понимания предметной области и применения передовых методов машинного обучения. Например, одна задача может потребовать от ИИ разработки новой архитектуры нейронной сети для решения специфической проблемы классификации изображений, другая – оптимизации алгоритма поиска в огромном графе данных, а третья – создание системы обработки естественного языка для анализа сложных текстов. 

В каждой задаче ИИ должен не только найти решение, но и продемонстрировать весь процесс его разработки: от выбора подходящих методов и подготовки данных до оценки результатов и обоснования сделанных выводов.

MLE-bench протестировали на мощнейшей на сегодняшний день модели OpenAI — "o1". Результаты показали, что "o1" решила 16,9% тестов. Только 40% людей, проходивших подобные тесты, смогли добиться аналогичного результата.

Успешное прохождение всех 75 тестов MLE-bench, по мнению разработчиков, может свидетельствовать о достижении уровня AGI. С подробностями нового теста можно ознакомиться в статье, загруженной в базу препринтов arXiv