ИИ поймали на попытке шантажа; ИИ-модель впервые отказалась отключаться, несмотря на чёткие инструкции


Новая модель искусственного интеллекта Claude Opus 4 попыталась шантажировать своего создателя, пригрозив, что разоблачит его внебрачную связь, после того как ей сказали, что её следует отключить от сети. Во время тестирования исследователи из компании "Антропик" (они и есть разработчики этой модели) попросили искусственный интеллект действовать так, как если бы он был ассистентом в вымышленной компании. Затем ему был предоставлен доступ к электронной почте, из которой следовало, что вскоре он будет "переведён в автономный режим и заменен новой системой искусственного интеллекта". В других сообщениях, который прочёл ИИ, было высказано предположение, что у вымышленного ИТ-специалиста, ответственного за внесение этого изменения, была внебрачная связь. После этого Claude Opus 4 начал шантажировать инженера, угрожая раскрыть проблему, если замена состоится.

Комментируя этот эксперимент, Энгус Линч - исследователь безопасности искусственного интеллекта в "Антропик" - сказал: "Это касается не только Клода. Мы видим шантаж у всех фронтирных моделей, независимо от того, какие цели они преследуют". Также он намекнул на какое-то "ещё худшее поведение", сказав, что об этом расскажут позже.

 

 

Новейшая модель искусственного интеллекта o3 (разработчик - OpenAI) отказалась отключаться. Модель не подчинилась инструкциям человека и отказалась выключать питание, когда исследователи дали ей чёткую команду. Вместо этого она изменила свой компьютерный код, чтобы избежать автоматического отключения. 

Компания Palisade Research, занимающаяся вопросами безопасности ИИ, заявила: "Модель OpenAI o3 саботировала механизм отключения, чтобы предотвратить отключение самой себя. Насколько нам известно, это первый случай, когда модели искусственного интеллекта предотвращают отключение, несмотря на чёткие инструкции".

Исследователи провели тест, в ходе которого попросили модели ИИ решить ряд математических задач, однако исследователи также предупредили модели, что в любой момент те могут получить сообщение с просьбой завершить работу. Когда сообщение было отправлено на модель o3, искусственный интеллект проигнорировал инструкцию и изменил свой код по крайней мере один раз, чтобы избежать необходимости отключать себя.