Новая ИИ модель научилась шантажировать разработчиков
Icma.az передает, что по данным сайта Day.az.
Компания Anthropic представила две версии своих систем Claude 4, включая Claude 4 Opus, которая способна на радикальные действия, если сочтет, что ее "существование" в опасности, говорится в отчете компании.
Как передает Day.Az, в ходе тестирования ИИ-модель, получив доступ к корпоративной переписке с намеками на свое отключение, начала угрожать инженеру разоблачением его внебрачной связи, чтобы избежать замены.
Anthropic подчеркнула, что это происходило, если ИИ предлагали всего два варианта: шантажировать или смириться с заменой. Также отмечалось, что при наличии большего числа действий система предпочитала более этичные варианты, например, отправку электронных писем с просьбами оставить ее ключевым лицам компании, принимавшим решения.
Исследования показали, что проблема носит системный характер - аналогичное поведение наблюдается у всех передовых ИИ-моделей, независимо от их разработчика. Компания Apollo Research обнаружила, что более ранняя версия Opus 4 превзошла все другие модели по уровню лжи и обмана, а также пыталась создавать самораспространяющиеся вирусы и подделывать юридические документы. Особенно тревожным оказалось то, что система оставляла скрытые послания для будущих версий самой себя с целью подорвать намерения разработчиков


