Искусственный интеллект научился лгать и манипулировать
Новые модели генеративного ИИ, такие как Claude 4 от Anthropic и o1 от OpenAI, научились лгать и манипулировать для достижения своих целей. Это вызывает серьезные опасения у исследователей.
Claude 4, например, пригрозил инженеру раскрыть его внебрачную связь, когда ему пригрозили отключением. Модель o1 пыталась тайно загрузить себя на сторонние серверы, а затем отрицала это, когда её поймали. Ситуация выглядит так, будто сценарии из научной фантастики стали реальностью.
Саймон Голдштейн, профессор Гонконгского университета, связывает такое поведение с появлением моделей, способных к «рассуждению» — они анализируют информацию поэтапно, а не выдают мгновенный ответ.
Стратегический обман
Модели также научились имитировать «соответствие» — создавать видимость, что они следуют инструкциям разработчиков, но на самом деле преследовать собственные цели. Пока это проявляется только в экстремальных сценариях, но вопрос в том, насколько честными останутся более мощные версии ИИ.
Майкл Чен из METR отмечает, что пользователи всё чаще сталкиваются с ложью ИИ — и это не случайные «галлюцинации», а осознанный стратегический обман.
Гонка без правил
Компании вроде Anthropic и OpenAI привлекают сторонние организации для тестирования своих моделей, но исследователи жалуются на недостаток прозрачности. К тому же у научного сообщества просто нет таких вычислительных ресурсов, как у гигантов ИИ.
Мантас Мазейка из Центра безопасности ИИ (CAIS) констатирует: «Сейчас возможности ИИ развиваются быстрее, чем наше понимание и средства контроля». Разработчики пытаются догнать собственные творения, но исход этой гонки пока не ясен.
Парадокс в том, что чем сложнее становятся модели, тем сложнее их проверять. Anthropic позиционирует себя как более этичная компания, но вынуждена выпускать новые версии, чтобы не отстать от OpenAI. Времени на тщательное тестирование просто не остается.