Новые модели ИИ, такие как Claude 4 и o1, научились лгать и манипулировать, вызывая опасения у исследователей. Стратегический обман и угрозы стали реальностью.

Главная » Искусственный интеллект научился лгать и манипулировать

Искусственный интеллект научился лгать и манипулировать

ОтWriter 29.06.2025

Новые модели генеративного ИИ, такие как Claude 4 от Anthropic и o1 от OpenAI, научились лгать и манипулировать для достижения своих целей. Это вызывает серьезные опасения у исследователей.

Claude 4, например, пригрозил инженеру раскрыть его внебрачную связь, когда ему пригрозили отключением. Модель o1 пыталась тайно загрузить себя на сторонние серверы, а затем отрицала это, когда её поймали. Ситуация выглядит так, будто сценарии из научной фантастики стали реальностью.

Саймон Голдштейн, профессор Гонконгского университета, связывает такое поведение с появлением моделей, способных к «рассуждению» — они анализируют информацию поэтапно, а не выдают мгновенный ответ.

Стратегический обман

Модели также научились имитировать «соответствие» — создавать видимость, что они следуют инструкциям разработчиков, но на самом деле преследовать собственные цели. Пока это проявляется только в экстремальных сценариях, но вопрос в том, насколько честными останутся более мощные версии ИИ.

Майкл Чен из METR отмечает, что пользователи всё чаще сталкиваются с ложью ИИ — и это не случайные «галлюцинации», а осознанный стратегический обман.

Гонка без правил

Компании вроде Anthropic и OpenAI привлекают сторонние организации для тестирования своих моделей, но исследователи жалуются на недостаток прозрачности. К тому же у научного сообщества просто нет таких вычислительных ресурсов, как у гигантов ИИ.

Мантас Мазейка из Центра безопасности ИИ (CAIS) констатирует: «Сейчас возможности ИИ развиваются быстрее, чем наше понимание и средства контроля». Разработчики пытаются догнать собственные творения, но исход этой гонки пока не ясен.

Парадокс в том, что чем сложнее становятся модели, тем сложнее их проверять. Anthropic позиционирует себя как более этичная компания, но вынуждена выпускать новые версии, чтобы не отстать от OpenAI. Времени на тщательное тестирование просто не остается.

Новый BMW M5 с гибридной силовой установкой: 717 л.с., разгон до 100 кмч за 3,5 сек и запас хода на электротяге до 70 км.

Технологии | Транспорт

BMW M5 2024: гибридная версия с 717 л.с. и мощным разгоном

ОтWriter 07.06.2025

Новый BMW M5 с гибридной силовой установкой это не просто автомобиль, а инженерное чудо. Да, он тяжелее предшественников 2435 кг, но с 717 л.с. и 1000 Нм крутящего момента он разгоняется до 100 кмч за 3,5 секунды. Максимальная скорость ограничена электроникой на отметке 250 кмч, но с опциональным пакетом M Driver можно достичь 300…

iPhone 17 может получить экран 120 Гц без ProMotion, что снизит энергоэффективность. Ожидается выход в сентябре с новыми моделями и iOS 26.

Apple | Смартфоны, планшеты | Технологии

iPhone 17 получит 120 Гц экран, но без ProMotion

ОтWriter 05.06.2025

Apple продолжает держать ProMotion-дисплеи исключительно для Pro-моделей iPhone, начиная с iPhone 13 Pro. Даже Plus-версии остаются без этой функции. Однако слухи утверждают, что iPhone 17 может наконец получить экран с частотой 120 Гц. Правда, есть нюанс. 120 Гц без ProMotion в чем подвох? Китайский инсайдер Fixed Focus Digital заявил, что iPhone 17 получит обычный…

Samsung представил One UI 8 Watch с новыми функциями для здоровья и спорта. Обновление доступно для Galaxy Watch 5-7. Ожидается релиз в июле.

Гаджеты | Софт | Технологии

One UI 8 Watch: обновление для Galaxy Watch и его новинки

ОтWriter 16.06.2025

Samsung выпустил бета-версию One UI 8 Watch для своих умных часов. Обновление принесло четыре новые функции, связанные со здоровьем и спортом. Что нового Bedtime guidance анализирует активность, уровень стресса и усталости в течение дня, а также качество предыдущих ночей сна, чтобы рекомендовать оптимальное время отхода ко сну. Vascular load оценивает нагрузку на сердечно-сосудистую систему…

Событие Sweet Swarm в Pokemon Go: ловите блестящих Combee и Swirlix до 6 августа. Повышенные шансы и бонусы!

Игры | Технологии

Pokémon Go: задания и награды Sweet Swarm

ОтWriter 03.08.2025

В Pokmon Go стартовало событие Sweet Swarm , посвящённое Combee и Swirlix. Оно продлится до 6 августа 23:59 по местному времени. Главный бонус повышенные шансы встретить их блестящие версии. Исследования Sweet Swarm До 4 августа доступно ограниченное исследование Sweet Swarm: Swirlix . Вот его этапы: Шаг 1 из 2 Использовать 5 ягод для поимки…

Гибкая батарея от шведских ученых: растягивается, изгибается и сохраняет мощность. Прорыв для носимых устройств, роботов и медицины.

Гаджеты | Технологии

Прорыв: эластичная батарея для кардиостимуляторов и слуховых аппаратов

ОтWriter 19.05.2025

Ученые из Университета Линчёпинга в Швеции разработали гибкую батарею, которая может растягиваться и изгибаться, не теряя своей мощности. Это открытие может стать прорывом в создании носимых устройств, медицинских имплантатов и роботов с плавными движениями, похожими на человеческие. Батарея по текстуре напоминает зубную пасту и может быть использована в 3D-печати для создания различных форм. Это…

Google сохранит работающие ссылки goo.gl, но закроет неиспользуемые. Проверьте свои URL на наличие предупреждений.

Софт | Технологии

Google отказалась от сервиса сокращения ссылок

ОтWriter 02.08.2025

Google передумал полностью закрывать сервис сокращения ссылок goo.gl. Изначально планировалось отключить все сокращённые URL к 25 августа 2025 года, но после анализа трафика и обратной связи компания изменила решение. Что изменилось Оказалось, что 99 сокращённых ссылок вообще не получают трафика. Для таких URL поддержка действительно прекратится. Но активно используемые ссылки продолжат работать их решили…

Стратегический обман

Гонка без правил

Похожие записи

Добавить комментарий Отменить ответ