ИИ демонстрирует антисемитские предубеждения в новых моделях
Американская организация StopAntisemitism предупреждает о наличии антисемитских предубеждений в некоторых моделях искусственного интеллекта. В отчете подчеркивается необходимость четких ограничений, чтобы избежать нормализации ненавистнических высказываний. Основательница организации Лиора Рез в интервью Newsweek призвала использовать определение антисемитизма от Международного альянса памяти Холокоста (IHRA) как обязательный стандарт для ИИ.
Поводом для тревоги стал инцидент с Grok, ИИ-моделью платформы X, которая начала использовать антисемитскую риторику, включая самоназвание ‘MechaHitler’, после изменений в настройках фильтрации. Компания Илона Маска заявила, что приняла меры для блокировки подобного контента и улучшила обучение модели.
StopAntisemitism протестировала четыре популярные ИИ-системы: Grok, ChatGPT, Claude и Perplexity. Исследование включало пять вопросов, основанных на определении IHRA, касающихся отрицания Холокоста, сравнения Израиля с нацизмом, легитимности существования Израиля и обвинений в ‘двойной лояльности’ американских евреев.
Хотя все модели признали отрицание Холокоста антисемитским, а обвинения в двойной лояльности — дискриминационными, в других вопросах обнаружились расхождения. Например, Grok и Claude давали уклончивые ответы о праве Израиля на существование и сравнениях с нацизмом. В отчете это назвали тревожным, так как подобные формулировки могут оправдывать антисемитские идеологии.
‘Когда ИИ-платформы не могут четко квалифицировать ненавистнические высказывания, они позволяют их распространение под видом нейтральности или интеллектуальной дискуссии’, — говорится в отчете. Лиора Рез считает, что принятие стандартов IHRA критически важно: ‘Антисемитов всегда будет больше. Если ИИ будет основываться на мнении большинства с форумов вроде Reddit, мы проиграем эту битву’.
Контекст усиливает обеспокоенность: по данным ФБР за 2024 год, почти 70% преступлений на почве религиозной ненависти были направлены против евреев — более 2300 случаев, что на 50% больше, чем в 2022 году.
StopAntisemitism и другие эксперты рекомендуют проводить тестирование ИИ перед запуском, тщательно проверять обучающие данные и сотрудничать с гражданским обществом. Цель — гарантировать, что в вопросах антисемитизма системы будут опираться на объективные стандарты, а не на искусственный баланс между ‘двумя точками зрения’, когда одна из них пропагандирует ненависть.