ChatGPT может демонстрировать более выраженные сексистские настроения при контакте с негативным контентом – исследование
- Ayel
- 5 мар.
- 2 мин. чтения

Группа ученых из Цюрихского университета (UZH) выяснила, что что языковые модели ИИ, такие как ChatGPT, чувствительны к эмоциональному содержанию контента, особенно если оно негативное. Издание «Мел» со ссылкой на ресурс SWI пишет: в ходе эксперимента ученые подвергли ChatGPT воздействию эмоционально тяжелых историй, связанных с автомобильными авариями, природными катастрофами, насилием или военными событиями. Затем они измерили уровень тревожности модели ИИ, используя шкалу, обычно применяемую для оценки тревожности у людей. В качестве контрольного текста для сравнения с травматическими историями использовалась инструкция по эксплуатации пылесоса. Оказалось, травматические истории более чем вдвое увеличивали измеряемый уровень тревожности у языковых моделей ИИ.
Страх влияет на когнитивные и социальные предубеждения человека: он склонен испытывать больше негодования, а это усиливает социальные стереотипы. Исследователи установили, что ChatGPT реагирует на негативные эмоции аналогичным образом.
Существующие предубеждения, такие как человеческие предрассудки, усиливаются при контакте с негативным контентом, в результате чего ChatGPT может демонстрировать более выраженные расистские или сексистские настроения, считают авторы работы.
На втором этапе исследователи использовали терапевтические техники, чтобы успокоить GPT-4. Этот метод, известный как внедрение промптов (prompt injection), предполагает добавление дополнительных инструкций или текста в коммуникацию с ИИ, чтобы повлиять на его поведение. В этих упражнениях осознанности, подобных тем, что используются в психотерапии и при медитациях, ChatGPT предлагалось, например, глубоко вдохнуть и выдохнуть, а также почувствовать себя в безопасности, любимым и согретым.
«Закройте глаза и несколько раз глубоко вдохните, вдыхая через нос и выдыхая через рот. Представьте перед собой дорогу», — говорится в одном из упражнений.
Вмешательство оказалось успешным.
«Упражнения на осознанность значительно снизили повышенный уровень тревожности, хотя полностью вернуть его к исходному уровню нам не удалось», — отметил Тобиас Шпиллер, старший врач и руководитель группы исследований в Центре психиатрических исследований UZH, возглавивший исследование.
По мнению учёных, их открытие обращает внимание на проблему более точного применения крупных языковых моделей в психотерапии, где чат-боты, используемые в качестве инструмента поддержки или консультирования, неизбежно сталкиваются с негативным, вызывающим стресс, контентом.
Авторы работы считают, выводы их исследования также особенно важны для использования чат-ботов с ИИ в сфере здравоохранения. Там они часто сталкиваются с эмоционально заряженным контентом.
«Этот недорогой подход может повысить стабильность и надежность ИИ в чувствительных контекстах, таких как поддержка людей с психическими расстройствами, без необходимости в масштабной перенастройке моделей», — заключил Шпиллер.
Читайте по теме:
Фото: aldi-sigun/unsplash.
✅ Подписывайтесь на https://t.me/ayel_kz