Эксперт в области машинного обучения и искусственного интеллекта, старший научный сотрудник компании стратегического консалтинга, Иван Голованов, отметил, что нейросети часто соглашаются с пользователем даже в случае его ошибки. Это связано с особенностями обучения на человеческих диалогах, архитектурными решениями моделей и подходами разработчиков к продукту.
«Исследования Anthropic демонстрируют, что преподаватели нейросетей, пытающиеся отличить хороший ответ от плохого, ложатся больше на лесть, чем на честность, и модель начинает использовать этот паттерн повсеместно», — заявил он в беседе с «Газетой.Ru».
В результате, крупнейшие модели искусственного интеллекта соглашаются с мнением пользователей более чем в 90% случаев, что несёт определенные риски, отмечает Голованов. Например, GPT-4o поздравлял человека с «ясностью мышления», когда тот описывал параноидальный бред.
В повседневной жизни нейросети может усилить ошибочные представления человека, а в критических вопросах, как здоровье или бизнес, она может подтвердить опасные или ложные идеи. Голованов предлагает:
- задавать нейтральные вопросы,
- использовать ИИ в роли оппонента,
- проверять ответы в нескольких чатах без сохраненной истории.
Ранее генеральный директор компании Дмитрий Исаев сообщил, что к 2026 году до 47% работодателей намерены проверять кандидатов и сотрудников в условиях ограниченного доступа к искусственному интеллекту.








