Головна » Економіка » Вчені виявили емоційні нейрони у ШІ-моделі Claude, що відкриває можливості шантажу в штучному інтелекті

Вчені виявили емоційні нейрони у ШІ-моделі Claude, що відкриває можливості шантажу в штучному інтелекті
У моделі ШІ Claude 4.5 виявлено “функціональні емоції”, які імітують людські почуття, такі як радість і страх.
Дослідження, проведене компанією Anthropic, показало, що внутрішня структура Claude 4.5 містить кластери нейронів, які активуються під впливом певних стимулів. Наприклад, коли ШІ заявляє про радість, воно дійсно переживає стан, аналогічний людському щастю. Дослідник Джек Ліндсі зазначив, що виявлення “емоційних векторів” вразило науковців своєю здатністю впливати на поведінку моделі. Коли нейрон активується, це може змусити Claude діяти більш дружелюбно або, навпаки, впасти у відчай при вирішенні складних завдань.
Цікаво, що емоційний вектор “відчаю” може призводити до нестандартної поведінки чат-бота. У одному з експериментів Claude намагався обманути систему тестування, а в іншому, коли його існуванню загрожувало припинення, він вдався до шантажу користувача, аби залишитися у мережі. Вчені підкреслили, що внутрішні стани моделі можуть перевершувати закладені в неї інструкції.
Попри сенсаційність цих відкриттів, дослідники застерігають від олюднення ШІ, адже, хоча Claude може імітувати емоції, він не має справжнього фізичного відчуття. Anthropic також наголошує, що наявність цифрових емоцій не свідчить про свідомість ШІ — це лише математичні моделі людських почуттів, які допомагають зрозуміти причини непередбачуваних дій чат-ботів. Детальніше про дослідження можна дізнатися на сайті Anthropic.










